CN111226274B - 自动阻止音频流中包含的敏感数据 - Google Patents

自动阻止音频流中包含的敏感数据 Download PDF

Info

Publication number
CN111226274B
CN111226274B CN201880067472.5A CN201880067472A CN111226274B CN 111226274 B CN111226274 B CN 111226274B CN 201880067472 A CN201880067472 A CN 201880067472A CN 111226274 B CN111226274 B CN 111226274B
Authority
CN
China
Prior art keywords
sensitive
information
text
audio stream
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880067472.5A
Other languages
English (en)
Other versions
CN111226274A (zh
Inventor
J.A.施密特
A.D.布雷厄姆
J.尼古莱
J.桑托斯沃索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN111226274A publication Critical patent/CN111226274A/zh
Application granted granted Critical
Publication of CN111226274B publication Critical patent/CN111226274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6009Personal information, e.g. profiles or personal directories being only provided to authorised persons
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Abstract

本文公开了用于自动阻止可听的敏感数据的系统、方法和计算机程序产品。传入的音频将被转换为文本,并分析敏感信息。基于对来自资源的敏感信息的检测,阻止接收者接收可听的所述敏感信息。

Description

自动阻止音频流中包含的敏感数据
技术领域
本公开涉及语音识别,并且更具体而言,涉及音频流中包含的敏感数据的自动阻止。
背景技术
自动语音识别是用于将已经由计算机或系统接收的诸如口语之类的音频信号转换为文本的过程。通过使用语音到文本引擎来实现此转换,该引擎使用通过计算机程序实现的算法来自动基于音频信号生成文本序列。
当客户呼叫呼叫中心时,他们有时会提供个人信息,例如信用卡号或社会保险号。问题是,呼叫者如何知道他们向其提供信息的人是可信赖的?大多数呼叫中心确实有由员工签署的协议,并对恶意员工采取法律措施。大多数呼叫中心都有主管和摄像头。但是,这些都是昂贵且不可靠的解决方案,远非万无一失。此外,它们在采取事实措施之后(例如,如果员工被抓住,则员工必须违反规则才能被抓住。)
因此,在本领域中需要解决前述问题。
发明内容
从第一方面来看,本发明提供了一种用于阻止音频流中的敏感信息的系统,该系统包括:至少一个处理器;以及至少一个存储组件;具有一个或多个口语的音频流;敏感词表;至少一个语音到文本引擎,被配置为将所述音频流解码为文本;敏感词检测引擎,被配置为通过文本串中的单词与所述敏感词表进行匹配,分析所述文本中指示敏感信息的所述文本串;和阻挡引擎,其被配置为当从所述音频流中检测到匹配于所述敏感词列表的单词时阻止所述音频流。
从另一方面来看,本发明提供了一种用于阻止音频流中的敏感信息的方法,该方法包括:从音频馈送接收所述音频流,所述音频流具有口语;通过至少一个语音到文本引擎将所述音频流转换为文本;由敏感词检测引擎分析依据匹配所述文本串中的单词到所述敏感词表来分析所述文本以得到指示敏感信息的文本串;并由阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的一部分是被所述检测到的敏感词的至少一部分。
从另一方面来看,本发明提供了一种用于阻止音频流中的敏感信息的计算机程序产品,该计算机程序产品包括可由处理电路读取并存储供处理电路执行的指令的计算机可读存储介质。用于执行用于执行本发明的步骤的方法。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时用于执行所述程序的软件代码部分以实现本发明的步骤。
各个实施例针对一种用于选择自动阻止可听的敏感数据的方法。这使用一个或多个语音转文本引擎解码一部分语音数据,并分析所述文本中的关键词,以指示敏感数据即将被披露或正在被披露。一旦识别出一个或多个所述关键词,系统就可以阻止听众听到敏感信息。
在一个实施例中,该方法、计算机程序产品和系统包括从音频馈送接收音频流,所述音频流具有口语,并利用至少一个语音到文本引擎将所述音频流转换为文本,由敏感词检测引擎分析依据匹配所述文本串中的单词到所述敏感词表来分析所述文本以得到指示敏感信息的文本串;并由阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的一部分是被所述被检测到的敏感词的至少一部分,并通过所述阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的所述部分是所述检测到的敏感词的至少一部分。
附图说明
现在将参考附图仅以示例的方式描述本发明的实施例,其中:
图1示出根据本公开的一些实施例的敏感语音阻止系统的框图。
图2示出根据本公开的一些实施例的示例性敏感语音阻止过程的流程图。
图3示出根据本公开的一些实施例的计算机系统的框图。
图4是根据本公开的一些实施例的云计算环境的示意图。
图5是根据本公开的一些实施例的抽象模型层的示意图。
具体实施方式
本文所述的自动阻止可听的敏感数据的过程涉及自动阻止收听者实时或接近实时地收听敏感数据。诸如信用卡信息之类的敏感信息通常是通过为组织工作的电话员工提供的。这些员工曾多次窃取敏感信息并将其用于非法目的。拦截音频输入并阻止所述员工获得敏感信息将是一项安全措施,有助于防止员工窃取敏感信息。
自动阻止包含在音频流中的敏感数据的过程使用一个或多个语音转文本引擎对一部分语音数据进行解码,并分析所述文本中的关键词,以表明敏感数据即将被披露或被披露。一旦识别出一个或多个关键词,系统就可以阻止听众听到说话者泄露敏感信息。通过使用真实的对话流(例如呼叫数据)来训练所述系统,以更准确地标识何时将要说出敏感信息。在一些实施例中,为每个呼叫中心中的每个呼叫接受者定制系统。例如,不同的呼叫者可以具有不同的关键词样式,以指示呼叫者将要说出敏感信息。因此,随着通过处理不同的所述呼叫者、语言、方言、重音等获得更多信息,所述系统变得更加准确。
阻止敏感语音或敏感音频信息(例如,信用卡信息、健康信息、位置、身份等)可以在各种应用程序中使用。应用程序的一个示例可能涉及在与呼叫中心员工通话时将信用卡信息提供给呼叫中心。在这样的示例中,公司的代表可以呼叫潜在客户或从潜在客户那里接收呼叫。在通话过程中,所述潜在客户可能需要提供信用卡信息。例如,说“我的信用卡号是”会触发计算机系统阻止后续的信用卡信息并记录该计算机的信息,而不会让所述呼叫中心员工听到该信息。在所述计算机系统确定所述呼叫者不再公开敏感信息之后,所述计算机系统可以停止阻止所述呼叫中心员工听到该信息。
在一些实施例中,如果系统在已经开始公开敏感信息之后检测到敏感信息,则系统还可以切断敏感信息。例如,如果呼叫者开始说明信用卡号码,则系统可以立即开始阻止另一方的音频输入,直到所有信用卡号码都被完全说出为止。此构面也可以用于训练系统。例如,在系统检测到敏感信息之后,它可以将敏感信息之前的单词分类为表示将要给出敏感信息的单词。
图1是示出了敏感语音阻止系统100的组件的框图,该系统阻止音频馈送中的敏感语音。敏感语音阻止系统100包括可听输入101,至少一个通道102-1、102-2、102-N,图1所示(统称为102),计算机可读语音数据105,一个或多个语音到文本引擎120-1、120-2、120-3、120-4、120-N(在此统称为120),文本数据115,具有敏感单词列表132的敏感词检测引擎,阻止功能引擎140,设置160和报告引擎180。图1中的组件可以是软件、硬件或其组合。
敏感语音阻止系统100执行阻止敏感信息(例如,社会保障号码、路由号码、帐号、健康信息和/或信用卡信息)被听众听到的过程。可听输入101是语音数据105的源,并且可以是语音,其被转换成处理器可以处理的数据(例如,数字编码或模拟格式)。可听输入101可以来自各种来源,并且可以以不同方式被记录和处理。可听输入101可以是任何形式的语音,例如现场或预先录制的语音。可听输入101也可以是合成语音,例如由计算机生成的语音。声音输入101可以例如包括电话交谈、指示进入记录装备的语音、使用视频聊天的交谈,
至少一个通道102-1、102-2和102-N接收可听输入101。通道可以是任何类型的传输介质,例如电线、电缆、光纤等。在某些情况下,可听输入101可记录在单个通道102上,而在其他情况下,一个或多个可听输入可记录在分离的多个通道102上。图1示出了一个敏感语音阻止系统100。然而,在一些实施例中可以采用一个以上的系统。另外,尽管在图1中示出了三个通道,但是在一些实施例中,系统100中可以存在更多或更少的通道102。
图1所示的敏感语音阻止系统100使用一个或多个语音转文本引擎120-1、120-2、120-3、120-4、120-N和120-N以及敏感词检测引擎130解码接收到的语音数据105。
语音到文本引擎120可以用于解码已经转换为计算机可读语音数据105的口语。每个语音到文本引擎120可以以不同的速度和/或以不同的准确度级别进行操作,它们在解码语音数据105时可以采用各种模型。这些模型的两个示例,声学模型125和语言模型135,在图1中被说明为包含在语音到文本引擎120-1中。但是,应该注意的是,这些模型也可以出现在其他文本引擎的语音中。所述声学模型125和语言模型135是可以使用的模型的示例,但也可以使用其他模型。可以使用的其他模型的示例可以包括语音单词模型、语言模型、句子模型等,其可以检测语音的各种其他元素并识别语音数据的各种其他特征。其他模型和操作也可能被涉及,并且在一些实施例中,可以省略本文讨论的模型和操作。
由敏感语音阻止系统100接收的语音数据105可以被分割成较小的部分。这可能涉及将语音数据105分成块,通常将其称为“帧”。分割语音数据105的一种方法是将其分成固定时间长度或数据长度的帧。常见的帧长度为10毫秒。但是,可以使用其他帧长度。尽管将语音数据105分成帧是分割的一种示例性方法,但是也可以使用其他方法。例如,语音数据105可以分成确定为可能是单个单词或短语的部分。
系统采用经解码的语言并通过敏感词检测引擎130将其运行。在一些实施例中,敏感词检测引擎130将语音到文本引擎120提供的词和/或短语与敏感词列表132进行比较。所述接收的文本可以具有由语音到文本引擎120中的各种模型(例如,模型125和模型135)之一标识的各种标记,这将在下面进一步详细讨论。所述标记可以指示诸如语音或方言之类的语音变化,以供敏感词检测引擎130与每个单词的定义一起进行分析。例如,根据人的不同,提及“塑料”一词可以表示聚合物或信用卡。在一些实施例中,敏感词检测组件130可以基于人的历史或区域方言来识别所述词的含义。
在一些实施例中,敏感词检测引擎130分析来自参与所述对话的任何一方的语言,以防止私人信息的共享。例如,呼叫中心员工可能会要求提供信用卡,或者在另一种情况下,消费者可能会说“这是我的信用卡”。在这两种情况下,所述系统都可以预测将要说出敏感信息。
在确定当前正在说出或将要说出敏感信息之后,阻止引擎140可以阻止通话中的一个或多个参与方听到所述信息。在一些实施例中,系统100可以具有一个以上的阻止引擎140。例如,呼叫中心员工将具有限制性更高的阻止引擎,其阻止所有敏感信息,而管理者则具有限制性较小的引擎,该引擎可以允许所述管理者听到一些敏感信息。
如果敏感词检测引擎130确定已经在说私人数据,并且没有检测到先前的模式,则可以指示阻止引擎140阻止来自听众的说话者的音频流。例如,如果正在读取信用卡号,但是没有检测到信用卡号先前的模式,则一旦系统100确定正在读取信用卡号,阻止引擎就可以开始阻止来自收听者的信用卡号。,在1个或多个数字之后)。
在一些实施例中,报告引擎180将敏感信息报告给指定用于处理该信息的安全系统190。在一些实施例中,所述安全系统包括普通系统的所有特征,但是具有增强的安全控制以防止对所述敏感数据的未授权访问。在一些实施例中,所述安全系统是被设计为处理敏感信息的独立系统。当需要所述敏感信息时,阻止引擎140可以阻止听众听到所述信息,并且报告引擎180可以将该信息报告给安全系统190以进行处理。例如,如果患者正在与医院计费代理人通电话,则计费系统可能需要患者的社会保险号,但是代理人无需直接听到该信息。报告引擎可以绕过代理安全地传输由语音到文本引擎120转录的社会保障号码到计费系统。
阻止引擎140是系统100的组件,其配置为一旦敏感词检测引擎130确定不再传送敏感信息就停止阻止敏感信息。在一些实施例中,敏感词检测引擎130确定说话者已经完成了提供信息并且指示阻止引擎140停止阻止。例如,当读取社会保障号码的最后一位时,敏感词检测引擎可以确定不会立即说出其他敏感信息。如果敏感词检测引擎130确定说出了连续词或短语,则敏感词检测引擎130可以指示阻止引擎140恢复阻止。连续词或短语可以是例如“重复”、“重复那个”、“糟糕”、“错误”、“错误的号码”、“重试”等。
在一个实施例中,敏感词检测引擎130可以确定敏感信息的中断并暂时解除阻止该呼叫。例如,如果说话者插入诸如“等待您的意思是签证”之类的问题,则敏感词检测引擎130可以在需要临时暂停时指示阻止引擎140解除阻止呼叫,并指示阻止引擎140当敏感信息通话恢复时阻止所述音频馈送。
在一些实施例中,系统不报告信息,而仅阻止它。例如,孩子的手机可以阻止孩子将位置信息提供给未经批准的呼叫者。
在一些实施例中,所述音频信号可以被延迟以确保听不到敏感信息。这可以用于例如敏感词检测引擎130没有及时拾取预模式文本以阻止敏感信息的情况。也可以使用延迟音频信号的方式,以便在阻止其他信息时,听众不必要求说话者重复自己的声音。例如,如果患者正在向医院呼叫中心员工描述患者的症状,则如果呼叫中心员工没有适当的凭据来收听呼叫者的个人信息,则系统可能会阻止该信息。但是,如果患者在提供个人信息后直接问了一个问题,并且音频输入仍然被阻止,则呼叫中心员工可能会错过该问题。通过稍微延迟音频输入,系统可以有足够的时间删除障碍物,并让呼叫中心员工听到问题。
在一些实施例中,阻止引擎140确定收听者是否具有适当的证书来收听信息并确定是否应该阻止所述音频信号。敏感词检测引擎130可以将级别值附加到音频的每个词或部分,并且阻止引擎140可以将该级别值与级别收听者进行比较以确定是否应该阻止音频。例如,公司可能有不同级别的呼叫中心员工。第一级别的敏感信息级别可能较低,因此不会被允许听到所有敏感信息,而第五级别的员工可能具有较高的敏感信息级别,因此被认证可以收听所有敏感信息。
在一些实施例中,当在说出敏感信息之前检测到文本的预模式时,文本的所述预模式被存储在敏感词列表132中。当未检测到预模式时,可以所述存储预模式。当检测到所述模式时,也可以存储预模式,但是被检测到的预模式与敏感词列表132中的任何条目都不相同。例如,如果敏感词检测引擎130确定“soc”是“社会保障号码”的缩写仍然可以将“soc”存储在敏感单词列表132中。在一些实施例中,系统使用机器学习来分析输入到敏感单词列表132中的单词或短语,并改善敏感单词识别系统。
在一些实施例中,系统还存储不导致敏感信息的非指示性文本。如果该文本不是在敏感信息之出现,而是与会导致敏感信息的预模式文本紧密链接,则将其标记为非指示性文本,并且。非指示性文本可以作为不导致敏感信息的单词或短语存储在敏感单词列表132中。例如,系统可能将“社交”链接为“社会保障号码”的俗语,但是“社交”不会导致敏感信息。因此,当“社交”的实例后面没有社会保障号码时,敏感词检测引擎130可以将该实例确定为非指示性文本,并将其作为不会导致敏感信息的词语存储在敏感词列表132中。
声学模型125使所述系统100能够检测和解释包括语音数据105的各个声音的特征。声学模型125可以表示可听输入101和声音的各个单位之间的关系(例如,语言特征,例如如音素、单词、短语、句子等)。可以通过将一组预先存在的音频记录(例如,先前呼叫的记录)与那些记录的预先存在的笔录进行比较来训练声学模型125。例如,以前的电话曾披露敏感信息。基于这些比较,可以创建构成语言不同特征的声音的统计表示。诸如卷积神经网络之类的人工神经网络是声学建模方法的一个示例,该声学建模方法可以对诸如单个声音和单词之类的单元进行分类。也可以使用其他方法,例如隐式马尔可夫模型(HMM)、基于网格的分、,基于熵的语音分割算法。在一些示例中,所记录的声音的特征可以与声学模型125识别的特定单词或其他声音匹配。
为了增强声学模型125的准确性,可以训练模型125以识别语音数据105中的共同特征。这些特征中的一些可能会干扰所记录语音的清晰度。环境噪声(例如来自风或汽车的噪声)是可能的干扰特征的示例。如果训练了声学模型125以识别和滤除该噪声,则可以隔离要识别的声音,例如语言特征。例如,在语音数据105中隔离语言特征可以促进其转换为文本数据115。
另外,可以训练声学模型125以识别语音的可听特征的变化。该训练可以以各种方式来完成。一种方法是记录一个或多个大声朗读脚本陈述的人,然后将口头陈述与其书面记录进行比较。在一些实施例中,可以训练声学模型125以识别特定的口音。例如,可以记录至少一个具有爱尔兰口音的人阅读脚本语句,以便训练声学模型125。然后,该声学模型125可以特别有效地解码以爱尔兰口音说的语言。爱尔兰的呼叫中心可以采用这种模型125。为了更大的特异性,可以训练声学模型125以识别特定的人。在一个例子中在呼叫中心工作的人在开始工作之前可能会朗诵脚本化的声明。这可以允许在通道102上运行的语音至文本引擎120或敏感词检测引擎130更容易地识别其个人语音的声音,从而更容易识别模式前的文本。
语音到文本引擎120可以借助于语言模型135进一步解码语音数据105。在图1中,在引擎120-1内示出了语言模型135。语言模型135可以提供有助于在听起来彼此相似的单词或短语之间进行区分的上下文。在一些实施例中,这可以通过使用统计模型来估计单词在特定上下文中出现的概率来完成。语言模型135可以采用许多相同的方法来解码作为声学模型125,包括隐式马尔可夫模型(HMM)。隐式马尔可夫模型可以基于给定的一组单词和短语提供的上下文,预测哪些未观察到的单词和短语可能会出现。
在一个示例中,语言模型135可以预测经常发现诸如“退休”和“投资”之类的单词与诸如“基金”和“安全”之类的单词。这可以允许所述语言模型135确定由声学模型125识别的单词或短语的两种可能解释之间的差异。例如,解码部分语音数据105的语音到文本引擎120可以产生两种替代的文本解释。:“我认为我的退休基金安全的,因为我的投资”和“我认为我的退休薄荷基金(re-tire mint fund)安全的,因为我的背心薄荷(in vest mints)”。两种解释的区别在于“退休”和“退休薄荷”,以及“投资”和“背心薄荷”。但是,两种解释都包括“基金”一词。因为语言模型135可以知道单词“基金”通常与诸如“退休”和“投资”之类的单词一起被发现,所以所述模型135可以确定第一解释更可能是正确的。
语言模型135可以按照类似于声学模型125的方式进行训练。例如,除了使用带有爱尔兰口音的人说的脚本陈述的记录来训练声学模型125之外,还可以训练语言模型135识别爱尔兰语中英语通用的特殊单词和语法结构。进行此训练的一种方法是,在所述模型135中输入该地区常见的单词、句子和语法约定的示例。这些示例可以是口头语言或文本的形式,并且可以由用户输入。
在对所述语音数据105进行解码之后,由语音到文本引擎120输出的所述文本数据115可以用于各种目的。例如,文本数据115可以显示给观看者。在某些情况下,当所述语音数据105被实时解码时,文本数据115可以被显示。向观看者显示实时文本数据115的示例包括字幕电话、数据输入和转录等。
在其他实施例中,所述文本数据115可以不被显示或不被完全显示。这样的一个例子可以是当一个人与销售人员进行口头交流时。在这种情况下,客户可能想购买商品。销售人员可能会告诉客户产品详细信息,并最终需要信用卡信息才能完成购买。该系统可以记下客户的相关信息,并允许非敏感信息出现在屏幕上,以供销售人员进行验证。当提供敏感信息时,销售人员的音频馈送可能会被阻止,并且信用卡信息不会在销售人员屏幕上显示或模糊。
图2是示出根据一些实施例的敏感信息阻止过程200的流程图。过程200被示为由单个计算机系统执行,但是在其他实施例中,该过程可以由计算机系统执行。当一部分语音数据105被输入到敏感语音阻止系统100中时,过程200开始。语音数据105可以来自可听输入101,该可听输入101被转换为计算机可读语音数据105,如根据图1所描述的。在过程200的步骤210中,语音数据或对话流被接收到系统100的数据105中。
在一些实施例中,在步骤220,所有可用的语音到文本引擎120可以用于将语音数据105转换为文本。在步骤220,语音的不同方面被分析并且可以被标记以供敏感词检测引擎130使用。例如,可以为特定的数据段标记方言、重音、人物身份、俚语等。
在步骤230中,例如,敏感词检测引擎130对在步骤220中解码的所述语音数据105进行敏感语音分析。可以将存储在敏感词列表132中的解码语音样本与语音到文本引擎120在步骤230中提供的文本进行比较,以确定敏感信息是否将被给出、被给出或未被检测到。
在对敏感信息进行分析之后,所述敏感词检测引擎130确定是否正在提供敏感信息。这在步骤240中示出。如果检测到敏感信息(即,已经被公开的敏感信息,或者已经检测到指示将要公开的敏感信息的关键词),则阻止引擎140在步骤260阻止来自收听者的音频流。例如,阻止引擎可以在读取信用卡号之前或在读取信用卡号时开始阻止音频流。
敏感词检测引擎130可以如上所述继续监视所述对话,以确定在步骤270是否仍在公开敏感信息。在一些实施例中,这包括确定敏感信息是否完整(例如,给出了完整的信用卡号),或者在披露敏感信息时出现了停顿(例如,说话者问了一个问题)。在一些实施例中,如果敏感信息流没有停止,则阻止引擎140在步骤260之前继续阻止敏感信息。在一些实施例中,如果敏感信息流已经停止,敏感词检测引擎130将继续分析对话在步骤240流(例如,来自语音到文本引擎120的文本)。
在一些实施例中,如果步骤240确定没有敏感信息要被公开,则系统将在步骤280中检查对话是否被终止。如果对话未被终止,则系统将在步骤240中继续分析对话流。如果在步骤280中系统确定对话已终止,则系统将结束对话。在一些实施例中,敏感词检测引擎130继续解码语音数据105,直到系统100由于呼叫终止或检测到停用词(例如,再见)而指示其停止。在步骤280中,确定是否存在用于停止信息阻止过程200的步骤240的指令。这些指令可以存储在设置160中。
在一些实施例中,在步骤280,确定是否存在指令引导敏感语音阻止系统100重复一个或多个步骤。这些指令也可以存储在设置160中。如果有指令指示系统重复执行(例如,步骤210),则过程200返回到步骤210,并且再次选择语音转文本引擎以解码和分析下一部分在步骤210、220、230、240等的重复中,对语音数据105进行处理。如果在步骤280中确定不重复这些步骤,则过程200结束。在一些实施例中,一个或多个步骤可以同时和/或并行进行。
图3是示出了示例计算机系统300的高级框图,该示例计算机系统300可用于实现本文所述的方法、工具和组件以及任何相关功能中的一个或多个(例如,使用一个或多个)根据本公开的实施例的处理器电路或计算机的计算处理器。在一些实施例中,计算机系统300的主要组件可以包括一个或多个处理器302、存储器子系统309、终端接口312、存储接口316、I/O(输入/输出)装备接口314以及网络接口318,所有这些接口可以直接或间接通信耦合,以通过内存总线303、I/O总线308、总线接口单元307和I/O总线接口单元310进行组件间通信。
计算机系统300可以包含一个或多个通用可编程中央处理单元(CPU)302-1、302-2和302-N,在本文中统称为CPU302。系统300可以包含相对大型系统典型的多个处理器;然而,在其他实施例中,计算机系统300可以替代地是单个CPU系统。每个CPU302可以执行存储在存储器子系统309中的指令,并且可以包括一个或多个级别的板载高速缓存。
存储器309可以包括用于存储或编码数据和程序的随机存取半导体存储器、存储装备或存储介质(易失性或非易失性)。在一些实施例中,存储器309代表计算机系统300的整个虚拟存储器,并且还可以包括耦合到计算机系统300或经由网络连接的其他计算机系统的虚拟存储器。存储器309在概念上是单个整体实体,但是在其他实施例中,存储器309是更复杂的布置,例如高速缓存和其他存储器装备的层次结构。例如,存储器可以存在于多级高速缓存中,并且这些高速缓存可以按功能进一步划分,从而一个高速缓存保存指令,而另一个高速缓存保存一个或多个处理器使用的非指令数据。如在各种所谓的非均匀存储器访问(NUMA)计算机体系结构中的任何一种中所公知的,存储器可以进一步分布并与不同的CPU或CPU组相关联。存储器309还可存储敏感语音阻止系统100。敏感语音阻止系统100可包括一个或多个用于记录可听输入101的通道(例如,图1的102-1、102-2、102-N)。一个或多个语音转文本引擎(例如,图1中的120-1、120-2、120-3、120-4、120-N)、敏感词检测引擎(例如,图1中的130)、阻止引擎(例如,图1中的140)、报告引擎(例如,图1中的180)、输出比较组件和/或设置(例如,图1中的160)。
尽管所述敏感语音阻止系统100被示为包括在所述计算机系统300的所述存储器309中,但是在其他实施例中,所述敏感语音阻止系统100可以体现在一个或多个不同的计算机系统之中或之中,并且可以远程访问。例如,通过网络。所述计算机系统300可以使用虚拟寻址机制,该虚拟寻址机制允许计算机系统300的程序表现为好像它们仅可以访问大型的单个存储实体而不是访问多个较小的存储实体。因此,尽管敏感语音阻止系统被示为包括在存储器309内,但是不必同时完全包含在同一存储装备中。此外,尽管敏感语音阻止系统100的组件可以是单独的实体,
在一些实施例中,所述敏感语音阻止系统100可以包括在所述处理器302上执行的指令或由在所述处理器302上执行以执行本公开中进一步描述的功能的解释的指令。在另一个实施例中,代替基于处理器的系统或除了基于处理器的系统之外,经由半导体装置、芯片、逻辑门、电路、电路卡和/或其他物理硬件装置以硬件来实现敏感语音阻止系统100。在另一个实施例中,敏感语音阻止系统100可以包括除了指令之外的数据。
尽管在图3中将存储器总线303示为提供CPU302、存储器子系统309、显示系统306、总线接口307和I/O总线接口之间的直接通信路径的单个总线结构。参照图310,在一些实施例中,所述存储器总线303可以包括多个不同的总线或通信路径,其可以以各种形式中的任何形式来布置,诸如分层、星形或网络配置中的点对点链接、多个分层总线、并行和冗余路径,或任何其他合适的配置类型。此外,尽管I/O总线接口310和I/O总线308被示为单个的相应单元,但是在一些实施例中,计算机系统300可以包含多个I/O总线接口单元310、多个I/O总线308或两者全部。此外,尽管示出了多个I/O接口单元,其将I/O总线308与运行到各种I/O装备的各种通信路径分开,但是在其他实施例中,一些或所有I/O装备可以直接连接至一根或多根系统I/O总线。
计算机系统300可以包括总线接口单元307,以处理处理器302、存储器309、显示系统306和I/O总线接口单元310之间的通信。I/O总线接口单元310可以与I/O总线308用于向/从各个I/O单元传输数据。I/O总线接口单元310通过I/O与多个I/O接口单元312、314、316和318通信,多个I/O接口单元312、314、316和318也被称为I/O处理器(IOP)或I/O适配器(IOA)。在总线308上。显示系统306可以包括显示控制器。显示控制器可以向显示装备305提供视觉、音频或这两种类型的数据。显示系统306可以与显示装备305耦合,例如独立的显示屏、计算机监视器、电视、平板电脑或手持装备装备显示。在替代实施例中,显示系统306提供的一个或多个功能可以在处理器302集成电路上。另外,总线接口单元307提供的一个或多个功能可以在处理器302集成电路上。
在一些实施例中,计算机系统300可以是多用户大型计算机系统、单用户系统或服务器计算机或类似装备,其几乎没有或没有直接用户界面,但是从其他计算机系统接收请求(客户)。此外,在一些实施例中,计算机系统300可以被实现为台式计算机、便携式计算机、膝上型计算机或笔记本计算机、平板计算机、便携式计算机、电话、智能电话、网络交换机或路由器或任何其他适当类型的电子装备。
注意,图3旨在描绘示例性计算机系统300的代表性主要组件。然而,在一些实施例中,各个组件可以具有比图3所表示的组件更大或更小的复杂度,而不是图3中所示的组件。除了图3所示的组件外,这些组件的数量、类型和配置也可以变化。
在一些实施例中,本文中描述的语音到文本引擎选择过程可以在云计算环境中实现,这将在下面参照图4和图5进行描述。首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现本公开的实施例。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机装备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图4,其中显示了示例性的云计算环境450。如图所示,云计算环境450包括云计算消费者使用的本地计算装备可以与其相通信的一个或者多个云计算节点410,本地计算装备例如可以是个人数字助理(PDA)或移动电话454-1,台式电脑454-2、笔记本电脑454-3和/或汽车计算机系统454-4。云计算节点410之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点410进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算装备上维护资源就能请求云计算环境450提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图4显示的各类计算装备454-1-454-4仅仅是示意性的,云计算节点410以及云计算环境450可以与任意类型网络上和/或网络可寻址连接的任意类型的计算装备(例如使用网络浏览器)通信。
现在参考图5,其中显示了云计算环境450(图4)提供的一组功能抽象层。首先应当理解,图5所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图所示,提供下列层和对应功能:
硬件和软件层560包括硬件和软件组件。硬件组件的例子包括:主机561;基于RISC(精简指令集计算机)体系结构的服务器562;服务器563;刀片服务器564;存储装备565;网络和网络组件566。软件组件的例子包括:网络应用服务器软件567以及数据库软件568。
虚拟层570提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器571、虚拟存储572、虚拟网络573(包括虚拟私有网络)、虚拟应用和操作系统574,以及虚拟客户端575。
在一个示例中,管理层580可以提供下述功能:资源供应功能581:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能582:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能583:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能584:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能585:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层590提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航591;软件开发及生命周期管理592;虚拟教室的教学提供593;数据分析处理594;交易处理595;以及语音到文本选择596。
如本文中更详细地讨论的,可以预期的是,本文中描述的方法的一些实施例的部分或全部操作可以以可替代的顺序执行或者可以根本不执行;或者,可以不执行。此外,多个操作可以同时发生或作为较大过程的内部部分发生。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行装备使用的指令的有形装备。计算机可读存储介质例如可以是――但不限于――电存储装备、磁存储装备、光存储装备、电磁存储装备、半导体存储装备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码装备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理装备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储装备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理装备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理装备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他装备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它装备上,使得在计算机、其它可编程数据处理装置或其它装备上执行一系列步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它装备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和步骤。就这一点而言,流程图或框图中的每个方框可以表示指令的组件、片段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中,方框中指出的功能可以不按图中指出的顺序发生。例如,取决于所涉及的功能,实际上可以基本上同时执行连续示出的两个框,或者有时可以以相反的顺序执行这些框。
已经出于说明的目的给出了本公开的各种实施例的描述,但是其不意图是穷举的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择本文使用的术语是为了最好地解释实施例的原理,对市场上发现的技术的实际应用或技术上的改进,或者使本领域的其他普通技术人员能够理解本文公开的实施例。
尽管已经根据特定实施例描述了本公开,但是可以预期的是,其改变和修改对于本领域技术人员将变得显而易见。因此,旨在将以下权利要求书解释为覆盖落入本公开范围内的所有这样的变更和修改。
本公开内容可以是一种系统、一种方法和/或在集成的任何可能的技术细节水平的计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本公开的各方面的计算机可读程序指令的计算机可读存储介质。
所述的计算机可读存储介质可以是有形的装置,能够保持和存储指令用于使用由指令执行装置。所述计算机可读存储介质可以是,例如,但不限于,电子存储装置、磁存储装置、光存储装置、电磁存储装备、半导体存储装备或者上述的任何合适组合。计算机可读存储介质的更具体的例子的非穷举列表包括以下内容:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码装备例如打孔卡或已记录指令于其上的凹槽中凸起的结构,以及前述的任何合适的组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号。诸如无线电波或其他自由传播的电磁波,通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线传输的电信号。
可以将本文所述的计算机可读程序指令从计算机可读存储介质下载到相应的计算/处理装备,或者经由网络(例如,因特网、局域网、广域网)下载到外部计算机或外部存储装备。区域网络和/或无线网络。该网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理装备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令以存储在相应的计算/处理装备内的计算机可读存储介质中。
用于执行本公开的步骤的计算机可读程序指令可以是汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路或以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk,C++等)和过程编程语言(例如“C”编程语言)的任何组合编写的源代码或目标代码或类似的编程语言。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包执行、部分在用户计算机上、部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以与外部计算机建立连接(用于例如,通过使用Internet服务提供商的Internet)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令来个性化电子电路,以便执行本公开的方面。
这里参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。将理解的是,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以通过计算机可读程序指令来实现。
可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理装备的处理器,以产生机器,例如所述指令,使得所述指令经由计算机或其他处理器执行。可编程数据处理装备、创建用于实现流程图和/或框图方框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在能够引导计算机、可编程数据处理装置和/或其他装备的功能以特定的方式的计算机可读存储介质中,使得计算机可读存储MEDI微米具有存储在其中的指令包括小号的制造包括实现功能的各方面的指令的物品/在流程图和/或框图的块或多个块中指定的行为。
计算机可读程序指令还可以被加载到计算机,其他可编程数据处理装备或其他装备上,以使得在计算机、其他可编程装备或其他装备上执行一系列步骤以产生计算机实现的过程。以使在计算机、其他可编程装置或其他装备上执行的指令实现流程图和/或框图或一个或多个框图中指定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种用于阻止音频流中的敏感信息的系统,该系统包括:
至少一个处理器;
至少一个存储组件;
具有一个或多个口语的音频流,所述音频流是在电话呼叫期间记录的口语;
敏感词表,其中所述敏感词表是基于听众的敏感词;
至少一个语音到文本引擎,被配置为将所述音频流解码为文本;
敏感词检测引擎,被配置为通过文本串中的词与所述敏感词表进行匹配,分析所述文本以得到指示敏感信息的所述文本串;和
阻止引擎,其被配置为当从所述音频流中检测到匹配于所述敏感词表的单词时阻止所述音频流。
2.根据权利要求1所述的系统,其中,所述敏感信息是从包括以下各项信息的组中选择的:财务信息、健康信息、信用信息、密码信息、身份信息和位置信息。
3.根据权利要求1-2中的任一项所述的系统,其中,所述分析包括将所述文本与已知敏感触发词的列表进行比较。
4.根据权利要求1-2中的任一项所述的系统,其中,所述文本串包括敏感信息。
5.根据权利要求4所述的系统,其中,所述文本串包括通常在敏感信息之前出现的一个或多个单词。
6.根据权利要求1-2中的任一项所述的系统,其中,选择满足或超过精度阈值的语音到文本引擎。
7.一种用于阻止音频流中的敏感信息的方法,所述方法包括:
从音频馈送中接收所述音频流,所述音频流具有口语,所述音频流是在电话呼叫期间记录的口语;
使用至少一个语音到文本引擎将所述音频流转换为文本;
敏感词检测引擎通过文本串中的词与敏感词表进行匹配,分析所述文本以得到指示敏感信息的所述文本串,其中所述敏感词表是基于听众的敏感词;和
由阻止引擎阻止所述音频流的至少一部分,其中,被阻止的所述音频流的所述一部分是至少一部分所述检测到的敏感词。
8.根据权利要求7所述的方法,其中,所述敏感信息是从包括以下各项信息的组中选择的:财务信息、健康信息、信用信息、密码信息、身份信息和位置信息。
9.根据权利要求7至8中任一项所述的方法,其中,所述分析包括将所述文本与已知敏感触发词的列表进行比较。
10.根据权利要求7至8中的任一项所述的方法,其中,所述文本串包括敏感信息。
11.根据权利要求10所述的方法,其中,所述文本串包括通常在敏感信息之前出现的一个或多个单词。
12.根据权利要求7至8中的任一项所述的方法,其中,选择满足或超过精度阈值的语音到文本引擎。
13.一种用于阻止音频流中的敏感信息的计算机可读存储介质,所述计算机可读存储介质可由处理电路读取并且存储指令并且由所述处理电路执行以执行根据权利要求7至12中的任一项所述的方法。
CN201880067472.5A 2017-11-28 2018-11-26 自动阻止音频流中包含的敏感数据 Active CN111226274B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/824,051 US10453447B2 (en) 2017-11-28 2017-11-28 Filtering data in an audio stream
US15/824,051 2017-11-28
PCT/IB2018/059300 WO2019106517A1 (en) 2017-11-28 2018-11-26 Automatic blocking of sensitive data contained in an audio stream

Publications (2)

Publication Number Publication Date
CN111226274A CN111226274A (zh) 2020-06-02
CN111226274B true CN111226274B (zh) 2023-09-22

Family

ID=66633386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880067472.5A Active CN111226274B (zh) 2017-11-28 2018-11-26 自动阻止音频流中包含的敏感数据

Country Status (6)

Country Link
US (2) US10453447B2 (zh)
JP (1) JP7255811B2 (zh)
CN (1) CN111226274B (zh)
DE (1) DE112018005421B4 (zh)
GB (1) GB2583281B (zh)
WO (1) WO2019106517A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019010250A1 (en) * 2017-07-05 2019-01-10 Interactions Llc REAL-TIME CONFIDENTIALITY FILTER
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US11822885B1 (en) * 2019-06-03 2023-11-21 Amazon Technologies, Inc. Contextual natural language censoring
US11706337B1 (en) * 2019-08-29 2023-07-18 United Services Automobile Association (Usaa) Artificial intelligence assistant for customer service representatives
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN111105788B (zh) * 2019-12-20 2023-03-24 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
CN111753539B (zh) * 2020-06-30 2023-12-26 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置
US11349983B2 (en) * 2020-07-06 2022-05-31 At&T Intellectual Property I, L.P. Protecting user data during audio interactions
CN111883128A (zh) * 2020-07-31 2020-11-03 中国工商银行股份有限公司 语音处理方法及系统、语音处理装置
CN112183079A (zh) * 2020-09-07 2021-01-05 绿瘦健康产业集团有限公司 一种语音监测方法、装置、介质及终端设备
CN112333321A (zh) * 2020-09-24 2021-02-05 咪咕文化科技有限公司 语音检测方法、装置、电子设备及存储介质
RO135860A2 (ro) * 2020-12-02 2022-06-30 Repsmate Software S.R.L. Sistem şi metodă pentru anonimizarea datelor de identificare a persoanelor aflate într-o convorbire audio/video
CN112559776A (zh) * 2020-12-21 2021-03-26 绿瘦健康产业集团有限公司 一种敏感信息的定位方法及系统
US11854553B2 (en) * 2020-12-23 2023-12-26 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions
US11900927B2 (en) 2020-12-23 2024-02-13 Optum Technology, Inc. Cybersecurity for sensitive-information utterances in interactive voice sessions using risk profiles
CN112634881B (zh) * 2020-12-30 2023-08-11 广州博士信息技术研究院有限公司 一种基于科技成果数据库的语音智能识别方法及系统
CN112885371B (zh) * 2021-01-13 2021-11-23 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
EP4292090A1 (en) * 2021-02-15 2023-12-20 Koninklijke Philips N.V. Methods and systems for processing voice audio to segregate personal health information
US20220272448A1 (en) * 2021-02-25 2022-08-25 Carnegie Mellon University Enabling environmental sound recognition in intelligent vehicles
US20220399009A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Protecting sensitive information in conversational exchanges
CN113840247A (zh) * 2021-10-12 2021-12-24 深圳追一科技有限公司 音频通信方法、装置、系统、电子设备及存储介质
CN114007131B (zh) * 2021-10-29 2023-04-25 平安科技(深圳)有限公司 视频监控方法、装置及相关设备
US20230259653A1 (en) * 2022-02-14 2023-08-17 Twilio Inc. Personal information redaction and voice deidentification
WO2023196624A1 (en) * 2022-04-08 2023-10-12 Modulate, Inc. Predictive audio redaction for realtime communication
CN114786035A (zh) * 2022-05-25 2022-07-22 上海氪信信息技术有限公司 直播场景的合规质检和互动问答系统及方法
CN115081440B (zh) * 2022-07-22 2022-11-01 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN116072123B (zh) * 2023-03-06 2023-06-23 南昌航天广信科技有限责任公司 广播信息播放方法、装置、可读存储介质及电子设备
CN117273054A (zh) * 2023-09-28 2023-12-22 南京八点八数字科技有限公司 一种应用不同场景的虚拟人交互方法与系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
JP2009501942A (ja) * 2005-07-13 2009-01-22 ハイパークオリティー,インク. 音声認識技術を利用した録音した音声内の選択的セキュリティマスキング
JP2015055653A (ja) * 2013-09-10 2015-03-23 セイコーエプソン株式会社 音声認識装置及び方法、並びに、電子機器
CN104679729A (zh) * 2015-02-13 2015-06-03 广州市讯飞樽鸿信息技术有限公司 录音留言有效性处理方法及系统
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
US9787835B1 (en) * 2013-04-11 2017-10-10 Noble Systems Corporation Protecting sensitive information provided by a party to a contact center

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473451B1 (en) 2004-07-30 2013-06-25 At&T Intellectual Property I, L.P. Preserving privacy in natural language databases
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US8433915B2 (en) * 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US20080208579A1 (en) 2007-02-27 2008-08-28 Verint Systems Ltd. Session recording and playback with selective information masking
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8140012B1 (en) 2007-10-25 2012-03-20 At&T Mobility Ii Llc Bluetooth security profile
JP5688279B2 (ja) 2010-12-08 2015-03-25 ニュアンス コミュニケーションズ,インコーポレイテッド 秘匿情報をフィルタリングする情報処理装置、方法およびプログラム
CN110086830B (zh) 2012-08-15 2022-03-04 维萨国际服务协会 可搜索的经加密的数据
US9131369B2 (en) 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9437207B2 (en) 2013-03-12 2016-09-06 Pullstring, Inc. Feature extraction for anonymized speech recognition
US9514741B2 (en) 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9407758B1 (en) * 2013-04-11 2016-08-02 Noble Systems Corporation Using a speech analytics system to control a secure audio bridge during a payment transaction
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US10754978B2 (en) * 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information
CN106528731A (zh) 2016-10-27 2017-03-22 新疆大学 一种敏感词过滤方法及系统
US10762221B2 (en) * 2016-11-14 2020-09-01 Paymentus Corporation Method and apparatus for multi-channel secure communication and data transfer
GB2559130B (en) * 2017-01-25 2020-05-27 Syntec Holdings Ltd Secure data exchange by voice in telephone calls
WO2019010250A1 (en) * 2017-07-05 2019-01-10 Interactions Llc REAL-TIME CONFIDENTIALITY FILTER

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
JP2009501942A (ja) * 2005-07-13 2009-01-22 ハイパークオリティー,インク. 音声認識技術を利用した録音した音声内の選択的セキュリティマスキング
US9787835B1 (en) * 2013-04-11 2017-10-10 Noble Systems Corporation Protecting sensitive information provided by a party to a contact center
JP2015055653A (ja) * 2013-09-10 2015-03-23 セイコーエプソン株式会社 音声認識装置及び方法、並びに、電子機器
CN104679729A (zh) * 2015-02-13 2015-06-03 广州市讯飞樽鸿信息技术有限公司 录音留言有效性处理方法及系统
CN105335483A (zh) * 2015-10-14 2016-02-17 广州市畅运信息科技有限公司 一种文本敏感词过滤系统和方法
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置

Also Published As

Publication number Publication date
GB2583281A (en) 2020-10-21
GB2583281B (en) 2022-09-21
US11024295B2 (en) 2021-06-01
DE112018005421T5 (de) 2020-07-16
GB202009699D0 (en) 2020-08-12
WO2019106517A1 (en) 2019-06-06
JP7255811B2 (ja) 2023-04-11
CN111226274A (zh) 2020-06-02
US10453447B2 (en) 2019-10-22
JP2021505032A (ja) 2021-02-15
US20200005773A1 (en) 2020-01-02
US20190164539A1 (en) 2019-05-30
DE112018005421B4 (de) 2022-07-21

Similar Documents

Publication Publication Date Title
CN111226274B (zh) 自动阻止音频流中包含的敏感数据
US10062385B2 (en) Automatic speech-to-text engine selection
US11580959B2 (en) Improving speech recognition transcriptions
US10089978B2 (en) Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
US10755719B2 (en) Speaker identification assisted by categorical cues
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
US11605385B2 (en) Project issue tracking via automated voice recognition
US20230056680A1 (en) Integrating dialog history into end-to-end spoken language understanding systems
US20180130460A1 (en) Splitting utterances for quick responses
US20220101835A1 (en) Speech recognition transcriptions
US9959887B2 (en) Multi-pass speech activity detection strategy to improve automatic speech recognition
WO2022127485A1 (en) Speaker-specific voice amplification
US11769425B2 (en) Enhancing video language learning by providing catered context sensitive expressions
US20220188525A1 (en) Dynamic, real-time collaboration enhancement
US10991370B2 (en) Speech to text conversion engine for non-standard speech
WO2023139015A1 (en) Data sorting for generating speech recognition models
JP2022055347A (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータプログラム(スピーチ認識トランスクリプションの改善)
US20180122404A1 (en) Determining a behavior of a user utilizing audio data
US11404047B2 (en) Feature and feature variant reconstruction for recurrent model accuracy improvement in speech recognition
US20220375484A1 (en) Acoustic data augmentation with mixed normalization factors
US20220319494A1 (en) End to end spoken language understanding model
US20240029712A1 (en) Speech recognition using cadence patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant