CN111625863B - 隐私保护方法、装置、电子设备及存储介质 - Google Patents

隐私保护方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111625863B
CN111625863B CN202010464829.2A CN202010464829A CN111625863B CN 111625863 B CN111625863 B CN 111625863B CN 202010464829 A CN202010464829 A CN 202010464829A CN 111625863 B CN111625863 B CN 111625863B
Authority
CN
China
Prior art keywords
privacy
information
media information
category
privacy information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010464829.2A
Other languages
English (en)
Other versions
CN111625863A (zh
Inventor
郭欣
唐大闰
梁志婷
徐浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202010464829.2A priority Critical patent/CN111625863B/zh
Publication of CN111625863A publication Critical patent/CN111625863A/zh
Application granted granted Critical
Publication of CN111625863B publication Critical patent/CN111625863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供了一种隐私保护方法、装置、电子设备及存储介质,涉及隐私保护技术领域,该方法包括:接收媒体信息;确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置;基于预设规则将目标位置处的隐私信息删除,以得到去隐私的目标媒体信息。本申请能够基于隐私类别找到隐私信息并删除,避免通过穷举各个不同的隐私信息找到隐私信息在媒体信息中的位置,能够提高得到去隐私的目标媒体信息的速率。

Description

隐私保护方法、装置、电子设备及存储介质
技术领域
本申请涉及隐私保护技术领域,具体而言,涉及一种隐私保护方法、装置、电子设备及存储介质。
背景技术
在商业活动过程中,顾客的隐私信息譬如住址、姓名、电话等信息需要被保护起来,包含顾客隐私信息的用户信息可以是音频等多种形式的媒体信息,进行隐私保护后达到隐私信息不被数据处理人员接触到的效果。现有的处理隐私信息的方法是穷举每个不同的隐私信息然后进行去隐私处理,由于隐私信息非常庞大,通过穷举法逐一定位每个隐私信息再对其进行处理,存在对媒体信息进行隐私保护处理速率低的问题。
发明内容
本申请的实施例在于提供一种隐私保护方法、装置、电子设备及存储介质,以解决目前方法对媒体信息进行隐私保护处理速率低的问题。
本申请的实施例提供了一种隐私保护方法,所述方法包括:接收媒体信息;确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位置;基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息。
在上述实现过程中,能够基于每个隐私类别找到对应的隐私信息并删除,避免通过穷举每种隐私类别下各个不同的隐私信息找到并找到各个不同的隐私信息在所述媒体信息中的位置,能够提高得到去隐私的目标媒体信息的速率,以提高隐私保护方法的速率。
可选地,所述媒体信息为音频信息,所述确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位,包括:
采用隐私语音识别模型对所述媒体信息进行识别,所述隐私语音识别模型对应至少一种隐私类别,以确定所述音频信息中属于任一所述隐私类别的隐私信息;确定所述隐私信息在所述媒体信息中的目标位置。
在上述实现过程中,所述隐私语音识别模型基于所述隐私类别,得到所述去隐私的目标媒体信息需要处理的所述隐私类别的隐私信息的位置,避免通过对各个不同隐私信息进行逐一搜索定位得到所述隐私信息的位置,提高隐私保护的效率。
可选地,所述隐私语音识别模型包括完成训练的声学模型和完成训练的语言模型,在所述采用隐私语音识别模型,基于预设的至少一种隐私类别确定所述媒体信息中属于任一所述隐私类别的目标信息包括:
获取历史音频信息;获取所述历史音频信息对应的语料集;将所述语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集;在所述历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、所述每个隐私信息的发音保持不变,得到修改后的词表;基于所述修改后的词表使用所述历史音频信息训练声学模型,以得到所述完成训练的声学模型;使用所述替换语料集训练所述语言模型,以得到所述完成训练的语言模型。
在上述实现过程中,基于所述历史音频信息对所述隐私语音识别模型进行训练,能够使隐私语音识别模型将音频信息中的属于某一隐私类别的隐私信息识别为该隐私类别,从而通过模型提高隐私信息识别的准确性和效率,以提高隐私信息保护的可靠性。
可选地,所述隐私信息为至少一个时,所述基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息,包括:
计算每个所述隐私信息的置信度;根据每个所述隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于所述预设值的第二隐私信息;删除所有所述第一隐私信息,保留所述第二隐私信息,以得到所述去隐私的目标媒体信息。
在上述实现过程中计算所述位置对应的所述隐私信息的置信水平,根据置信水平的值决定所述隐私信息的去留,能够提高得到所述去隐私的目标媒体信息的可靠性,以提高隐私保护的可靠性。
本申请的实施例还提供了一种隐私保护实现装置,所述装置包括:接收模块,用于接收媒体信息;确定模块,用于确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位置;删除模块,用于基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息。
在上述实现过程中,能够基于每个隐私类别找到对应的隐私信息并删除,避免通过穷举每种隐私类别下各个不同的隐私信息找到并找到各个不同的隐私信息在媒体信息中的位置,能够提高得到去隐私的目标媒体信息的速率,以提高隐私保护的速率。
可选地,所述确定模块具体用于采用隐私语音识别模型对所述媒体信息进行识别,所述隐私语音识别模型对应至少一种隐私类别,以确定所述音频信息中属于任一所述隐私类别的隐私信息;确定所述隐私信息在所述媒体信息中的目标位置。
在上述实现过程中,所述隐私语音识别模型基于所述隐私类别作为,得到所述去隐私的目标媒体信息需要处理的所述隐私类别的隐私信息的位置,避免通过对各个不同隐私信息进行逐一搜索定位得到所述隐私信息的位置,提高隐私保护的效率。
可选地,所述确定模块具体用于获取历史音频信息;获取所述历史音频信息对应的语料集;将所述语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集;在所述历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、所述每个隐私信息的发音保持不变,得到修改后的词表;基于所述修改后的词表使用所述历史音频信息训练声学模型,以得到所述完成训练的声学模型;使用所述替换语料集训练所述语言模型,以得到所述完成训练的语言模型。
在上述实现过程中,基于所述历史音频信息对所述隐私语音识别模型进行训练,能够使隐私语音识别模型将音频信息中的属于某一隐私类别的隐私信息识别为该隐私类别,从而通过模型提高隐私信息识别的准确性和效率,以提高隐私信息保护的可靠性。
可选地,所述删除模块具体用于:计算每个所述隐私信息的置信度;根据每个所述隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于所述预设值的第二隐私信息;删除所有所述第一隐私信息,保留所述第二隐私信息,以得到所述去隐私的目标媒体信息。
在上述实现过程中计算所述位置对应的所述隐私信息的置信水平,根据置信水平的值决定所述隐私信息的去留,能够提高得到去隐私的目标媒体信息的可靠性,以提高隐私保护的可靠性。
本实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述任一项方法中的步骤。
本实施例还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行上述任一项方法中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本申请实施例提供的一种隐私保护方法的步骤流程图。
图2为本申请的实施例提供的一种确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置的步骤流程图。
图3为本申请实施例提供的一种采用隐私语音识别模型,基于预设的至少一种隐私类别确定所述媒体信息中属于任一隐私类别的目标信息的步骤流程图。
图4为本申请实施例提供的一种隐私信息为至少一个时,基于预设规则将目标位置处的隐私信息删除,以得到去隐私的目标媒体信息的步骤流程图。
图5为本申请实施例提供的一种隐私保护实现装置示意图。
图标:40-隐私保护实现装置;401-接收模块;402-确定模块;403-删除模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请的描述中,需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
本申请的实施例提供了一种隐私保护方法,请参看图1,图1为本申请实施例提供的一种隐私保护方法的步骤流程图,所述方法分为以下步骤:
步骤S1:接收媒体信息。
在商业活动过程中,媒体信息可以是涉及用户信息的音频、图片、视频等形式的信息,以用户音频信息为例,在和用户对话的过程中会产生涉及用户隐私信息的音频信息。示例的,音频形式的媒体信息可以是“我是张三,我家住学院路40号,我的电话号码是123456789”。
步骤S2:确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置。
请参看图2,图2为本申请的实施例提供的一种确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置的步骤流程图。可选地,步骤S2包括以下子步骤:
步骤S21:采用隐私语音识别模型对媒体信息进行识别,隐私语音识别模型对应至少一种隐私类别,以确定音频信息中属于任一隐私类别的隐私信息。
步骤S22:确定隐私信息在媒体信息中的目标位置。
可以理解的是,以音频形式的媒体信息为例,隐私语音识别模型就是通过对采集到的媒体信息中的语音信号进行分析和处理,通过提取媒体信息中的特征建立的模型。隐私语音识别模型基于隐私类别能够得到去隐私的目标媒体信息需要的所述隐私类别的隐私信息的位置。
可以理解的是,可以分析历史媒体信息,对历史媒体信息隐私类别进行分类,示例的,常见的隐私类别有:姓名、地址、年龄、地址等。在这个示例中,基于隐私类别“姓名”找到“张三”及所有的属于“姓名”这一隐私类别的所有隐私信息的位置,不需要基于每个姓名,如“张三”“李四”寻找“张三”、“李四”等的目标位置。据隐私类别确定隐私信息的位置,避免通过穷举各个不同的隐私信息找到隐私信息的目标位置,能够提高得到去隐私的目标媒体信息的速率,以提高隐私保护方法的速率。
其中,隐私语音识别模型基于语音识别模型获得,语音识别模型包括声学模型和语言模型,声学模型是语音识别模型中重要的部分之一,主流系统多采用隐马尔科夫模型进行建模,声学模型是可以识别单个音素的语音识别模型(音素a的模型可以判定一小段语音是否是a)。
语言模型是语音识别模型中重要的部分之一,语言模型表示一个个词串(结合了词典,就可以成为一个个音素串)在语料库中出现的概率大小。比如,不合语法的词串(句子)概率接近0,很合乎语法的词串概率大。如果只做单个音素识别,语音很短,内容只是音素,那么只用声学模型就可以做到,不用语言模型。但是,在实际应用中通常要识别一个比较长的语音,这段语音中包含了很多词。这就需要把所有可能的词串,结合词典展开为音素串,再跟音素的声学模型结合,得到语音识别结果。
请参看图3,图3为本申请的实施例提供的一种采用隐私语音识别模型,基于预设的至少一种隐私类别确定所述媒体信息中属于任一隐私类别的目标信息的步骤流程图。可选地,步骤S21中,步骤S21分为以下子步骤:
步骤S21.1:获取历史音频信息。
示例的,在商场促销活动中,获取以往收集的媒体信息即历史音频信息,这里的历史音频是以音频形式呈现的,比如音频形式的“我叫xx,我今年xx岁,我住xx街xx号”。
步骤S21.2:获取历史音频信息对应的语料集。
可以理解的是,语料集就是音频形式的历史音频和音频形式的历史音频对应的文字,在步骤S21.2中的语料集指的就是类似“我叫xx,我今年xx岁,我住xx街xx号”的音频形式的历史音频信息和对应的历史音频信息的文字。
步骤S21.3:将语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集。
可以理解的是,对历史用户信息进行标注指的是将历史音频信息对应的文字写出来,在步骤S21.3中将隐私信息对应的标注进行替换,也就是将隐私信息用文字写出来后将文字化的隐私信息进行替换。引用步骤S21.1中的示例,依次用“人名”、“年龄”、“地址”对隐私信息的标注进行替换,也就是说将历史用户信息的标注“我叫xx,我今年xx岁,我住xx街xx号”替换为“我叫人名,我今年年龄,我住地址”。将语料集中所有的隐私信息的标注用隐私类别的标识替换后就得到替换语料集。
步骤S21.4:在历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、每个隐私信息的发音保持不变,得到修改后的词表。
以步骤S1中的示例为例,词表指的是文字形式的包括多个词语以及各个词语对应的发音,类似于“词典”。词表包括“张三”以及“张三”的发音“zhang san”、“学院路40号”以及“xue yuan lusishihao”、“123456789”以及“yier san siwuliu qi bajiu”。将词表中的“张三”用“人名”替代,发音“zhang san”不变,“学院路40号”用“地址”替代,发音“xue yuanlu sis hi hao”保持不变,“123456789”替换为“号码”,发音“yier san siwuliu qibajiu”保持不变。将所有的词表进行修改后就得到修改后的词表。
步骤S21.5:基于修改后的词表使用历史音频信息训练声学模型,以得到完成训练的声学模型。
步骤S21.6:使用替换语料集训练语言模型,以得到完成训练的语言模型。
基于修改后的词表使用历史音频信息训练声学模型、使用历史音频信息的替换语料集训练语言模型,能够提高隐私语音识别模型的准确性,以提高隐私信息保护的可靠性。
语音识别模型中的声学模型选用TDNN-chain(Time-Delay Neural Network-chain,时延神经网络链)模型,语言模型选用n-gram模型。TDNN-chain模型在声学模型中帧及运算过程中会有一些重叠,它有效的去除了信息冗余,嵌入模型也是一个训练准则,采用单状态模型,在训练过程中可以实现跳帧,这也加快了解码速度,因此能提高得到去隐私信息的速率。n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。语料集的规模越大,做出的n-gram对统计语言模型才更有用。n-gram模型能够在以一个关键词为特征时,得到去隐私信息。因此能够在语料集中特征有限的情况下得到去隐私信息,提高隐私保护的能力。
请继续参看图1,步骤S3:基于预设规则将所述目标位置处的隐私信息删除,以得到去隐私的目标媒体信息。请参看图4,图4为本申请实施例提供的隐私信息为至少一个时,基于预设规则将目标位置处的隐私信息删除,以得到去隐私的目标媒体信息的步骤流程图。可选地,步骤S3可分为以下子步骤:
步骤S31:计算每个隐私信息的置信度。
可以理解的是,置信度是指估计值与总体参数在允许的一定误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。对应到步骤S31中,隐私信息的置信度是指各个位置处的隐私信息的判定准确率。
步骤S32:根据每个隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于所述预设值的第二隐私信息。
步骤S33:删除所有第一隐私信息,保留第二隐私信息,以得到目标媒体信息。
可选地,可以设置预设值为0.8,当所述位置上的隐私信息的置信度大于或等于0.8的时候,将对应位置上的隐私信息判定为在实际生活中客户的隐私信息,将对应位置处的隐私信息删除,生成第一去隐私信息。示例的,结合步骤S1中的例子,“张三”在整个用户信息中位于第1分45秒到2分3秒这段时间区间的位置上,当“张三”的置信度大于或等于0.8时,将位于第1分45秒到2分3秒这段时间区间的位置上“张三”从“我是张三,我家住学院路40号,我的电话号码是123456789”中删除。判断“学院路40号”和“123456789”的置信度,当“学院路40号”和“123456789”的置信度均大于或等于0.8时,将“学院路40号”和“123456789”从“我是张三,我家住学院路40号,我的电话号码是123456789”中删除,最终得到去隐私的目标媒体信息为“我是,我家住,我的电话号码是”。
示例的,结合步骤S1中的例子,“张三”在整个用户信息中位于第1分45秒到2分3秒这段时间区间的位置上,当“张三”的置信度小于0.8时,将位于第1分45秒到2分3秒这段时间区间的位置上“张三”保留在“我是张三,我家住学院路40号,我的电话号码是123456789”中。判断“学院路40号”和“123456789”的置信度,当“学院路40号”和“123456789”的置信度均小于0.8时,将“学院路40号”和“123456789”保留在“我是张三,我家住学院路40号,我的电话号码是123456789”中,最终得到第二去隐私信息为“我是张三,我家住学院路40号,我的电话号码是123456789”。
可以理解的是,在商业活动或者其他涉及媒体信息的情景中,将涉及用户隐私的隐私信息进行置信度计算,能够提高隐私保护的可靠性。将隐私信息删除之后,可以避免能够接触到用户信息的工作人员看到用户隐私信息,以提高用户信息隐私保护的能力。
为了更好地实现本实施例提供的隐私保护方法,请参看图5,图5为本申请实施例提供的一种隐私保护实现装置示意图。隐私保护实现装置40包括:
接收模块401,用于接收媒体信息。
确定模块402,用于确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置。
删除模块403,用于基于预设规则将所述目标位置处的隐私信息删除,以得到去隐私的目标媒体信息。
可选地,确定模块402具体用于采用隐私语音识别模型对媒体信息进行识别,隐私语音识别模型对应至少一种隐私类别,以确定音频信息中属于任一隐私类别的隐私信息。
可选地,确定模块402具体用于获取历史音频信息;获取历史音频信息对应的语料集;将语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集;在历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、每个隐私信息的发音保持不变,得到修改后的词表;基于修改后的词表使用历史音频信息训练声学模型,以得到完成训练的声学模型;使用替换语料集训练语言模型,以得到完成训练的语言模型。
可选地,删除模块403具体用于计算每个隐私信息的置信度;根据每个隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于预设值的第二隐私信息;删除所有第一隐私信息,保留第二隐私信息,以得到目标媒体信息。
本实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述任一项方法中的步骤。
本实施例还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行上述任一项方法中的步骤。
可选地,所述电子设备可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等电子设备。
综上所述,本申请的实施例提供了一种隐私保护方法、装置、电子设备及存储介质,涉及隐私保护技术领域,所述方法包括:接收媒体信息;确定媒体信息中属于指定隐私类别的隐私信息,以及隐私信息在媒体信息中的目标位置;基于预设规则将目标位置处的隐私信息删除,以得到去隐私的目标媒体信息。
在上述实现过程中,能够基于每个隐私类别找到对应的隐私信息并删除,避免通过穷举每种隐私类别下各个不同的隐私信息找到并找到各个不同的隐私信息在所述媒体信息中的位置,能够提高得到去隐私的目标媒体信息的速率,以提高隐私保护方法的速率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种隐私保护方法,其特征在于,包括:
接收媒体信息;
确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位置;
基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息;
其中,所述媒体信息为音频信息,所述确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位置,包括:采用隐私语音识别模型对所述媒体信息进行识别,所述隐私语音识别模型对应至少一种隐私类别,以确定所述音频信息中属于任一所述隐私类别的隐私信息;确定所述隐私信息在所述媒体信息中的目标位置;
其中,所述隐私语音识别模型包括完成训练的声学模型和完成训练的语言模型,在所述采用隐私语音识别模型,基于预设的至少一种隐私类别确定所述媒体信息中属于任一所述隐私类别的目标信息,所述方法包括:获取历史音频信息;获取所述历史音频信息对应的语料集;将所述语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集;在所述历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、所述每个隐私信息的发音保持不变,得到修改后的词表;基于所述修改后的词表使用所述历史音频信息训练声学模型,以得到所述完成训练的声学模型;使用所述替换语料集训练所述语言模型,以得到所述完成训练的语言模型。
2.根据权利要求1所述的方法,其特征在于,所述隐私信息为至少一个时,所述基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息,包括:
计算每个所述隐私信息的置信度;
根据每个所述隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于所述预设值的第二隐私信息;
删除所有所述第一隐私信息,保留所述第二隐私信息,以得到所述目标媒体信息。
3.一种隐私保护装置,其特征在于,包括:
接收模块,用于接收媒体信息;
确定模块,用于确定所述媒体信息中属于指定隐私类别的隐私信息,以及所述隐私信息在所述媒体信息中的目标位置;
删除模块,基于预设规则将所述目标位置处的所述隐私信息删除,以得到去隐私的目标媒体信息;
其中,所述确定模块具体用于采用隐私语音识别模型对所述媒体信息进行识别,所述隐私语音识别模型对应至少一种隐私类别,以确定所述媒体信息中属于任一所述隐私类别的隐私信息;以及,
获取历史音频信息;获取所述历史音频信息对应的语料集;将所述语料集中的隐私信息对应的标注,替换为每个隐私信息所属的隐私类别的标识,得到替换语料集;在所述历史音频信息对应的词表中将隐私信息替换为每个隐私信息所属的隐私类别的标识、所述每个隐私信息的发音保持不变,得到修改后的词表;基于所述修改后的词表使用所述历史音频信息训练声学模型,以得到完成训练的声学模型;使用所述替换语料集训练语言模型,以得到完成训练的语言模型。
4.根据权利要求3所述的装置,其特征在于,所述删除模块具体用于:
计算每个所述隐私信息的置信度;根据每个所述隐私信息的置信度,确定置信度大于或等于预设值的第一隐私信息,以及置信度小于所述预设值的第二隐私信息;删除所有所述第一隐私信息,保留所述第二隐私信息,以得到所述目标媒体信息。
5.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-2中任一项所述方法中的步骤。
6.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-2任一项所述方法中的步骤。
CN202010464829.2A 2020-05-27 2020-05-27 隐私保护方法、装置、电子设备及存储介质 Active CN111625863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010464829.2A CN111625863B (zh) 2020-05-27 2020-05-27 隐私保护方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010464829.2A CN111625863B (zh) 2020-05-27 2020-05-27 隐私保护方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111625863A CN111625863A (zh) 2020-09-04
CN111625863B true CN111625863B (zh) 2024-01-19

Family

ID=72259388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010464829.2A Active CN111625863B (zh) 2020-05-27 2020-05-27 隐私保护方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111625863B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491669A (zh) * 2020-11-17 2021-03-12 珠海格力电器股份有限公司 一种数据的处理方法、装置以及系统
CN112818390A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据信息发布方法、装置及设备
CN113849133B (zh) * 2021-09-29 2023-09-12 珠海格力电器股份有限公司 隐私数据的处理方法、装置、电子设备及存储介质
CN118675504A (zh) * 2024-08-22 2024-09-20 成都乐超人科技有限公司 基于物联网实现智能产品的语音控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN107169329A (zh) * 2017-05-24 2017-09-15 维沃移动通信有限公司 一种隐私信息保护方法、移动终端及计算机可读存储介质
US10304442B1 (en) * 2018-09-06 2019-05-28 International Business Machines Corporation Identifying digital private information and preventing privacy violations
US10332517B1 (en) * 2017-06-02 2019-06-25 Amazon Technologies, Inc. Privacy mode based on speaker identifier
CN110175469A (zh) * 2019-05-16 2019-08-27 山东大学 一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN107169329A (zh) * 2017-05-24 2017-09-15 维沃移动通信有限公司 一种隐私信息保护方法、移动终端及计算机可读存储介质
US10332517B1 (en) * 2017-06-02 2019-06-25 Amazon Technologies, Inc. Privacy mode based on speaker identifier
US10304442B1 (en) * 2018-09-06 2019-05-28 International Business Machines Corporation Identifying digital private information and preventing privacy violations
CN110175469A (zh) * 2019-05-16 2019-08-27 山东大学 一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
CN111198948A (zh) * 2020-01-08 2020-05-26 深圳前海微众银行股份有限公司 文本分类校正方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯翔 ; 江芝蒙 ; .数据挖掘中的隐私保护技术研究.科技信息.2011,(第11期),全文. *
程健一 ; 关毅 ; 何彬 ; .基于SVM和CRF双层分类器的英文电子病历去隐私化.智能计算机与应用.2016,(第06期),全文. *

Also Published As

Publication number Publication date
CN111625863A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111625863B (zh) 隐私保护方法、装置、电子设备及存储介质
CN107209842B (zh) 隐私保护训练语料库选择
CN107134279B (zh) 一种语音唤醒方法、装置、终端和存储介质
CN109493850B (zh) 成长型对话装置
CN104078044B (zh) 移动终端及其录音搜索的方法和装置
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN111797632B (zh) 信息处理方法、装置及电子设备
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20140046663A1 (en) System and Method for Improving Speech Recognition Accuracy Using Textual Context
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
JP2023029416A (ja) 音声認識のためのコンテキストバイアス
CN111984779A (zh) 一种对话文本分析方法、装置、设备和可读介质
US10269353B2 (en) System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN112951211B (zh) 一种语音唤醒方法及装置
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN114023315A (zh) 语音的识别方法、装置、可读介质和电子设备
CN112216284A (zh) 训练数据更新方法及系统、语音识别方法及系统、设备
US10824520B2 (en) Restoring automated assistant sessions
US20060129398A1 (en) Method and system for obtaining personal aliases through voice recognition
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质
CN115174285A (zh) 会议记录生成方法、装置及电子设备
CN111785259A (zh) 信息处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant