CN106504744B - 一种语音处理方法及装置 - Google Patents
一种语音处理方法及装置 Download PDFInfo
- Publication number
- CN106504744B CN106504744B CN201610946301.2A CN201610946301A CN106504744B CN 106504744 B CN106504744 B CN 106504744B CN 201610946301 A CN201610946301 A CN 201610946301A CN 106504744 B CN106504744 B CN 106504744B
- Authority
- CN
- China
- Prior art keywords
- privacy
- current
- word
- sentence
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 29
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002650 habitual effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims 3
- 230000005540 biological transmission Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 240000002989 Euphorbia neriifolia Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了一种语音处理方法及装置,其中方法可以包括:获取语音数据;将所述语音数据转换为文本信息;根据预设规则,识别出所述文本信息中所包含的目标信息;对所述语音数据中与所述目标信息相对应的语音片段进行预设处理。在本发明实施例中,将语音数据转换为文本信息后,可根据预设规则识别出文本信息中所包含的说话人隐私等目标信息,然后对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,例如删除该语音片段等。这样便使说话人隐私等目标信息的内容无法被别人获知,保护了说话人的权益,从而消除了语音数据在传播过程中的顾虑和阻碍,实现了隐私保护与语音传播的兼顾。
Description
技术领域
本发明涉及自然语言处理和语音信号处理领域,尤其是涉及一种语音处理方法及装置。
背景技术
当前随着智能硬件的快速发展及存储设备容量的不断提高,越来越多的人使用录音来记录信息,如会议录音、采访录音等。对于一些重要的会议、采访或通话等录音,经常会包含一些特殊内容,如敏感信息,进一步例如说话人的个人隐私信息等。以说话人的录音中包含隐私信息为例,在该录音向外传播时,其他人听到该录音后,有可能凭借其中所含的隐私信息而辨认出说话人身份,或者得到说话人的个人隐私,如说话人的住址、工作单位等。这些隐私信息一旦通过录音遭到泄露,则可能会对说话人造成很多不利影响,损坏说话人的权益。也正因为说话人的录音中可能包含了隐私信息,导致很多录音数据无法作为通用信息,存在顾忌,例如无法公开、无法上传、无法分享等,从而阻碍了语音数据的传播。
为了使录制的语音数据更具有通用性,降低对说话人的影响,现有技术中一般采用对语音数据进行变声的处理,改变说话人的音色或语速,以达到保护说话人隐私的目的。然而,发明人在实现本发明的过程中发现,这些方法仅仅是对声音本身做了处理,让人很难从声音分辨出说话人的身份,但是,说话人所说的内容却无法受到保护,说话人的隐私依然会从录音内容中被泄露。可见现有技术中并未能很好的处理录音数据中的隐私问题,所以仍未解决隐私信息等内容对语音数据传播所造成的阻碍。
发明内容
本发明提供一种语音处理方法及装置,以解决语音数据在传播时因内容而存在阻碍或顾忌的问题。
根据本发明实施例的第一方面,提供一种语音处理方法,所述方法包括:
获取语音数据;
将所述语音数据转换为文本信息;
根据预设规则,识别出所述文本信息中所包含的目标信息;
对所述语音数据中与所述目标信息相对应的语音片段进行预设处理。
可选的,所述目标信息包括说话人的隐私信息;
根据预设规则,识别出所述文本信息中所包含的目标信息,包括:
对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关;
根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句;
如果当前句为隐私句,则根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
可选的,获取当前句的隐私特征,包括:
获取当前句中每个词的词向量;
根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数;
根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
可选的,根据所述隐私词表及所述隐私句判定模型的训练数据,获取当前句中每个词的隐私系数,包括:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值。
可选的,所述目标信息包括说话人的习惯用语;
根据预设规则,识别出所述文本信息中所包含的目标信息,包括:
对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离;
根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语;
如果当前词是说话人的习惯用语,则将当前词标记为所述目标信息。
可选的,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,获取当前词在当前句中重复出现的平均间隔距离,包括:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
可选的,对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,包括:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。
根据本发明实施例的第二方面,提供一种语音处理装置,所述装置包括:
语音获取模块,用于获取语音数据;
文本转换模块,用于将所述语音数据转换为文本信息;
信息识别模块,用于根据预设规则,识别出所述文本信息中所包含的目标信息;
语音处理模块,用于对所述语音数据中与所述目标信息相对应的语音片段进行预设处理。
可选的,所述目标信息包括说话人的隐私信息;
所述信息识别模块包括:
隐私特征获取子模块,用于对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关;
隐私句判断子模块,用于根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句;
隐私句处理子模块,用于当当前句为隐私句时,根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
可选的,所述隐私特征获取子模块用于:
获取当前句中每个词的词向量;
根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数;
根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
可选的,所述隐私特征获取子模块在根据所述隐私词表及所述隐私句判定模型的训练数据,获取当前句中每个词的隐私系数时,用于:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值。
可选的,所述目标信息包括说话人的习惯用语;
所述信息识别模块包括:
习惯用语特征获取子模块,用于对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离;
习惯用语判断子模块,用于根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语;
习惯用语处理子模块,用于当当前词是说话人的习惯用语时,将当前词标记为所述目标信息。
可选的,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,所述习惯用语特征获取子模块用于:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
可选的,所述语音处理模块用于:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。
本发明的实施例提供的技术方案可以包括以下有益效果:
在本发明实施例中,将语音数据转换为文本信息后,可根据预设规则识别出文本信息中所包含的说话人隐私等目标信息,然后对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,例如删除该语音片段等。这样便使说话人隐私等目标信息的内容无法被别人获知,保护了说话人的权益,从而消除了语音数据在传播过程中的顾虑和阻碍,实现了隐私保护与语音传播的兼顾。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种语音处理方法的流程图;
图2是根据本发明一示例性实施例示出的一种语音处理方法的流程图;
图3是根据本发明一示例性实施例示出的一种语音处理方法的流程图;
图4是根据本发明一示例性实施例示出的一种语音处理方法的流程图;
图5是根据本发明一示例性实施例示出的一种语音处理装置的示意图;
图6是根据本发明一示例性实施例示出的一种语音处理装置的示意图;
图7是根据本发明一示例性实施例示出的一种语音处理装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种语音处理方法的流程图。作为示例该方法可用于手机、录音机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取语音数据。
例如,语音数据可以是采访录音或会议录音等。这些录音中可能包含一些特殊信息如敏感信息,进一步例如说话人的隐私等,当其他人听录音时听到这些特殊信息后,可能会给说话人带来不利影响,损坏说话人的权益。
步骤S102,将所述语音数据转换为文本信息。
作为示例,可以使用语音识别技术将语音转换为文本信息。
容易理解的是,在将语音转换为文本信息的过程中,需要为文本添加标点。例如添加的标点主要可以包括顿号“、”、逗号“,”、句号“。”、问号“?”及感叹号“!”等。在本发明中,一般将句号“。”、问号“?”或感叹号“!”作为一句话的结束标点。具体添加时,例如可以使用长短时记忆模型(LSTM)为文本添加标点。另外,为了使添加的标点更准确,可以设置语音段间与段中添加标点的阈值,如语音段间添加标点的阈值设置小一些,语音段中添加标点的阈值设置大一些,从而增加语音段间添加标点的可能性,降低语音段中添加标点的可能性。对于语音识别技术以及添加标点的具体处理技术,本实施例不再赘述。
此外,为了使接下来的处理时更准确,还可以在转换为文本信息时或转换为文本信息之后,对文本信息进行规整处理,例如:
1)文本过滤:主要是过滤掉文本中错误、异常的词语,可以根据词语置信度以及句法分析的结果来过滤。
2)数字规整:由于语音识别的文本结果中所有数字可能都是用中文表示的,而有些数字要用阿拉伯数字表示才符合用户的阅读习惯,如二十八点五元,应该表示为28.5元。数字规整即将一些中文数字转换成阿拉伯数字,例如可采用基于ABNF文法的方法。
3)文本替换:例如可以进行英文大小写之间的替换,如“ibm”替换为“IBM”,等等。
步骤S103,根据预设规则,识别出所述文本信息中所包含的目标信息。
目标信息例如可以为敏感信息,进一步例如可以为说话人的隐私或者违法信息(如“摇头丸”),等等。对于目标信息的具体内容,本实施例无需进行限制。
可以预先为识别这些目标信息而制定预设规则,对于预设规则的具体内容本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S104,对所述语音数据中与所述目标信息相对应的语音片段进行预设处理。
例如,可以为文本信息中的每个字或每个词添加时间戳,以指示该字或该词在语音数据中所对应的语音片段。当时识别出目标信息之后,便可以确定相应的语音片段(这些相应的语音片段可称为目标语音片段),然后进行预设处理,例如模糊或屏蔽目标语音片段,从而使得其他人无法听到目标语音片段的内容,进而达到了保护说话人隐私等权益的目的。
具体如何对目标语音片段进行处理,本实施例并不进行限制。作为示例,对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,即步骤S104,可以包括:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。等等。
在本实施例中,将语音数据转换为文本信息后,可根据预设规则识别出文本信息中所包含的说话人隐私等目标信息,然后对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,例如删除该语音片段等。这样便使说话人隐私等目标信息的内容无法被别人获知,保护了说话人的权益,从而消除了语音数据在传播过程中的顾虑和阻碍,实现了隐私保护与语音传播的兼顾。
下面对与目标信息的内容及识别方法进一步举例说明:
在本实施例或本发明其他某些实施例中,作为一种示例,所述目标信息可以包括说话人的隐私信息。
相应的参见图2所示,根据预设规则,识别出所述文本信息中所包含的目标信息,即步骤S103,可以包括:
步骤S201,对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关。
例如,隐私词可以为与以下至少一项内容相关的词语:
姓名、身份、住址、工作单位、银行卡号、密码、电话号码、社交账号,等等。
作为示例,隐私特征可以使用多维向量来表示,具体维数可以与句子中每个词的词向量的维数相同。每句文本数据中包含的隐私词越多,该句的隐私特征的取值就越大。容易理解的是,当隐私特征用向量表示时,隐私特征的取值可以为向量的模。
步骤S202,根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句。
隐私句检测模型可以预先通过收集大量训练数据而训练得到。训练数据可以为会议录音、采访录音等语音数据所对应的文本数据等,当然也可以根据应用需求收集特定领域的文本数据。在训练时,先对所收集的文本数据以句为单位进行隐私句标注,即标注当前句是否为隐私句,如果是,标注为1,否则,则标注为0,同时提取每句文本数据的隐私特征;然后将每句文本数据的隐私特征及相应标注结果作为训练数据,训练得到隐私句检测模型。具体训练时,将每句文本数据的隐私特征作为隐私句检测模型的输入,输出为当前句文本数据是否为隐私句。隐私句检测模型可以使用模式识别中常用的分类模型,如支持向量机模型、神经网络模型等,对此本实施例不进行限制。
当隐私句检测模型训练完成后,以句为单位,将当前句待判别文本数据的隐私特征作为隐私句检测模型的输入,进行判定,从而得到当前句是否为隐私句的判定结果。
步骤S203,如果当前句为隐私句,则根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
例如可以依次查找隐私句中每个词在隐私表中是否存在,如果存在,则认为当前词是隐私词,并在隐私句中将当前词标记为目标信息;否则,不是隐私词,不需要标记。或者也可以在隐私句中将人名、地名、组织机构名等命名实体作为隐私词,可以使用命名实体检测算法检测出隐私句中的命名实体,并予以标记。
此外在隐私句检测时,为了防止出现一句文本数据太短的情况,可以预先设定每句文本数据包含的最低字数,如最低包含15字,在每句文本数据包含最低字数的前提下,结合标点进行隐私句的划分,如从当前字开始,依次遍历文本数据中每个字,统计相应字数,当字数达到每句文本数据包含的最低字数时,下次遇到标点符号时,则直接将当前字到该标点符号位置的语句作为一句文本数据。所述标点符号一般考虑句号“。”、叹号“!”、问号“?”,当然也可以考虑其它标点符号,如逗号“,”,具体本发明实施例不作限定。
参见图3所示,在本实施例或本发明其他某些实施例中,获取当前句的隐私特征,即步骤S201,可以包括:
步骤S301,获取当前句中每个词的词向量。
将每句文本数据包含的词进行向量化后,可以得到每个词对应的词向量。例如可以使用word2vec等技术将文本数据中的每个词向量化,对此本实施例不再赘述。
步骤S302,根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数。
每个词的隐私系数用于指示每个词为隐私词的可能程度。
例如可以通过如下方式获取当前词(也即当前句中的第i个词)的隐私系数:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数,
例如根据公式:
获取当前词的隐私系数αi,其中ni为当前词在当前句中出现的次数,n为当前句中总词数,di为所述隐私句检测模型的训练数据中包含当前词的文本总数,a为防止分母为零的常数(取值较小,例如可以为0.000001),D为隐私句检测模型的训练数据所含的文本总数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值,即Max{ai}。
步骤S303,根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
即可以根据公式
获取当前句的隐私特征Ws,其中,wi为当前句包含的第i个词的词向量,αi为第i个词的隐私系数。
在本实施例或本发明其他某些实施例中,作为另一种示例,所述目标信息也可以包括说话人的习惯用语。
说话人的习惯用语例如可以为说话人的口头禅、说话人常用语气词或说话人常用词等。一般口头禅、语气词及常用词在句子中出现次数通常比普通词多,通过这些习惯用语往往很容易辨认说话人的身份,故说话人的习惯用语也涉及到说话人的隐私问题。
参见图4所示,根据预设规则,识别出所述文本信息中所包含的目标信息,也即步骤S103,可以包括:
步骤S401,对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离。
若当前词在当前句中重复出现,则可以获得相邻两次出现时的间隔距离(例如间隔距离可以使用间隔的字数来表示),这些间隔距离的均值即平均间隔距离。具体的,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,获取当前词在当前句中重复出现的平均间隔距离,可以包括:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
例如可根据公式:
举例来讲,假设当前句的内容为
“嗯,是的,嗯嗯你完全可以这么说,嗯这也是事实”
当前词为“嗯”,则可以得到下表:
嗯, | 是 | 的, | 嗯 | 嗯 | 你 | 完全 | 可以 | 这 | 么 | 说, | 嗯 | 这 | 也 | 是 | 事实。 |
0 | 1 | 2 | 3 | 4 | 5 | 6 7 | 8 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 18 |
W<sub>0</sub> | W<sub>1</sub> | W<sub>2</sub> | W<sub>3</sub> |
该表的第二行表示每个词的位置编号,第三行表示“嗯”重复出现的位置。则根据公式可算得:
步骤S402,根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语。
步骤S403,如果当前词是说话人的习惯用语,则将当前词标记为所述目标信息。
习惯用语检测模型可以通过预先收集大量说话人语音数据构建得到,作为示例,具体构建时,首先对所述语音数据进行语音识别后,得到对应文本数据;再以词为单位,标注文本数据中每个词是否为习惯用语,如使用1表示是习惯用语,0表示不是习惯用语,并提取每个词的习惯用语特征;最后,将每个词的标注结果及提取的习惯用语特征作为训练数据,训练得到习惯用语检测模型。具体训练时,将每个词的习惯用语特征作为模型输入,输出则为每个词的标注结果。所述习惯用语检测模型可以为模式识别中常用分类模型,例如支持向量机模型、条件随机场模型、神经网络模型,等等,对此本实施例并不进行限制。
利用所述习惯用语检测模型进行检测时,将当前词的习惯用语特征作为习惯用语检测模型的输入,输出为该词的检测结果,如果为习惯用语,则标记为1,否则标记为0。
例如当前句为“嗯,是的,嗯嗯你完全可以这么说,嗯这也是事实”,则可得到如下检测结果:
“嗯/1,是/0的/0,嗯/1嗯/1你/0完/0全/0可/0以/0这/0么/0说/0,嗯/1这/0也/0是/0事/0实/0”。
此外,为了使隐私词定位的更加准确,还可以对隐私词的定位结果进行人工检查,为漏掉的隐私词也添加标记。由于一般文本数据中包含的隐私句较少,人工检查隐私句中的隐私词通常并不会占用太多时间,工作量也较少。
例如,检测到的隐私句如下:
“你把钱打到张三的农行卡上,号码是6666623847294748,一会把卡号发给你”
利用隐私词表检测到的隐私词为“农行”,利用命名实体检测算法检测到的命名实体为“张三”,人工检查到的隐私词为“6666623847294748”。那么对所述隐私句中的隐私词和命名实体进行标记,可以如下:
“你/0把/0钱/0打到/0张三/1的/0农行/1卡上,号码/0是/06666623847294748/1,一会把卡号发你”。
其中隐私词和命名实体使用“1”表示,其它词使用“0”表示,当然也可以使用其它符号进行标记,本发明实施例并不进行限制。
在本实施例中,将语音数据转换为文本信息后,可根据预设规则识别出文本信息中所包含的说话人隐私等目标信息,然后对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,例如删除该语音片段等。这样便使说话人隐私等目标信息的内容无法被别人获知,保护了说话人的隐私等权益,从而消除了语音数据在传播过程中的顾虑和阻碍,实现了隐私保护与语音传播的兼顾。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据本发明一示例性实施例示出的一种语音处理装置的示意图。作为示例该装置可用于手机、录音机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。
参见图5所示,该装置可以包括:
语音获取模块501,用于获取语音数据。
文本转换模块502,用于将所述语音数据转换为文本信息。
信息识别模块503,用于根据预设规则,识别出所述文本信息中所包含的目标信息。
语音处理模块504,用于对所述语音数据中与所述目标信息相对应的语音片段进行预设处理。
在本实施例或本发明其他某些实施例中,作为一种示例,所述目标信息可以包括说话人的隐私信息;
相应的,参见图6所示,所述信息识别模块可以包括:
隐私特征获取子模块601,用于对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关;
隐私句判断子模块602,用于根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句;
隐私句处理子模块603,用于当当前句为隐私句时,根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
在本实施例或本发明其他某些实施例中,所述隐私特征获取子模块具体可以用于:
获取当前句中每个词的词向量;
根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数;
根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
在本实施例或本发明其他某些实施例中,所述隐私特征获取子模块在根据所述隐私词表及所述隐私句判定模型的训练数据,获取当前句中每个词的隐私系数时,可以用于:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值。
在本实施例或本发明其他某些实施例中,作为另一种示例,所述目标信息也可以包括说话人的习惯用语;
相应的,参见图7所示,所述信息识别模块可以包括:
习惯用语特征获取子模块701,用于对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离;
习惯用语判断子模块702,用于根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语;
习惯用语处理子模块703,用于当当前词是说话人的习惯用语时,将当前词标记为所述目标信息。
在本实施例或本发明其他某些实施例中,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,所述习惯用语特征获取子模块可以用于:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
此外在本实施例或本发明其他某些实施例中,所述语音处理模块可以用于:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。
在本实施例中,将语音数据转换为文本信息后,可根据预设规则识别出文本信息中所包含的说话人隐私等目标信息,然后对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,例如删除该语音片段等。这样便使说话人隐私等目标信息的内容无法被别人获知,保护了说话人的权益,从而消除了语音数据在传播过程中的顾虑和阻碍,实现了隐私保护与语音传播的兼顾。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (14)
1.一种语音处理方法,其特征在于,所述方法包括:
获取语音数据;
将所述语音数据转换为文本信息;
根据预设规则,识别出所述文本信息中所包含的目标信息;所述目标信息是指能够辨认说话人隐私的信息或者违法信息;
对所述语音数据中与所述目标信息相对应的语音片段进行预设处理;其中,所述预设处理包括删除所述语音片段。
2.根据权利要求1所述的方法,其特征在于,所述目标信息包括说话人的隐私信息;
根据预设规则,识别出所述文本信息中所包含的目标信息,包括:
对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关;
根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句;
如果当前句为隐私句,则根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
3.根据权利要求2所述的方法,其特征在于,获取当前句的隐私特征,包括:
获取当前句中每个词的词向量;
根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数;
根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
4.根据权利要求3所述的方法,其特征在于,根据所述隐私词表及所述隐私句判定模型的训练数据,获取当前句中每个词的隐私系数,包括:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值。
5.根据权利要求1所述的方法,其特征在于,所述目标信息包括说话人的习惯用语;
根据预设规则,识别出所述文本信息中所包含的目标信息,包括:
对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离;
根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语;
如果当前词是说话人的习惯用语,则将当前词标记为所述目标信息。
6.根据权利要求5所述的方法,其特征在于,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,获取当前词在当前句中重复出现的平均间隔距离,包括:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
7.根据权利要求1所述的方法,其特征在于,对所述语音数据中与所述目标信息相对应的语音片段进行预设处理,包括:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。
8.一种语音处理装置,其特征在于,所述装置包括:
语音获取模块,用于获取语音数据;
文本转换模块,用于将所述语音数据转换为文本信息;
信息识别模块,用于根据预设规则,识别出所述文本信息中所包含的目标信息;所述目标信息是指能够辨认说话人隐私的信息或者违法信息;
语音处理模块,用于对所述语音数据中与所述目标信息相对应的语音片段进行预设处理;其中,所述预设处理包括删除所述语音片段。
9.根据权利要求8所述的装置,其特征在于,所述目标信息包括说话人的隐私信息;
所述信息识别模块包括:
隐私特征获取子模块,用于对于所述文本信息中每句文本,获取当前句的隐私特征,其中当前句的隐私特征与当前句中所含有的隐私词的数量正相关;
隐私句判断子模块,用于根据预先构建的隐私句检测模型及当前句的隐私特征,判断当前句是否为隐私句;
隐私句处理子模块,用于当当前句为隐私句时,根据预先构建的隐私词表,将当前句中的隐私词标记为所述目标信息。
10.根据权利要求9所述的装置,其特征在于,所述隐私特征获取子模块用于:
获取当前句中每个词的词向量;
根据所述隐私词表及所述隐私句检测模型的训练数据,获取当前句中每个词的隐私系数;
根据当前句中每个词的词向量与隐私系数乘积的和,获取当前句的隐私特征。
11.根据权利要求10所述的装置,其特征在于,所述隐私特征获取子模块在根据所述隐私词表及所述隐私句判定模型的训练数据,获取当前句中每个词的隐私系数时,用于:
在所述隐私词表中查找当前词;
如果在所述隐私词表中未查到当前词,则根据隐私句检测模型的训练数据及当前词在当前句中出现的次数计算当前词的隐私系数;
如果在所述隐私词表中查到当前词,则将当前词的隐私系数设置为隐私系数取值的最大值。
12.根据权利要求8所述的装置,其特征在于,所述目标信息包括说话人的习惯用语;
所述信息识别模块包括:
习惯用语特征获取子模块,用于对于所述文本信息中每句文本,获取当前句中当前词的习惯用语特征,其中所述习惯用语特征包括以下特征中的至少一种:当前词的词向量、当前词包含的字数、当前词在当前句中出现的次数、当前词在当前句中重复出现的平均间隔距离;
习惯用语判断子模块,用于根据当前词的习惯用语特征及预先构建的习惯用语检测模型,判断当前词是否为说话人的习惯用语;
习惯用语处理子模块,用于当当前词是说话人的习惯用语时,将当前词标记为所述目标信息。
13.根据权利要求12所述的装置,其特征在于,当所述习惯用语特征包括当前词在当前句中重复出现的平均间隔距离时,所述习惯用语特征获取子模块用于:
获取当前词在当前句中每次出现的位置;
计算相邻两个所述位置之间的距离;
将所述距离的平均值作为所述平均间隔距离。
14.根据权利要求8所述的装置,其特征在于,所述语音处理模块用于:
删除所述语音片段;或者,
将所述语音片段中人声与背景音分离后,将人声滤除,仅保留背景音;或者,
对所述语音片段进行快进处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610946301.2A CN106504744B (zh) | 2016-10-26 | 2016-10-26 | 一种语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610946301.2A CN106504744B (zh) | 2016-10-26 | 2016-10-26 | 一种语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106504744A CN106504744A (zh) | 2017-03-15 |
CN106504744B true CN106504744B (zh) | 2020-05-01 |
Family
ID=58322890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610946301.2A Active CN106504744B (zh) | 2016-10-26 | 2016-10-26 | 一种语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106504744B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726855B2 (en) * | 2017-03-15 | 2020-07-28 | Guardian Glass, Llc. | Speech privacy system and/or associated method |
CN108630193B (zh) * | 2017-03-21 | 2020-10-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
CN107133216A (zh) * | 2017-05-24 | 2017-09-05 | 上海与德科技有限公司 | 一种消息处理方法及装置 |
CN109215640B (zh) * | 2017-06-30 | 2021-06-01 | 深圳大森智能科技有限公司 | 语音识别方法、智能终端及计算机可读存储介质 |
CN107424612B (zh) * | 2017-07-28 | 2021-07-06 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107767870B (zh) * | 2017-09-29 | 2021-03-23 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
US10453447B2 (en) * | 2017-11-28 | 2019-10-22 | International Business Machines Corporation | Filtering data in an audio stream |
CN107993665B (zh) * | 2017-12-14 | 2021-04-30 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及系统 |
CN108091332A (zh) * | 2017-12-27 | 2018-05-29 | 盯盯拍(深圳)技术股份有限公司 | 基于行车记录仪的语音处理方法以及基于行车记录仪的语音处理装置 |
CN109104258B (zh) * | 2018-07-23 | 2020-09-18 | 四川大学 | 一种基于关键词识别的无线电识别方法 |
CN109147767A (zh) * | 2018-08-16 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音中的数字识别方法、装置、计算机设备及存储介质 |
CN109376224B (zh) * | 2018-10-24 | 2020-07-21 | 深圳市壹鸽科技有限公司 | 语料过滤方法与装置 |
CN109686369A (zh) * | 2018-12-21 | 2019-04-26 | 秒针信息技术有限公司 | 音频处理方法和装置 |
CN109754648A (zh) * | 2019-03-06 | 2019-05-14 | 北京大学第一医院 | 一种分析临床访谈质量的教学方法及装置 |
JP7229821B2 (ja) * | 2019-03-15 | 2023-02-28 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN112151042A (zh) * | 2019-06-27 | 2020-12-29 | 中国电信股份有限公司 | 声纹识别方法、装置和系统、计算机可读存储介质 |
CN110992957B (zh) * | 2019-11-15 | 2023-09-08 | 东华大学 | 基于隐私保护的语音数据处理方法 |
CN111083292A (zh) * | 2019-11-18 | 2020-04-28 | 集奥聚合(北京)人工智能科技有限公司 | 用于智能语音外呼系统的语料处理方法以及系统 |
WO2021120174A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN111583930A (zh) * | 2020-03-26 | 2020-08-25 | 大众问问(北京)信息科技有限公司 | 一种行车通话方法、装置及电子设备 |
CN111597580B (zh) * | 2020-05-13 | 2023-04-14 | 贵州大学 | 机器人听觉隐私信息监听处理方法 |
CN111883128A (zh) * | 2020-07-31 | 2020-11-03 | 中国工商银行股份有限公司 | 语音处理方法及系统、语音处理装置 |
CN111985208B (zh) * | 2020-08-18 | 2024-03-26 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现标点符号填充的方法、装置及设备 |
CN113033191A (zh) * | 2021-03-30 | 2021-06-25 | 上海思必驰信息科技有限公司 | 语音数据处理方法、电子设备及计算机可读存储介质 |
US20220399009A1 (en) * | 2021-06-09 | 2022-12-15 | International Business Machines Corporation | Protecting sensitive information in conversational exchanges |
CN114267352B (zh) * | 2021-12-24 | 2023-04-14 | 北京信息科技大学 | 一种语音信息处理方法及电子设备、计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168377A (zh) * | 2014-08-18 | 2014-11-26 | 小米科技有限责任公司 | 通话方法及装置 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN105741842A (zh) * | 2016-01-07 | 2016-07-06 | 中国农业大学 | 一种基于食品安全语料数据的语音匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2016
- 2016-10-26 CN CN201610946301.2A patent/CN106504744B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104168377A (zh) * | 2014-08-18 | 2014-11-26 | 小米科技有限责任公司 | 通话方法及装置 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
CN105405439A (zh) * | 2015-11-04 | 2016-03-16 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN105741842A (zh) * | 2016-01-07 | 2016-07-06 | 中国农业大学 | 一种基于食品安全语料数据的语音匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106504744A (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504744B (zh) | 一种语音处理方法及装置 | |
CN107239666B (zh) | 一种对医疗影像数据进行脱敏处理的方法及系统 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN109993112A (zh) | 一种图片中表格的识别方法及装置 | |
CN109472207B (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN104078044B (zh) | 移动终端及其录音搜索的方法和装置 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
CN109993040A (zh) | 文本识别方法及装置 | |
CN103916513A (zh) | 在通信终端记录通话信息的方法和设备 | |
US10930286B2 (en) | Method and system for muting classified information from an audio | |
CN104598644A (zh) | 用户喜好标签挖掘方法和装置 | |
CN111797820B (zh) | 一种视频数据处理方法、装置、电子设备及存储介质 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
US20230089308A1 (en) | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering | |
CN112149680B (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN109858427A (zh) | 一种语料提取方法、装置及终端设备 | |
CN112541095B (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN112417850A (zh) | 音频标注的检错方法和装置 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN110955796B (zh) | 一种基于笔录信息的案件特征信息提取方法及装置 | |
KR101721063B1 (ko) | 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체 | |
KR20160068441A (ko) | 개인 정보 보호를 위한 장치 및 기록 매체 | |
WO2023001308A1 (zh) | 文本识别方法及装置、计算机可读存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |