CN113782027A - 音频处理方法及音频处理装置 - Google Patents

音频处理方法及音频处理装置 Download PDF

Info

Publication number
CN113782027A
CN113782027A CN202111020935.2A CN202111020935A CN113782027A CN 113782027 A CN113782027 A CN 113782027A CN 202111020935 A CN202111020935 A CN 202111020935A CN 113782027 A CN113782027 A CN 113782027A
Authority
CN
China
Prior art keywords
audio
input
information
audio information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111020935.2A
Other languages
English (en)
Inventor
王智鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Hangzhou Co Ltd
Original Assignee
Vivo Mobile Communication Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Hangzhou Co Ltd filed Critical Vivo Mobile Communication Hangzhou Co Ltd
Priority to CN202111020935.2A priority Critical patent/CN113782027A/zh
Publication of CN113782027A publication Critical patent/CN113782027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Abstract

本申请公开了一种音频处理方法、音频处理装置,属于通信技术领域。音频处理方法包括:根据第一音频信息,生成对应的文本信息;对文本信息进行分段处理,得到N段文本片段,其中,N为正整数;在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息,其中第二音频信息中不包含隐私内容。

Description

音频处理方法及音频处理装置
技术领域
本申请属于通信技术领域,具体涉及一种音频处理方法、音频处理装置。
背景技术
在相关技术中,用户在通过电子设备(如:手机等)进行录音时,可能会录入一些隐私信息,而目前电子设备对录音内容的记录,仅限于记录标题内容和由用户进行的内容标注。用户在分享或播放录音时,一般会根据标题内容和内容标注,来确认录音内容,而不会从头到尾听一遍录音内容,因此可能会暴露隐私内容。
同时,由于音频编辑需要使用较为专业的应用软件,即使用户知晓录音中存在隐私,也只能通过专业编辑软件对录音内容进行处理,或重录录音内容,造成使用不便。
发明内容
本申请实施例的目的是提供一种音频处理方法、音频处理装置,能够实现自动识别录音内容中是否包含隐私内容,并在确定录音内容包含隐私内容时,自动对隐私内容进行处理。
第一方面,本申请实施例提供了一种音频处理方法,包括:
根据第一音频信息,生成对应的文本信息;
对文本信息进行分段处理,得到N段文本片段,其中,N为正整数;
在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息,其中第二音频信息中不包含隐私内容。
第二方面,本申请实施例提供了一种音频处理装置,包括:
生成模块,用于根据第一音频信息,生成对应的文本信息;
分段模块,用于对文本信息进行分段处理,得到N段文本片段,其中N为正整数;
处理模块,用于在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息,其中第二音频信息中不包含隐私内容。
第三方面,本申请实施例提供了一种电子设备,包括处理器,存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的方法的步骤。
第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面的方法的步骤。
本申请实施例通过将音频转化为文字的方式,对转化后的文本信息进行语义识别,从而自动检测音频信息中是否包含隐私内容,用户无需从头到尾听完音频信息来人工判断其中是否包含隐私,并在音频信息中包含隐私时,自动对隐私内容进行隐藏处理,得到不包含隐私内容的第二音频信息,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容。
附图说明
图1示出了根据本申请实施例的音频处理方法的流程图;
图2示出了根据本申请实施例的音频处理方法的界面示意图之一;
图3示出了根据本申请实施例的音频处理方法的界面示意图之二;
图4示出了根据本申请实施例的音频处理方法的界面示意图之三;
图5示出了根据本申请实施例的音频处理装置的结构框图;
图6示出了根据本申请实施例的电子设备的结构框图;
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法、音频处理装置、电子设备和存储介质进行详细地说明。
在本申请的一些实施例中,提供了一种音频处理方法,图1示出了根据本申请实施例的音频处理方法的流程图,如图1所示,方法包括:
步骤102,根据第一音频信息,生成对应的文本信息;
步骤104,对文本信息进行分段处理,得到N段文本片段,其中,N为正整数;
步骤106,在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息。
其中,第二音频信息中不包含隐私内容。
在本申请实施例中,第一音频信息可以是用户录音得到的音频,也可以是保存在本地或网络的音频信息。在确定第一音频信息后,通过语音识别检测算法,将第一音频中的语音部分,识别成文字,并生成对应的文本信息。
进一步地,将生成的文本信息,按照语义分析算法,将文本信息分段处理为N段文本片段,其中每个文本片段中均包含至少一个关键语义,如一个动作、一个名词或一串数字等。举例来说,“小A去超市买了一个西瓜”,就可以分段处理为“小A”、“去超市”、“买了”、“一个”、“西瓜”。再次举例来说,“小B的电话号码是:1XXXXXXXXXX”,可以分段处理为“小B的”、“电话号码是”、“1XXXXXXXXXX”。
然后,基于预设的规则,识别N段文本片段中的每一段文本片段,并判断其中是否包含隐私内容,如地址、电话号码、身份证号码等,并将包含隐私内容的文本片段,标记为目标文本片段。以上述举例2来说,在“小B的电话号码是:1XXXXXXXXXX”中,“1XXXXXXXXXX”的电话号码即使一个可能的隐私内容。在判断时,预设规则就可以是“11位数字”,也在分段处理后的文本片段中,发现某个文本片段包括11位数字,则将该文本片段标记为目标文本片段。
更进一步地,图2示出了根据本申请实施例的音频处理方法的界面示意图之一,如图2所示,电子设备200的显示界面中,显示有第一音频信息的波形202,在确定了目标文本片段后,标记出其中包括了隐私内容的音频片段的波形204,根据目标文本片段,对第一音频信息进行处理,具体为在第一音频信息中,隐去目标文本片段对应的音频片段,如对目标文本片段对应的音频片段进行噪声处理,或将目标文本片段对应的音频片段的音量降低为0,或通过预设的音乐替换目标文本片段对应的音频片段,还可以删除目标文本片段对应的音频片段。从而根据目标文本片段,得到不包含隐私内容的第二音频信息。
在用户需要对第一音频信息进行分享或播放时,可以通过分享或播放脱敏后的第二音频信息,来防止隐私内容的泄露。
本申请实施例通过将音频转化为文字的方式,对转化后的文本信息进行语义识别,从而自动检测音频信息中是否包含隐私内容,用户无需从头到尾听完音频信息来人工判断其中是否包含隐私,并在音频信息中包含隐私时,自动对隐私内容进行隐藏处理,得到不包含隐私内容的第二音频信息,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容,从而有效地提高了用户体验。
在本申请的一些实施例中,根据目标文本片段,对第一音频信息进行处理,包括:
根据目标文本片段,在第一音频信息中确定对应的音频片段;
显示第一提示信息,第一提示信息包括隐私内容和音频片段对应的标识;
接收第一输入,第一输入为对预设的处理方式进行选择的输入;
响应于第一输入,确定对应的目标处理方式,其中,目标处理方式包括以下至少一种:删除音频片段、加密音频片段、隐藏音频片段;
根据目标处理方式,对第一音频信息进行处理。
在本申请实施例中,在标记了可能包含隐私内容的目标文本片段后,首先在第一音频信息中,确定该目标文本片段对应的音频片段。具体地,在根据第一音频信息生成文本信息时,可对应标记生成的文本内容,在音频信息中出现的时间。比如说,音频时长为5秒,根据音频生成了文本内容“一二三四五”,现在将其逐字分段处理,得到“一”、“二”、“三”、“四”、“五”共5个文本片段。其中,“三”字出现的时间是第3秒,“四”字出现的时间是第4秒,则文本片段“三”对应的音频片段,即使第3秒至第4秒之间的音频。
进一步地,在得到对应的音频片段之后,显示第一提示信息,第一提示信息用于提示用户,在第一音频中出现了隐私内容,具体地,图3示出了根据本申请实施例的音频处理方法的界面示意图之二,如图3所示,第一提示信息可以包括识别到的隐私内容对应的文本片段,和隐私内容对应的音频片段的标识。如:“在音频中识别出隐私内容:1XXXXXXXXXX,疑似手机号码,该内容出现在音频第17秒至第21秒”,用户可根据该第一提示信息判断是否确实为隐私内容。其中,第一提示信息可以通过弹出窗口的方式显示,也可以通过“弹幕”或“屏幕字幕”的方式进行显示。
在阅读第一提示信息后,用户可以判断目标文本片段中的内容是否是隐私内容,如果用户确定第一提示信息中出现的文本片段为隐私内容,则可以通过第一输入,在多个预设的处理方式中,选出目标处理方式,通过目标处理方式对第一音频信息,具体为第一音频信息中包含隐私内容的音频片段进行处理,如对包含隐私内容的音频片段进行噪声处理,或对包含隐私内容的音频片段进行删除处理等,从而得到不包含隐私内容的第二音频,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容,从而有效地提高了用户体验。
其中,目标处理方式包括删除音频片段,也就是说,在原始的第一音频信息中,将包含隐私内容的音频片段删除,得到音频片段之前的音频部分,和音频片段之后的音频部分,按照先后顺序,将音频片段之前的音频部分,和音频片段之后的音频部分首尾相接,即得到处理后的第二音频信息。
目标处理方式还包括加密音频片段。其中,加密音频片段具体为在第一音频信息中,将包含隐私内容的音频片段“剪切”出来,并加密保存。其中,将包含隐私内容的音频片段剪切出来后,余下的音频片段之前的音频部分,和音频片段之后的音频部分,可参照上述删除音频片段的处理方式进行处理。
同时,将包含隐私内容的音频片段进行单独加密保存之后,如需要查看该隐私内容,可通过输入密码、输入指纹、输入面部信息等方式,对加密后的音频片段进行解密,从而得到其中的隐私内容。
目标处理方式还包括隐藏音频片段。具体地,首先可按照删除音频片段的方式,将包含隐私内容的音频片段从第一音频中删去,得到音频片段之前的音频部分,和音频片段之后的音频部分。然后,根据删除的音频片段的时长,生成时长相同的噪声音频,噪声音频可以是如雨声、动物鸣叫或纯音乐等,通过噪声音频替代包含隐私内容的音频片段,从而使第二音频信息中,对应的音频片段被噪声音频所代替,同时可以保证生成的第二音频信息的时长与第一音频的时长相同。
本申请实施例通过设置多种处理方式,丰富了用户在处理隐私内容时的选择,提高了用户体验。
在本申请的一些实施例中,在对第一音频信息进行处理,得到处理后的第二音频信息之后,音频处理方法还包括:
接收第二输入,第二输入为用于对第一音频信息进行播放的输入;
响应于第二输入,显示第二提示信息,第二提示信息为隐私内容对应的提示信息;
接收第三输入,第三输入为对第一音频信息或第二音频信息进行选择的输入;
响应于第三输入,播放第一音频信息,或播放第二音频信息。
在本申请实施例中,在对第一音频信息进行处理,得到了去除隐私内容的第二音频信息之后,对应保存第一音频信息和第二音频信息。如果后续用户需要播放录音,则可以通过第二输入,选择第一音频信息,并点击播放按钮。在接收到第二输入后,首先,显示第二提示消息,其中,第二提示消息包括隐私内容,即第一音频信息中包含的隐私内容,比如:“您当前选择播放的音频中包含隐私内容,具体为手机号码”。
用户在看到第二提示信息后,如果当前场景可以暴露隐私内容,如手机号码,则可以通过第三输入选择播放原始的第一音频信息。如果当前场景不适于暴露隐私内容,则可以通过第三输入选择播放去除了隐私内容之后的第二音频信息,从而保证隐私安全。
在本申请的一些实施例中,在根据第一音频信息,生成对应的文本信息之前,方法还包括:
接收第四输入,第四输入为用于录音的输入;
响应于第四输入,开始录音,得到第一音频信息。
在本申请实施例中,第一音频信息具体为通过录音生成的音频信息。具体地,电子设备接收用户的第四输入,在接收到第四输入后,调用电子设备的拾音器件开始录音,并在录音结束后,生成第一音频信息。
其中,在第一音频信息的录制过程中,可以根据已经录制的音频部分,实时生成文本信息,并识别其中是否包括隐私内容,如果包括隐私内容,则将其进行记录,并标记隐私内容对应的音频片段。在用户完成录音之后,能够在第一时间向用户展示第一提示信息,提高用户的使用体验。
在本申请的一些实施例中,在根据目标文本片段,对第一音频信息进行处理之前,方法还包括:
显示第三提示信息,第三提示信息包括对隐私内容的识别结果;
接收第五输入,第五输入为对文本片段进行确认的输入;
响应于第五输入,将文本片段确定为隐私内容,或确定为非隐私内容。
在本申请实施例中,在确定目标文本片段包括隐私内容后,可显示第三提示信息,其中,第三提示信息包括识别到的隐私内容,和对应的识别结果。举例来说,图4示出了根据本申请实施例的音频处理方法的界面示意图之三,如图4所示,第三提示信息包括:“识别到疑似隐私内容:1XXXXXXXXXX,请确认是否为隐私内容”。
此时,用户可以判断识别到的疑似隐私内容是否确实为隐私内容,如果用户认定该内容是隐私内容,可通过第五输入,将该内容标记为隐私内容,如用户认定该内容不是隐私内容,则通过第五输入,将该内容标记为非隐私内容。
本申请实施例,在检测到疑似隐私内容后,显示该内容供用户确认,从而提高了对隐私内容识别的准确率。
在本申请的一些实施例中,提供了一种音频处理装置,图5示出了根据本申请实施例的音频处理装置的结构框图,如图5所示,音频处理装置500包括:
生成模块502,用于根据第一音频信息,生成对应的文本信息;
分段模块504,用于对文本信息进行分段处理,得到N段文本片段,其中,N为正整数;
处理模块506,用于在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息,其中第二音频信息中不包含隐私内容。
在本申请实施例中,第一音频信息可以是用户录音得到的音频,也可以是保存在本地或网络的音频信息。在确定第一音频信息后,通过语音识别检测算法,将第一音频中的语音部分,识别成文字,并生成对应的文本信息。
进一步地,将生成的文本信息,按照语义分析算法,将文本信息分段处理为N段文本片段,其中每个文本片段中均包含至少一个关键语义,如一个动作、一个名词或一串数字等。举例来说,“小A去超市买了一个西瓜”,就可以分段处理为“小A”、“去超市”、“买了”、“一个”、“西瓜”。再次举例来说,“小B的电话号码是:1XXXXXXXXXX”,可以分段处理为“小B的”、“电话号码是”、“1XXXXXXXXXX”。
然后,基于预设的规则,识别N段文本片段中的每一段文本片段,并判断其中是否包含隐私内容,如地址、电话号码、身份证号码等,并将包含隐私内容的文本片段,标记为目标文本片段。以上述举例2来说,在“小B的电话号码是:1XXXXXXXXXX”中,“1XXXXXXXXXX”的电话号码即使一个可能的隐私内容。在判断时,预设规则就可以是“11位数字”,也在分段处理后的文本片段中,发现某个文本片段包括11位数字,则将该文本片段标记为目标文本片段。
更进一步地,图2示出了根据本申请实施例的音频处理方法的界面示意图之一,如图2所示,在确定了目标文本片段后,根据目标文本片段,对第一音频信息进行处理,具体为在第一音频信息中,隐去目标文本片段对应的音频片段,如对目标文本片段对应的音频片段进行噪声处理,或将目标文本片段对应的音频片段的音量降低为0,或通过预设的音乐替换目标文本片段对应的音频片段,还可以删除目标文本片段对应的音频片段。从而根据目标文本片段,得到不包含隐私内容的第二音频信息。
在用户需要对第一音频信息进行分享或播放时,可以通过分享或播放脱敏后的第二音频信息,来防止隐私内容的泄露。
本申请实施例通过将音频转化为文字的方式,对转化后的文本信息进行语义识别,从而自动检测音频信息中是否包含隐私内容,用户无需从头到尾听完音频信息来人工判断其中是否包含隐私,并在音频信息中包含隐私时,自动对隐私内容进行隐藏处理,得到不包含隐私内容的第二音频信息,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容,从而有效地提高了用户体验。
在本申请的一些实施例中,音频处理装置,还包括:
第一确定模块,用于根据目标文本片段,在第一音频信息中确定对应的音频片段;
第一显示模块,用于显示第一提示信息,第一提示信息包括隐私内容和音频片段对应的标识;
第一接收模块,用于接收第一输入,第一输入为对预设的处理方式进行选择的输入;
第一确定模块,还用于响应于第一输入,确定对应的目标处理方式,其中,目标处理方式包括以下至少一种:删除音频片段、加密音频片段、隐藏音频片段;
处理模块,还用于根据目标处理方式,对第一音频信息进行处理。
在本申请实施例中,在标记了可能包含隐私内容的目标文本片段后,首先在第一音频信息中,确定该目标文本片段对应的音频片段。具体地,在根据第一音频信息生成文本信息时,可对应标记生成的文本内容,在音频信息中出现的时间。比如说,音频时长为5秒,根据音频生成了文本内容“一二三四五”,现在将其逐字分段处理,得到“一”、“二”、“三”、“四”、“五”共5个文本片段。其中,“三”字出现的时间是第3秒,“四”字出现的时间是第4秒,则文本片段“三”对应的音频片段,即使第3秒至第4秒之间的音频。
进一步地,在得到对应的音频片段之后,显示第一提示信息,第一提示信息用于提示用户,在第一音频中出现了隐私内容,具体地,图3示出了根据本申请实施例的音频处理方法的界面示意图之二,如图3所示,第一提示信息可以包括识别到的隐私内容对应的文本片段,和隐私内容对应的音频片段的标识。如:“在音频中识别出隐私内容:1XXXXXXXXXX,疑似手机号码,该内容出现在音频第17秒至第21秒”,用户可根据该第一提示信息判断是否确实为隐私内容。其中,第一提示信息可以通过弹出窗口的方式显示,也可以通过“弹幕”或“屏幕字幕”的方式进行显示。
在阅读第一提示信息后,用户可以判断目标文本片段中的内容是否是隐私内容,如果用户确定第一提示信息中出现的文本片段为隐私内容,则可以通过第一输入,在多个预设的处理方式中,选出目标处理方式,通过目标处理方式对第一音频信息,具体为第一音频信息中包含隐私内容的音频片段进行处理,如对包含隐私内容的音频片段进行噪声处理,或对包含隐私内容的音频片段进行删除处理等,从而得到不包含隐私内容的第二音频,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容。
其中,目标处理方式包括删除音频片段,也就是说,在原始的第一音频信息中,将包含隐私内容的音频片段删除,得到音频片段之前的音频部分,和音频片段之后的音频部分,按照先后顺序,将音频片段之前的音频部分,和音频片段之后的音频部分首尾相接,即得到处理后的第二音频信息。
目标处理方式还包括加密音频片段。其中,加密音频片段具体为在第一音频信息中,将包含隐私内容的音频片段“剪切”出来,并加密保存。其中,将包含隐私内容的音频片段剪切出来后,余下的音频片段之前的音频部分,和音频片段之后的音频部分,可参照上述删除音频片段的处理方式进行处理。
同时,将包含隐私内容的音频片段进行单独加密保存之后,如需要查看该隐私内容,可通过输入密码、输入指纹、输入面部信息等方式,对加密后的音频片段进行解密,从而得到其中的隐私内容。
目标处理方式还包括隐藏音频片段。具体地,首先可按照删除音频片段的方式,将包含隐私内容的音频片段从第一音频中删去,得到音频片段之前的音频部分,和音频片段之后的音频部分。然后,根据删除的音频片段的时长,生成时长相同的噪声音频,噪声音频可以是如雨声、动物鸣叫或纯音乐等,通过噪声音频替代包含隐私内容的音频片段,从而使第二音频信息中,对应的音频片段被噪声音频所代替,同时可以保证生成的第二音频信息的时长与第一音频的时长相同。
本申请实施例通过设置多种处理方式,丰富了用户在处理隐私内容时的选择,提高了用户体验。
在本申请的一些实施例中,第一接收模块,还用于接收第二输入,第二输入为用于对第一音频信息进行播放的输入;
第一显示模块,还用于响应于第二输入,显示第二提示信息,第二提示信息为隐私内容对应的提示信息;
第一接收模块,还用于接收第三输入,第三输入为对第一音频信息或第二音频信息进行选择的输入;
音频处理装置还包括:
播放模块,用于响应于第三输入,播放第一音频信息,或播放第二音频信息。
在本申请实施例中,在对第一音频信息进行处理,得到了去除隐私内容的第二音频信息之后,对应保存第一音频信息和第二音频信息。如果后续用户需要播放录音,则可以通过第二输入,选择第一音频信息,并点击播放按钮。在接收到第二输入后,首先,显示第二提示消息,其中,第二提示消息包括隐私内容,即第一音频信息中包含的隐私内容,比如:“您当前选择播放的音频中包含隐私内容,具体为手机号码”。
用户在看到第二提示信息后,如果当前场景可以暴露隐私内容,如手机号码,则可以通过第三输入选择播放原始的第一音频信息。如果当前场景不适于暴露隐私内容,则可以通过第三输入选择播放去除了隐私内容之后的第二音频信息,从而保证隐私安全。
在本申请的一些实施例中,音频处理方法还包括:第二接收模块,用于接收第四输入,第四输入为用于录音的输入;录音模块,用于响应于第四输入,开始录音,得到第一音频信息。
在本申请实施例中,第一音频信息具体为通过录音生成的音频信息。具体地,电子设备接收用户的第四输入,在接收到第四输入后,调用电子设备的拾音器件开始录音,并在录音结束后,生成第一音频信息。
其中,在第一音频信息的录制过程中,可以根据已经录制的音频部分,实时生成文本信息,并识别其中是否包括隐私内容,如果包括隐私内容,则将其进行记录,并标记隐私内容对应的音频片段。在用户完成录音之后,能够在第一时间向用户展示第一提示信息,提高用户的使用体验。
在本申请的一些实施例中,音频处理装置还包括:第二显示模块,用于显示第三提示信息,第三提示信息包括隐私内容的识别结果;
第二接收模块,还用于接收第五输入,第五输入为对文本片段进行确认的输入;
音频处理装置还包括:
第三确定模块,用于响应于第五输入,将文本片段确定为隐私内容,或确定为非隐私内容。
在本申请实施例中,在确定目标文本片段包括隐私内容后,可显示第三提示信息,其中,第三提示信息包括识别到的隐私内容,和对应的识别结果。举例来说,图4示出了根据本申请实施例的音频处理方法的界面示意图之三,如图4所示,第三提示信息包括:“识别到疑似隐私内容:1XXXXXXXXXX,请确认是否为隐私内容”。
此时,用户可以判断识别到的疑似隐私内容是否确实为隐私内容,如果用户认定该内容是隐私内容,可通过第四输入,将该内容标记为隐私内容,如用户认定该内容不是隐私内容,则通过第四输入,将该内容标记为非隐私内容。
本申请实施例,在检测到疑似隐私内容后,显示该内容供用户确认,从而提高了对隐私内容识别的准确率。
本申请实施例中的音频处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的音频处理装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,本申请实施例还提供一种电子设备,图6示出了根据本申请实施例的电子设备的结构框图,如图6所示,电子设备600包括处理器602,存储器604,存储在存储器604上并可在处理器602上运行的程序或指令,该程序或指令被处理器602执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备2000包括但不限于:射频单元2001、网络模块2002、音频输出单元2003、输入单元2004、传感器2005、显示单元2006、用户输入单元2007、接口单元2008、存储器2009、以及处理器2010等部件。
本领域技术人员可以理解,电子设备2000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器2010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器2010用于根据第一音频信息,生成对应的文本信息;对文本信息进行分段处理,得到N段文本片段,其中N为正整数;在N个文本片段中的目标文本片段包括隐私内容的情况下,根据目标文本片段,对第一音频信息进行处理,得到处理后的第二音频信息,其中第二音频信息中不包含隐私内容。
可选地,处理器2010还用于根据目标文本片段,在第一音频信息中确定对应的音频片段;
显示单元2006用于显示第一提示信息,第一提示信息包括隐私内容和音频片段对应的标识;
用户输入单元2007用于接收第一输入,第一输入为对预设的处理方式进行选择的输入;
处理器2010还用于响应于第一输入,确定对应的目标处理方式,其中,目标处理方式包括以下至少一种:删除音频片段、加密音频片段、隐藏音频片段;根据目标处理方式,对第一音频信息进行处理。
可选地,用户输入单元2007还用于接收第二输入,第二输入为用于对第一音频信息进行播放的输入;
显示单元2006还用于响应于第二输入,显示第二提示信息,第二提示信息为隐私内容对应的提示信息;
用户输入单元2007还用于接收第三输入,第三输入为对第一音频信息或第二音频信息进行选择的输入;
音频输出单元2003用于响应于第三输入,播放第一音频信息,或播放第二音频信息。
可选地,用户输入单元2007还用于接收第四输入,第四输入为用于录音的输入;
处理器2010还用于响应于第四输入,开始录音,得到第一音频信息。
可选地,显示单元2006还用于显示第三提示信息,第三提示信息包括对隐私内容的识别结果;
用户输入单元2007还用于接收第五输入,第五输入为对文本片段进行确认的输入;
处理器2010还用于响应于第五输入,将文本片段确定为隐私内容,或确定为非隐私内容。
本申请实施例通过将音频转化为文字的方式,对转化后的文本信息进行语义识别,从而自动检测音频信息中是否包含隐私内容,用户无需从头到尾听完音频信息来人工判断其中是否包含隐私,并在音频信息中包含隐私时,自动对隐私内容进行隐藏处理,得到不包含隐私内容的第二音频信息,用户可以对第二音频信息进行播放或分享等操作,并无需担忧会暴露隐私内容。
应理解的是,本申请实施例中,输入单元2004可以包括图形处理器(GraphicsProcessing Unit,GPU)20041和麦克风20042,图形处理器20041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。
显示单元2006可包括显示面板20061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板20061。用户输入单元2007包括触控面板20071以及其他输入设备20072。触控面板20071,也称为触摸屏。触控面板20071可包括触摸检测装置和触摸控制器两个部分。其他输入设备20072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器2009可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器2010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器2010中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
根据第一音频信息,生成对应的文本信息;
对所述文本信息进行分段处理,得到N段文本片段,其中,N为正整数;
在所述N个文本片段中的目标文本片段包括隐私内容的情况下,根据所述目标文本片段,对所述第一音频信息进行处理,得到处理后的第二音频信息,其中所述第二音频信息中不包含所述隐私内容。
2.根据权利要求1所述的音频处理方法,其特征在于,所述根据所述目标文本片段,对所述第一音频信息进行处理,包括:
根据所述目标文本片段,在所述第一音频信息中确定对应的音频片段;
显示第一提示信息,所述第一提示信息包括所述隐私内容和所述音频片段对应的标识;
接收第一输入,所述第一输入为对预设的处理方式进行选择的输入;
响应于所述第一输入,确定对应的目标处理方式,其中,所述目标处理方式包括以下至少一种:删除所述音频片段、加密所述音频片段、隐藏所述音频片段;
根据所述目标处理方式,对所述第一音频信息进行处理。
3.根据权利要求2所述的音频处理方法,其特征在于,在所述对所述第一音频信息进行处理,得到处理后的第二音频信息之后,所述方法还包括:
接收第二输入,所述第二输入为用于对所述第一音频信息进行播放的输入;
响应于所述第二输入,显示第二提示信息,所述第二提示信息为所述隐私内容对应的提示信息;
接收第三输入,所述第三输入为对所述第一音频信息或所述第二音频信息进行选择的输入;
响应于所述第三输入,播放所述第一音频信息,或播放所述第二音频信息。
4.根据权利要求1所述的音频处理方法,其特征在于,在所述根据第一音频信息,生成对应的文本信息之前,所述方法还包括:
接收第四输入,所述第四输入为用于录音的输入;
响应于所述第四输入,开始录音,得到所述第一音频信息。
5.根据权利要求1所述的音频处理方法,其特征在于,在所述根据所述目标文本片段,对所述第一音频信息进行处理之前,所述方法还包括:
显示第三提示信息,所述第三提示信息包括对所述隐私内容的识别结果;
接收第五输入,所述第五输入为对所述文本片段进行确认的输入;
响应于所述第五输入,将所述文本片段确定为所述隐私内容,或确定为非隐私内容。
6.一种音频处理装置,其特征在于,包括:
生成模块,用于根据第一音频信息,生成对应的文本信息;
分段模块,用于对所述文本信息进行分段处理,得到N段文本片段,其中,N为正整数;
处理模块,用于在所述N个文本片段中的目标文本片段包括隐私内容的情况下,根据所述目标文本片段,对所述第一音频信息进行处理,得到处理后的第二音频信息,其中所述第二音频信息中不包含所述隐私内容。
7.根据权利要求6所述的音频处理装置,其特征在于,还包括:
第一确定模块,用于根据所述目标文本片段,在所述第一音频信息中确定对应的音频片段;
第一显示模块,用于显示第一提示信息,所述第一提示信息包括所述隐私内容和所述音频片段对应的标识;
第一接收模块,用于接收第一输入,所述第一输入为对预设的处理方式进行选择的输入;
所述第一确定模块,还用于响应于所述第一输入,确定对应的目标处理方式,其中,所述目标处理方式包括以下至少一种:删除所述音频片段、加密所述音频片段、隐藏所述音频片段;
所述处理模块,还用于根据所述目标处理方式,对所述第一音频信息进行处理。
8.根据权利要求7所述的音频处理装置,其特征在于,
所述第一接收模块,还用于接收第二输入,所述第二输入为对所述第一音频信息进行播放的输入;
所述第一显示模块,还用于响应于所述第二输入,显示第二提示信息,所述第二提示信息为所述隐私内容对应的提示信息;
所述第一接收模块,还用于接收第三输入,所述第三输入为对所述第一音频信息或所述第二音频信息进行选择的输入;
所述音频处理装置还包括:
播放模块,用于响应于所述第三输入,播放所述第一音频信息,或播放所述第二音频信息。
9.根据权利要求6所述的音频处理装置,其特征在于,还包括:
第二接收模块,用于接收第四输入,所述第四输入为录音输入;
录音模块,用于响应于所述第四输入,开始录音,得到所述第一音频信息。
10.根据权利要求6所述的音频处理装置,其特征在于,还包括:
第二显示模块,用于显示第三提示信息,所述第三提示信息包括所述隐私内容的识别结果;
所述音频处理装置还包括:
第三接收模块,还用于接收第五输入,所述第五输入为对所述文本片段进行确认的输入;
第二确定模块,用于响应于所述第五输入,将所述文本片段确定为所述隐私内容,或确定为非隐私内容。
CN202111020935.2A 2021-09-01 2021-09-01 音频处理方法及音频处理装置 Pending CN113782027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111020935.2A CN113782027A (zh) 2021-09-01 2021-09-01 音频处理方法及音频处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111020935.2A CN113782027A (zh) 2021-09-01 2021-09-01 音频处理方法及音频处理装置

Publications (1)

Publication Number Publication Date
CN113782027A true CN113782027A (zh) 2021-12-10

Family

ID=78840677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111020935.2A Pending CN113782027A (zh) 2021-09-01 2021-09-01 音频处理方法及音频处理装置

Country Status (1)

Country Link
CN (1) CN113782027A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826734A (zh) * 2022-04-25 2022-07-29 维沃移动通信有限公司 文字识别方法、装置和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9571638B1 (en) * 2016-10-07 2017-02-14 Nedelco, Inc. Segment-based queueing for audio captioning
US20190180759A1 (en) * 2017-12-07 2019-06-13 Interdigital Ce Patent Holdings Device and method for privacy-preserving vocal interaction
CN111062221A (zh) * 2019-12-13 2020-04-24 北京欧珀通信有限公司 数据处理方法、装置、电子设备以及存储介质
CN111756930A (zh) * 2020-06-28 2020-10-09 维沃移动通信有限公司 通信控制方法、通信控制装置、电子设备和可读存储介质
CN111899741A (zh) * 2020-08-06 2020-11-06 上海明略人工智能(集团)有限公司 音频关键词加密方法、装置、存储介质及电子装置
CN112395420A (zh) * 2021-01-19 2021-02-23 平安科技(深圳)有限公司 视频内容检索方法、装置、计算机设备及存储介质
CN112528326A (zh) * 2020-12-09 2021-03-19 维沃移动通信有限公司 信息处理方法、装置及电子设备
CN113011363A (zh) * 2021-03-30 2021-06-22 福州市长乐区极微信息科技有限公司 隐私安全的音频标注处理方法
CN113053393A (zh) * 2021-03-30 2021-06-29 福州市长乐区极微信息科技有限公司 音频标注处理装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9571638B1 (en) * 2016-10-07 2017-02-14 Nedelco, Inc. Segment-based queueing for audio captioning
US20190180759A1 (en) * 2017-12-07 2019-06-13 Interdigital Ce Patent Holdings Device and method for privacy-preserving vocal interaction
CN111062221A (zh) * 2019-12-13 2020-04-24 北京欧珀通信有限公司 数据处理方法、装置、电子设备以及存储介质
CN111756930A (zh) * 2020-06-28 2020-10-09 维沃移动通信有限公司 通信控制方法、通信控制装置、电子设备和可读存储介质
CN111899741A (zh) * 2020-08-06 2020-11-06 上海明略人工智能(集团)有限公司 音频关键词加密方法、装置、存储介质及电子装置
CN112528326A (zh) * 2020-12-09 2021-03-19 维沃移动通信有限公司 信息处理方法、装置及电子设备
CN112395420A (zh) * 2021-01-19 2021-02-23 平安科技(深圳)有限公司 视频内容检索方法、装置、计算机设备及存储介质
CN113011363A (zh) * 2021-03-30 2021-06-22 福州市长乐区极微信息科技有限公司 隐私安全的音频标注处理方法
CN113053393A (zh) * 2021-03-30 2021-06-29 福州市长乐区极微信息科技有限公司 音频标注处理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826734A (zh) * 2022-04-25 2022-07-29 维沃移动通信有限公司 文字识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US8990195B2 (en) Systems and methods for searching media content based on an editing file
CN107801096B (zh) 视频播放的控制方法、装置、终端设备及存储介质
CN110659512B (zh) 图片管理方法、装置、终端及存储介质
CN112804445B (zh) 显示方法、装置和电子设备
CN105471811A (zh) 处理隐私空间的方法及隐私空间处理装置
CN113010698B (zh) 多媒体的交互方法、信息交互方法、装置、设备及介质
CN111800668A (zh) 弹幕的处理方法、装置、设备及存储介质
CN113782027A (zh) 音频处理方法及音频处理装置
CN113177419B (zh) 文本改写方法、装置、存储介质及电子设备
CN111526380B (zh) 视频处理方法、装置、服务器、电子设备及存储介质
CN113241097A (zh) 录音方法、装置、电子设备和可读存储介质
CN115941869A (zh) 音频处理方法、装置及电子设备
CN115061580A (zh) 输入方法、装置、电子设备及可读存储介质
CN116017043A (zh) 视频生成方法、装置、电子设备和存储介质
CN113312662B (zh) 消息处理方法、装置和电子设备
CN112487247A (zh) 视频处理方法及视频处理装置
CN109101964A (zh) 确定多媒体文件中首尾区域的方法、设备及存储介质
CN115086747A (zh) 信息处理方法、装置、电子设备和可读存储介质
CN114024929A (zh) 语音消息处理方法、装置、电子设备及介质
CN113707179A (zh) 一种音频识别方法、装置、设备及介质
CN107872730A (zh) 一种视频中的嵌入内容的获取方法和装置
CN111913627A (zh) 录音文件显示方法、装置及电子设备
CN111757184A (zh) 视频互动方法、装置、电子设备及存储介质
KR20190131286A (ko) 동영상에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
CN111857467B (zh) 文件处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination