CN112151041B - 基于录音机程序的录音方法、装置、设备及存储介质 - Google Patents
基于录音机程序的录音方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112151041B CN112151041B CN201910562897.XA CN201910562897A CN112151041B CN 112151041 B CN112151041 B CN 112151041B CN 201910562897 A CN201910562897 A CN 201910562897A CN 112151041 B CN112151041 B CN 112151041B
- Authority
- CN
- China
- Prior art keywords
- audio file
- voiceprint
- recording
- recorded audio
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/6505—Recording arrangements for recording a message from the calling party storing speech in digital form
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本公开是关于一种基于录音机程序的录音方法、装置、终端及存储介质,所述方法包括:通过所述录音机程序录制录音音频文件;对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。本公开使得查看界面能够直接观看到每个声纹对象所对应的时间段,用户可以直接选择感兴趣的声纹对象所对应的时间段进行查看和回放,提高了用户对录音音频文件的信息获取效率。
Description
技术领域
本公开涉及计算机程序领域,特别涉及一种基于录音机程序的录音方法、装置、设备及存储介质。
背景技术
录音机程序是移动终端(比如智能手机或平板电脑)上常用的应用程序。录音机程序可以用于录制现场声音或通话声音。
以录制通话声音为例,用户在接通通话后,录音机程序开始对通话录音进行录制。当通话结束后,录音机程序生成录音音频文件,并根据时间戳和对方电话号码来对录音音频文件自动命名。
该录音音频文件仅能通过查看的方式来得到信息,为了找到其中某段语音,用户可能需要反复回听,导致用户对录音音频文件中的信息获取效率较低。
发明内容
本公开实施例提供了一种基于录音机程序的录音方法、装置、设备及存储介质。所述技术方案如下:
根据本公开的一个方面,提供了一种基于录音机程序的录音方法,所述方法包括:
通过所述录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。
在一个可选的实施例中,应用于具有至少三个麦克风的终端中;
所述对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注,包括:
根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;
将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
在一个可选的实施例中,所述根据所述至少三个麦克风获取每个所述声纹对象的声源坐标,包括:
计算所述至少三个麦克风在接收所述声纹对象对应的语音片段时的相对时间差;
根据所述相对时间差来计算所述声纹对应的所述声源坐标。
在一个可选的实施例中,所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示,包括如下步骤中的至少一个步骤:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同颜色的显示;
或,
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同图案的显示;
或,
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像。
在一个可选的实施例中,对每个所述声纹对象进行性别识别,得到每个所述声纹对象对应的性别并进行标注;
所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像,包括:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述性别对应的昵称和/或头像。
在一个可选的实施例中,所述通过所述录音机程序录制录音音频文件,包括:
在音视频通话中通过所述录音机程序进行录音得到所述录音音频文件,所述音视频通话是电话通话、即时通信程序中的语音通话或网络会议通话;
所述方法还包括:
获取所述音视频通话中的联系人信息,所述联系人信息包括昵称和/或头像;
所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像,包括:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述联系人信息对应的昵称和/或头像。
在一个可选的实施例中,所述方法还包括:
将所述录音音频文件进行语音转文字处理,得到录音文本;
根据所述标注对所述录音文本中每个所述声纹对象所对应的文本内容进行区分显示。
在一个可选的实施例中,当所述录音文本存在非指定语言类型的文本时,将所述非指定语言类型的文本翻译为指定语言类型的文本。
根据本公开的另一方面,提供了一种基于录音机程序的录音装置,所述装置包括:
录制模块,被配置为通过所述录音机程序录制录音音频文件;
识别模块,被配置为对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
标注模块,被配置为对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;
显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。
在一个可选的实施例中,所述装置具有至少三个麦克风;
所述标注模块,被配置为根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
在一个可选的实施例中,所述标注模块,被配置为计算所述至少三个麦克风在接收所述声纹对象对应的语音片段时的相对时间差;根据所述相对时间差来计算所述声纹对应的所述声源坐标。
在一个可选的实施例中,所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同颜色的显示;
或,
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同图案的显示;
或,
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像。
在一个可选的实施例中,所述识别模块,被配置为对每个所述声纹对象进行性别识别,得到每个所述声纹对象对应的性别并进行标注;
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述性别对应的昵称和/或头像。
在一个可选的实施例中,所述录制模块,被配置为在音视频通话中通过所述录音机程序进行录音得到所述录音音频文件,所述音视频通话是电话通话、即时通信程序中的语音通话或网络会议通话;
所述装置还包括:
获取模块,被配置为获取所述音视频通话中的联系人信息,所述联系人信息包括昵称和/或头像;
所述录制模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述联系人信息对应的昵称和/或头像。
在一个可选的实施例中,所述装置还包括:
语音转文本模块,被配置为将所述录音音频文件进行语音转文字处理,得到录音文本;
所述显示模块,被配置为根据所述标注对所述录音文本中每个所述声纹对象所对应的文本内容进行区分显示。
在一个可选的实施例中,所述装置还包括:
翻译模块,被配置为当所述录音文本存在非指定语言类型的文本时,将所述非指定语言类型的文本翻译为指定语言类型的文本。
根据本公开的另一方面,提供了一种终端,所述终端包括:处理器和存储器;
所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下步骤:
通过录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。
根据本公开的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现如下步骤:
通过录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。
本公开实施例提供的技术方案可以包括以下有益效果:
通过对录音音频文件的声纹进行识别得到至少一个声纹对象,对每个声纹对象在录音音频文件中所对应的时间段进行标注,在录音音频文件的查看界面根据标注对每个声纹对象所对应的时间段进行区别显示,使得查看界面能够直接观看到每个声纹对象所对应的时间段,用户可以直接选择感兴趣的声纹对象所对应的时间段进行查看和回放,提高了用户对录音音频文件的信息获取效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种基于录音机程序的录音方法的流程图;
图2是根据另一示例性实施例示出的一种基于录音机程序的录音方法的流程图;
图3是根据一示例性实施例示出的基于至少三个麦克风来进行声源定位的原理示意图;
图4是根据一示例性实施例提供的录音音频文件的界面显示图;
图5是根据一示例性实施例提供的录音音频文件的界面显示图;
图6是根据一示例性实施例提供的录音音频文件的界面显示图;
图7是根据一示例性实施例提供的录音音频文件的界面显示图;
图8是根据一示例性实施例提供的录音音频文件的界面显示图;
图9是根据另一示例性实施例示出的一种基于录音机程序的录音装置的框图;
图10是根据另一示例性实施例示出的终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1示出了本申请一个示例性实施例提供的基于录音机程序的录音方法的流程图。该方法可以由移动终端来执行,该移动终端中安装和运行有录音机程序,该方法包括:
步骤102,通过录音机程序录制录音音频文件;
步骤104,对录音音频文件的声纹进行识别,得到至少一个声纹对象;
步骤106,对每个声纹对象在录音音频文件中所对应的时间段进行标注;
步骤108,在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段进行区别显示。
综上所述,本实施例提供的方法,通过对录音音频文件的声纹进行识别得到至少一个声纹对象,对每个声纹对象在录音音频文件中所对应的时间段进行标注,在录音音频文件的查看界面根据标注对每个声纹对象所对应的时间段进行区别显示,使得查看界面能够直接观看到每个声纹对象所对应的时间段,用户可以直接选择感兴趣的声纹对象所对应的时间段进行查看和回放,提高了用户对录音音频文件的信息获取效率。
图2示出了本申请另一个示例性实施例提供的基于录音机程序的录音方法的流程图。该方法可以由移动终端来执行,该移动终端上具有至少三个麦克风,该移动终端上还安装和运行有录音机程序,该方法包括:
步骤201,通过录音机程序利用至少三个麦克风录制录音音频文件;
移动终端上设置有至少三个麦克风。比如,移动终端的顶部设置有一个麦克风,移动终端的底部设置有两个麦克风。又比如,移动终端的底部设置有麦克风阵列,该麦克风阵列包括有阵列排布的至少三个麦克风。
至少三个麦克风在移动终端上所处的位置不同。同一个声源(说话人)的声波抵达至少三个麦克风的时间会存在不同,通过计算同一声波抵达两两麦克风之间的相对时间差,能够对声源位置进行定位。
在用户启动录音机程序后,通过录音机程序利用至少三个麦克风录制录音音频文件。
步骤202,对录音音频文件的声纹进行识别,得到至少一个声纹对象;
对于成年人来讲,人的声音可保持长期相对稳定不变。即便讲话者是故意模仿他人的声音和语气,还是耳语轻声说话,即使模仿的惟妙惟肖,其声纹却始终相同。因此,声纹可以用于识别说话人的身份。
录音机程序对录音音频文件中的声纹进行识别。录音机程序识别录音音频文件中的一个或多个连续语音片段,对每个连续语音片段分别提取声纹特征。该声纹特征可以是采用梅尔倒谱系数的提取方式来提取到的特征。
计算每个连续语音片段对应的声纹特征之间的相似度,将相似度小于阈值的声纹特征归为同一类声纹特征。将每一类声纹特征识别为一个声纹对象。一个声纹对象可以认为是一个说话人。
步骤203,根据至少三个麦克风获取每个声纹对象的声源坐标;
录音机程序根据至少三个麦克风来获取每个声纹对象的声源坐标。以三个麦克风为例,本步骤包括如下步骤:
步骤1,计算至少三个麦克风在接收声纹对应的语音片段时的相对时间差;
对于每个声纹对象的任一连续语音片段,计算至少三个麦克风在接收该连续语音片段时的相对时间差。
如图3所示,假设存在三个麦克风:麦克风1、麦克风2、麦克风3,以移动终端的中心和所在平面建立二维直角坐标系,麦克风1位于二维直角坐标系上的(x1,y1),麦克风2位于二维直角坐标系上的(x2,y2),麦克风3位于二维直角坐标系上的(x3,y3)。
来自声源(x,y)的连续语音会按照传输途径a传输到麦克风1,按照传输路径b传输到麦克风2、按照传输路径c传输到麦克风3,由于传输路径a、b、c的距离不同,因此同一个连续语音到达麦克风1至3的时间不同,三个麦克风中的任意两个麦克风在接收该连续语音片段时存在相对时间差。
步骤2,根据相对时间差来计算声纹对应的声源坐标。
设声源(x,y)为待计算的坐标值,(x,y)与(x1,y1)之间的距离为a,(x,y)与(x2,y2)之间的距离为b,(x,y)与(x3,y3)之间的距离为c。任意两个距离之间的距离差,与接收连续语音片段对应的相对时间差成正比例关系。
录音机程序通过构建正比例的等式关系,能够求解出声源(x,y)的坐标值。
步骤204,将录音音频文件中与声源坐标对应的语音所处的时间段进行标注;
其中,与声源坐标对应的语音的声源位置与声源坐标指示的坐标位置之间的距离差值小于阈值。
由于说话人可能会产生移动、晃动或采集误差,录音机程序将录音音频文件中与声源坐标对应的语音所处的时间段进行标注。
表一示意性的示出了标注得到的声纹对象和时间段之间的对应关系。
表一
步骤205,在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段进行区别显示。
该查看界面是用于查看或回放录音音频文件的界面。可选地,该查看界面中显示有一个或多个录音音频文件的文件条或播放进度条。
本步骤可以采用如下三个步骤中的至少一个步骤来实现:
第一,在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段进行不同颜色的显示;
录音机程序根据标注,在录音音频文件的文件条(或播放进度条)上对每个声纹对象所对应的时间段进行不同颜色的显示。比如,声纹对象1对应的时间段采用红色显示;声纹对象2对应的时间段采用绿色显示;声纹对象3对应的时间段采用黄色显示,如图4所示,图4中采用不同的灰度来表示不同的颜色。
第二,在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段进行不同图案的显示;
录音机程序根据标注,在录音音频文件的文件条(或播放进度条)上对每个声纹对象所对应的时间段进行不同图案的显示。比如,声纹对象1对应的时间段采用方格填充图案显示;声纹对象2对应的时间段采用斜线填充图案显示;声纹对象3对应的时间段采用点阵填充图案显示,如图5所示。
第三,在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段添加不同的昵称和/或头像。
录音机程序根据标注,在录音音频文件的文件条(或播放进度条)上对每个声纹对象所对应的时间段添加不同的昵称和/或头像。比如,声纹对象1对应的时间段采用昵称“女生1”和默认女生头像1显示;声纹对象2对应的时间段采用昵称“男生”和默认男生头像显示;声纹对象3对应的时间段采用昵称“女生2”和默认女生头像2显示,如图6所示。
示意性的,录音机程序对每个声纹对象进行性别识别,得到每个声纹对象对应的性别并进行标注;在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段,添加与性别对应的昵称和/或头像。由于男女生的基音差别很大,录音机程序可以采用预先训练好的神经网络模型对每个声纹对象的基音特征进行识别,识别出该声纹对象所对应的性别。在一些可选的实施例中,还可以对性别增加不同年龄段的分类。比如:“老人、小孩、少女、妇女、青年、型男”等类别。有关年龄段的识别,也可以采用预先训练好的神经网络模型来完成。
在其他实施例中,还可以将每个声纹对象对应的连续语音片段拆分开不同的文件条或进度条进行显示,每个文件条或进度条可以独立播放,如图7所述。本申请实施例对不同声纹对象所对应的时间段的区别显示方式不加以限定。
步骤206,将录音音频文件进行语音转文字处理,得到录音文本;
为了便于用户查看录音音频文件中的信息,录音机程序还可以将录音音频文件进行语音转文字处理,得到录音文本。
可选地,录音机程序调用本地的语音识别引擎或服务器提供的语音识别音频来对录音音频文件中的语音进行识别,将该语音识别为相应的录音文本。
步骤207,根据标注对录音文本中每个声纹对象所对应的文本内容进行区分显示;
可选地,录音机程序还根据标注对每个声纹对象所对应的文本内容进行区分,并在录音音频文件的查看界面上显示每个声纹对象所对应的文本内容。
如图8所述,针对日期为190622的研发会议录音,女生1对应的文本内容为“这款手机的核心定位是什么?”,男生对应的文本内容为“我觉得面向学生用户推出游戏手机比较好”,女生2对应的文本内容为“自带美颜相机功能”。
步骤208,当录音文本存在非指定语言类型的文本时,将非指定语言类型的文本翻译为指定语言类型的文本。
指定语言类型可以是操作系统中的默认语言,也可以是用户手动设置的语言类型。以指定语言类型为中文为例,若录音文本中存在非中文的文本(比如英语)时,将英文类型的文本翻译为中文类型的文本。
可选地,录音机程序调用本地的文本翻译引擎或服务器提供的文本翻译引擎来对录音文本中的非指定语言类型的文本进行识别,将非指定语言类型的文本翻译为指定语言类型的文本。
综上所述,本实施例提供的方法,通过对录音音频文件的声纹进行识别得到至少一个声纹对象,对每个声纹对象在录音音频文件中所对应的时间段进行标注,在录音音频文件的查看界面根据标注对每个声纹对象所对应的时间段进行区别显示,使得查看界面能够直接观看到每个声纹对象所对应的时间段,用户可以直接选择感兴趣的声纹对象所对应的时间段进行查看和回放,提高了用户对录音音频文件的信息获取效率。
本实施例提供的方法,还通过提供语音转文本,使得用户能够在录音音频文件的查看界面上以文本形式查看每个声纹对象的文本内容,相比于回放收听的方式,能够提高用户对录音音频文件中的文本内容的信息获取效率。
本实施例提供的方法,还通过提供文本翻译功能,使得用户能够在录音音频文件的查看界面上查看指定语言类型的文本,方便某些外语不是很熟练的用户对录音音频文件的信息获取效率。
录音机程序的应用场景至少包括两类:现场录音场景和音视频录音场景。现场录音场景是对真实环境中的声音进行录制的场景,音视频录音场景是对移动终端中基于网络通信构建的音视频通话进行录制的场景。
音视频通话可以是电话通话、即时通信程序中的语音通话或网络会议通话。
由于在音视频录音场景下,每个用户会在具有音视频通话功能的应用程序(网络电话程序、即时通信程序、网络会议程序)中具有自身的昵称和/或头像,录音机程序可以获取音视频通话中的联系人信息,联系人信息包括昵称和/或头像;在录音音频文件的查看界面,根据标注对每个声纹对象所对应的时间段,添加与联系人信息对应的昵称和/或头像。
以用户A(本机用户)、用户B、用户C在网络会议程序中正在进行网络会议为例,录音机程序通过程序间通信,从网络会议程序获取用户A、用户B、用户C各自的昵称和/或头像,当本地麦克风收到连续语音片段1时,将用户A的昵称和/或头像标注至连续语音片段1;当与用户B对应的网络链路接收到连续语音片段2时,将用户B的昵称和/或头像标注至连续语音片段2;当与用户C对应的网络链路接收到连续语音片段3时,将用户C的昵称和/或头像标注至连续语音片段3。
以下为本申请实施例的装置实施例,对应装置实施例中未详尽描述的细节,可以参考上述方法实施例。
图9示出了本申请一个示例性实施例提供的基于录音机程序的录音装置的框图。该装置可以通过软件、硬件或者两者的结合实现成为移动终端的全部或一部分。该装置包括:
录制模块920,被配置为通过所述录音机程序录制录音音频文件;
识别模块940,被配置为对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
标注模块960,被配置为对每个所述声纹对象在所述录音音频文件中所对应的时间段进行标注;
显示模块980,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示。
在一个可选的实施例中,所述装置具有至少三个麦克风;
所述标注模块960,被配置为根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
在一个可选的实施例中,所述标注模块960,被配置为计算所述至少三个麦克风在接收所述声纹对象对应的语音片段时的相对时间差;根据所述相对时间差来计算所述声纹对应的所述声源坐标。
在一个可选的实施例中,所述显示模块980,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同颜色的显示;
或,所述显示模块980,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同图案的显示;
或,所述显示模块980,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像。
在一个可选的实施例中,所述识别模块940,被配置为对每个所述声纹对象进行性别识别,得到每个所述声纹对象对应的性别并进行标注;
所述显示模块980,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述性别对应的昵称和/或头像。
在一个可选的实施例中,所述录制模块920,被配置为在音视频通话中通过所述录音机程序进行录音得到所述录音音频文件,所述音视频通话是电话通话、即时通信程序中的语音通话或网络会议通话;
所述装置还包括:
获取模块910,被配置为获取所述音视频通话中的联系人信息,所述联系人信息包括昵称和/或头像;
所述录制模块920,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述联系人信息对应的昵称和/或头像。
在一个可选的实施例中,所述装置还包括:
语音转文本模块930,被配置为将所述录音音频文件进行语音转文字处理,得到录音文本;
所述显示模块980,被配置为根据所述标注对所述录音文本中每个所述声纹对象所对应的文本内容进行区分显示。
在一个可选的实施例中,所述装置还包括:
翻译模块990,被配置为当所述录音文本存在非指定语言类型的文本时,将所述非指定语言类型的文本翻译为指定语言类型的文本。
图10是根据一示例性实施例示出的一种基于录音机程序的录音装置1000的框图。例如,装置1000可以是移动电话,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,音频组件1010,输入/输出(I/O)的接口1012,传感器组件1014,以及通信组件1016。
处理组件1002通常控制装置1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在装置1000的操作。这些数据的示例包括用于在装置1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1006为装置1000的各种组件提供电源。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为装置1000生成、管理和分配电源相关联的组件。
多媒体组件1008包括在所述装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当装置1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当装置1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,用于输出音频信号。
I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为装置1000提供各个方面的状态评估。例如,传感器组件1014可以检测到装置1000的打开/关闭状态,组件的相对定位,例如所述组件为装置1000的显示器和小键盘,传感器组件1014还可以检测装置1000或装置1000一个组件的位置改变,用户与装置1000接触的存在或不存在,装置1000方位或加速/减速和装置1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由装置1000的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如上述方法实施例所提供的一种基于录音机程序的录音方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (16)
1.一种基于录音机程序的录音方法,其特征在于,所述方法应用于具有至少三个麦克风的终端中,所述方法包括:
通过所述录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;
将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少三个麦克风获取每个所述声纹对象的声源坐标,包括:
计算所述至少三个麦克风在接收所述声纹对象对应的语音片段时的相对时间差;
根据所述相对时间差来计算所述声纹对应的所述声源坐标。
3.根据权利要求1所述的方法,其特征在于,所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示,包括如下步骤中的至少一个步骤:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同颜色的显示;
或,
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同图案的显示;
或,
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对每个所述声纹对象进行性别识别,得到每个所述声纹对象对应的性别并进行标注;
所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像,包括:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述性别对应的昵称和/或头像。
5.根据权利要求3所述的方法,其特征在于,所述通过所述录音机程序录制录音音频文件,包括:
在音视频通话中通过所述录音机程序进行录音得到所述录音音频文件,所述音视频通话是电话通话、即时通信程序中的语音通话或网络会议通话;
所述方法还包括:
获取所述音视频通话中的联系人信息,所述联系人信息包括昵称和/或头像;
所述在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像,包括:
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述联系人信息对应的昵称和/或头像。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述录音音频文件进行语音转文字处理,得到录音文本;
根据所述标注对所述录音文本中每个所述声纹对象所对应的文本内容进行区分显示。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述录音文本存在非指定语言类型的文本时,将所述非指定语言类型的文本翻译为指定语言类型的文本。
8.一种基于录音机程序的录音装置,其特征在于,所述装置具有至少三个麦克风,所述装置包括:
录制模块,被配置为通过所述录音机程序录制录音音频文件;
识别模块,被配置为对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
标注模块,被配置为根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
9.根据权利要求8所述的装置,其特征在于,
所述标注模块,被配置为计算所述至少三个麦克风在接收所述声纹对象对应的语音片段时的相对时间差;根据所述相对时间差来计算所述声纹对应的所述声源坐标。
10.根据权利要求8所述的装置,其特征在于,
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同颜色的显示;
或,
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行不同图案的显示;
或,
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段添加不同的昵称和/或头像。
11.根据权利要求10所述的装置,其特征在于,
所述识别模块,被配置为对每个所述声纹对象进行性别识别,得到每个所述声纹对象对应的性别并进行标注;
所述显示模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述性别对应的昵称和/或头像。
12.根据权利要求10所述的装置,其特征在于,
所述录制模块,被配置为在音视频通话中通过所述录音机程序进行录音得到所述录音音频文件,所述音视频通话是电话通话、即时通信程序中的语音通话或网络会议通话;
所述装置还包括:
获取模块,被配置为获取所述音视频通话中的联系人信息,所述联系人信息包括昵称和/或头像;
所述录制模块,被配置为在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段,添加与所述联系人信息对应的昵称和/或头像。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
语音转文本模块,被配置为将所述录音音频文件进行语音转文字处理,得到录音文本;
所述显示模块,被配置为根据所述标注对所述录音文本中每个所述声纹对象所对应的文本内容进行区分显示。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
翻译模块,被配置为当所述录音文本存在非指定语言类型的文本时,将所述非指定语言类型的文本翻译为指定语言类型的文本。
15.一种终端,其特征在于,所述终端包括:处理器和存储器;
所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如下步骤:
通过录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;
将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现如下步骤:
通过录音机程序录制录音音频文件;
对所述录音音频文件的声纹进行识别,得到至少一个声纹对象;
根据所述至少三个麦克风获取每个所述声纹对象的声源坐标;
将所述录音音频文件中与所述声源坐标对应的语音所处的时间段进行标注;
在所述录音音频文件的查看界面,根据所述标注对每个所述声纹对象所对应的时间段进行区别显示;
其中,与所述声源坐标对应的语音的声源位置与所述声源坐标之间的距离差值小于阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562897.XA CN112151041B (zh) | 2019-06-26 | 2019-06-26 | 基于录音机程序的录音方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562897.XA CN112151041B (zh) | 2019-06-26 | 2019-06-26 | 基于录音机程序的录音方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151041A CN112151041A (zh) | 2020-12-29 |
CN112151041B true CN112151041B (zh) | 2024-03-29 |
Family
ID=73869984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910562897.XA Active CN112151041B (zh) | 2019-06-26 | 2019-06-26 | 基于录音机程序的录音方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151041B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114726816B (zh) * | 2021-01-05 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 一种建立关联关系的方法、装置、电子设备和存储介质 |
CN112866469A (zh) * | 2021-01-19 | 2021-05-28 | 维沃移动通信(杭州)有限公司 | 通话内容的记录方法及装置 |
CN117956233A (zh) * | 2022-10-31 | 2024-04-30 | 北京字跳网络技术有限公司 | 用于查看视听内容的方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819758A (zh) * | 2009-12-22 | 2010-09-01 | 中兴通讯股份有限公司 | 一种声音控制屏幕显示的系统及实现方法 |
CN106024009A (zh) * | 2016-04-29 | 2016-10-12 | 北京小米移动软件有限公司 | 音频处理方法及装置 |
CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
CN108564952A (zh) * | 2018-03-12 | 2018-09-21 | 新华智云科技有限公司 | 语音角色分离的方法和设备 |
CN109192213A (zh) * | 2018-08-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 庭审语音实时转写方法、装置、计算机设备及存储介质 |
CN109616125A (zh) * | 2018-12-13 | 2019-04-12 | 苏州思必驰信息科技有限公司 | 基于声纹识别的监控方法及系统 |
CN109754814A (zh) * | 2017-11-08 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种声音处理方法、交互设备 |
CN109783642A (zh) * | 2019-01-09 | 2019-05-21 | 上海极链网络科技有限公司 | 多人会议场景的结构化内容处理方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968991B (zh) * | 2012-11-29 | 2015-01-21 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
-
2019
- 2019-06-26 CN CN201910562897.XA patent/CN112151041B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819758A (zh) * | 2009-12-22 | 2010-09-01 | 中兴通讯股份有限公司 | 一种声音控制屏幕显示的系统及实现方法 |
CN106024009A (zh) * | 2016-04-29 | 2016-10-12 | 北京小米移动软件有限公司 | 音频处理方法及装置 |
CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
CN109754814A (zh) * | 2017-11-08 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 一种声音处理方法、交互设备 |
CN108564952A (zh) * | 2018-03-12 | 2018-09-21 | 新华智云科技有限公司 | 语音角色分离的方法和设备 |
CN109192213A (zh) * | 2018-08-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 庭审语音实时转写方法、装置、计算机设备及存储介质 |
CN109616125A (zh) * | 2018-12-13 | 2019-04-12 | 苏州思必驰信息科技有限公司 | 基于声纹识别的监控方法及系统 |
CN109783642A (zh) * | 2019-01-09 | 2019-05-21 | 上海极链网络科技有限公司 | 多人会议场景的结构化内容处理方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
用说话人相似度i-vector的非负值矩阵分解说话人聚类;哈尔肯别克・木哈西;钟珞;达瓦・伊德木草;;计算机应用与软件(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151041A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106024009B (zh) | 音频处理方法及装置 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN106792004B (zh) | 内容项目推送方法、装置及系统 | |
CN107644646B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN110941954A (zh) | 文本播报方法、装置、电子设备及存储介质 | |
CN112151041B (zh) | 基于录音机程序的录音方法、装置、设备及存储介质 | |
US20190222806A1 (en) | Communication system and method | |
US20140223279A1 (en) | Data augmentation with real-time annotations | |
KR20140100704A (ko) | 음성 대화 기능을 구비한 휴대 단말기 및 이의 음성 대화 방법 | |
CN113343675B (zh) | 一种字幕生成方法、装置和用于生成字幕的装置 | |
CN109033423A (zh) | 同传字幕显示方法及装置、智能会议方法、装置及系统 | |
CN110990534A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN112532931A (zh) | 一种视频处理方法、装置和电子设备 | |
CN113099297A (zh) | 卡点视频的生成方法、装置、电子设备及存储介质 | |
CN113378583A (zh) | 对话回复方法及装置、对话模型训练方法及装置、存储介质 | |
CN107122456A (zh) | 展示视频搜索结果的方法和装置 | |
CN114554231A (zh) | 一种信息显示方法、装置、电子设备及存储介质 | |
CN111160051B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN107247794B (zh) | 直播中的话题引导方法、直播装置及终端设备 | |
CN112087653A (zh) | 一种数据处理方法、装置和电子设备 | |
CN111582822A (zh) | 基于ar的会议方法、装置及电子设备 | |
CN111984767A (zh) | 一种信息推荐方法、装置和电子设备 | |
KR101221540B1 (ko) | 인터랙티브 미디어 매핑 시스템 및 그 방법 | |
CN115334367A (zh) | 视频的摘要信息生成方法、装置、服务器以及存储介质 | |
CN113127613B (zh) | 聊天信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |