CN110600039B - 发言者属性确定方法、装置、电子设备及可读存储介质 - Google Patents
发言者属性确定方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110600039B CN110600039B CN201910926833.3A CN201910926833A CN110600039B CN 110600039 B CN110600039 B CN 110600039B CN 201910926833 A CN201910926833 A CN 201910926833A CN 110600039 B CN110600039 B CN 110600039B
- Authority
- CN
- China
- Prior art keywords
- determining
- sound recording
- speaker
- audio content
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013519 translation Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种发言者属性确定方法、装置、电子设备及可读存储介质,涉及语音处理技术。实现方案包括:接收至少两个声音录制装置发送的音频内容,其中,音频内容是声音录制装置录制得到的;确定每条音频内容的信噪比,并根据信噪比确定发言者使用的目标声音录制装置;根据目标声音录制装置确定发言者属性。本公开提供的发言者属性确定方法、装置、电子设备及可读存储介质,可以根据各个声音录制装置录制的音频内容,识别到发言者使用的目标声音录制装置,再根据目标声音录制装置确定发言者属性,从而解决现有技术中需要预先采集各发言者的声音特征,才能够根据发言者的音频内容识别出发言者属性,导致方案不便于实施的问题。
Description
技术领域
本公开涉及计算机技术,尤其涉及语音处理技术。
背景技术
目前,在多人发言的场景中,经常需要确定发言者属性。例如,在多人会议中,可以根据发言的发言者身份进行会议记录。再例如,在需要将发言内容翻译成目标语言时,则需要先确定发言者使用的语种,再对发言内容进行翻译。
现有技术中,采用比对发言者声音特征与预设声音特征的方式,以确定发言者身份,进而确定发言者属性。
但是,这种方式需要预先采集各发言者的声音特征,否则无法进行比对。因此,现有技术中确定发言者属性的方案在实际使用时存在一定的局限性,不便于实施。
发明内容
本公开提供一种发言者属性确定方法、装置、电子设备及可读存储介质,以解决现有技术中确定发言者属性的方案不便于实施的问题。
本公开第一个方面是提供一种发言者属性确定方法,包括:
接收至少两个声音录制装置发送的音频内容,其中,所述音频内容是所述声音录制装置录制得到的;
确定每条所述音频内容的信噪比,并根据所述信噪比确定发言者使用的目标声音录制装置;
根据所述目标声音录制装置确定发言者属性。
可选的,所述确定每条音频内容的信噪比之前,还包括:
确定所述音频内容之间的延迟,并根据所述延迟对所述音频内容进行对齐处理。
在这种实施方式中,可以更准确的对每条音频内容进行识别,避免由于音频内容之间的延迟,造成对不同音频内容进行识别的标准不统一的问题。
可选的,所述确定每条音频内容的信噪比包括:
确定每条所述音频内容中的语音片段、非语音片段,并根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比。
在这种实施方式中,可以根据信噪比确定出每条音频内容之间的差异,进而根据信噪比确定出发言者使用的目标声音录制装置。
可选的,所述根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比,包括:
根据所述语音片段对应的语音能量、所述非语音片段对应的非语音能量,确定所述信噪比。
可选的,所述根据所述信噪比确定发言者使用的目标声音录制装置,包括:
在所述音频内容中,将所述信噪比最高的音频内容确定为目标音频内容;
将发送所述目标音频内容的所述声音录制装置确定为所述目标声音录制装置。
由于发言者使用的声音录制装置距离其更近,而该声音录制装置录制的音频内容信噪比更高,因此,可以根据信噪比确定出使用目标声音录制装置。
可选的,所述根据所述目标声音录制装置确定发言者属性,包括:
根据所述目标声音录制装置对应的预设语言确定发言者的语种信息。
可选的,还包括:
根据所述语种信息,所述声音录制装置中的其他声音录制装置对应的预设语言,对所述音频内容进行翻译,并将翻译结果发送到所述其他声音录制装置中。
在这种可选的实施方式中,可以将本方案应用在需要翻译的多人会议场景中。
可选的,所述根据所述目标声音录制装置确定发言者属性,包括:
根据所述目标声音录制装置对应的使用者身份,确定发言者身份。
可选的,还包括:
将所述音频内容转换为文字内容,并根据所述发言者身份、所述文字内容进行会议记录。
在这种可选的实施方式中,可以将本方案应用在需要进行会议记录的多人会议场景中。
本公开第二个方面是提供一种发言者属性确定装置,包括:
接收模块,用于接收至少两个声音录制装置发送的音频内容,其中,所述音频内容是所述声音录制装置录制得到的;
信噪比确定模块,用于确定每条所述音频内容的信噪比;
目标装置确定模块,用于根据所述信噪比确定发言者使用的目标声音录制装置;
属性确定模块,根据所述目标声音录制装置确定发言者属性。
本公开第三个方面是提供一种发言者属性确定电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的发言者属性确定方法。
本公开第四个方面是提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面所述的发言者属性确定方法。
本公开提供的发言者属性确定方法、装置、电子设备及可读存储介质,包括:接收至少两个声音录制装置发送的音频内容,其中,音频内容是声音录制装置录制得到的;确定每条音频内容的信噪比,并根据信噪比确定发言者使用的目标声音录制装置;根据目标声音录制装置确定发言者属性。本公开提供的发言者属性确定方法、装置、电子设备及可读存储介质,可以根据各个声音录制装置录制的音频内容,识别到发言者使用的目标声音录制装置,再根据目标声音录制装置确定发言者属性,从而解决现有技术中需要预先采集各发言者的声音特征,才能够根据发言者的音频内容识别出发言者属性,导致方案不便于实施的问题。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A为本申请一示例性实施例示出的系统架构图;
图1B为本申请一示例性实施例示出的应用场景示意图;
图2为本申请一示例性实施例示出的发言者属性确定方法的流程图;
图3为本申请另一示例性实施例示出的发言者属性确定方法的流程图;
图4为本申请一示例性实施例示出的发言者属性确定装置的结构图;
图5为本申请另一示例性实施例示出的发言者属性确定装置的结构图;
图6是本申请一示例性实施例示出的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1A为本申请一示例性实施例示出的系统架构图。
如图1A所示,本实施例提供的方案中,可以包括多个声音录制装置11,这些声音录制装置可以与后台处理设备连接,该后台处理设备例如可以是服务器12。
其中,声音录制装置11与服务器12可以通过有线或无线的方式连接。服务器12可以接收声音录制装置11录制的音频内容,并对音频内容进行分析,以确定发言者的属性。
具体的,服务器12可以是硬件,也可以是软件。当服务器12为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器12为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
图1A中的声音录制装置、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的声音录制装置和服务器。
图1B为本申请一示例性实施例示出的应用场景示意图。
如图1B所示,本实施例提供的方案可以应用在如图1B的场景中,该应用场景中可以包括多个参会者,每个参会者可以使用一个声音录制装置,具体如图1A所示出的声音录制装置。
其中,该声音录制装置例如还可以具有麦克风的功能,比如是带有扩音、录音功能的耳麦。
发言者A可以进行发言,由发言者A以及其他参会者使用的声音录制装置,都可以对发言者A的言论进行录制,并将录制的音频发送到服务器,例如图1A所示的服务器中。由服务器根据各个声音录制装置发送的音频内容,确定发言者属性。
具体的,发言者属性例如可以是发言者身份,还可以是发言者使用的语种信息,还可以是其他信息。具体可以根据需求进行设置,本实施例不对此进行限制。
图2为本申请一示例性实施例示出的发言者属性确定方法的流程图。
本实施例提供的发言者属性确定方法,包括:
步骤201,接收至少两个声音录制装置发送的音频内容,其中,音频内容是声音录制装置录制得到的。
进一步的,本实施例提供的方法可以由具备计算能力的电子设备执行,例如,可以是如图1A所示的服务器执行。
实际应用时,与该电子设备连接有至少两个声音录制装置。例如,多名参会者共同参与一多人会议,每个参会者可以使用一个声音录制装置,用于录制会场内的发言内容。
其中,当一个参会者发言时,该发言者使用的声音录制装置可以录制发言内容,其他参会者使用的声音录制装置也能够录制该发言者的发言内容。
具体的,每个参会者使用的声音录制装置都可以将音频内容反馈到服务器,从而使服务器能够基于接收的多个音频内容进行分析。
进一步的,该声音录制装置例如可以是耳麦,参会者发言时,可以通过该装置作为麦克风。同时,该装置还可以收集会场内的声音进行录制,并上传至服务器。应当理解的是,参会者使用的声音录制装置应当距离该参会者更近,例如参会者A使用的声音录制装置距离A更近,参会者B使用的声音录制装置距离B更近。
步骤202,确定每条音频内容的信噪比,并根据信噪比确定发言者使用的目标声音录制装置。
信噪比(SIGNAL-NOISE RATIO,SNR或S/N),又称为讯噪比。是指一个电子设备或者电子系统中信号与噪声的比例。音频信号的信噪比是指音响设备播放时,正常声音信号强度与噪声信号强度的比值。
实际应用时,发言者距离声音录制装置越近,则录制的音频内容的信噪比应当越高,发言者距离声音录制装置越远,则声音录制装置收集的声音中噪音会越多,录制的音频内容信噪比也就越低。
其中,可以确定每条音频内容的信噪比,并根据信噪比确定发言者使用的目标声音录制装置。例如,可以将发送信噪比最高的音频内容的声音录制装置作为目标声音录制装置。目标声音录制装置距离发言者最近,因此,其录制的音频内容信噪比最高。同时,相较于其他声音录制装置,发言者距离其自己使用的声音录制装置应该最近,因此,可以将该目标录制装置确定为发言者使用的声音录制装置。
具体的,音频信号的信噪比是指音响设备播放时,正常声音信号强度与噪声信号强度的比值。因此,可以在音频内容中确定正常声音信息的能量,以及噪声信号的能量。并计算二者比值,从而能够得到音频内容的信噪比。
步骤203,根据目标声音录制装置确定发言者属性。
进一步的,可以预先设置各个声音录制装置对应的用户属性。
例如,预先安排好各个参会者的座位,并在各个座位上放置声音录制装置。可以在根据安排的座位,以及各个座位上放置的声音录制装置,确定声音录制装置的使用者。即可以预先确定这一对应关系。例如在参会者A的座位处放置的声音录制装置的使用者,应当是参会者A。可以在服务器中记录这一对应关系。即声音录制装置与使用者的对应关系。
再例如,在需要翻译的应用场景中,例如需要翻译的多人会议中,再例如与外国友人交流的过程中,交流者还可以通过声音录制装置设置自己的语种。例如,交流者可以任一拿一个声音录制装置,并通过该声音录制装置设置自己的语种是“中文”、“日语”、“英语”等语言类型。可以由声音录制装置将设置信息上传至服务器,以使服务器记录装置与语种的对应关系。再例如,若是多人会议的场景,则可以预先安排好各参会者的座位,且为其设置了声音录制装置,则参会者可以设置座位上的声音录制装置,选择自己的语种。声音录制装置可以向服务器发送设置信息,以使服务器记录这一对应关系。即声音录制装置与语种的对应关系。
实际应用时,可以根据预先设置的目标声音录制装置对应的用户属性,确定发言者属性。例如,目标声音录制装置的使用者是参会者A,则用户属性可以是参会者A。再例如,目标声音录制装置的设置语种是日语,则用户属性可以是日语。
此后,可以根据确定的发言者属性执行需要的操作。例如,根据发言者的语种对发言内容进行翻译,再例如,根据发言者的身份进行会议记录。根据确定的发言者属性进行后续应用的方式较多,不一一举例,可以根据场景需求,合理的利用发言者属性,以解决相应应用场景中的问题。
本实施例提供的方法用于确定发言者的属性,该方法由设置有本实施例提供的方法的设备执行,该设备通常以硬件和/或软件的方式来实现。
本实施例提供的发言者属性确定方法,包括:接收至少两个声音录制装置发送的音频内容,其中,音频内容是声音录制装置录制得到的;确定每条音频内容的信噪比,并根据信噪比确定发言者使用的目标声音录制装置;根据目标声音录制装置确定发言者属性。本实施例提供的发言者属性确定方法,可以根据各个声音录制装置录制的音频内容,识别到发言者使用的目标声音录制装置,再根据目标声音录制装置确定发言者属性,从而解决现有技术中需要预先采集各发言者的声音特征,才能够根据发言者的音频内容识别出发言者属性,导致方案不便于实施的问题。
图3为本申请另一示例性实施例示出的发言者属性确定方法的流程图。
如图3所示,本实施例提供的发言者属性确定方法,包括:
步骤301,接收至少两个声音录制装置发送的音频内容,其中,音频内容是所述声音录制装置录制得到的。
步骤301与步骤201的具体原理和实现方式类似,此处不再赘述。
步骤302,确定音频内容之间的延迟,并根据延迟对音频内容进行对齐处理。
其中,电子设备可以接收到至少两个声音录制装置发送的音频内容,因此,电子设备能够接收至少两条音频内容。
具体的,受不同的声音录制装置的影响,其录制的音频内容在时间上可能具有一定的误差。例如,三个声音录制装置同时录制发言者A发表的言论,分别得到三条音频内容,这三条音频内容的起始时间可能存在一定的差异。
进一步的,可以对接收的各个音频内容进行对齐处理,以便于以相同的标准对各个音频内容进行识别。
实际应用时,可以采用相关性算法确定各音频内容之间的延迟,进而对各个音频内容进行对齐处理。
步骤303,确定每条音频内容中的语音片段、非语音片段,并根据语音片段、非语音片段确定音频内容的信噪比。
其中,将各个音频内容对齐后,可以确定每条音频内容中的语音片段、非语音片段。语音片段是指具有发言内容的音频片段,非语音片段可是空白片段,也可以是包括噪音的片段。
具体的,可以对音频内容进行端点检测,具体可以检测开始端点和结束端点,将两个端点之间的部分作为语音片段,将两个端点以外的部分作为非语音片段。语音端点检测(Voice Activity Detection,VAD),一般用于鉴别音频信号当中的语音出现(speechpresence)和语音消失(speech absence)。即识别音频内容中语音出现的开始端点,以及语音结束的端点。
进一步的,本实施例提供的方案应用与多人会议时,各个声音录制装置录制的内容应当是相同的,只是由于声音录制装置设置位置不同,导致录制的音频内容中的噪音大小不同。因此,可以认为不同声音录制装置录制的音频内容,端点检测的结果应当是相同的。
实际应用时,提取出语音片段和非语音片段后,可以根据语音片段、非语音片段,确定该条音频内容的信噪比。具体可以确定语音片段的能量,以及非语音片段的能量,并将二者比值确定为该条音频内容的信噪比。
步骤304,在音频内容中,将信噪比最高的音频内容确定为目标音频内容。
其中,电子设备可以通过上述步骤确定每条音频内容对应的信噪比。还可以根据各个音频内容的信噪比,确定信噪比最高的音频内容,将其确定为目标音频内容。
具体的,发言者距离声音录制装置越近,声音录制装置录制的音频内容中信噪比应当越高,即录制的发言内容越清晰,而录制的其他噪音越少。因此,可以将信噪比最高的音频内容确定为目标音频内容。
步骤305,将发送目标音频内容的声音录制装置确定为目标声音录制装置。
进一步的,可以将发送目标音频内容的声音录制装置确定为目标声音录制装置,即作为发言者使用的声音录制装置。
步骤3061,根据目标声音录制装置对应的预设语言确定发言者的语种信息。
实际应用时,可以根据目标声音录制装置确定对应的发言者属性。在一种应用场景中,可以将本实施例提供的方法应用在需要翻译的应用场景中,例如有不同国家的参会者参加的多人会议,再例如存在使用不同语言发言的场景,比如出国旅游的场景。
其中,在这种应用场景中,声音录制装置的使用者或者会议安排人员可以设置声音录制装置对应的语种。例如,可以由参会者任一拿一声音录制装置,并在其中设置自己使用的语种。例如选择英语、日语等。再例如,可以由会议安排人员预先安排各位参会者的座位,并在根据参会者设置座位上的声音录制装置对应的语种。
具体的,声音录制装置可以将设置的语种发送到执行本实施例提供的方法的电子设备中。具体还可以发送装置标识及其对应的语种,例如通道1对应英语,通道2对应日语,通道3对应汉语。
进一步的,可以将目标声音录制装置对应的语种,确定为发言者的语种信息。例如,若通道2为目标声音录制装置的标识,则发言者使用的语种为日语。
步骤3071,根据语种信息,声音录制装置中的其他声音录制装置对应的预设语言,对音频内容进行翻译,并将翻译结果发送到其他声音录制装置中。
实际应用时,可以根据确定的发言者的语种信息,对音频内容进行翻译。具体可以根据发言者的语种信息确定音频的源语言,例如源语言可以是日语。
其中,在对音频进行翻译时,还需要确定目标语言,从而将音频内容从源语言翻译成目标语言。
具体的,可以根据声音录制装置中除目标声音录制装置以外的其他声音录制装置对应的预设语言确定目标语言。当声音录制装置中包括大于一个的其他声音录制装置时,还可以确定多个目标语言。例如,通道1对应英语,通道2对应日语,通道3对应汉语,通道2是目标声音录制装置时,目标语言则可以是日语和汉语。
进一步的,电子设备可以将音频内容翻译成各个目标语言,得到翻译结果,再将翻译结果发送到相应的声音录制装置中。
实际应用时,在这种情况下,声音录制装置还具有耳机的功能。
其中,针对每种目标语言,可以得到一条翻译结果,再将该翻译结果发送到与目标语言对应的声音录制装置中。例如,可以将源语言为日语的音频内容,分别翻译成英语的翻译结果,以及汉语的翻译结果。再将英语的翻译结果发送到标识为通道1的声音录制装置中,将汉语的翻译结果发送到标识为通道3的声音录制装置中。从而使得其他声音录制装置的使用者,能够听到符合自己语种的翻译结果。
具体的,由于目标音频内容的信噪比更高,因此,可以根据该目标音频内容进行翻译,从而得到更准确的翻译结果。
各位参会者使用的声音录制装置可以向电子设备发送录制的音频内容,电子设备根据接收的多条音频内容,在声音录制装置中识别出发言者使用的目标声音录制装置。
此后,电子设备可以根据目标声音录制装置的预设语言、各个其他声音录制装置的预设语的预设语言,对音频内容进行翻译。并将翻译结果反馈到各个其他声音录制装置中。
步骤3062,根据所述目标声音录制装置对应的使用者身份,确定发言者身份。
实际应用时,可以根据目标声音录制装置确定对应的发言者属性。在一种应用场景中,可以将本实施例提供的方法应用在需要进行会议记录的多人会议应用场景中。
其中,在这种应用场景中,会议安排人员可以设置声音录制装置对应的使用者。例如,可以由会议安排人员预先安排各位参会者的座位,并根据参会者的位置,设置各个座位上的声音录制装置对应的使用者身份。
具体的,可以电子设备中录入各个声音录制装置的标识与使用者身份的对应关系。例如通道1对应使用者A,通道2对应使用者B,通道3对应使用者C。
进一步的,可以将目标声音录制装置对应的使用者身份,确定为发言者身份。例如,若通道2为目标声音录制装置的标识,则发言者身份为B。
步骤3072,将音频内容转换为文字内容,并根据发言者身份、文字内容进行会议记录。
实际应用时,可以根据确定的发言者的身份,进行会议记录。
其中,在进行会议记录时,可以先将音频内容转换为文字内容。并记录这段文字内容对应的发言者,从而形成会议记录。
具体的,记录的内容例如可以是“发言者B:发言内容”的格式。
进一步的,由于目标音频内容的信噪比更高,因此,可以根据该目标音频内容确定对应的文字内容,从而得到更准确的会议记录结果。
各位参会者使用的声音录制装置可以向电子设备发送录制的音频内容,电子设备根据接收的多条音频内容,在声音录制装置中识别出发言者使用的目标声音录制装置。
此后,电子设备可以根据目标声音录制装置的预设使用者身份,确定当前发言者的身份,并将音频内容转换为文字形式,然后记录发言者身份与文字形式的发言内容,从而形成会议记录。
可选的,会议记录的应用场景会翻译场景可以同时存在,即电子设备可以向参会者发送翻译结果,还可以进行会议记录。在进行会议记录时,还可以将发言内容统一为相同的语言。例如,将音频内容转换为文字时,根据发言者的语种,将其翻译成目标语言,例如翻译成中文,并进行记录。
图4为本申请一示例性实施例示出的发言者属性确定装置的结构图。
如图4所示,本实施例提供的发言者属性确定装置包括:
接收模块41,用于接收至少两个声音录制装置发送的音频内容,其中,所述音频内容是所述声音录制装置录制得到的;
信噪比确定模块42,用于确定每条所述音频内容的信噪比;
目标装置确定模块43,用于根据所述信噪比确定发言者使用的目标声音录制装置;
属性确定模块44,根据所述目标声音录制装置确定发言者属性。
本实施例提供的发言者属性确定装置,包括:接收模块,用于接收至少两个声音录制装置发送的音频内容,其中,音频内容是声音录制装置录制得到的;信噪比确定模块,用于确定每条音频内容的信噪比;目标装置确定模块,用于根据信噪比确定发言者使用的目标声音录制装置;属性确定模块,根据目标声音录制装置确定发言者属性。本实施例提供的发言者属性确定装置,可以根据各个声音录制装置录制的音频内容,识别到发言者使用的目标声音录制装置,再根据目标声音录制装置确定发言者属性,从而解决现有技术中需要预先采集各发言者的声音特征,才能够根据发言者的音频内容识别出发言者属性,导致方案不便于实施的问题。
本实施例提供的装置的具体原理和实现方式均与图2所示的实施例类似,此处不再赘述。
图5为本申请另一示例性实施例示出的发言者属性确定装置的结构图。
如图5所示,在上述实施例的基础上,本实施例提供的发言者属性确定装置,还包括预处理模块45,用于在信噪比确定模块42确定每条音频内容的信噪比之前:
确定所述音频内容之间的延迟,并根据所述延迟对所述音频内容进行对齐处理。
可选的,所述信噪比确定模块42包括:
片段确定单元421,用于确定每条所述音频内容中的语音片段、非语音片段;
信噪比确定单元422,用于根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比。
可选的,所述信噪比确定单元422具体用于:
根据所述语音片段对应的语音能量、所述非语音片段对应的非语音能量,确定所述信噪比。
可选的,所述目标装置确定模块43,包括:
目标音频确定单元431,用于在所述音频内容中,将所述信噪比最高的音频内容确定为目标音频内容;
目标装置确定单元432,用于将发送所述目标音频内容的所述声音录制装置确定为所述目标声音录制装置。
可选的,所述属性确定模块44具体用于:
根据所述目标声音录制装置对应的预设语言确定发言者的语种信息。
可选的,还包括翻译模块46,用于:
根据所述语种信息,所述声音录制装置中的其他声音录制装置对应的预设语言,对所述音频内容进行翻译,并将翻译结果发送到所述其他声音录制装置中。
可选的,所述属性确定模块44具体用于:
根据所述目标声音录制装置对应的使用者身份,确定发言者身份。
可选的,还包括记录模块47,用于:
将所述音频内容转换为文字内容,并根据所述发言者身份、所述文字内容进行会议记录。
本实施例提供的装置的具体原理和实现方式均与图3所示的实施例类似,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的发言者属性确定电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的发言者属性确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的发言者属性确定方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的发言者属性确定方法对应的程序指令/模块(例如,附图4所示的接收模块41、信噪比确定模块42、目标装置确定模块43和属性确定模块44)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的发言者属性确定方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据发言者属性确定电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至发言者属性确定电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
发言者属性确定电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与发言者属性确定电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本实施例还提供一种计算机程序,包括程序代码,当计算机运行所述计算机程序时,所述程序代码执行如上所述的任一种发言者属性确定方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种发言者属性确定方法,其特征在于,包括:
接收至少两个声音录制装置发送的音频内容,其中,所述音频内容是所述声音录制装置录制得到的;
确定每条所述音频内容的信噪比,并根据所述信噪比确定发言者使用的目标声音录制装置;
根据所述目标声音录制装置确定发言者属性,所述发言者属性为预先设置于所述目标声音录制装置内的;
所述根据所述目标声音录制装置确定发言者属性,包括:
根据所述目标声音录制装置对应的使用者身份,确定发言者身份;
将所述音频内容转换为文字内容,并根据所述发言者身份、所述文字内容进行会议记录。
2.根据权利要求1所述的方法,其特征在于,所述确定每条音频内容的信噪比之前,还包括:
确定所述音频内容之间的延迟,并根据所述延迟对所述音频内容进行对齐处理。
3.根据权利要求1所述的方法,其特征在于,所述确定每条音频内容的信噪比包括:
确定每条所述音频内容中的语音片段、非语音片段,并根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比,包括:
根据所述语音片段对应的语音能量、所述非语音片段对应的非语音能量,确定所述信噪比。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述信噪比确定发言者使用的目标声音录制装置,包括:
在所述音频内容中,将所述信噪比最高的音频内容确定为目标音频内容;
将发送所述目标音频内容的所述声音录制装置确定为所述目标声音录制装置。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标声音录制装置确定发言者属性,还包括:
根据所述目标声音录制装置对应的预设语言确定发言者的语种信息。
7.根据权利要求6所述的方法,其特征在于,还包括:
根据所述语种信息,所述声音录制装置中的其他声音录制装置对应的预设语言,对所述音频内容进行翻译,并将翻译结果发送到所述其他声音录制装置中。
8.一种发言者属性确定装置,其特征在于,包括:
接收模块,用于接收至少两个声音录制装置发送的音频内容,其中,所述音频内容是所述声音录制装置录制得到的;
信噪比确定模块,用于确定每条所述音频内容的信噪比;
目标装置确定模块,用于根据所述信噪比确定发言者使用的目标声音录制装置;
属性确定模块,根据所述目标声音录制装置确定发言者属性,所述发言者属性为预先设置于所述目标声音录制装置内的;
所述属性确定模块具体用于根据所述目标声音录制装置对应的使用者身份,确定发言者身份;
记录模块,用于将所述音频内容转换为文字内容,并根据所述发言者身份、所述文字内容进行会议记录。
9.根据权利要求8所述的发言者属性确定装置,其特征在于,还包括预处理模块,用于在信噪比确定模块确定每条音频内容的信噪比之前:
确定所述音频内容之间的延迟,并根据所述延迟对所述音频内容进行对齐处理。
10.根据权利要求8所述的发言者属性确定装置,其特征在于,所述信噪比确定模块包括:
片段确定单元,用于确定每条所述音频内容中的语音片段、非语音片段;
信噪比确定单元,用于根据所述语音片段、所述非语音片段确定所述音频内容的所述信噪比。
11.根据权利要求10所述的发言者属性确定装置,其特征在于,所述信噪比确定单元具体用于:
根据所述语音片段对应的语音能量、所述非语音片段对应的非语音能量,确定所述信噪比。
12.根据权利要求8-11任一项所述的发言者属性确定装置,其特征在于,所述目标装置确定模块,包括:
目标音频确定单元,用于在所述音频内容中,将所述信噪比最高的音频内容确定为目标音频内容;
目标装置确定单元,用于将发送所述目标音频内容的所述声音录制装置确定为所述目标声音录制装置。
13.根据权利要求8-11任一项所述的发言者属性确定装置,其特征在于,所述属性确定模块具体用于:
根据所述目标声音录制装置对应的预设语言确定发言者的语种信息。
14.根据权利要求13所述的发言者属性确定装置,其特征在于,还包括翻译模块,用于:
根据所述语种信息,所述声音录制装置中的其他声音录制装置对应的预设语言,对所述音频内容进行翻译,并将翻译结果发送到所述其他声音录制装置中。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926833.3A CN110600039B (zh) | 2019-09-27 | 2019-09-27 | 发言者属性确定方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926833.3A CN110600039B (zh) | 2019-09-27 | 2019-09-27 | 发言者属性确定方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110600039A CN110600039A (zh) | 2019-12-20 |
CN110600039B true CN110600039B (zh) | 2022-05-20 |
Family
ID=68864357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910926833.3A Active CN110600039B (zh) | 2019-09-27 | 2019-09-27 | 发言者属性确定方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600039B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542178B (zh) * | 2020-12-21 | 2023-06-06 | 维沃移动通信(深圳)有限公司 | 音频数据处理方法及装置 |
CN115174534B (zh) * | 2022-07-19 | 2024-02-13 | 科大讯飞股份有限公司 | 语音交流中话语权分配方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
CN103247289A (zh) * | 2012-02-01 | 2013-08-14 | 鸿富锦精密工业(深圳)有限公司 | 记录系统及方法、声音输入装置和语音记录装置及方法 |
CN103366742A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入方法及系统 |
CN204906681U (zh) * | 2015-06-26 | 2015-12-23 | 苏州优函信息科技有限公司 | 多耳麦口译装置 |
CN105389099A (zh) * | 2014-08-29 | 2016-03-09 | 三星电子株式会社 | 用于语音记录和回放的方法和设备 |
CN107018466A (zh) * | 2015-12-28 | 2017-08-04 | 皇家Kpn公司 | 增强音频记录 |
CN109994122A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 语音数据的处理方法、装置、设备、介质和系统 |
CN110010130A (zh) * | 2019-04-03 | 2019-07-12 | 安徽阔声科技有限公司 | 一种面向参会者同步语音转写文字的智能方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073422A1 (en) * | 2002-10-14 | 2004-04-15 | Simpson Gregory A. | Apparatus and methods for surreptitiously recording and analyzing audio for later auditioning and application |
US9432621B2 (en) * | 2014-02-19 | 2016-08-30 | Citrix Systems, Inc. | Techniques for interfacing a user to an online meeting |
-
2019
- 2019-09-27 CN CN201910926833.3A patent/CN110600039B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247289A (zh) * | 2012-02-01 | 2013-08-14 | 鸿富锦精密工业(深圳)有限公司 | 记录系统及方法、声音输入装置和语音记录装置及方法 |
CN103366742A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入方法及系统 |
CN102854494A (zh) * | 2012-08-08 | 2013-01-02 | Tcl集团股份有限公司 | 一种声源定位方法及装置 |
CN105389099A (zh) * | 2014-08-29 | 2016-03-09 | 三星电子株式会社 | 用于语音记录和回放的方法和设备 |
CN204906681U (zh) * | 2015-06-26 | 2015-12-23 | 苏州优函信息科技有限公司 | 多耳麦口译装置 |
CN107018466A (zh) * | 2015-12-28 | 2017-08-04 | 皇家Kpn公司 | 增强音频记录 |
CN109994122A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 语音数据的处理方法、装置、设备、介质和系统 |
CN110010130A (zh) * | 2019-04-03 | 2019-07-12 | 安徽阔声科技有限公司 | 一种面向参会者同步语音转写文字的智能方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110600039A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6575658B2 (ja) | インタラクティブ・ホワイトボード機器の音声制御 | |
US10249301B2 (en) | Method and system for speech recognition processing | |
CN108683937A (zh) | 智能电视的语音交互反馈方法、系统及计算机可读介质 | |
CN111862940A (zh) | 基于耳机实现的翻译方法、装置、系统、设备和存储介质 | |
CN112153323B (zh) | 远程会议的同声传译方法、装置、电子设备和存储介质 | |
US11348583B2 (en) | Data processing method and apparatus for intelligent device, and storage medium | |
CN108073572B (zh) | 信息处理方法及其装置、同声翻译系统 | |
CN110600039B (zh) | 发言者属性确定方法、装置、电子设备及可读存储介质 | |
JP2021034003A (ja) | 人物識別方法、装置、電子デバイス、記憶媒体、及びプログラム | |
CN110580904A (zh) | 通过语音控制小程序的方法、装置、电子设备及存储介质 | |
US11646050B2 (en) | Method and apparatus for extracting video clip | |
JP2022050309A (ja) | 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム | |
US11881224B2 (en) | Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones | |
CN112669855A (zh) | 语音处理方法和装置 | |
CN112382292A (zh) | 基于语音的控制方法和装置 | |
CN103297389B (zh) | 人机对话方法及装置 | |
US11086592B1 (en) | Distribution of audio recording for social networks | |
CN112382281B (zh) | 一种语音识别方法、装置、电子设备和可读存储介质 | |
CN112581941A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN113096643A (zh) | 视频的处理方法和装置 | |
CN112114886A (zh) | 误唤醒音频的获取方法和装置 | |
CN114501112A (zh) | 用于生成视频笔记的方法、装置、设备、介质和产品 | |
CN114185511A (zh) | 一种音频数据处理方法、装置及电子设备 | |
CN114531480A (zh) | 用于共享数据的方法、装置、设备以及存储介质 | |
CN114203181A (zh) | 用于识别对话语音的方法、装置以及可拆卸的拾音设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210518 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Applicant after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |