CN110175260B - 录音角色的区分方法、设备及计算机可读存储介质 - Google Patents

录音角色的区分方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110175260B
CN110175260B CN201910428674.4A CN201910428674A CN110175260B CN 110175260 B CN110175260 B CN 110175260B CN 201910428674 A CN201910428674 A CN 201910428674A CN 110175260 B CN110175260 B CN 110175260B
Authority
CN
China
Prior art keywords
recording
file
distinguishing
information
role
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910428674.4A
Other languages
English (en)
Other versions
CN110175260A (zh
Inventor
颜士龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Emeet Tech Co ltd
Original Assignee
Shenzhen Emeet Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Emeet Tech Co ltd filed Critical Shenzhen Emeet Tech Co ltd
Priority to CN201910428674.4A priority Critical patent/CN110175260B/zh
Publication of CN110175260A publication Critical patent/CN110175260A/zh
Application granted granted Critical
Publication of CN110175260B publication Critical patent/CN110175260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种录音角色的区分方法、设备及计算机可读存储介质,该方法包括以下步骤:接收预设录音设备上传的方位信息文件和录音文件,其中所述方位信息文件包含多个录音角色的方位信息,所述录音文件包含多个所述录音角色的录音信息;根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件;根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分。本发明依据角色区分文件实现对录音文件中各个录音角色进行区分,区分各录音角色的说话内容;使得区分更为快捷便利,提高了区分的准确性。

Description

录音角色的区分方法、设备及计算机可读存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种录音角色的区分方法、设备及计算机可读存储介质。
背景技术
随着语音处理技术的发展,语音的应用范围越来越广泛,除了在日常生活领域中的沟通交流、搜索查询以外,还涉及到会议场景;如在会议中通过麦克风录音,进而后续依据录音查找各会议参与人的会议观点,或者形成会议记录等。
目前,会议中的录音均以整体文件的形式存在,各会议参与人在会议中的发言内容均存在于整体录音中;在具有查找各会议参与人的会议观点的需求时,需要仔细辨别各会议参与人的声音特点来进行区分,该区分的方式不够快捷便利,且容易出错。
发明内容
本发明的主要目的在于提供一种录音角色的区分方法、设备及计算机可读存储介质,旨在解决现有技术中对会议录音的区分不够快捷便利,且容易出错的技术问题。
为实现上述目的,本发明提供一种录音角色的区分方法,所述录音角色的区分方法包括以下步骤:
接收预设录音设备上传的方位信息文件和录音文件,其中所述方位信息文件包含多个录音角色的方位信息,所述录音文件包含多个所述录音角色的录音信息;
根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件;
根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分。
可选地,所述根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件的步骤包括:
将各所述录音信息转换为文字信息,并将各所述文字信息以预设格式存储,生成文字信息组;
根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息;
确定与各所述目标方位信息对应的目标录音角色,并将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件。
可选地,所述将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件的步骤包括:
根据各所述目标录音角色对应的目标方位信息,将各所述目标录音角色添加到与对应的各目标方位信息具有所述匹配关系的各所述文字信息组;
对各所述文字信息组分配区分标识,其中具有相同所述目标录音角色的各所述文字信息组之间所分配的区分标识相同;
对经分配所述区分标识的各所述文字信息组排列,生成文字信息文件;
将所述文字信息文件和所述录音文件整合,生成为所述方位信息文件和所述录音文件之间的角色区分文件。
可选地,所述根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息的步骤包括:
逐一读取各所述文字信息组中的第一时间数据,并针对读取的所述第一时间数据执行以下步骤:
读取各所述方位信息中的第二时间数据,并将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据;
将与所述目标第二时间数据对应的方位信息,确定为与读取的所述第一时间数据对应的所述文字信息组具有匹配关系的目标方位信息。
可选地,所述将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据的步骤包括:
将各所述第二时间数据逐一和所述第一时间数据匹配,生成各所述第二时间数据和所述第一时间数据之间的重合区间;
对各所述重合区间的区间范围对比,确定各所述区间范围中数值跨度最大的目标重合区间;
将与所述目标重合区间对应的所述第二时间数据确定为匹配程度最高的目标第二时间数据。
可选地,所述确定与各所述目标方位信息对应的目标录音角色的步骤包括:
读取各所述目标方位信息中的角度数据,并根据预设的角度与角色之间的对应关系,确定与各所述角度数据对应的目标角色;
将各所述目标角色确定为与各所述目标方位信息对应的目标录音角色。
可选地,所述根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分的步骤之后包括:
将所述角色区分文件的完成标识下发到终端,并在接收到所述终端基于所述完成标识发送的获取请求时,将所述角色区分文件下发到所述终端,以供所述终端对所述角色区分文件中的文字信息基于多个所述录音角色进行区分显示,并对多个所述录音角色进行角色筛选和角色信息编辑。
可选地,所述接收预设录音设备上传的方位信息文件和录音文件的步骤之前包括:
当接收到预设录音设备的通信连接请求时,建立与所述预设录音设备的通信连接,并将所述通信连接的成功标识返回到所述预设录音设备,以供所述预设录音设备基于所述成功标识采集录音数据和方位数据,并将所述录音数据和所述方位数据分别生成为方位信息文件和录音文件。
进一步地,为实现上述目的,本发明还提供一种录音角色的区分设备,所述录音角色的区分设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的录音角色的区分程序,所述录音角色的区分程序被所述处理器执行时实现如上述所述的录音角色的区分方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有录音角色的区分程序,所述录音角色的区分程序被处理器执行时实现如上所述的录音角色的区分方法的步骤。
本发明在接收到预设录音设备上传的方位信息文件和录音文件时,先依据方位信息文件中各录音角色的方位信息和录音文件中各录音角色的录音信息之间的匹配关系,将方位信息文件和录音文件生成为角色区分文件;进而依据该角色区分文件,对录音文件中的多个录音角色进行区分。本方案中的预设录音设备为预先设定在不同方位进行录音的设备,其所上传的方位信息文件表征了各方位的录音角色,而录音文件表征了各方位录音角色的说话内容;依据方位信息和录音信息之间的匹配关系所生成的角色区分文件,体现了各录音角色的说话内容;从而依据该角色区分文件即可实现对录音文件中各个录音角色进行区分,即区分各录音角色的说话内容;避免了通过辨别录音角色的声音特点来进行区分,使得区分更为快捷便利,且提高了区分的准确性。
附图说明
图1为本发明录音角色的区分设备实施例方案涉及的设备硬件运行环境的结构示意图;
图2为本发明录音角色的区分方法第一实施例的流程示意图;
图3为本发明录音角色的区分方法中麦克风阵列的排布示意图;
图4为本发明录音角色的区分方法的麦克风阵列中心型指向和全指向的麦克风示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种录音角色的区分设备,参照图1,图1为本发明录音角色的区分设备实施例方案涉及的设备硬件运行环境的结构示意图。
如图1所示,该录音角色的区分设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的录音角色的区分设备的硬件结构并不构成对录音角色的区分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及录音角色的区分程序。其中,操作系统是管理和控制录音角色的区分设备与软件资源的程序,支持网络通信模块、用户接口模块、录音角色的区分程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的录音角色的区分设备硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的录音角色的区分程序,并执行以下操作:
接收预设录音设备上传的方位信息文件和录音文件,其中所述方位信息文件包含多个录音角色的方位信息,所述录音文件包含多个所述录音角色的录音信息;
根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件;
根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分。
进一步地,所述根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件的步骤包括:
将各所述录音信息转换为文字信息,并将各所述文字信息以预设格式存储,生成文字信息组;
根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息;
确定与各所述目标方位信息对应的目标录音角色,并将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件。
进一步地,所述将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件的步骤包括:
根据各所述目标录音角色对应的目标方位信息,将各所述目标录音角色添加到与对应的各目标方位信息具有所述匹配关系的各所述文字信息组;
对各所述文字信息组分配区分标识,其中具有相同所述目标录音角色的各所述文字信息组之间所分配的区分标识相同;
对经分配所述区分标识的各所述文字信息组排列,生成文字信息文件;
将所述文字信息文件和所述录音文件整合,生成为所述方位信息文件和所述录音文件之间的角色区分文件。
进一步地,所述根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息的步骤包括:
逐一读取各所述文字信息组中的第一时间数据,并针对读取的所述第一时间数据执行以下步骤:
读取各所述方位信息中的第二时间数据,并将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据;
将与所述目标第二时间数据对应的方位信息,确定为与读取的所述第一时间数据对应的所述文字信息组具有匹配关系的目标方位信息。
进一步地,所述将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据的步骤包括:
将各所述第二时间数据逐一和所述第一时间数据匹配,生成各所述第二时间数据和所述第一时间数据之间的重合区间;
对各所述重合区间的区间范围对比,确定各所述区间范围中数值跨度最大的目标重合区间;
将与所述目标重合区间对应的所述第二时间数据确定为匹配程度最高的目标第二时间数据。
进一步地,所述确定与各所述目标方位信息对应的目标录音角色的步骤包括:
读取各所述目标方位信息中的角度数据,并根据预设的角度与角色之间的对应关系,确定与各所述角度数据对应的目标角色;
将各所述目标角色确定为与各所述目标方位信息对应的目标录音角色。
进一步地,所述根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分的步骤之后,处理器1001还用于调用存储器1005中存储的录音角色的区分程序,并执行以下操作:
将所述角色区分文件的完成标识下发到终端,并在接收到所述终端基于所述完成标识发送的获取请求时,将所述角色区分文件下发到所述终端,以供所述终端对所述角色区分文件中的文字信息基于多个所述录音角色进行区分显示,并对多个所述录音角色进行角色筛选和角色信息编辑。
进一步地,所述接收预设录音设备上传的方位信息文件和录音文件的步骤之前,处理器1001还用于调用存储器1005中存储的录音角色的区分程序,并执行以下操作:
当接收到预设录音设备的通信连接请求时,建立与所述预设录音设备的通信连接,并将所述通信连接的成功标识返回到所述预设录音设备,以供所述预设录音设备基于所述成功标识采集录音数据和方位数据,并将所述录音数据和所述方位数据分别生成为方位信息文件和录音文件。
本发明录音角色的区分设备的具体实施方式与下述录音角色的区分方法各实施例基本相同,在此不再赘述。
本发明还提供一种录音角色的区分方法。
参照图2,图2为本发明录音角色的区分方法第一实施例的流程示意图。
本发明实施例提供了录音角色的区分方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例中的录音角色的区分方法包括:
步骤S10,接收预设录音设备上传的方位信息文件和录音文件,其中所述方位信息文件包含多个录音角色的方位信息,所述录音文件包含多个所述录音角色的录音信息。
本实施例中的录音角色的区分方法应用于服务器,服务器与预先设定的预设录音设备以及终端通信连接,通过服务器对预设录音设备上传的录音文件中的多个录音角色进行区分,并将区分的各录音角色在录音文件中的录音信息转为文字信息显示在终端上。其中终端是手机、平板电脑等一类具有显示装置的智能终端,预设录音设备是以麦克风阵列和录音模块所组成的设备;预设录音设备布置于各种需要录音的场景,如会议场景、谈判场景等,本实施例以会议场景为例进行说明。预设录音设备在会议场景中采集的各会议成员的发言内容所形成的文件即为录音文件,且各会议成员即为录音文件中涉及到的录音角色,对录音文件中各录音角色的区分其实质为对各会议成员发言内容的区分。需要说明的是,麦克风阵列可以是如图3所示中4个麦克风组成的阵列,也可以是6个麦克风组成的阵列,还可以是8个麦克风组成的阵列,具体可依据场景所需求的阵列数进行设定。同时,形成麦克风阵列的麦克风至少包括具有特定指向性的麦克风和全方位指向的麦克风两种类型,如图4所示的心型指向麦克风和全指向麦克风;为了确保某一方向的声音信息采集录制的效果,可优先选取具有指向性特点的麦克风形成麦克风阵列,如选取心型指向的麦克风以对其指向的心型范围内的声音信息进行优先采集录制。
进一步地,预设录音设备中的麦克风阵列主要用于通过采集各个方位的声音数据作为方位数据,来生成方位信息文件,而预设录音设备中的录音模块主要用于采集录音数据,生成录音文件;服务器依据该录音文件和方位信息文件对各录音角色进行区分。其中预设录音设备在将其生成的录音文件和方位信息文件上传到服务器进行区分之前,先需要与服务器建立通信连接,并采录音数据和方位数据;具体地,接收预设录音设备上传的方位信息文件和录音文件的步骤之前包括:
步骤a,当接收到预设录音设备的通信连接请求时,建立与所述预设录音设备的通信连接,并将所述通信连接的成功标识返回到所述预设录音设备,以供所述预设录音设备基于所述成功标识采集录音数据和方位数据,并将所述录音数据和所述方位数据分别生成为方位信息文件和录音文件。
可理解地,为了对会议进行录音,各会议成员进入到会议室开始会议后,启动预设录音设备向服务器发送通信连接请求。服务器在接收到该通信连接请求时,先验证该预设录音设备的身份是否合法,在身份验证合法后,建立与预设录音设备的通信连接,生成通信连接的成功标识返回到预设录音设备。预设录音设备在接收到该成功标识后,则开始对录音数据和方位数据进行采集。采集时因麦克风阵列中位于各个方位上的麦克风均具有录音采集功能,而声音具有扩散性,从而当某个方位上的会议成员进行发言时,各个方位上的麦克风或多或少都会采集到该发言的声音,只是各自所采集到的时间长短不同。将该各个方向上的麦克风在同一时间段内采集的各会议成员的发言时间以及各自所在的方位,通过NS算法、DOA算法或者AEC算法生成为带时间的方位数据;而将录音模块采集的发言声音生成为WAV格式的录音数据。在会议结束之后,将会议过程中所采集的所有方位数据形成方位信息文件,而将所采集的所有录音数据形成录音文件;且各方位数据以多个录音角色的方位信息存在于方位信息文件中,各录音数据以多个录音角色的录音信息存在于录音文件中。
需要说明的是,麦克风阵列中的各麦克风以角度数据的形式表征于方位数据中,使得形成方位信息文件中的各方位数据包括角度数据和时间数据。如图3由4个麦克风所组成的麦克风阵列中,在4个麦克风所在的平面建立由X坐标轴和Y坐标轴组成的二维坐标系,将4者的中心位置作为二维坐标系的坐标圆点,2个麦克风以对称的方式分布于X坐标轴的正方向和负方向,另外2个麦克风以对称的方式分布于Y坐标轴的正方向和负方向;使得位于X坐标轴正方向的麦克风对应的角度数据为0°,位于X坐标轴负方向的麦克风对应的角度数据为180°,位于Y坐标轴正方向的麦克风对应的角度数据为90°,位于Y坐标轴负方向的麦克风对应的角度数据为270°。在将方位数据生成为方位信息文件时,各项方位数据以自定义的DIR文件格式存在,DIR文件格式包含相对录音时间偏移量和角度,相对录音时间偏移量是各会议成员相对于各自开始录音时间的偏移秒数,表征时间数据,角度即为各麦克风所对应所在的角度数据。此外DIR文件格式还支持扩展,如扩展到表征录音数据是否为重点录音的类型。各项方位数据之间用空格、分号之类的标识符进行区分,整体以多个录音角色的方位信息形成方位信息文件。
步骤S20,根据各所述方位信息和各所述录音信息之间的匹配关系,将所述方位信息文件和所述录音文件生成为角色区分文件。
进一步地,服务器在接收到预设录音设备基于HTTP(HyperText TransferProtocol,超文本传输协议)协议所传输的方位信息文件和录音文件之后,将方位信息文件中的各方位信息和录音文件中的各录音信息进行匹配,进而依据各方位信息和各录音信息之间的匹配关系,将方位信息文件和录音文件生成为角色区分文件。其中录音模块在采集录音信息时,所采集的录音信息中携带有时间数据,使得生成录音文件的各录音信息中相应的携带有该时间数据;从而在将方位信息和录音信息匹配时,依据两者之间的时间数据进行;在具有相同时间数据的方位信息和录音信息之间形成匹配关系。在各个方位信息和录音信息均形成匹配关系之后,则依据形成各匹配关系的时间数据的先后关系,将方位信息文件和录音文件生成为角色区分文件;该角色区分文件其实质为由各项匹配关系中的录音信息所形成的区分文件,先将各录音信息转换为文字信息,再将各文字信息依据时间数据的先后关系和录音文件一并形成为角色区分文件。具体地,根据各方位信息和各录音信息之间的匹配关系,将方位信息文件和录音文件生成为角色区分文件的步骤包括:
步骤S21,将各所述录音信息转换为文字信息,并将各所述文字信息以预设格式存储,生成文字信息组;
步骤S22,根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息;
步骤S23,确定与各所述目标方位信息对应的目标录音角色,并将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件。
更进一步地,服务器将各录音信息中的语音进行识别,将各录音信息转换为文字信息;此后将各文字信息以预先设定的预设格式存储,该预设格式优选为JSON(JavaScriptObject Notation,JavaScript对象简谱)格式,以dataList数组的形式存在。JSON格式的dataList数组中包含各项录音信息的识别结果,其中涉及到参数content、startTime、endTime、index、isMarked和speaker;content表示经转换的文字信息,以UTF-8编码的形式存在;startTime表示录音信息中录音的开始时间,是基于开始识别的相对时间,单位毫秒;endTime表示录音信息中录音的结束时间,也是基于开始识别的相对时间,单位毫秒;index表示经转换的文字信息在dataList数组中的索引值,从0开始索引;isMarked表示与经转换的文字信息对应的录音信息是否作了重点标记,取值0或1;speaker表示与经转换的文字信息对应录音角色的索引值,用于区分不同方位的录音角色,取值从0开始。
进一步地,将该以JSON格式存储的各文字信息作为文字信息组,其中的开始时间和结束时间为第一时间数据。将该第一时间数据和方位信息中的时间数据对比,确定方位信息中与各第一时间数据匹配的时间数据,该匹配的时间数据对应的方位信息即为与各文字信息组具有匹配关系的目标方位信息。如文字信息组p1、p2和p3的第一时间数据分别为t1、t2和t3,而方位信息p4、p5和p6中的时间数据为t4、t5和t6,将t1逐一和t4、t5、t6对比,确定与t1匹配的时间数据为t4,而与t2、t3匹配的时间数据分别为t5和t6,则t4对应的方位信息p4即为与文字信息组p1具有匹配关系的目标方位信息组,相应地p5为与p2具有匹配关系的目标方位信息组,p6为与p3具有匹配关系的目标方位信息组,即p1与p4、p2与p5、p3与p6之间具有匹配关系。
更进一步地,方位信息文件中包含有多个方位信息,各方位信息对应不同方位的麦克风,会议成员在会议初始选择不同的方位使用不同的麦克风进行发言,使得各方位的麦克风与各会议成员之间具有对应关系,即各方位信息与录音角色之间具有对应关系。从而在确定各目标方位信息之后,将与各目标方位信息对应的录音角色确定为目标录音角色,并将各目标录音角色添加到各自对应匹配的文字信息组中,形成方位信息和录音文件之间的角色区分文件。如对于上述方位信息p4、p5和p6,若对应的录音角色分别为w1、w2和w3,则将w1、w2和w3作为目标录音角色分别添加到与p4、p5和p6具有匹配关系的文字信息组p1、p2和p3中。进而将各文字信息组中生成为方位信息文件和录音信息文件之间的角色区分文件,用各文字信息组中的目标录音角色对各文字信息组中的文字信息进行区分,表征各目标录音角色发言的文字信息。
步骤S30,根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分。
进一步地,服务器在生成角色区分文件之后,依据该角色区分文件中各文字信息组的目标录音角色,即可对录音文件中涉及到的各个录音角色进行区分,各文字信息组中的文字信息即为该组中目标录音角色所对应的发言内容。此后将区分的录音文件中录音角色的文字信息下发到终端显示,以便于终端用户查看,了解各录音角色的发言内容;具体地,根据角色区分文件,对与录音文件对应的多个录音角色进行区分的步骤之后包括:
步骤b,将所述角色区分文件的完成标识下发到终端,并在接收到所述终端基于所述完成标识发送的获取请求时,将所述角色区分文件下发到所述终端,以供所述终端对所述角色区分文件中的文字信息基于多个所述录音角色进行区分显示,并对多个所述录音角色进行角色筛选和角色信息编辑。
服务器在生成用于对录音文件中多个录音角色进行区分的角色区分文件之后,进一步生成完成标识,表征角色区分文件生成完成。此后将完成标识基于HTTP协议或者TCP(Transmission Control Protocol,传输控制协议)协议下发到终端,终端在接收到该完成标识后,将该完成标识显示在终端的显示界面。终端用户在查看到该完成标识后发送用于获取角色区分文件的获取请求,服务器在接收到该获取请求时,将角色区分文件下发到终端。终端将角色区分文件中的文字信息依据各录音角色进行区分显示,该区分显示为对于同一录音角色用相同的标识进行显示,而不同的录音角色用不同的标识进行显示;如对于同一录音角色用相同的名称或头像进行显示,而不同的录音角色用不同的名称或头像进行显示。显示的内容除了经转换的文字信息之外,还包括录音信息的相对时间,即第一时间数据,以及整个录音文件。
进一步地,整个录音文件在显示文字信息的同时支持播放,且在播放的过程中支持回放,并根据回放的录音定位文字的位置,或者依据当前显示的文字内容定位录音的位置。如回放的录音位置为10分钟的位置,则将该10分钟录音所对应的文字内容显示在终端的界面上;或者当前显示的文字内容对应的录音为20分钟的录音,则将录音调整到20分钟的位置进行播放;以在显示的文字内容和播放的录音内容之间对应,使用户查看的文字内容和听到的录音内容相同。
此外,对于终端上所显示的各录音角色的文字信息可支持查询,即通过角色筛选来查询文字信息;终端界面中设置有搜索框,在搜索框中输入所需要查询的录音角色的名称即可对该录音角色对应的文字信息进行筛选;将筛选所得到的文字信息显示在终端界面上,以便于用户的查看。同时,因在同一次会议中位于各方位麦克风上的录音角色具有不变的特性,从而筛选也可依据方位信息进行;在搜索框中输入某一方位的角度数据,即可对位于该角度数据上的录音角色的文字信息进行筛选病显示。
需要说明的是,为了便于查看各录音角色的身份信息,在终端界面中设置有对录音角色进行角色信息编辑的机制;通过对录音角色的名称或头像进行双击、长按等一类操作来触发对录音角色的角色信息编辑,设置角色的名称、身份信息、职务等。不同的人员通过该设置的角色信息即可了解该录音角色的信息,便于对录音角色的信息和会议观点的同时查看。
本发明在接收到预设录音设备上传的方位信息文件和录音文件时,先依据方位信息文件中各录音角色的方位信息和录音文件中各录音角色的录音信息之间的匹配关系,将方位信息文件和录音文件生成为角色区分文件;进而依据该角色区分文件,对录音文件中的多个录音角色进行区分。本方案中的预设录音设备为预先设定在不同方位进行录音的设备,其所上传的方位信息文件表征了各方位的录音角色,而录音文件表征了各方位录音角色的说话内容;依据方位信息和录音信息之间的匹配关系所生成的角色区分文件,体现了各录音角色的说话内容;从而依据该角色区分文件即可实现对录音文件中各个录音角色进行区分,即区分各录音角色的说话内容;避免了通过辨别录音角色的声音特点来进行区分,使得区分更为快捷便利,且提高了区分的准确性。
进一步地,提出本发明录音角色的区分方法第二实施例。
所述录音角色的区分方法第二实施例与所述录音角色的区分方法第一实施例的区别在于,所述根据各所述文字信息组中的第一时间数据,确定各所述方位信息中与各所述文字信息组具有所述匹配关系的目标方位信息的步骤包括:
步骤S221,逐一读取各所述文字信息组中的第一时间数据,并针对读取的所述第一时间数据执行以下步骤:
步骤S222,读取各所述方位信息中的第二时间数据,并将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据;
本实施例在为各文字信息组匹配目标方位信息时,先逐一读取各文字信息组中的第一时间数据,每次只针对当前读取的第一时间数据进行匹配,在当前读取的第一时间数据匹配完成后,再读取下一个文字信息组中的第一时间数据作为当前读取的第一时间数据进行匹配,知道个文字信息组中的各第一时间数据均读取完成并进行匹配操作。具体地,匹配时,在读取到文字信息组中的第一时间数据后,再读取各方位信息中的时间数据作为第二时间数据,进而将各第二时间数据逐一和第一时间数据匹配,确定各第二时间数据中与第一时间数据匹配程度最高的目标第二时间数据。其中匹配程度的高低由第一时间数据和第二时间数据之间的重合区间大小决定,具体地,将各第二时间数据逐一和第一时间数据匹配,确定匹配程度最高的目标第二时间数据的步骤包括:
步骤c1,将各所述第二时间数据逐一和所述第一时间数据匹配,生成各所述第二时间数据和所述第一时间数据之间的重合区间;
步骤c2,对各所述重合区间的区间范围对比,确定各所述区间范围中数值跨度最大的目标重合区间;
步骤c3,将与所述目标重合区间对应的所述第二时间数据确定为匹配程度最高的目标第二时间数据。
进一步地,将各第二时间数据逐一和第一时间数据匹配,得到各第二时间数据和第一时间数据之间的重合区间;再在各重合区间之间的区间范围进行对比,确定各区间范围中数值跨度最大的目标重合区间。如对于第一时间数据为M:[0,90],而各第二时间数据分别为N1:[10,50],N2:[2,85],N3:[20,100],则生成的重合区间分别为[10,50],[2,85]和[20,90],此后对各个重合区间的区间范围对比,确定其中数值跨度最大的目标重合区间为[20,90]。进而将目标重合区间所来源的第二时间数据确定为目标第二时间数据,表征其与当前读取的第一时间数据之间的匹配程度最高。
步骤S223,将与所述目标第二时间数据对应的方位信息,确定为与读取的所述第一时间数据对应的所述文字信息组具有匹配关系的目标方位信息。
更进一步地,不同方位信息中的时间数据均对应有各自的方位信息,在确定目标第二时间数据后,目标第二时间数据所在方位信息中对应的方位信息,与当前读取的第一时间数据所来源的文字信息组之间具有匹配关系;从而将该对应的方位信息确定为目标方位信息,与当前读取的第一时间数据所来源的文字信息组具有匹配关系,以此确定与各文字信息组具有匹配关系的目标方位信息组。
本实施例通过将各文字信息组中的第一时间数据和各方位信息中的第二时间数据对比,确定与各文字信息组中具有匹配关系的目标方位信息组;因第一时间数据表征了文字信息组中录音数据的生成时间,而第二时间数据表征了方位信息中各录音角色的发言时间,两者之间匹配程度的高低表征生成时间与发言时间的对应性;匹配程度越高对应性越高,录音数据越有可能由该录音角色发言生成,使得录音角色和录音数据的匹配更为准确,进而使得通过角色区分文件对录音文件中录音角色的区分更为准确。
进一步地,提出本发明录音角色的区分方法第三实施例。
所述录音角色的区分方法第三实施例与所述录音角色的区分方法第一或第二实施例的区别在于,所述确定与各所述目标方位信息对应的目标录音角色的步骤包括:
步骤S231,读取各所述目标方位信息中的角度数据,并根据预设的角度与角色之间的对应关系,确定与各所述角度数据对应的目标角色;
步骤S232,将各所述目标角色确定为与各所述目标方位信息对应的目标录音角色。
本实施例将各方位的麦克风与会议成员之间的对应关系,设定为预设的角度与角色之间的对应关系;在确定目标录音角色时,先对各目标方位信息中的角度数据进行读取,再对该对应关系进行调用,进而用读取的角度数据和对应关系对比,确定角度数据在对应关系中具有一致性的角度,该一致性的角度在对应关系中对应的角色,即为与角度数据对应的目标角色;以此确定与各目标方位信息中角度数据对应的目标角色,该目标角色即为与各目标方位信息对应的目标录音角色。此后依据方位信息和录音信息之间的匹配关系,将各目标录音角色添加到各文字信息组中,以在方位信息文件和录音文件之间形成角色区分文件。具体地,将各目标录音角色添加到对应的各文字信息组中,形成方位信息文件和录音文件之间的角色区分文件的步骤包括:
步骤S233,根据各所述目标录音角色对应的目标方位信息,将各所述目标录音角色添加到与对应的各目标方位信息具有所述匹配关系的各所述文字信息组;
步骤S234,对各所述文字信息组分配区分标识,其中具有相同所述目标录音角色的各所述文字信息组之间所分配的区分标识相同;
步骤S235,对经分配所述区分标识的各所述文字信息组排列,生成文字信息文件;
步骤S236,将所述文字信息文件和所述录音文件整合,生成为所述方位信息文件和所述录音文件之间的角色区分文件。
可理解地,各目标录音角色均对应有目标方位信息,而各目标方位信息又均存在具有匹配关系的文字信息组;从而可依据该匹配关系,将各目标录音角色添加到对应的文组信息组中。具体地,先由目标录音角色确定与其对应的目标方位信息,再确定与该对应的目标方位信息具有匹配关系的的文字信息组,进而将目标录音角色添加到该具有匹配关系的文字信息组,以使得录音角色与文字信息组之间的添加正确。在各个目标录音角色均添加到对应的各文字信息组之后,对各文字信息组分配区分标识,以对各文字信息组中的不同录音角色进行区分;其中,对于录音角色相同的文字信息组所分配的区分标识相同,以表征录音角色的统一性。
进一步地,对分配区分标识后的各文字信息组依据各组中时间的先后顺序进行排列,生成文字信息文件。此后将文字信息文件和录音文件合并,生成为方位信息文件和录音文件之间的角色区分文件,通过文字信息文件中各文字信息组中的录音角色,来对录音文件中涉及的多个录音角色进行区分。
本实施例通过添加有目标录音角色的文字信息组来对录音文件中的多个录音角色进行区分,且各文字信息组之间通过区分标识进行区分,同时将由文字信息组生成的文字信息文件和录音文件一并生成为角色区分文件;使得终端在获取到角色区分文件后,在对其中录音文件进行播放收听的同时,可由文字信息文件查看文字内容,并确定文字内容的录音角色,而实现对录音文件中录音角色的区分。
此外,本发明实施例还提出一种计算机可读存储介质。
计算机可读存储介质上存储有录音角色的区分程序,录音角色的区分程序被处理器执行时实现如上所述的录音角色的区分方法的步骤。
本发明计算机可读存储介质具体实施方式与上述录音角色的区分方法各实施例基本相同,在此不再赘述。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (8)

1.一种录音角色的区分方法,其特征在于,所述录音角色的区分方法包括以下步骤:
接收预设录音设备上传的方位信息文件和录音文件,其中所述方位信息文件包含多个录音角色的方位信息,所述录音文件包含多个所述录音角色的录音信息;
将各所述录音信息转换为文字信息,并将各所述文字信息以预设格式存储,生成文字信息组;
逐一读取各所述文字信息组中的第一时间数据,并针对读取的所述第一时间数据执行以下步骤:
读取各所述方位信息中的第二时间数据,并将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据;
将与所述目标第二时间数据对应的方位信息,确定为与读取的所述第一时间数据对应的所述文字信息组具有匹配关系的目标方位信息;
确定与各所述目标方位信息对应的目标录音角色,并将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件;
根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分。
2.如权利要求1所述的录音角色的区分方法,其特征在于,所述将各所述目标录音角色添加到对应的各所述文字信息组中,形成所述方位信息文件和所述录音文件之间的角色区分文件的步骤包括:
根据各所述目标录音角色对应的目标方位信息,将各所述目标录音角色添加到与对应的各目标方位信息具有所述匹配关系的各所述文字信息组;
对各所述文字信息组分配区分标识,其中具有相同所述目标录音角色的各所述文字信息组之间所分配的区分标识相同;
对经分配所述区分标识的各所述文字信息组排列,生成文字信息文件;
将所述文字信息文件和所述录音文件整合,生成为所述方位信息文件和所述录音文件之间的角色区分文件。
3.如权利要求1所述的录音角色的区分方法,其特征在于,所述将各所述第二时间数据逐一和所述第一时间数据匹配,确定匹配程度最高的目标第二时间数据的步骤包括:
将各所述第二时间数据逐一和所述第一时间数据匹配,生成各所述第二时间数据和所述第一时间数据之间的重合区间;
对各所述重合区间的区间范围对比,确定各所述区间范围中数值跨度最大的目标重合区间;
将与所述目标重合区间对应的所述第二时间数据确定为匹配程度最高的目标第二时间数据。
4.如权利要求1所述的录音角色的区分方法,其特征在于,所述确定与各所述目标方位信息对应的目标录音角色的步骤包括:
读取各所述目标方位信息中的角度数据,并根据预设的角度与角色之间的对应关系,确定与各所述角度数据对应的目标角色;
将各所述目标角色确定为与各所述目标方位信息对应的目标录音角色。
5.如权利要求1所述的录音角色的区分方法,其特征在于,所述根据所述角色区分文件,对与所述录音文件对应的多个所述录音角色进行区分的步骤之后包括:
将所述角色区分文件的完成标识下发到终端,并在接收到所述终端基于所述完成标识发送的获取请求时,将所述角色区分文件下发到所述终端,以供所述终端对所述角色区分文件中的文字信息基于多个所述录音角色进行区分显示,并对多个所述录音角色进行角色筛选和角色信息编辑。
6.如权利要求1-5任一项所述的录音角色的区分方法,其特征在于,所述接收预设录音设备上传的方位信息文件和录音文件的步骤之前包括:
当接收到预设录音设备的通信连接请求时,建立与所述预设录音设备的通信连接,并将所述通信连接的成功标识返回到所述预设录音设备,以供所述预设录音设备基于所述成功标识采集录音数据和方位数据,并将所述录音数据和所述方位数据分别生成为方位信息文件和录音文件。
7.一种录音角色的区分设备,其特征在于,所述录音角色的区分设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的录音角色的区分程序,所述录音角色的区分程序被所述处理器执行时实现如权利要求1-6中任一项所述的录音角色的区分方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有录音角色的区分程序,所述录音角色的区分程序被处理器执行时实现如权利要求1-6中任一项所述的录音角色的区分方法的步骤。
CN201910428674.4A 2019-05-21 2019-05-21 录音角色的区分方法、设备及计算机可读存储介质 Active CN110175260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910428674.4A CN110175260B (zh) 2019-05-21 2019-05-21 录音角色的区分方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910428674.4A CN110175260B (zh) 2019-05-21 2019-05-21 录音角色的区分方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110175260A CN110175260A (zh) 2019-08-27
CN110175260B true CN110175260B (zh) 2021-07-02

Family

ID=67691841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910428674.4A Active CN110175260B (zh) 2019-05-21 2019-05-21 录音角色的区分方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110175260B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908336A (zh) * 2021-01-29 2021-06-04 深圳壹秘科技有限公司 一种用于语音处理装置的角色分离方法及其语音处理装置
CN113012700B (zh) * 2021-01-29 2023-12-26 深圳壹秘科技有限公司 语音信号处理方法、装置、系统及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278559A (zh) * 2005-08-02 2008-10-01 布拉德利·L·戈特弗里德 会议系统
CN101950013A (zh) * 2009-07-10 2011-01-19 创新科技有限公司 用音频脉冲来定位至少一个声音发生对象或麦克风的方法
CN105389099A (zh) * 2014-08-29 2016-03-09 三星电子株式会社 用于语音记录和回放的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9203790B2 (en) * 2010-03-26 2015-12-01 Socon Media, Inc. Method, system and computer program product for controlled networked communication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278559A (zh) * 2005-08-02 2008-10-01 布拉德利·L·戈特弗里德 会议系统
CN101950013A (zh) * 2009-07-10 2011-01-19 创新科技有限公司 用音频脉冲来定位至少一个声音发生对象或麦克风的方法
CN105389099A (zh) * 2014-08-29 2016-03-09 三星电子株式会社 用于语音记录和回放的方法和设备

Also Published As

Publication number Publication date
CN110175260A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
US11631408B2 (en) Method for controlling data, device, electronic equipment and computer storage medium
CN110139062B (zh) 一种视频会议记录的创建方法、装置及终端设备
JP6085036B2 (ja) 非同期合唱方法、非同期合唱装置、プログラム及び記録媒体
US9407866B2 (en) Joining an electronic conference in response to sound
WO2021190404A1 (zh) 建立会议、会议创建方法、设备、系统及存储介质
CN110536075B (zh) 视频生成方法和装置
CN111739553A (zh) 会议声音采集、会议记录以及会议记录呈现方法和装置
CN112653902B (zh) 说话人识别方法、装置及电子设备
CN104125265B (zh) 节目互动方法、装置、终端、服务器及系统
CN210986246U (zh) 会议终端及会议终端系统
CN110175260B (zh) 录音角色的区分方法、设备及计算机可读存储介质
KR102627728B1 (ko) 메타버스 개인 맞춤형 콘텐츠 생성 및 인증 방법 및 그를 위한 장치 및 시스템
TW201036443A (en) Device, method and computer program product for transmitting data within remote application
CN105741833B (zh) 语音通信数据处理方法和装置
EP4243409A1 (en) System and method for displaying image, image-capturing device, and carrier means
JP5729844B1 (ja) コンテンツの評価装置、システム、サーバ装置及び端末装置
CN114880062A (zh) 聊天表情展示方法、设备、电子设备及存储介质
CN113518198B (zh) 会话界面显示方法、会议界面显示方法、装置及电子设备
KR20110040904A (ko) 통신 단말기, 제어 방법 및 기록 매체
CN112562677B (zh) 会议语音转写方法、装置、设备及存储介质
CN114244793A (zh) 信息处理方法、装置、设备及存储介质
CN110659006B (zh) 跨屏显示的方法、装置、电子设备及可读存储介质
US20130014022A1 (en) Network system, communication method, and communication terminal
US20230292011A1 (en) Information processing system, image-capturing device, and display method
WO2020020226A1 (zh) 照片分类的方法,设备及计算机可读介质和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant