CN111128132A - 语音分离方法和装置及系统、存储介质 - Google Patents
语音分离方法和装置及系统、存储介质 Download PDFInfo
- Publication number
- CN111128132A CN111128132A CN201911319114.1A CN201911319114A CN111128132A CN 111128132 A CN111128132 A CN 111128132A CN 201911319114 A CN201911319114 A CN 201911319114A CN 111128132 A CN111128132 A CN 111128132A
- Authority
- CN
- China
- Prior art keywords
- voice
- role
- character
- fragment
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 52
- 239000012634 fragment Substances 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语音分离方法和装置及系统、存储介质。其中,该方法包括:在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段;对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系。本发明解决了语音分离操作复杂度较高的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音分离方法和装置及系统、存储介质。
背景技术
在很多服务行业,通常会有对服务人员提供服务的过程进行录音并对录音进行分析的需求。但是在相关技术提供的语音识别方法,很难将服务过程中不同角色的声音进行区分,从而导致语音分离操作复杂度高的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音分离方法和装置及系统、存储介质,以至少解决语音分离操作复杂度较高的技术问题。
根据本发明实施例的一个方面,提供了一种语音分离方法,包括:在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,上述第一位置与上述第一角色音源对象所在第一对象位置之间的距离小于第一阈值,上述第二位置与上述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;对上述第一语音片段添加与上述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对上述第二语音片段添加与上述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;根据上述第一语音片段对应的第一采集时间及上述第二语音片段对应的第二采集时间,建立上述第一角色语音片段及上述第二角色语音片段之间的关联关系。
作为一种可选的实施方式,上述获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段包括:获取通过上述第一语音采集装置采集到的至少两个第一语音采集片段,及上述第二语音采集装置采集到的至少两个第二语音采集片段;比对上述至少两个第一语音采集片段的音量,并将音量最高的第一语音采集片段确定为上述第一语音片段;并比对上述至少两个第二语音采集片段的音量,并将音量最高的第二语音采集片段确定为上述第二语音片段。
作为一种可选的实施方式,在上述对上述第一语音片段添加与上述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对上述第二语音片段添加与上述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段之前,还包括:对上述第一语音片段及上述第二语音片段进行降噪处理。
作为一种可选的实施方式,上述根据上述第一语音片段对应的第一采集时间及上述第二语音片段对应的第二采集时间,建立上述第一角色语音片段及上述第二角色语音片段之间的关联关系包括:对上述第一角色语音片段进行语音识别,以得到第一角色文本,并对上述第二角色语音片段进行语音识别,以得到第二角色文本;按照上述第一采集时间及上述第二采集时间的时间顺序,对上述第一角色文本及上述第二角色文本进行排列,以生成具有上述关联关系的文本文件。
作为一种可选的实施方式,上述根据上述第一语音片段对应的第一采集时间及上述第二语音片段对应的第二采集时间,建立上述第一角色语音片段及上述第二角色语音片段之间的关联关系包括:对上述第一角色语音片段进行语音识别,以得到第一角色文本,并对上述第二角色语音片段进行语音识别,以得到第二角色文本;按照上述第一采集时间及上述第二采集时间的时间顺序,对上述第一角色文本及上述第二角色文本进行排列,以生成具有上述关联关系的文本文件。
根据本发明实施例的另一方面,还提供了一种语音分离装置,包括:获取单元,语音在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,上述第一位置与上述第一角色音源对象所在第一对象位置之间的距离小于第一阈值,上述第二位置与上述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;标记单元,用于对上述第一语音片段添加与上述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对上述第二语音片段添加与上述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;建立单元,用于根据上述第一语音片段对应的第一采集时间及上述第二语音片段对应的第二采集时间,建立上述第一角色语音片段及上述第二角色语音片段之间的关联关系。
根据本发明实施例的另一方面,还提供了一种语音分离系统,包括:第一语音采集装置,位于第一位置上,用于采集第一角色语音对象的第一语音片段,其中,上述第一位置与上述第一角色音源对象所在第一对象位置之间的距离小于第一阈值;第二语音采集装置,位于第二位置上,用于采集第二角色语音对象的第二语音片段,其中,上述第二位置与上述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;处理器,与上述第一语音采集装置连接,并与上述第二语音采集装置连接,用于为上述第一语音片段添加与上述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并为上述第二语音片段添加与上述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;还用于根据上述第一语音片段对应的第一采集时间及上述第二语音片段对应的第二采集时间,建立上述第一角色语音片段及上述第二角色语音片段之间的关联关系。
作为一种可选的实施方式,上述第一语音采集装置包括:位于上述第一角色音源对象的手持装置中的拾音部件,上述第二语音采集装置包括:位于上述第二角色音源对象所佩戴的录音设备中的拾音部件。
作为一种可选的实施方式,上述第一语音采集装置包括:位于柜台第一侧的第一拾音部件,上述第二语音采集装置包括:位于柜台第二侧的第二拾音部件。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音分离方法。
在本发明实施例中,通过不同位置上的分体式的语音采集装置来直接采集不同角色音源对象的语音片段,并为不同语音片段添加不同角色音源对象对应的角色标记,然后再对该语音交互过程中标记后的角色语音片段建立关联关系,从而实现直接利用分体式的语音采集装置分别采集不同角色语音对象各自的语音片段,再对其分别进行角色标记,而无需对全部的语音交互内容进行识别分离,以达到简化语音分离操作的目的,进而克服相关技术语音分离操作的复杂度较高的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语音分离方法的流程图;
图2是根据本发明实施例的一种可选的语音分离方法的示意图;
图3是根据本发明实施例的另一种可选的语音分离方法的示意图;
图4是根据本发明实施例的一种可选的语音分离装置的结构示意图;
图5是根据本发明实施例的一种可选的语音分离系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语音分离方法,如图1所示,上述语音分离方法包括:
S102,在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,第一位置与第一角色音源对象所在第一对象位置之间的距离小于第一阈值,第二位置与第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
S104,对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;
S106,根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系。
可选地,在本实施例中,上述语音分离方法可以但不限于应用于至少两个角色音源对象之间的语音交互过程中。比如,在服务员与顾客两种角色之间进行交易服务/咨询服务等业务服务的语音交互过程中,可以采用上述语音分离方法来对两个角色的语音内容进行直接分离。也就是说,通过不同位置上的分体式的语音采集装置来直接采集不同角色音源对象的语音片段,并为不同语音片段添加不同角色音源对象对应的角色标记,然后再对该语音交互过程中标记后的角色语音片段建立关联关系,从而实现直接利用分体式的语音采集装置分别采集不同角色音源对象各自的语音片段,再对其分别进行角色标记,而无需对全部的语音交互内容进行识别分离,以达到简化语音分离操作的目的,进而克服相关技术语音分离操作的复杂度较高的问题。
可选地,在本实施例中,上述分体式语音采集装置中第一语音采集装置可以但不限于为第一角色音源对象的手持装置中的拾音部件。对应的,第二语音采集装置可以但不限于为第二角色音源对象所佩戴的录音设备中的拾音部件。例如,在餐厅点餐场景下,上述手持装置可以但不限于是服务人员提供给用餐者的智能菜单,这里拾音部件可以但不限于设置在智能菜单的边框,如四个边上均设有拾音部件,如图2所示第一语音采集装置202。对应的,在上述餐厅点餐场景下,上述录音设备可以但不限于是服务人员佩戴的录音笔、智能工牌等可穿戴的录音设备,如图2所示第二语音采集装置204。这里拾音部件可以但不限于是内置在录音设备中的拾音部件。
可选地,在本实施例中,上述分体式语音采集装置中第一语音采集装置可以但不限于为柜台第一侧的拾音部件。对应的,第二语音采集装置可以但不限于为柜台第二侧的第二拾音部件。其中,第一侧与第二侧可以但不限于为柜台的外侧和内侧,分别用于采集服务人员和购物者的语音。例如,在柜台购物场景下,上述第一侧可以为柜台外部,用于采集购物者的语音,如图3所示第一语音采集装置302。对应的,在柜台购物场景下,上述第二侧可以为柜台内部,用于采集服务人员的语音,如图3所示第二语音采集装置304。
需要说明的是,图2-图3所示的语音采集所在位置为示例,本实施例中对此不作任何限定。
可选地,在本实施例中,在通过分体式的语音采集装置采集到不同的角色音源对象的语音片段之后,可以但不限于为其添加对应的角色标记,以便于快速区分不同的角色,实现对语音地快速分离。可选地,在本实施例中,上述角色标记可以包括但不限于:身份角色标记、数字标记等。例如,在餐厅点餐场景下,可以直接添加“顾客”或“服务人员”的身份角色标记。也可以直接添加“0”或“1”的数字标记,其中,“0”用于标识“顾客”,“1”用于标识“服务人员”。需要说明的是,上述对各个角色音源对象的语音片段添加的角色标记的方式,还可以包括其他方式,本实施例中对此不作任何限定。
可选地,在本实施例中,上述语音采集装置在采集到多个语音采集片段之后,可以但不限于根据各个语音采集片段的音量,来确定当前语音采集片段是否靠近当前语音采集装置,进而确定是否添加与当前语音采集装置相匹配的角色音源对象。
通过本申请提供的实施例,通过不同位置上的分体式的语音采集装置来直接采集不同角色音源对象的语音片段,并为不同语音片段添加不同角色音源对象对应的角色标记,然后再对该语音交互过程中标记后的角色语音片段建立关联关系,从而实现直接利用分体式的语音采集装置分别采集不同角色语音对象各自的语音片段,再对其分别进行角色标记,而无需对全部的语音交互内容进行识别分离,以达到简化语音分离操作的目的,进而克服相关技术语音分离操作的复杂度较高的问题。
作为一种可选的方案,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段包括:
S1,获取通过第一语音采集装置采集到的至少两个第一语音采集片段,及第二语音采集装置采集到的至少两个第二语音采集片段;
S2,比对至少两个第一语音采集片段的音量,并将音量最高的第一语音采集片段确定为第一语音片段;并比对至少两个第二语音采集片段的音量,并将音量最高的第二语音采集片段确定为第二语音片段。
需要说明的是,由于各个语音采集装置与各个角色音源对象之间的距离不同,因而所采集到的语音采集片段的音量也会不同。在本实施例中,对于每个语音采集装置可以但不限于根据所采集到的语音采集片段的音量来进行识别。在第一角色音源对象所在第一对象位置,与第一语音采集装置之间的距离较小时,则可以将音量较大的语音采集片段作为所分离出的第一语音片段,而在第二角色音源对象所在第二对象位置,与第二语音采集装置之间的距离较小时,则可以将音量较大的语音采集片段作为所分离出的第二语音片段。
通过本申请提供的实施例,通过比对语音采集片段的音量来确定所分离出的语音片段,从而实现利用分体式装置的位置关系及其与角色音源对象之间的距离,来快速准确的达到语音分离的目的,简化了语音分离操作,提高了语音分离效率。
作为一种可选的方案,在对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段之前,还包括:
S1,对第一语音片段及第二语音片段进行降噪处理。
需要说明的是,在本实施例中,上述语音采集装置在采集到多个语音片段之后,为了保证识别出的角色音源的语音内容的清晰度,可以采用相关技术对上述语音片段进行降噪处理。
通过本申请提供的实施例,对各个语音片段进行降噪处理,来提高语音片段的识别清晰度,以保证分离后得到的语音内容的准确度。
作为一种可选的方案,根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系包括:
S1,按照第一采集时间及第二采集时间的时间顺序,对第一角色语音片段及第二角色语音片段进行排列,以生成具有关联关系的语音文件。
通过本申请提供的实施例,可以通过对进行角色标记后的对第一角色语音片段及第二角色语音片段的采集时间进行时间轴横向比对,以确定每个角色音源对象发言的顺序,并建立各个角色语音片段的时间关联关系,从而实现将上述各个角色语音片段按照一定顺序排列,来生成语音文件。也就是说,在生成一个语音交互场景下的语音文件时,可以直接利用分体式语音采集装置从根源分离各个语音片段再进行组合,进而达到提高语音分离的效率的效果。
作为一种可选的方案,根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系包括:
S1,对第一角色语音片段进行语音识别,以得到第一角色文本,并对第二角色语音片段进行语音识别,以得到第二角色文本;
S2,按照第一采集时间及第二采集时间的时间顺序,对第一角色文本及第二角色文本进行排列,以生成具有关联关系的文本文件。
通过本申请提供的实施例,可以通过对进行角色标记后的对第一角色语音片段及第二角色语音片段分别进行语音识别,来转换得到第一角色文本和第二角色文本,然后再对第一角色文本和第二角色文本的采集时间进行时间轴横向比对,以确定每个角色音源对象发言的顺序,并建立各个角色文本的时间关联关系,从而实现将上述各个角色文本按照一定顺序排列,来生成文本文件。以便于在生成一个语音交互场景下的语音文本文件时,可以直接利用分体式语音采集装置从根源分离各个语音片段再进行组合,进而达到提高语音分离的效率的效果。
具体结合以下示例进行说明:
作为一种可选地实施方式,假设以餐厅点餐场景为例,上述第一语音采集装置为用餐者(第一角色音源对象)手持菜单上设置的拾音部件。上述第二语音采集装置为服务人员(第二角色音源对象)佩戴的录音笔中的拾音部件。通过上述不同位置上的拾音部件来从采集源头上对采集到的语音片段进行分离,再通过时间轴比对来建立各个语音片段之间的关联关系,从而得到包含同一对话场景下的两路独立音频(分别来自于用餐者和服务人员)的语音文件。具体过程步骤可以如下:
S1,当用餐者准备点餐时,服务人员在领位后可将设置有拾音部件的菜单递给用餐者,此时进入采集用餐者语音信息采集阶段,具体可以是在菜单上设置按键,当服务人员将菜单给到用餐者时可以预先按下按键,则菜单上的拾音部件进入工作状态开始采集语音。其中,菜单正面为矩形,上述拾音部件可以封装在菜单的四周边框内,并可对采集到的语音进行降噪处理,且可以实时录音。
S2,在服务人员复述下单内容或讲解菜单内容时,进入采集服务人员语音信息采集阶段,通过服务人员身上佩戴的录音笔中的拾音部件来采集对应的语音。
S3,在上述通过菜单进行的录音过程中,用餐者是无感知的,录下来的语音为用餐者的语音片段(即第一语音片段),并对所采集到的语音片段添加用餐者角色的标记(如“顾客”)。此外,通过服务人员自身佩戴的录音设备中的拾音部件所采集到的语音片段(即第二语音片段),将添加服务人员角色的标记(如“服务人员”)。
S4,将菜单收集到的角色语音片段(有“顾客”角色标记的语音片段)与服务人员自身佩戴的录音设备上传的角色语音片段(有“服务人员”角色标记的语音片段)进行时间轴横向对比,从而建立上述角色语音片段之间的关联关系,以生成包含同一对话场景下的两路独立音频(分别来自于用餐者和服务人员)的语音文件。
作为另一种可选地实施方式,在柜台购物场景下,上述第一语音采集装置位于柜台外部,用于采集购物者(第一角色音源对象)的语音,上述第二语音采集装置位于柜台内部,用于采集服务人员(第二角色音源对象)的语音。通过上述不同位置上的语音采集装置来从采集源头上对采集到的语音片段进行分离,再通过时间轴比对来建立各个语音片段之间的关联关系,从而得到包含同一对话场景下的对话内容的文本文件。具体过程步骤可以如下:
S1,在柜台的两侧分别设置有语音采集装置(如枪形麦克风),指向对应角色音源对象,用于采集语音片段,并用于降噪处理和实时录音。从而保证了在采集过程中的指向性和清晰度,避免语音不清晰的情况。采集过程中购物者和服务人员均无感知。
S2,位于柜台不同侧的语音采集装置分别靠近不同的角色音源对象,则可以利用采集到的语音片段的音量差,来确定与当前语音采集装置靠近的当前角色音源对象。进一步,在对采集到的语音采集片段进行频谱分析时,可以直接利用比对各个语音采集片段的音量的结果,来识别与当前角色音源对象匹配的语音片段,并进行角色标记。从而实现过滤掉声,从而保留并增强人声的效果。
S3,将上述标记后的角色语音片段转换成角色文本之后,可以对角色文本的采集时间进行标注,然后按照时间顺序进行时间轴排列,即可形成完整的对话文本文件。
通过分体式的采集装置分别采集到语音后,对添加不同角色标记的语音片段分别进行实时/非实时的语音识别,将其转化成对应的文本,并对每个文本标注对应的角色标记,从而得到精准分离语音角色的文本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语音分离方法的语音分离装置。如图4所示,该装置包括:
1)获取单元402,语音在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,第一位置与第一角色音源对象所在第一对象位置之间的距离小于第一阈值,第二位置与第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
2)标记单元404,用于对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;
3)建立单元406,用于根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系。
可选地,在本实施例中,上述语音分离装置可以但不限于应用于至少两个角色音源对象之间的语音交互过程中。比如,在服务人员与顾客两种角色之间进行交易服务/咨询服务等业务服务的语音交互过程中,可以采用上述语音分离方法来对两个角色的语音内容进行直接分离。也就是说,通过不同位置上的分体式的语音采集装置来直接采集不同角色音源对象的语音片段,并为不同语音片段添加不同角色音源对象对应的角色标记,然后再对该语音交互过程中标记后的角色语音片段建立关联关系,从而实现直接利用分体式的语音采集装置分别采集不同角色音源对象各自的语音片段,再对其分别进行角色标记,而无需对全部的语音交互内容进行识别分离,以达到简化语音分离操作的目的,进而克服相关技术语音分离操作的复杂度较高的问题。
本方案中的实施例,可以但不限于参照上述方法实施例,本实施例中对此不作任何限定。
作为一种可选的方案,获取单元402包括:
1)第一获取模块,用于获取通过第一语音采集装置采集到的至少两个第一语音采集片段,及第二语音采集装置采集到的至少两个第二语音采集片段;
2)比对模块,用于比对至少两个第一语音采集片段的音量,并将音量最高的第一语音采集片段确定为第一语音片段;并比对至少两个第二语音采集片段的音量,并将音量最高的第二语音采集片段确定为第二语音片段。
本方案中的实施例,可以但不限于参照上述方法实施例,本实施例中对此不作任何限定。
作为一种可选的方案,还包括:
1)降噪单元,用于在对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段之前,对第一语音片段及第二语音片段进行降噪处理。
本方案中的实施例,可以但不限于参照上述方法实施例,本实施例中对此不作任何限定。
作为一种可选的方案,建立单元406包括:
1)第一建立模块,用于按照第一采集时间及第二采集时间的时间顺序,对第一角色语音片段及第二角色语音片段进行排列,以生成具有关联关系的语音文件。
本方案中的实施例,可以但不限于参照上述方法实施例,本实施例中对此不作任何限定。
作为一种可选的方案,建立单元406包括:
1)识别模块,用于对第一角色语音片段进行语音识别,以得到第一角色文本,并对第二角色语音片段进行语音识别,以得到第二角色文本;
2)第二建立模块,用于按照第一采集时间及第二采集时间的时间顺序,对第一角色文本及第二角色文本进行排列,以生成具有关联关系的文本文件。
本方案中的实施例,可以但不限于参照上述方法实施例,本实施例中对此不作任何限定。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语音分离方法的语音分离系统。如图5所示,该系统包括:
1)第一语音采集装置502,位于第一位置上,用于采集第一角色语音对象的第一语音片段,其中,第一位置与第一角色音源对象所在第一对象位置之间的距离小于第一阈值;
2)第二语音采集装置504,位于第二位置上,用于采集第二角色语音对象的第二语音片段,其中,第二位置与第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
3)处理器506,与第一语音采集装置连接,并与第二语音采集装置连接,用于为第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并为第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;还用于根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系。
可选地,在本实施例中,上述语音分离系统可以但不限于应用于上述语音分离方法中,具体的实施例可以参考上述语音分离方法提供的实施例,此处不再赘述。
作为一种可选的方案,第一语音采集装置包括:位于第一角色音源对象的手持装置中的拾音部件,第二语音采集装置包括:位于第二角色音源对象所佩戴的录音设备中的拾音部件。
可选地,在本实施例中,上述手持装置中可以包括但不限于:启动按键,用于启动第一语音采集装置开始采集语音。
可选地,在本实施例中,上述手持装置中还可以包括但不限于:第一定位部件,用于定位第一语音采集装置当前所在第一位置。
可选地,在本实施例中,上述手持装置中还可以包括但不限于:第一无线传输装置,用于将上述第一语音片段传输给处理器。
作为一种可选的方案,第一语音采集装置包括:位于柜台第一侧的第一拾音部件,第二语音采集装置包括:位于柜台第二侧的第二拾音部件。
可选地,在本实施例中,上述柜台第一侧的第一拾音部件可以包括但不限于:柜台外侧的枪形麦克风,上述柜台第二侧的第二拾音部件可以包括但不限于:柜台内侧的枪形麦克风。
可选地,在本实施例中,上述录音设备中还可以包括但不限于:第二定位部件,用于定位第二语音采集装置当前所在第二位置。
可选地,在本实施例中,上述录音设备中还可以包括但不限于:第二无线传输装置,用于将上述第二语音片段传输给处理器。
需要说明的是,上述处理器可以但不限于为位于远端控制中心。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,第一位置与第一角色音源对象所在第一对象位置之间的距离小于第一阈值,第二位置与第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
S2,对第一语音片段添加与第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对第二语音片段添加与第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;
S3,根据第一语音片段对应的第一采集时间及第二语音片段对应的第二采集时间,建立第一角色语音片段及第二角色语音片段之间的关联关系。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音分离方法,其特征在于,包括:
在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,所述第一位置与所述第一角色音源对象所在第一对象位置之间的距离小于第一阈值,所述第二位置与所述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
对所述第一语音片段添加与所述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对所述第二语音片段添加与所述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;
根据所述第一语音片段对应的第一采集时间及所述第二语音片段对应的第二采集时间,建立所述第一角色语音片段及所述第二角色语音片段之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段包括:
获取通过所述第一语音采集装置采集到的至少两个第一语音采集片段,及所述第二语音采集装置采集到的至少两个第二语音采集片段;
比对所述至少两个第一语音采集片段的音量,并将音量最高的第一语音采集片段确定为所述第一语音片段;并比对所述至少两个第二语音采集片段的音量,并将音量最高的第二语音采集片段确定为所述第二语音片段。
3.根据权利要求1所述的方法,其特征在于,在所述对所述第一语音片段添加与所述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对所述第二语音片段添加与所述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段之前,还包括:
对所述第一语音片段及所述第二语音片段进行降噪处理。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音片段对应的第一采集时间及所述第二语音片段对应的第二采集时间,建立所述第一角色语音片段及所述第二角色语音片段之间的关联关系包括:
按照所述第一采集时间及所述第二采集时间的时间顺序,对所述第一角色语音片段及所述第二角色语音片段进行排列,以生成具有所述关联关系的语音文件。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音片段对应的第一采集时间及所述第二语音片段对应的第二采集时间,建立所述第一角色语音片段及所述第二角色语音片段之间的关联关系包括:
对所述第一角色语音片段进行语音识别,以得到第一角色文本,并对所述第二角色语音片段进行语音识别,以得到第二角色文本;
按照所述第一采集时间及所述第二采集时间的时间顺序,对所述第一角色文本及所述第二角色文本进行排列,以生成具有所述关联关系的文本文件。
6.一种语音分离装置,其特征在于,包括:
获取单元,语音在第一角色音源对象与第二角色音源对象进行语音交互的过程中,获取第一位置上的第一语音采集装置采集到的第一语音片段,及第二位置上的第二语音采集装置采集到的第二语音片段,其中,所述第一位置与所述第一角色音源对象所在第一对象位置之间的距离小于第一阈值,所述第二位置与所述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
标记单元,用于对所述第一语音片段添加与所述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并对所述第二语音片段添加与所述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;
建立单元,用于根据所述第一语音片段对应的第一采集时间及所述第二语音片段对应的第二采集时间,建立所述第一角色语音片段及所述第二角色语音片段之间的关联关系。
7.一种语音分离系统,其特征在于,包括:
第一语音采集装置,位于第一位置上,用于采集第一角色语音对象的第一语音片段,其中,所述第一位置与所述第一角色音源对象所在第一对象位置之间的距离小于第一阈值;
第二语音采集装置,位于第二位置上,用于采集第二角色语音对象的第二语音片段,其中,所述第二位置与所述第二角色音源对象所在第二对象位置之间的距离小于第二阈值;
处理器,与所述第一语音采集装置连接,并与所述第二语音采集装置连接,用于为所述第一语音片段添加与所述第一角色音源对象匹配的第一角色标记,得到第一角色语音片段,并为所述第二语音片段添加与所述第二角色音源对象匹配的第二角色标记,得到第二角色语音片段;还用于根据所述第一语音片段对应的第一采集时间及所述第二语音片段对应的第二采集时间,建立所述第一角色语音片段及所述第二角色语音片段之间的关联关系。
8.根据权利要求7所述的系统,其特征在于,所述第一语音采集装置包括:位于所述第一角色音源对象的手持装置中的拾音部件,所述第二语音采集装置包括:位于所述第二角色音源对象所佩戴的录音设备中的拾音部件。
9.根据权利要求7所述的系统,其特征在于,所述第一语音采集装置包括:位于柜台第一侧的第一拾音部件,所述第二语音采集装置包括:位于柜台第二侧的第二拾音部件。
10.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319114.1A CN111128132A (zh) | 2019-12-19 | 2019-12-19 | 语音分离方法和装置及系统、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911319114.1A CN111128132A (zh) | 2019-12-19 | 2019-12-19 | 语音分离方法和装置及系统、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111128132A true CN111128132A (zh) | 2020-05-08 |
Family
ID=70500232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911319114.1A Pending CN111128132A (zh) | 2019-12-19 | 2019-12-19 | 语音分离方法和装置及系统、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128132A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571060A (zh) * | 2021-06-10 | 2021-10-29 | 西南科技大学 | 一种基于视听觉融合的多人对话点餐方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110112833A1 (en) * | 2009-10-30 | 2011-05-12 | Frankel David P | Real-time transcription of conference calls |
CN104538040A (zh) * | 2014-11-28 | 2015-04-22 | 广东欧珀移动通信有限公司 | 一种动态选择通话语音信号的方法和装置 |
CN207149252U (zh) * | 2017-08-01 | 2018-03-27 | 安徽听见科技有限公司 | 语音处理系统 |
CN207367271U (zh) * | 2017-07-20 | 2018-05-15 | 中国建设银行股份有限公司 | 一种银行业务处理设备 |
CN108198550A (zh) * | 2017-12-29 | 2018-06-22 | 江苏惠通集团有限责任公司 | 一种语音采集终端和系统 |
CN108564952A (zh) * | 2018-03-12 | 2018-09-21 | 新华智云科技有限公司 | 语音角色分离的方法和设备 |
CN108847231A (zh) * | 2018-05-30 | 2018-11-20 | 出门问问信息科技有限公司 | 远场语音识别方法、装置及系统 |
CN110322869A (zh) * | 2019-05-21 | 2019-10-11 | 平安科技(深圳)有限公司 | 会议分角色语音合成方法、装置、计算机设备和存储介质 |
-
2019
- 2019-12-19 CN CN201911319114.1A patent/CN111128132A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110112833A1 (en) * | 2009-10-30 | 2011-05-12 | Frankel David P | Real-time transcription of conference calls |
CN104538040A (zh) * | 2014-11-28 | 2015-04-22 | 广东欧珀移动通信有限公司 | 一种动态选择通话语音信号的方法和装置 |
CN207367271U (zh) * | 2017-07-20 | 2018-05-15 | 中国建设银行股份有限公司 | 一种银行业务处理设备 |
CN207149252U (zh) * | 2017-08-01 | 2018-03-27 | 安徽听见科技有限公司 | 语音处理系统 |
CN108198550A (zh) * | 2017-12-29 | 2018-06-22 | 江苏惠通集团有限责任公司 | 一种语音采集终端和系统 |
CN108564952A (zh) * | 2018-03-12 | 2018-09-21 | 新华智云科技有限公司 | 语音角色分离的方法和设备 |
CN108847231A (zh) * | 2018-05-30 | 2018-11-20 | 出门问问信息科技有限公司 | 远场语音识别方法、装置及系统 |
CN110322869A (zh) * | 2019-05-21 | 2019-10-11 | 平安科技(深圳)有限公司 | 会议分角色语音合成方法、装置、计算机设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571060A (zh) * | 2021-06-10 | 2021-10-29 | 西南科技大学 | 一种基于视听觉融合的多人对话点餐方法及系统 |
CN113571060B (zh) * | 2021-06-10 | 2023-07-11 | 西南科技大学 | 一种基于视听觉融合的多人对话点餐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112333549B (zh) | 视频处理方法及装置、电子设备、存储介质 | |
CN104392370A (zh) | 一种自动获取顾客信息的电子商务系统和方法 | |
CN110033293B (zh) | 获取用户信息的方法、装置及系统 | |
CN108681390B (zh) | 信息交互方法和装置、存储介质及电子装置 | |
CN106113054B (zh) | 基于机器人的服务处理方法 | |
US11657548B2 (en) | Information processing device, display method, and program storage medium for monitoring object movement | |
CN112667510A (zh) | 测试方法、装置、电子设备及存储介质 | |
CN107452166A (zh) | 一种基于声纹识别的图书馆借书方法及装置 | |
CN110111796B (zh) | 识别身份的方法及装置 | |
CN112596846A (zh) | 确定界面显示内容的方法、装置、终端设备及存储介质 | |
CN111738199A (zh) | 图像信息验证方法、装置、计算装置和介质 | |
CN103546613A (zh) | 联系人记录方法、装置和移动终端 | |
CN111128132A (zh) | 语音分离方法和装置及系统、存储介质 | |
JP6428920B2 (ja) | 販売促進装置、販売促進システム、店舗システム、販売促進方法及びプログラム | |
CN111047358A (zh) | 基于人脸识别的会员信息查询方法及系统 | |
CN111126071A (zh) | 提问文本数据的确定方法、装置和客服群的数据处理方法 | |
CN109993593B (zh) | 一种虚拟购物车的管理方法和装置 | |
CN110808062B (zh) | 混合语音分离方法和装置 | |
CN106982284A (zh) | 骚扰电话号码的识别方法及装置 | |
CN113761986A (zh) | 文本获取、直播方法、设备及存储介质 | |
CN114974255A (zh) | 基于酒店场景的声纹识别方法、系统、设备及存储介质 | |
CN111460210B (zh) | 目标语音的处理方法和装置 | |
CN110992044B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
US20200234338A1 (en) | Content selection apparatus, content selection method, content selection system, and program | |
CN111210843A (zh) | 话术推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |