CN113393845A - 用于说话人识别的方法、装置、电子设备及可读存储介质 - Google Patents
用于说话人识别的方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113393845A CN113393845A CN202110656991.9A CN202110656991A CN113393845A CN 113393845 A CN113393845 A CN 113393845A CN 202110656991 A CN202110656991 A CN 202110656991A CN 113393845 A CN113393845 A CN 113393845A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- segment
- determining
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000012634 fragment Substances 0.000 claims abstract description 64
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及语音识别技术领域,公开一种用于说话人识别的方法,该方法包括:获取若干个第一语音片段;各第一语音片段分别包括至少一个说话人的音频数据;对各第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并,获得若干个第三语音片段;获取各第三语音片段的语义特征;根据语义特征确定各第三语音片段对应的说话人。通过将语义连续的第二语音片段进行合并获得第三语音片段,使得对第三语音片段中的说话人识别更准确。本申请还公开一种用于说话人识别的装置、电子设备及可读存储介质。
Description
技术领域
本申请涉及语音识别技术领域,例如涉及一种用于说话人识别的方法、装置、电子设备及可读存储介质。
背景技术
随着人工智能技术的发展,语音识别技术日趋成熟,在家居,医疗,教育,机器人,可穿戴设备等领域有广泛的应用。在企业或商家的日常录音数据处理中,例如在对客服和顾客的电话录音整理或多人会议录音进行说话人识别时,通常需要先对录音数据进行切分处理获得若干段包括单个说话人的语音片段。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术中在对切分处理后的语音片段进行合并时,由于切分处理后的语音片段之间可能存在语义不连续的情况,会导致在对语音片段进行说话人识别时准确性较差。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于说话人识别的方法、装置、电子设备及可读存储介质,以能够提高对说话人识别的准确性。
在一些实施例中,所述用于说话人识别的方法,包括:获取若干个第一语音片段;各所述第一语音片段分别包括至少一个说话人的音频数据;对各所述第一语音片段进行说话人分类,获得若干个第二语音片段;各所述第二语音片段包括单个说话人的音频数据;确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并,获得若干个第三语音片段;获取各所述第三语音片段的语义特征;根据所述语义特征确定各所述第三语音片段对应的说话人。
在一些实施例中,所述用于说话人识别的装置包括:第一获取模块,被配置为获取若干个第一语音片段;各所述第一语音片段分别包括至少一个说话人的音频数据;分类模块,被配置为对各所述第一语音片段进行说话人分类,获得若干个第二语音片段;各所述第二语音片段包括单个说话人的音频数据;合并模块,被配置为确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并,获得若干个第三语音片段;第二获取模块,被配置为获取各所述第三语音片段的语义特征;确定模块,被配置为根据所述语义特征确定各所述第三语音片段对应的说话人。
在一些实施例中,所述电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于说话人识别的方法。
在一些实施例中,所述可读存储介质,存储有可执行指令,所述可执行指令在运行时执行上述用于说话人识别的方法。
本公开实施例提供的用于说话人识别的方法、装置、电子设备及可读存储介质,可以实现以下技术效果:能够对若干个第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;并将语义连续的各第二语音片段进行合并获得第三语音片段,根据第三语音片段的语义特征确定对应的说话人。这样,将语义连续的单个说话人的音频数据进行合并得到第三语音片段,再根据第三语音片段的语义特征确定对应的说话人,避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误,从而提高了对语音片段进行说话人识别的准确性。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于说话人识别的方法的示意图;
图2是本公开实施例提供的另一个用于说话人识别的方法的示意图;
图3是本公开实施例提供的一个用于说话人识别的装置的示意图;
图4是本公开实施例提供的一个电子设备的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
结合图1所示,本公开实施例提供一种用于说话人识别的方法,包括:
步骤S101,获取若干个第一语音片段;各第一语音片段分别包括至少一个说话人的音频数据;
步骤S102,对各第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;
步骤S103,确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并,获得若干个第三语音片段;
步骤S104,获取各第三语音片段的语义特征;
步骤S105,根据语义特征确定各第三语音片段对应的说话人。
采用本公开实施例提供的用于说话人识别的方法,能够对若干个第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;并将语义连续的各第二语音片段进行合并获得第三语音片段,根据第三语音片段的语义特征确定对应的说话人。这样,将语义连续的单个说话人的音频数据进行合并得到第三语音片段,再根据第三语音片段的语义特征确定对应的说话人,避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误,从而提高了对语音片段进行说话人识别的准确性。
可选地,获取若干个第一语音片段,包括:获取第四语音片段;第四语音片段包括多个说话人的音频数据;对第四语音片段进行去噪处理后获得若干个第一语音片段。
可选地,对第四语音片段进行去噪处理后获得若干个第一语音片段,包括:通过预设的端点检测模型对第四语音片段进行去噪处理,获得若干个第一语音片段。
可选地,端点检测模型根据以下方式获得,包括:获取语音训练样本,并对语音训练样本进行样本标签标注,将标注有样本标签的语音训练样本输入预设的贝叶斯分类器进行训练,获得端点检测模型。
可选地,语音训练样本对应的样本标签包括:语音标签、静音标签和噪声标签。
这样,通过端点检测模型对第四语音片段进行去噪处理,能够将静音片段和噪声片段剔除,从而只保留语音片段,提高了对语音片段进行说话人识别的准确性。
可选地,对各第一语音片段进行说话人分类,获得若干个第二语音片段,包括:通过BIC(Bayesian Information Criterion,贝叶斯信息准则)检测算法对各第一语音片段进行计算,获得各第一语音片段的切割时间点,按照切割时间点对各第一语音片段进行切分,获得若干个第二语音片段,各第二语音片段包括单个说话人的音频数据。这样,根据BIC检测算法对各第一语音片段按照单个说话人的音频数据进行切分,从而得到若干个第二语音片段。
可选地,确定各第二语音片段之间是否语义连续,包括:分别获取各第二语音片段对应的识别文本;确定各识别文本之间是否语义连续;将语义连续的多个识别文本分别所对应的第二语音片段确定为语义连续的第二语音片段。
由于存在说话人在语速、语调和口音等方面的差异,导致在对第一语音片段进行切分时将同一说话人的语义连续的第一语音片段被切分成了多个第二语音片段,通过获取各第二语音片段的识别文本,并判断识别文本之间是否语义连续,在识别文本之间为语义连续的情况下,将识别文本对应的第二语音片段确定为语义连续的第二语音片段,并将语义连续的各第二语音片段进行合并,获得若干个第三语音片段;避免了一句完整的语义句子被切分到不同的说话人片段中,从而提高了对第三语音片段进行说话人识别的准确性。
可选地,根据语义特征确定各第三语音片段对应的说话人,包括:获取各第三语音片段的语音特征;将语音特征和语义特征进行拼接,获得备选特征;根据备选特征确定各第三语音片段对应的说话人。
可选地,获取各第三语音片段的语音特征,包括:将各第三语音片段输入预设的语音特征提取模型中,获得各第三语音片段的语音特征。
可选地,第三语音片段的语音特征包括:MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)、LPCC(Linear Predictive Cepstral Coefficient,线性预测倒谱系数)等对应的特征。
可选地,根据备选特征确定各第三语音片段对应的说话人,包括:将备选特征输入预设的说话人区分模型,获得带有说话人标签的第三语音片段;将说话人标签对应的说话人确定为第三语音片段对应的说话人。
可选地,说话人区分模型根据以下方式获得,包括:获取样本训练特征;根据样本训练特征对预设的识别模型进行训练,获得说话人区分模型。
这样,通过确定第二语音片段之间语义是否连续,并将语义连续的各第二语音片段进行合并获得第三语音片段,减少了由于合并后的第三语音片段中的语音特征和/或语义特征与说话人区分模型不匹配导致的识别错误,从而提高了对语音片段进行说话人识别的准确性。同时,在两人对话的客服和顾客的场景,或者,其他特定领域下的多人会话讨论的场景,由于不同说话人在语速、语调和口音等方面存在差异,同时在说话的内容上也具备一定的区分性,而本公开实施例提供的用于说话人识别的方法,不仅利用了说话人的语音特征,同时提取了语音片段对应的语义特征,根据语音特征和语义特征确定语音片段对应的说话人,提升了说话人区分模型的鲁棒性。
可选地,根据备选特征确定各第三语音片段对应的说话人,包括:根据备选特征对各第三语音片段进行无监督聚类,获得带有说话人标签的第三语音片段;将说话人标签对应的说话人确定为第三语音片段对应的说话人。
可选地,根据语音特征和语义特征确定各第三语音片段对应的说话人后,还包括:将第三语音片段按照第三语音片段对应的说话人进行归档。
结合图2所示,本公开实施例提供一种用于说话人识别的方法,包括:
步骤S201,获取第四语音片段,第四语音片段包括多个说话人的音频数据;并通过预设的端点检测模型对第四语音片段进行去噪处理,获得若干个第一语音片段;
步骤S202,根据贝叶斯信息准则对各第一语音片段进行切分,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;
步骤S203,确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并,获得若干个第三语音片段;
步骤S204,获取各第三语音片段的语音特征和语义特征,并将语音特征和语义特征进行拼接获得备选特征;
步骤S205,将备选特征输入预设的说话人区分模型,获得带有说话人标签的第三语音片段。
采用本公开实施例提供的用于获取第三语音片段的方法,通过端点检测模型对第四语音片段进行去噪处理获得若干个第一语音片段,同时剔除了静音片段和噪声片段;并通过贝叶斯信息准则对各第一语音片段进行切分,获得若干个第二语音片段,各第二语音片段包括单个说话人的音频数据;并将语义连续的各第二语音片段进行合并获得第三语音片段,获取第三语音片段的语音特征和语义特征;将语音特征和语义特征进行拼接获得备选特征;将备选特征输入预设的说话人区分模型,获得带有说话人标签的第三语音片段。这样,避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误,从而提高了对语音片段进行说话人识别的准确性。
结合图3所示,本公开实施例提供一种用于说话人识别的装置,包括:第一获取模块301、分类模块302、合并模块303、第二获取模块304和确定模块305;第一获取模块301被配置为获取若干个第一语音片段;各第一语音片段分别包括至少一个说话人的音频数据,并将各第一语音片段发送给分类模块302;分类模块302被配置为接收第一获取模块发送的第一语音片段,并对各第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据,并将各第二语音片段发送给合并模块303;合并模块303被配置为接收分类模块302发送的第二语音片段,确定各第二语音片段之间是否语义连续并将语义连续的各第二语音片段进行合并,获得若干个第三语音片段,并将第三语音模块发送给第二获取模块304;第二获取模块304被配置为接收合并模块发送的第三语音片段,获取各第三语音片段的语义特征,并将各第三语音片段的语义特征发送给确定模块305;确定模块305被配置为接收第二获取模块发送的语义特征,并根据语义特征确定各第三语音片段对应的说话人。
采用本公开实施例提供的用于说话人识别的装置,能够对若干个第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;并将语义连续的各第二语音片段进行合并获得第三语音片段,根据第三语音片段的语义特征确定对应的说话人。这样,将语义连续的单个说话人的音频数据进行合并得到第三语音片段,再根据第三语音片段的语义特征确定对应的说话人,避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误,从而提高了对语音片段进行说话人识别的准确性。
可选地,第一获取模块被配置为获取第四语音片段;第四语音片段包括多个说话人的音频数据;对第四语音片段进行去噪处理后获得若干个第一语音片段。
可选地,合并模块被配置为分别获取各第二语音片段对应的识别文本;并确定各识别文本之间是否语义连续,将语义连续的多个识别文本分别所对应的第二语音片段确定为语义连续的第二语音片段。
可选地,确定模块被配置为获取各第三语音片段的语音特征;并将语音特征和语义特征进行拼接,获得备选特征;根据备选特征确定各第三语音片段对应的说话人。
可选地,确定模块被配置为将备选特征输入预设的说话人区分模型,获得带有说话人标签的第三语音片段;将说话人标签对应的说话人确定为第三语音片段对应的说话人。
可选地,确定模块被配置为根据备选特征对各第三语音片段进行无监督聚类,获得带有说话人标签的第三语音片段;将说话人标签对应的说话人确定为第三语音片段对应的说话人。
可选地,用于说话人识别的装置还包括:归档模块;归档模块被配置为将第三语音片段按照第三语音片段对应的说话人进行归档。
结合图4所示,本公开实施例提供一种电子设备,包括处理器(processor)400和存储有程序指令的存储器(memory)401。可选地,该电子设备还可以包括通信接口(Communication Interface)402和总线403。其中,处理器400、通信接口402、存储器401可以通过总线403完成相互间的通信。通信接口402可以用于信息传输。处理器400可以调用存储器401中的程序指令,以执行上述实施例的用于说话人识别的方法。
此外,上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。
存储器401作为一种可读存储介质,可用于存储软件程序、可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器400通过运行存储在存储器401中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于说话人识别的方法。
存储器401可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供的电子设备,能够对若干个第一语音片段进行说话人分类,获得若干个第二语音片段;各第二语音片段包括单个说话人的音频数据;并将语义连续的各第二语音片段进行合并获得第三语音片段,根据第三语音片段的语音特征和语义特征确定对应的说话人。这样,将语义连续的单个说话人的音频数据进行合并得到第三语音片段,再根据第三语音片段的语义特征确定对应的说话人,避免了由于语义不连续导致对语音片段进行说话人识别时的识别错误,从而提高了对语音片段进行说话人识别的准确性。
可选地,电子设备为计算机等。
本公开实施例提供了一种可读存储介质,存储有可执行指令,可执行指令设置为执行上述用于说话人识别的方法。
本公开实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述用于说话人识别的方法。
上述的可读存储介质可以是暂态可读存储介质,也可以是非暂态可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于说话人识别的方法,其特征在于,包括:
获取若干个第一语音片段;各所述第一语音片段分别包括至少一个说话人的音频数据;
对各所述第一语音片段进行说话人分类,获得若干个第二语音片段;各所述第二语音片段包括单个说话人的音频数据;
确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并,获得若干个第三语音片段;
获取各所述第三语音片段的语义特征;
根据所述语义特征确定各所述第三语音片段对应的说话人。
2.根据权利要求1所述的方法,其特征在于,所述获取若干个第一语音片段,包括:
获取第四语音片段;所述第四语音片段包括多个说话人的音频数据;
对所述第四语音片段进行去噪处理后获得若干个第一语音片段。
3.根据权利要求1所述的方法,其特征在于,确定各所述第二语音片段之间是否语义连续,包括:
分别获取各所述第二语音片段对应的识别文本;
确定各所述识别文本之间是否语义连续;
将语义连续的多个识别文本分别所对应的第二语音片段确定为语义连续的第二语音片段。
4.根据权利要求1所述的方法,其特征在于,根据所述语义特征确定各所述第三语音片段对应的说话人,包括:
获取各所述第三语音片段的语音特征;
将所述语音特征和所述语义特征进行拼接,获得备选特征;
根据所述备选特征确定各所述第三语音片段对应的说话人。
5.根据权利要求4所述的方法,其特征在于,根据所述备选特征确定各所述第三语音片段对应的说话人,包括:
将所述备选特征输入预设的说话人区分模型,获得带有说话人标签的第三语音片段;
将所述说话人标签对应的说话人确定为所述第三语音片段对应的说话人。
6.根据权利要求4所述的方法,其特征在于,根据所述备选特征确定各所述第三语音片段对应的说话人,包括:
根据所述备选特征对各所述第三语音片段进行无监督聚类,获得带有说话人标签的第三语音片段;
将所述说话人标签对应的说话人确定为所述第三语音片段对应的说话人。
7.根据权利要求1至6任一项所述的方法,其特征在于,根据所述语音特征和语义特征确定各所述第三语音片段对应的说话人后,还包括:
将所述第三语音片段按照所述第三语音片段对应的说话人进行归档。
8.一种用于说话人识别的装置,其特征在于,包括:
第一获取模块,被配置为获取若干个第一语音片段;各所述第一语音片段分别包括至少一个说话人的音频数据;
分类模块,被配置为对各所述第一语音片段进行说话人分类,获得若干个第二语音片段;各所述第二语音片段包括单个说话人的音频数据;
合并模块,被配置为确定各所述第二语音片段之间是否语义连续并将语义连续的各所述第二语音片段进行合并,获得若干个第三语音片段;
第二获取模块,被配置为获取各所述第三语音片段的语义特征;
确定模块,被配置为根据所述语义特征确定各所述第三语音片段对应的说话人。
9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的用于说话人识别的方法。
10.一种可读存储介质,存储有可执行指令,其特征在于,所述可执行指令在运行时执行如权利要求1至7任一项所述的用于说话人识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110656991.9A CN113393845A (zh) | 2021-06-11 | 2021-06-11 | 用于说话人识别的方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110656991.9A CN113393845A (zh) | 2021-06-11 | 2021-06-11 | 用于说话人识别的方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113393845A true CN113393845A (zh) | 2021-09-14 |
Family
ID=77620917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110656991.9A Pending CN113393845A (zh) | 2021-06-11 | 2021-06-11 | 用于说话人识别的方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023083142A1 (zh) * | 2021-11-10 | 2023-05-19 | 北京有竹居网络技术有限公司 | 分句方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和系统 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
WO2018188591A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN112037768A (zh) * | 2019-05-14 | 2020-12-04 | 北京三星通信技术研究有限公司 | 语音翻译方法、装置、电子设备及计算机可读存储介质 |
-
2021
- 2021-06-11 CN CN202110656991.9A patent/CN113393845A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和系统 |
WO2018188591A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN112037768A (zh) * | 2019-05-14 | 2020-12-04 | 北京三星通信技术研究有限公司 | 语音翻译方法、装置、电子设备及计算机可读存储介质 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023083142A1 (zh) * | 2021-11-10 | 2023-05-19 | 北京有竹居网络技术有限公司 | 分句方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10692500B2 (en) | Diarization using linguistic labeling to create and apply a linguistic model | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
US10147438B2 (en) | Role modeling in call centers and work centers | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN110390946A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
EP4392972A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
CN113192516A (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN112562682A (zh) | 基于多人通话的身份识别方法、系统、设备及存储介质 | |
CN113223532A (zh) | 客服通话的质检方法、装置、计算机设备及存储介质 | |
CN112560506A (zh) | 文本语义解析方法、装置、终端设备及存储介质 | |
JP2017167726A (ja) | 会話分析装置、方法及びコンピュータプログラム | |
CN113393845A (zh) | 用于说话人识别的方法、装置、电子设备及可读存储介质 | |
CN112069796B (zh) | 一种语音质检方法、装置,电子设备及存储介质 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN115063155A (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
CN114117047A (zh) | 一种基于c4.5算法对非法语音进行分类的方法及系统 | |
CN113468880A (zh) | 一种冗余词过滤方法及其相关设备 | |
US20240037316A1 (en) | Automatically summarizing event-related data using artificial intelligence techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |