CN112951212B - 一种多个说话人的语音转折点检测方法及装置 - Google Patents

一种多个说话人的语音转折点检测方法及装置 Download PDF

Info

Publication number
CN112951212B
CN112951212B CN202110419474.XA CN202110419474A CN112951212B CN 112951212 B CN112951212 B CN 112951212B CN 202110419474 A CN202110419474 A CN 202110419474A CN 112951212 B CN112951212 B CN 112951212B
Authority
CN
China
Prior art keywords
voice
adjacent
segments
similarity
point detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110419474.XA
Other languages
English (en)
Other versions
CN112951212A (zh
Inventor
张鹏远
张学帅
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110419474.XA priority Critical patent/CN112951212B/zh
Publication of CN112951212A publication Critical patent/CN112951212A/zh
Application granted granted Critical
Publication of CN112951212B publication Critical patent/CN112951212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

Description

一种多个说话人的语音转折点检测方法及装置
技术领域
本发明涉及语音识别技术领域。尤其涉及一种多个说话人的语音转折点检测方法及装置。
背景技术
随着移动互联网时代的到来,人们每天会接触到海量的不同种类的音频数据。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点。
说话人分段聚类系统的主要任务是在多人会话的混合语音中把各自说话人的语音分割并聚合起来。该系统作为一项重要的前端处理技术,可以很方便的实现后续的信息处理任务,同时说话人分割聚类技术在音频自动转录、音频检索、安防和军事等领域也都有非常广阔的应用场景。
目前传统的说话人分段方法主要有两种:基于距离尺度的分段方法和基于模型的分段方法。其中基于距离的分段方法采用的主要是贝叶斯信息准则(BayesianInformation Criterion,BIC)和KL距离(Kullback-Leibler Divergence)等准则来进行判定。这种方法对两个相邻的滑动窗进行假设检验来判断临界点是否为说话人的转折点。基于距离尺度的分段方法是一个假设检验的问题,它首先假设两个窗内的片段来自同一个说话人,假设两个窗内的片段来自不同的说话人,然后用不同的距离尺度对两个假设进行比较。但是这种方法窗长的选择和分割阈值的设定需要经验知识,如果分割窗太短则没有足够的信息准确判断说话人转折点,而分割窗太长则计算量较大,在实际应用中长度大小难以设定。而且BIC产生的片段比较碎和小,在说话人片段较短或者说话人身份交换快速转变时,性能急速下降,容易产生比较高的漏警率。KL距离主要是用来衡量两个概率分布的相似度,但是当语音背景、信道变化时特征值会有偏移,导致距离计算出现误差。基于模型的分段方法主要通过离线数据训练出通用背景模型(Universal Background Model,UBM)。它首先对测试音频分割成小段音频,使用最大后验概率估计(Maximum a posterioriestimation,MAP)估算出语音帧的高斯混合模型(Gaussian Mixture Model,GMM),然后通过计算相邻帧之间模型的相似度来判定转折点。这种方法判定的精准度比较高但是比较过度依赖于训练数据。
发明内容
由于现有方法存在上述问题,本申请实施例提出一种多个说话人的语音转折点检测方法及装置。
第一方面,本申请实施例提出一种多个说话人的语音转折点检测方法,包括:
接收多个说话人的混合语音;
切分所述混合语音,得到M个语音片段,M为正整数;
提取每个语音片段的特征;
将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。
在一种可能的实现中,所述切分所述混合语音,得到M个语音片段,包括:
以预设长度,每隔预设步长切分所述混合语音,得到M个预设长度的语音片段。
在一种可能的实现中,所述提取每个语音片段的特征,包括:
提取所述每个语音片段的x-vector特征。
在一种可能的实现中,所述训练后的语音转折点检测网络通过以下步骤获得:
切分训练数据集,得到M个第一语音片段;其中,所述训练数据集包括包含转折点的语音和不包含转折点的语音;
提取每个第一语音片段的特征;
将每两个相邻的第一语音片段的特征进行拼接,得到与所述每两个相邻的第一语音片段对应的M-1个第一特征对;
将所述M-1个第一特征对输入语音转折点检测网络中,得到与所述每两个相邻的第一语音片段对应的M-1个第一相似度输出。
在一种可能的实现中,所述切分训练数据集,得到M个第一语音片段,包括:
以所述预设长度,每隔所述预设步长切分所述训练数据集,得到M个预设长度的第一语音片段。
在一种可能的实现中,所述提取每个第一语音片段的特征,包括:
提取所述每个第一语音片段的x-vector特征。
在一种可能的实现中,所述方法还包括:
若所述第一相似度输出小于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段存在转折点;或者
若所述第一相似度输出大于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段不存在转折点。
第二方面,本申请实施例还提出一种多个说话人的语音转折点检测装置,包括:
接收模块,用于接收多个说话人的混合语音;
切分模块,用于切分所述混合语音,得到M个语音片段,M为正整数;
提取模块,用于提取每个语音片段的特征;
拼接模块,用于将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
相似度输出模块,用于将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
确定模块,用于若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。
第三方面,本申请实施例还提出一种多个说话人的语音转折点检测装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行如第一方面及各种可能的实现中的各个步骤。
第四方面,本申请实施例还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。
由上述技术方案可知,本申请实施例将提取的相邻的语音片段的x-vector特征拼接后,输入训练后的语音转折点检测网络,得到各个相似度输出,以此判断相邻的语音片段是否存在转折点,提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。
附图说明
为了更清楚地说明本申请实施例或各种可能的实现中的技术方案,下面将对本申请实施例或各种可能的实现中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为一种可能的实现中的x-vector的网络结构示意图;
图2为本申请实施例构建的语音转折点检测网络;
图3为本申请实施例提供的一种多个说话人的语音转折点检测方法的流程示意图;
图4为本申请实施例提供的一种切分混合语音的示意图;
图5为本申请实施例提供的一种多个说话人的语音转折点检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
需要说明的是,本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一语音片段是用于区别不同的语音片段,而不是用于描述目标对象的特定顺序。在本申请实施例中,“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。
在一种可能的实现中,传统的说话人分段聚类系统将多个说话人的语音切分成若干个语音片段后,提取各个语音片段的特征,例如x-vector特征。训练时的x-vector的网络结构示意图如图1所示。x-vector的网络结构主要采用深度神经网络(Deep NeuralNetworks,DNN)的网络结构,DNN的输入是由语音帧及其前后帧拼接来构成的。DNN的输出对应了训练数据集中多个说话人的数量N,每个输入的真实标签有一个N维的1-hot向量,向量中的唯一非零分量是输入语音帧对应的说话人身份的位置,当完成DNN的训练后,将图中虚线表示的输出层即softmax层去掉,保留剩下的DNN结构作为x-vector提取器。但是当一个语音片段包含多个说话人时,对语音片段进行x-vector特征提取后,该x-vector特征无法代表该说话人的语音片段特征,从而影响后面语音片段之间的相似度打分,降低说话人分段聚类系统的性能指标。为此,本申请实施例提出一种多个说话人的语音转折点检测方法,用于解决上述技术问题。
图2为本申请实施例构建的语音转折点检测网络,能够实现上述多个说话人的语音转折点检测方法。参见图2,该语音转折点检测网络包括双向长短时记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)模型和两层全连接层。双向长短时记忆Bi-LSTM模型隐藏节点为256个,其中前向隐藏节点为128个,后向隐藏节点为128个。双向长短时记忆Bi-LSTM模型能充分利用上下文的说话人的信息,并且能充分利用训练数据集的特征学习不同长度语音片段的特征。第一层全连接层使用64个隐藏节点,并采用ReLu作为激活函数,压缩信息,特征变换。最后一层全连接层采用1个隐藏节点,利用sigmoid函数来计算相邻的两个语音片段是否存在转折点的概率。
构建好语音转折点检测网络后,开始训练该网络。在一种可能的实现中,首先,对训练数据集进行有效语音检测,剔除无说人的语音片段和/或噪音片段,得到有效的训练数据集。其次,切分有效的训练数据集,得到M个第一语音片段,M为正整数,该有效的训练数据集包括包含转折点的语音和不包含转折点的语音。具体地,以预设长度,每隔预设步长切分有效的训练数据集,得到M个预设长度的第一语音片段。然后,提取每个第一语音片段的特征,例如提取每个第一语音片段的x-vector特征。再者,将每两个相邻的第一语音片段的特征进行拼接,得到与每两个相邻的第一语音片段对应的M-1个第一特征对。最后,将M-1个第一特征对输入语音转折点检测网络中,得到与每两个相邻的第一语音片段对应的M-1个第一相似度输出。为使语音转折点检测网络的第一相似度输出更精确,可以不断重复上述步骤,从而获得训练后的语音转折点检测网络。需要说明的是,当第一相似度输出小于预设相似度阈值时,则确定与第一相似度输出对应的两个相邻的第一语音片段存在转折点;或者当第一相似度输出大于预设相似度阈值时,则确定与第一相似度输出对应的两个相邻的第一语音片段不存在转折点。
图3为本申请实施例提供的一种多个说话人的语音转折点检测方法的流程示意图,该流程示意图包括:S302—312。
下面对本申请实施例提供的如图3所示的一种多个说话人的语音转折点检测方法进行详细介绍。
在一种可能的实现中,通过以下步骤实现本申请实施例提供的多个说话人的语音转折点检测方法:
S302,接收多个说话人的混合语音。
在本申请实施例中,上述多个说话人的语音转折点检测方法适用于多个说话人进行会话的场景。接收到的是多个说话人的混合语音。
S304,切分混合语音,得到M个语音片段。
需要说明的是,S302中接收到的混合语音可能存在无说话人的语音片段和/或噪音片段,因此,对S302中接收到的混合语音进行有效语音检测,得到有效的语音。
在本申请实施例中,将上述有效的语音x切分成M个语音片段。一种可能的实现方式是,如图4所示,以预设长度window size,每隔预设步长window step切分上述有效的语音x,得到M个预设长度的语音片段,如x1,x2,…,xM
S306,提取每个语音片段的特征。
在本申请实施例中,提取在S304中得到的M个预设长度的语音片段的特征。一种可能的实现方式是,提取M个预设长度的语音片段的128维度的x-vector特征。
S308,将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M-1个特征对。
在本申请实施例中,将S306中得到的每两个相邻的语音片段的128维度的x-vector特征进行拼接,得到与每两个相邻的语音片段对应的M-1个256维度的特征对。
S310,将M-1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M-1个相似度输出。
在本申请实施例中,将S308中得到的M-1个256维度的特征对,如图2所示,输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M-1个相似度输出。
S312,若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。
在本申请实施例中,若S310中的M-1个相似度输出中的某个相似度输出小于预设相似度阈值,则确定与该相似度输出对应的两个相邻的语音片段存在转折点。若S310中的M-1个相似度输出中的某个相似度输出大于预设相似度阈值,则确定与该相似度输出对应的两个相邻的语音片段不存在转折点。
需要说明的是,若判断出两个相邻的语音片段存在转折点,则表明该两个相邻的语音片段属于两个说话人的语音;若判断出两个相邻的语音片段不存在转折点,则表明该两个相邻的语音片段属于同一说话人的语音。例如,有5个语音片段A、B、C、D和E。若A和B对应的相似度输出为0.3、B和C对应的相似度输出为0.2、C和D对应的相似度输出为0.4、D和E对应的相似度输出为0.7,则可以判断出前三个相似度输出小于预设相似度阈值0.5,表明A和B之间存在转折点,属于不同说话人的语音,B和C之间存在转折点,属于不同说话人的语音,C和D之间存在转折点,属于不同说话人的语音,D和E对应的相似度输出大于预设相似度阈值0.5,表明D和E之间不存在转折点,属于同一说话人的语音。将D和E组成语音片段F。下面确定A、B、C和F属于哪个说话人的语音。针对语音片段A、B、C和F重新提取x-vector特征,并采用传统的概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)程序、cosine等距离打分公式计算它们的相似度并形成得分距离矩阵。针对计算的得分距离矩阵,后面挂接聚类方法,针对各个语音片段进行各自说话人语音片段的聚类,并完成输出。
图5为本申请实施例提供一种多个说话人的语音转折点检测装置的结构示意图,该结构示意图包括:
接收模块502,用于接收多个说话人的混合语音;
切分模块504,用于切分所述混合语音,得到M个语音片段,M为正整数;
提取模块506,用于提取每个语音片段的特征;
拼接模块508,用于将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
相似度输出模块510,用于将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
确定模块512,用于若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点。
本申请实施例提供一种多个说话人的语音转折点检测装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M-1个特征对;将M-1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M-1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。
本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M-1个特征对;将M-1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M-1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种多个说话人的语音转折点检测方法,其特征在于,包括:
接收多个说话人的混合语音;
切分所述混合语音,得到M个语音片段,M为正整数;
提取每个语音片段的特征;
将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点;
其中,语音转折点检测网络进行训练时使用的训练数据集包括包含转折点的语音和不包含转折点的语音。
2.根据权利要求1所述的方法,其特征在于,所述切分所述混合语音,得到M个语音片段,包括:
以预设长度,每隔预设步长切分所述混合语音,得到M个预设长度的语音片段。
3.根据权利要求1所述的方法,其特征在于,所述提取每个语音片段的特征,包括:
提取所述每个语音片段的x-vector特征。
4.根据权利要求1所述的方法,其特征在于,所述训练后的语音转折点检测网络通过以下步骤获得:
切分训练数据集,得到M个第一语音片段;
提取每个第一语音片段的特征;
将每两个相邻的第一语音片段的特征进行拼接,得到与所述每两个相邻的第一语音片段对应的M-1个第一特征对;
将所述M-1个第一特征对输入语音转折点检测网络中,得到与所述每两个相邻的第一语音片段对应的M-1个第一相似度输出。
5.根据权利要求4所述的方法,其特征在于,所述切分训练数据集,得到M个第一语音片段,包括:
以预设长度,每隔预设步长切分所述训练数据集,得到M个预设长度的第一语音片段。
6.根据权利要求4所述的方法,其特征在于,所述提取每个第一语音片段的特征,包括:
提取所述每个第一语音片段的x-vector特征。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述第一相似度输出小于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段存在转折点;或者
若所述第一相似度输出大于预设相似度阈值,则确定与所述第一相似度输出对应的两个相邻的第一语音片段不存在转折点。
8.一种多个说话人的语音转折点检测装置,其特征在于,包括:
接收模块,用于接收多个说话人的混合语音;
切分模块,用于切分所述混合语音,得到M个语音片段,M为正整数;
提取模块,用于提取每个语音片段的特征;
拼接模块,用于将每两个相邻的语音片段的特征进行拼接,得到与所述每两个相邻的语音片段对应的M-1个特征对;
相似度输出模块,用于将所述M-1个特征对输入训练后的语音转折点检测网络中,得到与所述每两个相邻的语音片段对应的M-1个相似度输出;
确定模块,用于若所述相似度输出小于预设相似度阈值,则确定与所述相似度输出对应的两个相邻的语音片段存在转折点;
其中,语音转折点检测网络进行训练时使用的训练数据集包括包含转折点的语音和不包含转折点的语音。
9.一种多个说话人的语音转折点检测装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202110419474.XA 2021-04-19 2021-04-19 一种多个说话人的语音转折点检测方法及装置 Active CN112951212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110419474.XA CN112951212B (zh) 2021-04-19 2021-04-19 一种多个说话人的语音转折点检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419474.XA CN112951212B (zh) 2021-04-19 2021-04-19 一种多个说话人的语音转折点检测方法及装置

Publications (2)

Publication Number Publication Date
CN112951212A CN112951212A (zh) 2021-06-11
CN112951212B true CN112951212B (zh) 2022-08-26

Family

ID=76233018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419474.XA Active CN112951212B (zh) 2021-04-19 2021-04-19 一种多个说话人的语音转折点检测方法及装置

Country Status (1)

Country Link
CN (1) CN112951212B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295970B1 (en) * 2002-08-29 2007-11-13 At&T Corp Unsupervised speaker segmentation of multi-speaker speech data
CN102682760B (zh) * 2011-03-07 2014-06-25 株式会社理光 重叠语音检测方法和系统
CN109036386B (zh) * 2018-09-14 2021-03-16 北京网众共创科技有限公司 一种语音处理方法及装置
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN111681644B (zh) * 2020-06-30 2023-09-12 浙江同花顺智能科技有限公司 一种说话人分割方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112951212A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
Zhou et al. Unsupervised audio stream segmentation and clustering via the Bayesian information criterion.
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN112183334B (zh) 一种基于多模态特征融合的视频深度关系分析方法
CN108735200B (zh) 一种说话人自动标注方法
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN107886968B (zh) 语音评测方法及系统
CN110600008A (zh) 语音唤醒的优化方法及系统
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
CN112530407B (zh) 一种语种识别方法及系统
CN110299150A (zh) 一种实时语音说话人分离方法及系统
CN111210805A (zh) 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
Aronowitz et al. Context and uncertainty modeling for online speaker change detection
CN112951212B (zh) 一种多个说话人的语音转折点检测方法及装置
Birla A robust unsupervised pattern discovery and clustering of speech signals
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN112669836B (zh) 命令的识别方法、装置及计算机可读存储介质
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
CN110874533B (zh) 基于语音识别后的关键词匹配和应答路径的意向识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant