CN113096669A - 基于角色识别的语音识别系统 - Google Patents
基于角色识别的语音识别系统 Download PDFInfo
- Publication number
- CN113096669A CN113096669A CN202110347499.3A CN202110347499A CN113096669A CN 113096669 A CN113096669 A CN 113096669A CN 202110347499 A CN202110347499 A CN 202110347499A CN 113096669 A CN113096669 A CN 113096669A
- Authority
- CN
- China
- Prior art keywords
- voice
- time delay
- standard deviation
- module
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000012937 correction Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 13
- 238000000926 separation method Methods 0.000 description 4
- 238000012896 Statistical algorithm Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及语音数据处理技术领域,具体涉及一种基于角色识别的语音识别系统,包括:采集模块,用于采集谈话人与被谈话人的谈话语音;提取模块,用于根据谈话语音提取声纹特征;聚类模块,用于根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;纠正模块,用于判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;输出模块,用于输出第一语音与第二语音。本发明解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
Description
技术领域
本发明涉及语音数据处理技术领域,具体涉及一种基于角色识别的语音识别系统。
背景技术
目前,语音识别技术逐步应用到法庭庭审或会议过程中,对整个法庭庭审或会议过程以语音的形式进行记录。在法庭庭审或会议过程结束以后,再对语音中的内容进行分析,摘取有效的信息,最后形成稿件。其中,说话人角色识别或分离是语音处理过程的核心步骤,只有进行将说话人角色识别或分离后才可以知道哪些人具体说了哪些具体的内容。
比如说,中国专利CN111105801A公开了一种角色语音分离方法,包括步骤:建立数据信息库;在检测到用户对话时,对于对话中的每句话进行识别,用户包括用户组a和用户组b;对识别的结果提取声纹特征,输出提取结果;获取提取结果中属于用户组a的声纹特征并存入数据信息库中;其中,在检测到用户对话时,对于对话中的每句话进行识别,包括:获取用户的对话内容;提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b;将对话内容通过声纹引擎进行识别分类,分为用户组a的m个声音片段集和用户组b的n个声音片段集。
在上述技术方案中,基于说话人的声纹特征进行角色识别、分离,要想仅通过声纹特征将说话人的角色识别、分离开来,需要确保谈话语音是在良好的录音环境中进行录制的。但是,在实际的谈话场景下,比如法庭庭审,由于法庭空间狭小,声音的传播过程受空间大小的影响较大,以及会在空间中进行反射、衍射,甚至除了直达信号还有多径信号叠加进而出现混响,导致角色识别的准确率低。
发明内容
本发明提供一种基于角色识别的语音识别系统,解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
本发明提供的基础方案为:基于角色识别的语音识别系统,包括:
采集模块,用于采集谈话人与被谈话人的谈话语音;
提取模块,用于根据谈话语音提取声纹特征;
聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;
纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;
输出模块,用于输出第一语音与第二语音。
本发明的工作原理及优点在于:首先,对声纹特征进行聚类将其分为第一特征与第二特征。由于声纹特征具有特定性与相对稳定性两个特点,人的声音可保持长期相对稳定不变,无论谈话人与被谈话人故意模仿他人声音和语气,还是耳语轻声讲话,其声纹始终保持不变。这样根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音,能够初步实现角色识别。接着,采用TDOA算法计算第一语音中各个音频片段的第一时延,以及第二语音中各个音频片段的第二时延,并计算第一时延的标准差与第二时延的标准差。如果说第一时延的标准差与第二时延的标准差是否均小于时延阈值,表明第一语音与第二语音中的音频片段均是来源于同一个人,反之则表明第一语音与第二语音中的音频片段来源于不同的人。通过这样的方式,如果谈话语音在不好的录音环境中录制,谈话语音的质量很低下,可以对角色识别的结果进行修正,从而提高角色识别的准确率。
本发明即使在谈话语音的质量很低下的情况,也可以对角色识别的结果进行修正和反馈,解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
进一步,纠正模块还用于采用TDOA算法根据第一时延计算第一距离,采用TDOA算法根据第二时延计算第二距离,并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值:如果第一距离的标准差与第二距离的标准差均小于距离阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块。
有益效果在于:如果第一时延的标准差与第二时延的标准差均小于时延阈值,这是从时间维度进行确认;如果第一距离的标准差与第二距离的标准差均小于距离阈值,这是从空间维度进行确认。通过这样的方式,可以更加准确地判断第一语音与第二语音中的音频片段是否均是来源于同一个人。
进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行增益处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行增益处理。
有益效果在于:当第一语音与第二语音的响度过低时,通过这样的方式,能够提高第一语音与第二语音的响度,避免因为响度过低而产生误差。
进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行回音消除处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行回音消除处理。
有益效果在于:回音的存在,会对第一语音与第二语音形成干扰,通过这样的方式能够消除第一语音与第二语音中的回声,避免回声干扰导致误差。
进一步,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行降噪处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行降噪处理。
有益效果在于:由于现实中很少存在完全没有杂音的环境,对第一语音与第二语音进行降噪处理,剔除掉无关因素,有利于提高后续处理的准确性。
进一步,输出模块还用于将第一语音转换为第一文本,并将第二语音转换为第二文本。
有益效果在于:将第一语音转换为第一文本,并将第二语音转换为第二文本,便于整理谈话语音的内容,从而提高工作效率。
进一步,输出模块还用于同步显示第一文本与第二文本。
有益效果在于:通过这样的方式,能够在转换的同时同步进行显示,既便于当场进行核实,又利于对谈话过程进行实时监督。
附图说明
图1为本发明基于角色识别的语音识别系统实施例的系统结构框图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例1
实施例基本如附图1所示,包括:
采集模块,用于采集谈话人与被谈话人的谈话语音;
提取模块,用于根据谈话语音提取声纹特征;
聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;
纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;
输出模块,用于输出第一语音与第二语音。
具体实施过程如下:
首先,采集模块采集谈话人与被谈话人的谈话语音。比如说,采用麦克风阵列来获取谈话者与被谈话者的声音,或者,采用多个枪型麦克风分别指向谈话者与被谈话者来获取不同的语音信号。
然后,提取模块根据谈话语音提取声纹特征,比如说采用iVector/PLDA算法来提取声纹特征,iVector/PLDA算法是主流的、也是成熟的声纹特征提取算法。
接着,聚类模块对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音。在本实施例中,采用K-MEANS算法进行聚类,也即为,将声纹特征分为K组,则随机选取K个声纹特征作为初始的聚类中心,然后计算其他声纹特征与各个聚类中心之间的距离,并把每个声纹特征分配给距离最近的聚类中心,每当分配一个声纹特征,聚类中心就会被重新计算,直到满足终止条件,比如说聚类中心不再发生变化。这样,在谈话人与被谈话人的数量均为一人时,即可将声纹特征分为两个类别,也即,谈话人对应的第一特征与被谈话人对应的第二特征,从而很容易根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音。
再接着,纠正模块采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差。在本实施例中,采用TDOA算法,也即Time Difference of Arrival-到达时间差算法计算第一时延与第二时延;比如说,第一语音中有五个音频片段,那么第一时延就有五个值;第二语音中有六个音频片段,那么第二时延就有六个值;根据五个第一时延可采用统计算法得到第一时延的标准差,根据六个第二时延可采用统计算法得到第二时延的标准差,随后做出判断。也即,判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,表明第一语音与第二语音中的音频片段均是来源于同一个人,聚类的结果是可靠的,故而发送输出结果的指令到输出模块,输出模块接收到指令后就输出第一语音与第二语音;反之,表明第一语音与第二语音中的音频片段来源于不同的人,聚类的结果存在偏差,故而发送重新聚类的指令到聚类模块,聚类模块接收到指令后重新进行聚类,如此进行循环,直到聚类的结果符合要求为止。
最后,输出模块输出第一语音与第二语音。在本实施例中,输出模块将第一语音转换为第一文本,并将第二语音转换为第二文本;与此同时,同步显示第一文本与第二文本。
实施例2
与实施例1不同之处仅在于,纠正模块还采用TDOA算法根据第一时延计算第一距离,采用TDOA算法根据第二时延计算第二距离,判断第一距离的标准差与第二距离的标准差是否均小于距离阈值,如果第一距离的标准差与第二距离的标准差均小于距离阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块。具体的实施过程可看参照前述实施例中相关内容进行。这样的话,第一时延的标准差与第二时延的标准差均小于时延阈值,是从时间维度进行确认;第一距离的标准差与第二距离的标准差均小于距离阈值,是从空间维度进行确认,从而可以更加准确地判断第一语音与第二语音中的音频片段是否均是来源于同一个人。
在计算第一时延与第二时延之前,纠正模块还对第一语音与第二语音进行增益处理,以提高第一语音与第二语音的响度;并对第一语音与第二语音进行回音消除处理,以消除第一语音与第二语音中的回声;以及,消除第一语音与第二语音中的噪声。
实施例3
与实施例2不同之处仅在于,在本实施例中,提取模块以切点的形式对谈话语音进行切分,得到多个语音片段,在语音片段中提取声纹特征。首先,判断切点是否位于谈话语音的空白区域,也即是说,检测切点所处的谈话语音的位置处是否存在声音:如果切点所处的谈话语音的位置处存在声音,表明切点没有位于谈话语音的空白区域;反之,如果切点所处的谈话语音的位置处不存在声音,表明切点位于谈话语音的空白区域。如果切点位于谈话语音的空白区域处,直接切分不会丢失说话人的语音特征,故而直接进行切分;反之,则不直接进行切分。然后,如果切点没有位于谈话语音的空白区域处,判断谈话人的数量是否发生变化,也就是说,检测谈话语音中的声纹特征的数量是否发生变化:如果谈话语音中的声纹特征的数量增加,表明谈话人的数量增加,如果谈话语音中的声纹特征的数量减少,表明谈话人的数量减少,此时,就将切点移动至谈话语音中谈话人的数量发生变化之处;反之,如果谈话语音中的声纹特征的数量不变,表明谈话人的数量不变,不移动切点。通过这样的方式,可以适当精简切分的过程,但不会丢失说话人的声音特征。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (7)
1.基于角色识别的语音识别系统,其特征在于,包括:
采集模块,用于采集谈话人与被谈话人的谈话语音;
提取模块,用于根据谈话语音提取声纹特征;
聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;
纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;
输出模块,用于输出第一语音与第二语音。
2.如权利要求1所述的基于角色识别的语音识别系统,其特征在于,纠正模块还用于采用TDOA算法根据第一时延计算第一距离,采用TDOA算法根据第二时延计算第二距离,并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值:如果第一距离的标准差与第二距离的标准差均小于距离阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块。
3.如权利要求2所述的基于角色识别的语音识别系统,其特征在于,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行增益处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行增益处理。
4.如权利要求3所述的基于角色识别的语音识别系统,其特征在于,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行回音消除处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行回音消除处理。
5.如权利要求4所述的基于角色识别的语音识别系统,其特征在于,纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前,对第一语音进行降噪处理;在采用TDOA算法计算第二语音中各个音频片段的第二时延之前,对第二语音进行降噪处理。
6.如权利要求5所述的基于角色识别的语音识别系统,其特征在于,输出模块还用于将第一语音转换为第一文本,并将第二语音转换为第二文本。
7.如权利要求6所述的基于角色识别的语音识别系统,其特征在于,输出模块还用于同步显示第一文本与第二文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110347499.3A CN113096669B (zh) | 2021-03-31 | 2021-03-31 | 基于角色识别的语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110347499.3A CN113096669B (zh) | 2021-03-31 | 2021-03-31 | 基于角色识别的语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096669A true CN113096669A (zh) | 2021-07-09 |
CN113096669B CN113096669B (zh) | 2022-05-27 |
Family
ID=76671606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110347499.3A Active CN113096669B (zh) | 2021-03-31 | 2021-03-31 | 基于角色识别的语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096669B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
CN106251874A (zh) * | 2016-07-27 | 2016-12-21 | 深圳市鹰硕音频科技有限公司 | 一种语音门禁和安静环境监控方法及系统 |
CN106782563A (zh) * | 2016-12-28 | 2017-05-31 | 上海百芝龙网络科技有限公司 | 一种智能家居语音交互系统 |
US20180075860A1 (en) * | 2016-09-14 | 2018-03-15 | Nuance Communications, Inc. | Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR) |
CN109658948A (zh) * | 2018-12-21 | 2019-04-19 | 南京理工大学 | 一种面向候鸟迁徙活动的声学监测方法 |
CN111105801A (zh) * | 2019-12-03 | 2020-05-05 | 云知声智能科技股份有限公司 | 一种角色语音分离方法及装置 |
CN111583938A (zh) * | 2020-05-19 | 2020-08-25 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
CN113076747A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 基于角色识别的语音识别记录方法 |
-
2021
- 2021-03-31 CN CN202110347499.3A patent/CN113096669B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
CN106251874A (zh) * | 2016-07-27 | 2016-12-21 | 深圳市鹰硕音频科技有限公司 | 一种语音门禁和安静环境监控方法及系统 |
US20180075860A1 (en) * | 2016-09-14 | 2018-03-15 | Nuance Communications, Inc. | Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR) |
CN110178178A (zh) * | 2016-09-14 | 2019-08-27 | 纽昂斯通讯有限公司 | 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割 |
CN106782563A (zh) * | 2016-12-28 | 2017-05-31 | 上海百芝龙网络科技有限公司 | 一种智能家居语音交互系统 |
CN109658948A (zh) * | 2018-12-21 | 2019-04-19 | 南京理工大学 | 一种面向候鸟迁徙活动的声学监测方法 |
CN111105801A (zh) * | 2019-12-03 | 2020-05-05 | 云知声智能科技股份有限公司 | 一种角色语音分离方法及装置 |
CN111583938A (zh) * | 2020-05-19 | 2020-08-25 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
CN113076747A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 基于角色识别的语音识别记录方法 |
Non-Patent Citations (5)
Title |
---|
DEEPU VIJAYASENAN 等: ""An information theoretic combination of MFCC and TDOA features for speaker diarization"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
DEEPU VIJAYASENAN 等: ""Multistream speaker diarization of meetings recordings beyond MFCC and TDOA features"", 《SPEECH COMMUNICATION》 * |
TIN LAY NWE 等: ""Speaker clustering and cluster purification methods for RT07 and RT09 evaluation meeting data"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
陈芬: ""无监督说话人聚类方法研究及实现"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
马勇: ""说话人分割聚类研究进展"", 《信号处理》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113096669B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
EP3707716B1 (en) | Multi-channel speech separation | |
CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
JP6954680B2 (ja) | 話者の確認方法及び話者の確認装置 | |
EP0501631B1 (en) | Temporal decorrelation method for robust speaker verification | |
CN102388416B (zh) | 信号处理装置及信号处理方法 | |
US6038528A (en) | Robust speech processing with affine transform replicated data | |
EP1159737B1 (en) | Speaker recognition | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
Kinoshita et al. | Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system | |
Otterson et al. | Efficient use of overlap information in speaker diarization | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
US20060074667A1 (en) | Speech recognition device and method | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
JP3798530B2 (ja) | 音声認識装置及び音声認識方法 | |
CN113096669B (zh) | 基于角色识别的语音识别系统 | |
CN1251193A (zh) | 语音分析系统 | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
KR101809511B1 (ko) | 발화자의 연령대 인식 장치 및 방법 | |
CN113077784B (zh) | 一种角色识别智能语音设备 | |
Xiong et al. | Channel selection using neural network posterior probability for speech recognition with distributed microphone arrays in everyday environments | |
US11977855B2 (en) | System and method for automatic speech translation based on zero user interface | |
CN112530452B (zh) | 一种后置滤波补偿方法、装置和系统 | |
CN113345421B (zh) | 一种基于角度谱特征的多通道远场的目标语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |