CN110580907A - 一种多人发言场景的语音识别方法和系统 - Google Patents

一种多人发言场景的语音识别方法和系统 Download PDF

Info

Publication number
CN110580907A
CN110580907A CN201910803504.XA CN201910803504A CN110580907A CN 110580907 A CN110580907 A CN 110580907A CN 201910803504 A CN201910803504 A CN 201910803504A CN 110580907 A CN110580907 A CN 110580907A
Authority
CN
China
Prior art keywords
voice
speaking
processing
recognition
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910803504.XA
Other languages
English (en)
Other versions
CN110580907B (zh
Inventor
何世阳
王善彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910803504.XA priority Critical patent/CN110580907B/zh
Publication of CN110580907A publication Critical patent/CN110580907A/zh
Application granted granted Critical
Publication of CN110580907B publication Critical patent/CN110580907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种多人发言场景的语音识别方法和系统,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷;此外,方法和系统还能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性,以及节省后续语音识别结果整理的时间和提高语音识别的效率。

Description

一种多人发言场景的语音识别方法和系统
技术领域
本发明涉及语音识别的技术领域,特别涉及一种多人发言场景的语音识别方法和系统。
背景技术
目前,语音识别技术广泛应用于人机交互领域中,现有的语音识别技术能够准确地和快速地识别语音信号对应的发言对象以及语音信号本身的含义,这极大地推进了人机交互的应用和发展。
但是,现有语音识别技术的优势只局限于单人发言的场景中,对于多人发言场景,语音识别不仅需要识别不同语音信号对应的发言对象和语音含义,并且还要识别区别不同发言对象相互之间的发言顺序,以便于后续语音文本整理过程中匹配到正确的发言端中,从而最大限度地完整还原整个多个发言场景的对话内容。而现有的语音识别技术只能实现一对一的语音识别,并且由于语音识别的识别过程存在一定的识别结果延时,即语音识别需要经过一定的时间差才能得出相应的识别结果,而在该时间差的过程中可能发生了发言对象的切换,这就导致语音识别结果的输出时间与当前发言对象切换的时间点存在不同步的情况,并且该不同步的情况会随着多人发言的推进而不断积累,从而使得最终还原得到的多人发言场景的对话内容不能正确反映不同发言对象的发言顺序。可见,现有技术急需一种能够在多人发言场景中及时地和准确地识别不同发言端相互之间的发言顺序的语音识别方法和系统。
发明内容
针对现有技术存在的缺陷,本发明提供一种多人发言场景的语音识别方法和系统,其中,该多人发言场景的语音识别方法包括如下步骤:步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;步骤(2),将每一个周期内该识别处理的结果转换成若干文本格式信息,并将该若干文本格式信息进行顺序缓存处理;步骤(3),对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果;相应地,该多人发言场景的语音识别系统是根据上述方法适应性地进行语音识别操作的。可见,该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别,虽然该方法和系统对应语音识别结果的输出仍然存在时间差,但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别,从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷,该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性;此外,该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号,这不仅能够有效地降低语音识别的工作量,并且还能够保证每一个语音信号得到精确的识别处理,从而节省后续语音识别结果整理的时间和提高语音识别的效率。
本发明提供一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:
步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;
步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;
步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果;
进一步,在所述步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,
步骤(101),对所述若干发言端中的每一个进行所述语音信号的采集处理,同时在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;
步骤(102),将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
步骤(103),根据识别触发请求和识别中止请求,对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理,以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息;
进一步,在所述步骤(2)中,将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理具体包括,
步骤(201),将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;
步骤(202),将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;
步骤(203),对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理;
进一步,在所述步骤(3)中,对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果具体包括,
步骤(301),判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则进入步骤(302);
步骤(302),判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,若是,则确认所述相邻的两个数据节点对应的发言端身份发生切换;
步骤(303),根据所述步骤(302)的确认结果,生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果,并将所述语音识别结果转换成文本格式识别结果,以此用于提示多人发言场景的变化,其中,将所述语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的,具体过程包括,
S1、通过前端特征提取的方式提取获得声学特征X;
S2、对所述声学特征X进行统计建模,以得到所述声学模型其中,W为统计库中的词串
S3、对所述统计库中的词串W进行统计建模,以得到所述语言模型S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果;
进一步,在所述步骤(3)中,在对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时,还包括获取所述缓存队列的更新状态信息,若所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,同时对所述缓存队列进行中止更新锁定处理。
本发明还提供一种多人发言场景的语音识别系统,其特征在于:
所述多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块;其中
所述语音信号识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号进行识别处理;
所述语音时间戳识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音采集时间戳进行识别处理;
所述缓存模块用于将每一个周期内所述识别处理的结果转换成得到的若干文本格式信息进行顺序缓存处理;
所述身份判断模块用于对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果;
进一步,所述多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块;其中,
所述语音采集模块用于对所述若干发言端中的每一个进行所述语音信号的采集处理;
所述语音时间戳标识模块用于在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;
所述周期划分模块用于将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
进一步,所述多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块;其中,
所述文本转换模块用于将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;
所述数据节点生成模块用于将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;
所述位置标定模块用于对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理;
进一步,所述身份判断模块进行所述判断处理具体包括,
判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,其中,
若所述时间戳差大于预设最大语音识别延迟时间,则确认所述相邻的两个数据节点对应的发言端身份发生切换;
进一步,所述多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块;其中,
所述队列更新确定模块在所述身份判断模块进行所述判断处理的同时,获取所述缓存队列的更新状态信息,并且,
当所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,
相应地,所述队列更新锁定模块对所述缓存队列进行中止更新锁定处理。
相比于现有技术,该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别,虽然该方法和系统对应语音识别结果的输出仍然存在时间差,但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别,从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷,该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性;此外,该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号,这不仅能够有效地降低语音识别的工作量,并且还能够保证每一个语音信号得到精确的识别处理,从而节省后续语音识别结果整理的时间和提高语音识别的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种多人发言场景的语音识别方法的流程示意图。
图2为本发明提供的一种多人发言场景的语音识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的一种多人发言场景的语音识别方法的流程示意图。该多人发言场景的语音识别方法包括如下步骤:
步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理。
优选地,在该步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,
步骤(101),对该若干发言端中的每一个进行该语音信号的采集处理,同时在该采集处理过程中,对该语音信号同步进行语音采集时间戳的标识处理;
步骤(102),将该采集处理得到的语音信号和该标识处理得到的语音采集时间戳按照该多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
步骤(103),根据识别触发请求和识别中止请求,对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行该识别处理,以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息。
步骤(2),将每一个周期内该识别处理的结果转换成若干文本格式信息,并将该若干文本格式信息进行顺序缓存处理。
优选地,在该步骤(2)中,将每一个周期内该识别处理的结果转换成若干文本格式信息,并将该若干文本格式信息进行顺序缓存处理具体包括,
步骤(201),将每一个周期内所处识别处理得到的关于该语音信号、该发言端身份和该发言时间戳三者之间的对应关系以及该语音信号对应的识别文本转换成该文本格式信息;
步骤(202),将该文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行该顺序缓存处理;
步骤(203),对该顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。
步骤(3),对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果。
优选地,在该步骤(3)中,对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果具体包括,
步骤(301),判断该缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则进入步骤(302);
步骤(302),判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,若是,则确认该相邻的两个数据节点对应的发言端身份发生切换;
步骤(303),根据该步骤(302)的确认结果,生成用于指示当前语音信号对应的发言端发生变化的该语音识别结果,并将该语音识别结果转换成文本格式识别结果,以此用于提示多人发言场景的变化,,其中,将该语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的,具体过程包括,
S1、通过前端特征提取的方式提取获得声学特征X;
S2、对该声学特征X进行统计建模,以得到该声学模型其中,W为统计库中的词串
S3、对该统计库中的词串W进行统计建模,以得到该语言模型
S4、根据该声学模型和该语言模型通过预设设计算法得到相应的最优词串并将该最优词串作为该文本格式识别结果。
优选地,在该步骤(3)中,在对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时,还包括获取该缓存队列的更新状态信息,若该更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,同时对该缓存队列进行中止更新锁定处理。
参阅图2,为本发明实施例提供的一种多人发言场景的语音识别系统的结构示意图。该多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块。其中,
该语音信号识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号进行识别处理;
该语音时间戳识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音采集时间戳进行识别处理;
该缓存模块用于将每一个周期内该识别处理的结果转换成得到的若干文本格式信息进行顺序缓存处理;
该身份判断模块用于对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果。
优选地,该多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块;
优选地,该语音采集模块用于对该若干发言端中的每一个进行该语音信号的采集处理;
优选地,该语音时间戳标识模块用于在该采集处理过程中,对该语音信号同步进行语音采集时间戳的标识处理;
优选地,该周期划分模块用于将该采集处理得到的语音信号和该标识处理得到的语音采集时间戳按照该多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
优选地,该多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块;
优选地,该文本转换模块用于将每一个周期内所处识别处理得到的关于该语音信号、该发言端身份和该发言时间戳三者之间的对应关系以及该语音信号对应的识别文本转换成该文本格式信息;
优选地,该数据节点生成模块用于将该文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行该顺序缓存处理;
优选地,该位置标定模块用于对该顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理;
优选地,该身份判断模块进行该判断处理具体包括,
判断该缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,其中,
若该时间戳差大于预设最大语音识别延迟时间,则确认该相邻的两个数据节点对应的发言端身份发生切换;
优选地,该多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块;
优选地,该队列更新确定模块在该身份判断模块进行该判断处理的同时,获取该缓存队列的更新状态信息,并且,
当该更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,
相应地,该队列更新锁定模块对该缓存队列进行中止更新锁定处理。
从上述实施例的内容可知,该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别,虽然该方法和系统对应语音识别结果的输出仍然存在时间差,但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别,从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷,该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性;此外,该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号,这不仅能够有效地降低语音识别的工作量,并且还能够保证每一个语音信号得到精确的识别处理,从而节省后续语音识别结果整理的时间和提高语音识别的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:
步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;
步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;
步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果。
2.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,
步骤(101),对所述若干发言端中的每一个进行所述语音信号的采集处理,同时在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;
步骤(102),将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
步骤(103),根据识别触发请求和识别中止请求,对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理,以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息。
3.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(2)中,将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理具体包括,步骤(201),将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;
步骤(202),将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;
步骤(203),对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。
4.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(3)中,对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果具体包括,
步骤(301),判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则进入步骤(302);
步骤(302),判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,若是,则确认所述相邻的两个数据节点对应的发言端身份发生切换;
步骤(303),根据所述步骤(302)的确认结果,生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果,并将所述语音识别结果转换成文本格式识别结果,以此用于提示多人发言场景的变化,其中,将所述语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的,具体过程包括,
S1、通过前端特征提取的方式提取获得声学特征X;
S2、对所述声学特征X进行统计建模,以得到所述声学模型 其中,W为统计库中的词串;
S3、对所述统计库中的词串W进行统计建模,以得到所述语言模型
S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果。
5.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(3)中,在对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时,还包括获取所述缓存队列的更新状态信息,若所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,同时对所述缓存队列进行中止更新锁定处理。
6.一种多人发言场景的语音识别系统,其特征在于:
所述多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块;其中
所述语音信号识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号进行识别处理;
所述语音时间戳识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音采集时间戳进行识别处理;
所述缓存模块用于将每一个周期内所述识别处理的结果转换成得到的若干文本格式信息进行顺序缓存处理;
所述身份判断模块用于对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果。
7.如权利要求6所述的多人发言场景的语音识别系统,其特征在于:
所述多人发言场景的语音识别系统还包括语音采集模块、语音时间戳标识模块和周期划分模块;其中,
所述语音采集模块用于对所述若干发言端中的每一个进行所述语音信号的采集处理;
所述语音时间戳标识模块用于在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;
所述周期划分模块用于将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分。
8.如权利要求6所述的多人发言场景的语音识别系统,其特征在于:
所述多人发言场景的语音识别系统还包括文本转换模块、数据节点生成模块和位置标定模块;其中,
所述文本转换模块用于将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;
所述数据节点生成模块用于将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;
所述位置标定模块用于对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。
9.如权利要求6所述的多人发言场景的语音识别系统,其特征在于:
所述身份判断模块进行所述判断处理具体包括,
判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,其中,
若所述时间戳差大于预设最大语音识别延迟时间,则确认所述相邻的两个数据节点对应的发言端身份发生切换。
10.如权利要求6所述的多人发言场景的语音识别系统,其特征在于:
所述多人发言场景的语音识别系统还包括队列更新确定模块和队列更新锁定模块;其中,
所述队列更新确定模块在所述身份判断模块进行所述判断处理的同时,获取所述缓存队列的更新状态信息,并且,
当所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,
相应地,所述队列更新锁定模块对所述缓存队列进行中止更新锁定处理。
CN201910803504.XA 2019-08-28 2019-08-28 一种多人发言场景的语音识别方法和系统 Active CN110580907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910803504.XA CN110580907B (zh) 2019-08-28 2019-08-28 一种多人发言场景的语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910803504.XA CN110580907B (zh) 2019-08-28 2019-08-28 一种多人发言场景的语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN110580907A true CN110580907A (zh) 2019-12-17
CN110580907B CN110580907B (zh) 2021-09-24

Family

ID=68812263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910803504.XA Active CN110580907B (zh) 2019-08-28 2019-08-28 一种多人发言场景的语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN110580907B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416871A (zh) * 2020-03-27 2020-07-14 乌鲁木齐明华智能电子科技有限公司 一种多方智能远程应答机制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049589A1 (en) * 2000-06-28 2002-04-25 Poirier Darrell A. Simultaneous multi-user real-time voice recognition system
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
CN105657329A (zh) * 2016-02-26 2016-06-08 苏州科达科技股份有限公司 视频会议系统、处理装置及视频会议方法
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049589A1 (en) * 2000-06-28 2002-04-25 Poirier Darrell A. Simultaneous multi-user real-time voice recognition system
CN103700370A (zh) * 2013-12-04 2014-04-02 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
CN105657329A (zh) * 2016-02-26 2016-06-08 苏州科达科技股份有限公司 视频会议系统、处理装置及视频会议方法
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN110049270A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416871A (zh) * 2020-03-27 2020-07-14 乌鲁木齐明华智能电子科技有限公司 一种多方智能远程应答机制方法

Also Published As

Publication number Publication date
CN110580907B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
US20200027462A1 (en) Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor
US9564127B2 (en) Speech recognition method and system based on user personalized information
CN107967912B (zh) 一种人声分割方法及装置
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN111276124B (zh) 一种关键词识别方法、装置、设备及可读存储介质
CN111192590B (zh) 语音唤醒方法、装置、设备及存储介质
CN111599371A (zh) 语音增加方法、系统、装置及存储介质
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN112802498B (zh) 语音检测方法、装置、计算机设备和存储介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN111833902A (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN103514882A (zh) 一种语音识别方法及系统
CN109215647A (zh) 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN112735385A (zh) 语音端点检测方法、装置、计算机设备及存储介质
CN110580907B (zh) 一种多人发言场景的语音识别方法和系统
CN116935287A (zh) 视频理解方法和装置
CN103247316B (zh) 一种音频检索中构建索引的方法及系统
CN114399992B (zh) 语音指令响应方法、装置及存储介质
CN113409792B (zh) 一种语音识别方法及其相关设备
CN115831109A (zh) 语音唤醒方法、装置、存储介质及电子设备
CN108877777B (zh) 一种语音识别方法及系统
CN110556099B (zh) 一种命令词控制方法及设备
CN113129905B (zh) 一种基于多麦克风阵列节点的分布式语音唤醒系统
CN111785259A (zh) 信息处理方法、装置及电子设备
CN112447169B (zh) 一种词边界估计方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant