CN115810346A - 语音识别方法、装置、设备及介质 - Google Patents
语音识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115810346A CN115810346A CN202310131353.4A CN202310131353A CN115810346A CN 115810346 A CN115810346 A CN 115810346A CN 202310131353 A CN202310131353 A CN 202310131353A CN 115810346 A CN115810346 A CN 115810346A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- target
- sentence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种语音识别方法、装置、设备及介质,涉及语音识别技术领域,该方法包括:获取用户的输入语音流信息和断句特征信息,根据断句特征信息对输入语音流信息进行语段切分,得到目标语音段信息,依据目标语音段信息进行语音识别处理,得到输入语音流信息对应的语音识别结果,通过利用用户的断句特征对输入语音进行语段切分,得到目标语音段,从而避免对包含内容较多的整段语音直接进行识别,能够对实时语音进行有效的识别,提高语音识别效率。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及介质。
背景技术
目前,随着语音识别技术的发展,办公、学习等场景通常会遇到需要将一段语音转换为文字进行输出的情况。
现有的语音识别方法通常是获取用户的整段语音,再对整段语音进行识别,将识别得到的语音内容输出给用户。然而,整段语音包含内容较多,现有的语音识别方法直接对整段语音进行识别,容易导致语音识别效率低下,且仅能对已完整存储的语音进行识别,不能对实时语音进行识别。
发明内容
本申请提供了一种语音识别方法、装置、设备及介质,以对实时语音进行有效的识别,提高语音识别效率,解决现有语音识别方法无法对实时语音进行有效识别的问题。
第一方面,本申请提供了一种语音识别方法,包括:
获取用户的输入语音流信息和断句特征信息;
根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;
依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
可选的,所述根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息,包括:
依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息;
依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息。
可选的,所述依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息,包括:
从所述输入语音流信息中提取输入声纹特征信息;
基于所述声纹特征信息和所述输入声纹特征信息,确定声纹相似度;
获取预设的声纹相似阈值,并确定所述声纹相似度是否小于所述声纹相似阈值;
若所述声纹相似度小于所述声纹相似阈值,则将所述输入声纹特征信息从所述输入语音流信息中去除,得到目标语音流信息;
若所述声纹相似度不小于所述声纹相似阈值,则直接将所述输入语音流信息作为所述目标语音流信息。
可选的,所述依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息,包括:
对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词;
对所述目标语音流信息进行持续检测,得到断句信息,所述断句信息包含停顿位置、停顿时长以及目标检测词;
判断所述停顿时长是否大于所述断句时长阈值;
若所述停顿时长大于所述断句时长阈值,则确定所述目标检测词是否属于所述目标断句词;
若所述目标检测词属于所述目标断句词,则基于所述停顿位置对所述目标语音流进行语段切分,得到所述目标语音段信息。
可选的,所述对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词,包括:
对所述断句特征信息进行统计,得到所述用户每次断句的断句时长和至少一个断句词;
基于所述断句时长确定平均断句时长,并基于所述平均断句时长确定断句时长阈值;
对所有所述断句词进行统计,确定每一个所述断句词的出现频率,并将所述出现频率大于预设的频率阈值的所述断句词作为所述目标断句词。
可选的,所述依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息之前,还包括:
获取用户的历史语音集信息;
从所述历史语音集信息中,提取用户声纹特征信息和语音断句特征信息;
将所述用户声纹特征信息确定为所述用户对应的声纹特征信息,并将所述语音断句特征信息确定为所述断句特征信息。
可选的,所述依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果,包括:
对所述目标语音段信息进行语音识别,得到语音文本信息;
基于所述语音文本信息进行文本补全,得到语音内容信息,并将所述语音内容信息作为所述语音识别结果。
第二方面,本申请提供了一种语音识别装置,包括:
输入语音流信息获取模块,用于获取用户的输入语音流信息和断句特征信息;
语段切分模块,用于根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;
语音识别处理模块,用于依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项实施例所述的语音识别方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的语音识别方法的步骤。
综上,本申请实施例通过获取用户的输入语音流信息和断句特征信息,根据断句特征信息对输入语音流信息进行语段切分,得到目标语音段信息,依据目标语音段信息进行语音识别处理,得到输入语音流信息对应的语音识别结果,通过利用用户的断句特征对输入语音进行语段切分,得到目标语音段,从而避免对包含内容较多的整段语音直接进行识别,能够对实时语音进行有效的识别,提高语音识别效率,解决现有语音识别方法无法对实时语音进行有效的识别的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音识别方法的流程示意图;
图2是本申请一个可选实施例提供的一种语音识别方法的步骤流程示意图;
图3为本申请实施例提供的一种语音识别装置的结构框图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在相关技术中,现有的语音识别方法仅能对整段完整的语音进行识别,在实际应用场景中完整的语音段通常较长,语音包含的内容也较多,现有的语音识别方法无法快速对语音进行完整识别,存在语音识别效率低下的问题,并且现有的语音识别方法是直接将语音识别内容作为结果输出,容易导致语音识别结果中包含错误识别结果,从而导致语音识别结果的可读性低。
为解决上述问题,本申请实施例提供了一种语音识别方法,通过获取用户的输入语音流信息和断句特征信息,根据断句特征信息对输入语音流信息进行语段切分,得到目标语音段信息,依据目标语音段信息进行语音识别处理,得到输入语音流信息对应的语音识别结果,通过利用用户的断句特征对输入语音进行语段切分,得到目标语音段,从而避免对包含内容较多的整段语音直接进行识别,能够对实时语音进行有效的识别,提高语音识别效率,并且对目标语音段信息进行语音识别处理,得到语音识别结果,提高语音文本的可读性,从而解决现有语音识别方法无法对实时语音进行有效的、准确的识别的问题。
为便于对本申请实施例的理解,下面将结合附图以及具体实施例做进一步的解释说明,实施例并不构成对本申请实施例的限定。
图1为本申请实施例提供的一种语音识别方法的流程示意图。如图1所示,本申请实施例提供的语音识别方法具体可以包括如下步骤:
步骤110,获取用户的输入语音流信息和断句特征信息。
具体的,输入语音流信息可以包含需要进行识别的语音流,本申请实施例对此不做限制。其中,输入语音流可以是实时语音流,如在进行会议时或聊天通话时通过实时录音等方式采集的实时语音,以得到实时语音流,本申请实施例对此不做限制;输入语音流也可以是非实时语音流,如可以是事先采集到的完整的用户语音段,本申请实施例对此也不做限制。断句特征信息可以包含断句特征,该断句特征可以用于对输入语音流信息对应的语音流进行合理有效的语音段切分,本申请实施例对此不做限制。
具体而言,本申请实施例可以获取用户的输入语音流信息和断句特征信息,以便后续可以利用断句特征信息对输入语音流信息进行语段切分,即执行步骤120。
步骤120,根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息。
具体的,目标语音段信息可以包含真实语音段,本申请实施例对此不做限制。具体而言,本申请实施例可以根据用户的断句特征信息确定用户的断句特征,以根据断句特征对输入语音流信息进行语段切分,即对输入语音流信息进行语音段切分,得到真实语音段,以作为目标语音段信息,通过利用断句特征对输入语音流进行语段切分,避免了对完整的输入语音流进行语音识别,能有效提高后续语音识别效率。
在具体实现中,本申请实施例可以预先获取用户的历史语音集,通过对历史语音集进行分析,以从历史语音集中提取用户的断句特征,以作为断句特征信息,以便可以在检测到用户的实时语音流时,将实时语音流作为输入语音流,利用断句特征进行语段切分,从而可以得到目标语音段。
在实际处理中,本申请实施例可以对输入语音流进行停顿检测,以检测该输入语音流中的每次停顿,在检测到停顿时,可以根据用户的断句特征,判断该停顿是否为有效停顿,若确定该停顿为有效停顿,则可以在停顿处进行语音段切分,将输入语音流信息合理切分为语音段,得到真实语音段。
步骤130,依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
具体的,语音识别结果可以包含语音内容,该语音内容可以包含完整语音文本,本申请实施例对此不做限制。具体而言,本申请实施例确定目标语音段信息后,可以对目标语音段信息进行语音识别,如可以利用语音识别技术,将目标语音段信息转换为语音文本,然后可以对语音文本进行文本补全,得到完整的语音文本,以作为语音内容,将该语音内容作为语音识别结果,通过对语音文本进行文本补全,能有效减少语音文本中存在的错误,提高语音文本的可读性,从而解决了现有的语音识别方法无法对实时语音进行有效的、准确的检测的问题。
例如,可以预先构建文本补全模型,通过将各个用户的历史语音集对应的文本作为训练集,利用训练集对文本补全模型进行模型训练,得到训练好的文本补全模型。在确定目标语音段信息对应的语音文本后,可以将语音文本输入到文本补全模型中,通过文本补全模型识别语音文本中是否存在错别字或残缺语句,在语音文本中存在的错别字时,对语音文本中的错别字进行纠错,得到完整的语音文本,或者在语音文本中存在残缺语句时,对语音文本中的残缺语句进行补全,得到完整的语音文本。
可见,本申请实施例通过获取用户的输入语音流信息和断句特征信息,根据断句特征信息对输入语音流信息进行语段切分,得到目标语音段信息,依据目标语音段信息进行语音识别处理,得到输入语音流信息对应的语音识别结果,通过利用用户的断句特征对输入语音进行语段切分,得到目标语音段,从而避免对包含内容较多的整段语音直接进行识别,能够对实时语音进行有效的识别,提高语音识别效率,并且对目标语音段信息进行语音识别处理,得到语音识别结果,提高语音文本的可读性,从而解决现有语音识别方法无法对实时语音进行有效的、准确的识别的问题。
参照图2,示出了本申请一个可选实施例提供的一种语音识别方法的步骤流程示意图。该语音识别方法具体可以包括如下步骤:
步骤210,获取用户的输入语音流信息和断句特征信息。
步骤220,依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息。
具体的,声纹特征信息可以包含用户声纹特征,本申请实施例对此不做限制。具体而言,本申请实施例获取到输入语音流信息后,可以获取用户对应的用户声纹特征,以作为声纹特征信息,随后可以依据该声纹特征信息对输入语音流信息进行去噪处理,如可以根据用户声纹特征对输入语音流进行噪声去除,得到真实语音流,以作为目标语音流信息,通过用户声纹特征对用户的输入语音流进行噪声去除,减少输入语音流中的无用信息量,并实现对输入语音流中噪声的精确去除,不仅能有利于提高后续进行语音识别时的精确度,还可以提高语音识别时的效率,即在提高语音识别精确度的同时,能有效提高语音识别效率。
在具体实现中,为获取到用户声纹特征,可以预先对用户进行语音采集并存储采集到的用户语音,利用用户语音生成历史语音集。随后可以对历史语音集进行统计分析,从历史语音集中提取用户声纹特征,以作为用户对应的声纹特征信息。还可以从里是语音集中提取语音断句特征,以作为用户对应的断句特征信息。
在一个可选实施例中,本申请实施例依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息之前,具体还可以包括:获取用户的历史语音集信息;从所述历史语音集信息中,提取用户声纹特征信息和语音断句特征信息;将所述用户声纹特征信息确定为所述用户对应的声纹特征信息,并将所述语音断句特征信息确定为所述断句特征信息。
可选的,上述依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息,具体可以包括以下子步骤:
子步骤2201,从所述输入语音流信息中提取输入声纹特征信息。
具体的,输入声纹特征信息可以包含输入语音流中各时刻的输入声纹特征,本申请实施例对此不做限制。具体而言,本申请实施例可以从输入语音流中提取输入各时刻的声纹特征,得到输入声纹特征信息。
子步骤2202,基于所述声纹特征信息和所述输入声纹特征信息,确定声纹相似度。
具体而言,本申请实施例可以根据声纹特征信息和输入声纹特征信息,确定声纹相似度,如可以根据声纹特征和输入声纹特征进行比对计算,得到声纹特征信息和输入声纹特征信息之间的声纹相似度。
子步骤2203,获取预设的声纹相似阈值,并确定所述声纹相似度是否小于所述声纹相似阈值。
在具体实现中,本申请实施例可以预设声纹相似阈值,在确定声纹特征信息和输入声纹特征信息之间的声纹相似度之后,可以判断该声纹相似度是否小于声纹相似阈值,以便可以在声纹相似度小于声纹相似阈值时,将输入声纹特征信息从输入语音流中去除,得到目标语音流,即执行子步骤2204;在声纹相似度不小于声纹相似阈值时,直接将输入语音流中作为目标语音流,即执行子步骤2205。
子步骤2204,若所述声纹相似度小于所述声纹相似阈值,则将所述输入声纹特征信息从所述输入语音流信息中去除,得到目标语音流信息。
具体的,本申请实施例可以在声纹相似度小于声纹相似阈值时,将输入声纹特征信息从输入语音流中去除,即剔除输入语音流中相似度小于预设的声纹相似阈值的输入声纹特征,得到真实语音流,以作为目标语音流,通过用户声纹特征对用户的输入语音流进行噪声去除,减少输入语音流中的无用信息量,实现对输入语音流中噪声的精确去除,不仅能有利于提高后续进行语音识别时的精确度,还可以提高语音识别时的效率。
子步骤2205,若所述声纹相似度不小于所述声纹相似阈值,则直接将所述输入语音流信息作为所述目标语音流信息。
具体而言,本申请实施例可以在声纹相似度不小于声纹相似阈值时,可以直接将输入语音流中作为目标语音流。
步骤230,依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息。
在具体实现中,本申请实施例可以根据用户对应的断句特征信息确定断句时长阈值和习惯断句词,随后可以利用断句时长阈值和习惯断句词对目标语音流进行语段切分,得到目标语音段,以作为目标语音段信息。
可选的,上述依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息,具体可以包括以下子步骤:
子步骤2301,对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词。
具体的,目标断句词可以包含用户的习惯断句词,本申请实施例对此不做限制。具体而言,本申请实施例可以对断句特征信息进行统计处理,如可以针对断句特征信息进行统计分析,确定用户的断句时长阈值和习惯断句词。
在一个可选实施例中,本申请实施例对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词,具体可以包括:对所述断句特征信息进行统计,得到所述用户每次断句的断句时长和至少一个断句词;基于所述断句时长确定平均断句时长,并基于所述平均断句时长确定断句时长阈值;对所有所述断句词进行统计,确定每一个所述断句词的出现频率,并将所述出现频率大于预设的频率阈值的所述断句词作为所述目标断句词。
具体而言,本申请实施例可以预设断句时长阈值和频率阈值,在确定断句特征信息后,可以对断句特征信息进行统计,确定历史语音集中用户每次断句的断句时长和每一个断句词,随后可以基于所有断句的断句时长进行平均值计算,得到平均断句时长,以作为断句时长阈值。对于断句词,本申请实施例可以对所有的断句词进行统计,得到断句词语集,对断句词语集进行统计计算,确定每一个断句词出现的频率,以作为出现频率,在出现频率大于预设的频率阈值时,将断句词作为目标断句词,通过对用户的历史语音集进行分析确定用户的断句特征信息,进而对断句特征信息进行分析确定断句时长阈值和目标断句词,以便可以使用断句时长阈值和目标断句词对语音流进行合理分段,避免对完整语音流进行语音识别,有利于提高语音识别效率。
子步骤2302,对所述目标语音流信息进行持续检测,得到断句信息,所述断句信息包含停顿位置、停顿时长以及目标检测词。
具体的,目标检测词可以包含停顿前单位时间内真实语音流出现的词语,本申请实施例对此不做限制。具体而言,本申请实施例可以对目标语音流信息进行持续检测,确定目标语音流中的停顿点,可以在检测到目标语音流出现停顿时,确定停顿时长,并可以对停顿前单位时间内真实语音流出现的词语进行识别,得到目标检测词。
在具体实现中,本申请实施例可以在检测到目标语音流出现停顿时,确定目标语音流出现停顿的初始停顿时刻,以作为初始停顿点,并可以对该停顿进行计时,在停顿结束后,确定结束停顿时刻,以作为结束停顿点,随后可以根据初始停顿点和结束停顿点进行时长统计,得到停顿时长,并可以对初始停顿时刻之前的语音流进行词语识别,即对停顿前单位时间内真实语音流出现的词语进行识别,得到目标检测词。
子步骤2303,判断所述停顿时长是否大于所述断句时长阈值。
具体而言,本申请实施例确定停顿时长后,可以判断停顿时长是否大于断句时长阈值。
子步骤2304,若所述停顿时长大于所述断句时长阈值,则确定所述目标检测词是否属于所述目标断句词。
具体而言,本申请实施例可以在停顿时长大于断句时长阈值时,判断目标检测词是否属于目标断句词,如可以判断目标检测词是否为习惯断句词,以便后续可以在确定停顿时长大于断句时长阈值,且目标检测词属于目标断句词时,对目标语音流进行语段切分。
子步骤2305,若所述目标检测词属于所述目标断句词,则基于所述停顿位置对所述目标语音流进行语段切分,得到所述目标语音段信息。
具体而言,本申请实施例可以在确定停顿时长大于断句时长阈值,且目标检测词属于目标断句词的情况下,基于停顿位置对目标语音流进行语段切分,如可以在停顿处对真实语音流进行语段切分,得到真实语音段,以作为目标语音段,从而达到结合用户的停顿习惯、用词习惯对用户的语音流进行准确的、合理的以及有效的切分的目的,通过对语音流进行合理有效的切分,能极好的应用到各种实时语音场景,并且能避免直接对完整的语音流进行语音识别,有利于提高语音识别效率。
步骤240,对所述目标语音段信息进行语音识别,得到语音文本信息。
具体而言,本申请实施例确定目标语音段信息后,可以对目标语音段信息进行语音识别,如可以通过语音转文本技术,将目标语音段信息转换为语音文本,得到语音文本信息。
步骤250,基于所述语音文本信息进行文本补全,得到语音内容信息,并将所述语音内容信息作为所述语音识别结果。
具体而言,本申请实施例确定语音文本信息后,可以对语音文本信息进行文本补全,如可以对语音文本进行语义识别,判断用户所想要表达的内容,以对语音文本进行补全,得到语音内容信息,以作为语音识别结果,如可以通过预先训练好的文本补全模型对语音文本中存在的错别字进行纠错,或对语音文本中存在的残缺语句进行补全,得到完整的语音文本,通过对语音识别获取的语音文本进行文本补全,减少了语音文本中的错误,提高了语音文本的可读性,解决语音识别效率低以及识别结果的可读性较差的问题,即解决现有语音识别方法无法对实时语音进行有效的、准确的检测的问题。
综上,本申请实施例通过获取用户的输入语音流信息和断句特征信息,随后依据用户对应的声纹特征信息,对输入语音流信息进行去噪处理,得到目标语音流信息,依据断句特征信息,对目标语音流信息进行语段切分,得到目标语音段信息,进而对目标语音段进行语音识别,得到语音文本信息,基于语音文本信息进行文本补全,得到语音内容信息,并将语音内容信息作为语音识别结果,相比于现有的语音识别技术,本申请实施例通过利用用户声纹特征对输入语音流信息进行噪声去除,减少输入语音流中的无用信息量,实现对语音流中噪声的精确去除,有利于提高后续进行语音识别时的精确度,还可提高语音识别时的效率;根据断句特征将目标语音流进行语段切分,避免了对完整的语音流进行语音识别,有利于提高了识别的效率,对语音识别获取的语音文本进行文本补全,减少了语音文本中的错误,提高了语音文本的可读性,解决现有语音识别方法无法对实时语音进行有效的、准确的检测的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。
如图3所示,本申请实施例还提供了一种语音识别装置300,包括:
输入语音流信息获取模块310,用于获取用户的输入语音流信息和断句特征信息;
语段切分模块320,用于根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;
语音识别处理模块330,用于依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
可选的,所述语段切分模块320,包括:
去噪处理子模块,用于依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息;
语段切分子模块,用于依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息。
可选的,所述去噪处理子模块,包括:
输入声纹特征信息提取单元,用于从所述输入语音流信息中提取输入声纹特征信息;
声纹相似度确定单元,用于基于所述声纹特征信息和所述输入声纹特征信息,确定声纹相似度;
判断单元,用于获取预设的声纹相似阈值,并确定所述声纹相似度是否小于所述声纹相似阈值;
目标语音流确定单元,用于在所述声纹相似度小于所述声纹相似阈值时,将所述输入声纹特征信息从所述输入语音流中去除,得到目标语音流;
目标语音流确定单元,用于在所述声纹相似度不小于所述声纹相似阈值时,直接将所述输入语音流中作为所述目标语音流。
可选的,所述语段切分子模块,包括:
统计处理单元,用于对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词;
断句信息确定单元,用于对所述目标语音流信息进行持续检测,得到断句信息,所述断句信息包含停顿位置、停顿时长以及目标检测词;
判断单元,用于判断所述停顿时长是否大于所述断句时长阈值;在所述停顿时长大于所述断句时长时,确定所述目标检测词是否属于所述目标断句词;
目标语音段确定单元,用于在所述目标检测词属于所述目标断句词时,基于所述停顿位置对所述目标语音流进行语段切分,得到所述目标语音段信息。
可选的,所述统计处理单元,包括:
统计子单元,用于对所述断句特征信息进行统计,得到所述用户每次断句的断句时长和至少一个断句词;
断句时长阈值确定子单元,用于基于所述断句时长确定平均断句时长,并基于所述平均断句时长确定断句时长阈值;
目标断句词确定子单元,用于对所有所述断句词进行统计,确定每一个所述断句词的出现频率,并将所述出现频率大于预设的频率阈值的所述断句词作为所述目标断句词。
可选的,所述语音识别装置300,还包括:
历史语音集信息获取模块,用于获取用户的历史语音集信息;
提取模块,用于从所述历史语音集信息中,提取用户声纹特征信息和语音断句特征信息;
声纹特征信息断句特征信息确定模块,用于将所述用户声纹特征信息确定为所述用户对应的声纹特征信息,并将所述语音断句特征信息确定为所述断句特征信息。
可选的,所述语音识别处理模块330,包括:
语音识别子模块,用于对所述目标语音段信息进行语音识别,得到语音文本信息;
文本补全子模块,用于基于所述语音文本信息进行文本补全,得到语音内容信息,并将所述语音内容信息作为所述语音识别结果。
需要说明的是,本申请实施例提供的语音识别装置可执行本申请任意实施例所提供的语音识别方法,具备执行语音识别方法相应的功能和有益效果。
在具体实现中,上述语音识别装置可以集成在设备中,使得该设备可以依据用户的断句特征信息,对获取的输入语音流信息进行语段切分和语音识别,得到语音识别结果,作为电子设备,实现对实时语音进行有效的、准确的识别。该电子设备可以是由两个或多个物理实体构成,也可以是一个物理实体构成,如电子设备可以是个人计算机(PersonalComputer,PC)、电脑、服务器等,本申请实施例对此不作具体限制。
如图4所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信;存储器113,用于存放计算机程序;处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的语音识别方法的步骤。示例性的,语音识别方法的步骤可以包括如下步骤:获取用户的输入语音流信息和断句特征信息;根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语音识别方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取用户的输入语音流信息和断句特征信息;
根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;
依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息,包括:
依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息;
依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息。
3.根据权利要求2所述的方法,其特征在于,所述依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息,包括:
从所述输入语音流信息中提取输入声纹特征信息;
基于所述声纹特征信息和所述输入声纹特征信息,确定声纹相似度;
获取预设的声纹相似阈值,并将所述声纹相似度和所述声纹相似阈值进行比较;
若所述声纹相似度小于所述声纹相似阈值,则从所述输入语音流信息中剔除所述输入声纹特征信息,得到目标语音流信息;
若所述声纹相似度大于或者等于所述声纹相似阈值,则将所述输入语音流信息作为所述目标语音流信息。
4.根据权利要求2所述的方法,其特征在于,所述依据所述断句特征信息,对所述目标语音流信息进行语段切分,得到所述目标语音段信息,包括:
对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词;
对所述目标语音流信息进行持续检测,得到断句信息,所述断句信息包含停顿位置、停顿时长以及目标检测词;
判断所述停顿时长是否大于所述断句时长阈值;
若所述停顿时长大于所述断句时长阈值,则确定所述目标检测词是否属于所述目标断句词;
若所述目标检测词属于所述目标断句词,则基于所述停顿位置对所述目标语音流进行语段切分,得到所述目标语音段信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述断句特征信息进行统计处理,得到断句时长阈值和目标断句词,包括:
对所述断句特征信息进行统计,得到所述用户每次断句的断句时长和至少一个断句词;
基于所述断句时长确定平均断句时长,并基于所述平均断句时长确定断句时长阈值;
对所有所述断句词进行统计,确定每一个所述断句词的出现频率,并将所述出现频率大于预设的频率阈值的所述断句词作为所述目标断句词。
6.根据权利要求2所述的方法,其特征在于,所述依据所述用户对应的声纹特征信息,对所述输入语音流信息进行去噪处理,得到目标语音流信息之前,还包括:
获取用户的历史语音集信息;
从所述历史语音集信息中,提取用户声纹特征信息和语音断句特征信息;
将所述用户声纹特征信息确定为所述用户对应的声纹特征信息,并将所述语音断句特征信息确定为所述断句特征信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果,包括:
对所述目标语音段信息进行语音识别,得到语音文本信息;
基于所述语音文本信息进行文本补全,得到语音内容信息,并将所述语音内容信息作为所述语音识别结果。
8.一种语音识别装置,其特征在于,包括:
输入语音流信息获取模块,用于获取用户的输入语音流信息和断句特征信息;
语段切分模块,用于根据所述断句特征信息对所述输入语音流信息进行语段切分,得到目标语音段信息;
语音识别处理模块,用于依据所述目标语音段信息进行语音识别处理,得到所述输入语音流信息对应的语音识别结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310131353.4A CN115810346A (zh) | 2023-02-17 | 2023-02-17 | 语音识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310131353.4A CN115810346A (zh) | 2023-02-17 | 2023-02-17 | 语音识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115810346A true CN115810346A (zh) | 2023-03-17 |
Family
ID=85487884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310131353.4A Withdrawn CN115810346A (zh) | 2023-02-17 | 2023-02-17 | 语音识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115810346A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116137011A (zh) * | 2023-04-20 | 2023-05-19 | 广州闪畅信息科技有限公司 | 一种档案生成系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
CN113516994A (zh) * | 2021-04-07 | 2021-10-19 | 北京大学深圳研究院 | 实时语音识别方法、装置、设备及介质 |
CN114038487A (zh) * | 2021-11-10 | 2022-02-11 | 北京声智科技有限公司 | 一种音频提取方法、装置、设备和可读存储介质 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
-
2023
- 2023-02-17 CN CN202310131353.4A patent/CN115810346A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
CN113516994A (zh) * | 2021-04-07 | 2021-10-19 | 北京大学深圳研究院 | 实时语音识别方法、装置、设备及介质 |
CN114038487A (zh) * | 2021-11-10 | 2022-02-11 | 北京声智科技有限公司 | 一种音频提取方法、装置、设备和可读存储介质 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116137011A (zh) * | 2023-04-20 | 2023-05-19 | 广州闪畅信息科技有限公司 | 一种档案生成系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN112527992B (zh) | 长文本处理方法、相关设备及可读存储介质 | |
CN111723791A (zh) | 文字纠错方法、装置、设备及存储介质 | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
WO2015090215A1 (zh) | 区分地域性口音的语音数据识别方法、装置和服务器 | |
CN110491375B (zh) | 一种目标语种检测的方法和装置 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN112257437A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN115810346A (zh) | 语音识别方法、装置、设备及介质 | |
CN113516994B (zh) | 实时语音识别方法、装置、设备及介质 | |
CN113283327A (zh) | 一种视频文本生成方法、装置、设备及存储介质 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN112395392A (zh) | 一种意图识别方法及装置、可读存储介质 | |
JP2022534003A (ja) | 音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
CN106649269A (zh) | 一种口语化句子的提取方法和装置 | |
CN115295020A (zh) | 一种语音评测方法、装置、电子设备及存储介质 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN110413983B (zh) | 一种识别人名的方法及装置 | |
CN114707515A (zh) | 话术判别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230317 |