CN110164420B - 一种语音识别的方法、语音断句的方法及装置 - Google Patents

一种语音识别的方法、语音断句的方法及装置 Download PDF

Info

Publication number
CN110164420B
CN110164420B CN201810872121.3A CN201810872121A CN110164420B CN 110164420 B CN110164420 B CN 110164420B CN 201810872121 A CN201810872121 A CN 201810872121A CN 110164420 B CN110164420 B CN 110164420B
Authority
CN
China
Prior art keywords
voice
duration
speech
moment
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810872121.3A
Other languages
English (en)
Other versions
CN110164420A (zh
Inventor
陈联武
白晶亮
罗敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910745022.3A priority Critical patent/CN110364145B/zh
Priority to CN201810872121.3A priority patent/CN110164420B/zh
Priority to PCT/CN2019/098005 priority patent/WO2020024885A1/zh
Priority to JP2020552897A priority patent/JP7036943B2/ja
Publication of CN110164420A publication Critical patent/CN110164420A/zh
Priority to US17/016,573 priority patent/US11430428B2/en
Application granted granted Critical
Publication of CN110164420B publication Critical patent/CN110164420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明实施例公开了一种语音断句的方法,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。本发明实施例还公开了一种语音断句装置,本发明实施例迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。

Description

一种语音识别的方法、语音断句的方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音识别的方法、语音断句的方法及装置。
背景技术
人工智能(Artificial Intelligence,AI)是用于模拟、延伸以及扩展人类智能的一门新型技术科学。AI是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能非常重要的方面就是语音识别技术。
目前,基于语音识别技术的断句,通常做法是判断长语音中间的停顿长度是否大于预设阈值,如果停顿长度大于预设阈值,则可以对语音进行断句的处理。
然而,采用上述方法对语音进行断句的效果并不佳,由于人在说话的时候语速是不固定的,因此,以停顿长度是否大于预设阈值作为断句的依据,可能会导致出现频繁断句或者长时间不断句的问题,由此,降低了断句的准确度。
发明内容
本发明实施例提供了一种语音识别的方法、语音断句的方法及装置,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
有鉴于此,本发明的第一方面提供了一种语音识别的方法,包括:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;
根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;
获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。
本发明的第二方面提供了一种语音断句的方法,包括:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。
本发明的第三方面提供了一种语音断句装置,包括:
获取模块,用于获取第一待处理语音信息;
所述获取模块,还用于根据所述第一待处理语音信息获取第一停顿时长;
断句模块,用于若所述获取模块获取的所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。
本发明的第四方面提供了一种语音断句装置,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种语音断句的方法,首先,语音断句装置获取第一待处理语音信息,然后可以根据第一待处理语音信息获取第一停顿时长,如果第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息,第一时长阈值为根据上一时刻所对应的语音信息确定的。通过上述方式,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
附图说明
图1为本发明实施例中语音识别系统的一个架构示意图;
图2为本发明实施例中语音识别的方法一个实施例示意图;
图3为本发明实施例中语音断句的方法一个实施例示意图;
图4为本发明实施例中待处理语音信息的一个实施例示意图;
图5为本发明实施例中基于句子时长自适应断句的一个流程示意图;
图6为本发明实施例中基于语速自适应断句的一个流程示意图;
图7为本发明实施例中基于句子时长以及语速自适应断句的一个流程示意图;
图8为本发明实施例中语音断句装置的一个实施例示意图;
图9为本发明实施例中语音断句装置的另一个实施例示意图;
图10为本发明实施例中语音断句装置的一个结构示意图。
具体实施方式
本发明实施例提供了一种语音识别的方法、语音断句的方法及装置,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,随着自动语音识别的技术发展,在相对安静环境下的语音识别率已经达到实用的水平。然而在实际产品落地过程中,如何在复杂场景中仍然保持较好的用户体验,还是面临的一系列挑战,例如在演讲等同声传译场景中,由于语音识别、翻译系统以及字幕显示的需求,系统需要在前端对输入语音进行切分或者断句。下面将结合图1介绍一种语音识别,请参阅图1,图1为本发明实施例中语音识别系统的一个架构示意图,如图所示,以在会议场景中为例,用户在会议室中开始讲话,这些讲话内容即为语音信息,由语音断句装置接收用户的语音信息,并经过语音前端信号处理模块后,输出经过语音检测和降噪处理后的音频流,同时输出语音检测得到的语音间的停顿时间。音频流输入到语音识别模块进行识别处理,而停顿信息与一个自适应变化的时长阈值相比,当停顿时间大于或等于时长阈值时触发断句,并将断句信息送给语音识别以及翻译和字幕显示等模块。此时,可以在屏幕上展示用户讲话的字幕信息。
下面将对本发明中语音识别的方法进行介绍,请参阅图2,本发明实施例中语音识别的方法一个实施例包括:
101、获取第一待处理语音信息;
本实施例中,首先获取第一待处理语音信息,这里的第一待处理语音信息通常可以是人在说话时生成的语音信息。
102、根据第一待处理语音信息获取第一停顿时长;
本实施例中,通过语音前端处理对该第一待处理语音信息进行语音处理,从而得到音频数据流,即音频流,同时会可以检测到语音之间停顿的时间,即得到第一停顿时长。
103、若第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息;
本实施例中,如果第一停顿时长大于或者等于第一时长阈值,那么可以对该第一待处理语音信息进行语音识别,从而得到第一语音断句结果,这里的第一语音断句结果是文本信息。
具体地,第一时长阈值是根据上一次断句结果和/或语音信息生成的,也就是说,第一时长阈值是通过人演讲特征(比如句子长度和语速快慢等)自适应动态调整的。假设用户A在会议中说了这么一段话“华语乐坛深受中国传统文化的浸润与滋养在媒介不断升级迭代的当下”,而在“华语乐坛深受中国传统文化的浸润与滋养”被断句之后,可以计算出第一时间阈值,假设为0.3秒。检测到在说完“在媒介不断升级迭代的当下”这句话之后停顿了0.35秒,然后开始说下一句话,即第二待处理语音信息,显然第一停顿时长0.35秒大于第一时间阈值0.3秒,因此,将得到第一语音断句结果,即“在媒介不断升级迭代的当下”,并可以以字幕的形式展示在屏幕上。
104、根据第一语音断句结果和/或第一待处理语音信息确定第二时长阈值;
本实施例中,根据第一语音断句结果的字数信息计算第二时长阈值,或者,根据第一待处理语音信息的时长信息计算第二时长阈值,或者,根据第一语音断句结果的字数信息以及第一待处理语音信息的时长信息计算第二时长阈值。
105、获取第二待处理语音信息,其中,第二待处理语音信息是在第一待处理语音信息之后获取的;
本实施例中,在获取到第一待处理语音信息之后,可以继续获取第二待处理语音信息。假设用户A在会议中说完“在媒介不断升级迭代的当下”,继续说道“101女团将用青春向上的态度展现中国女孩的独特魅力”,那么,“101女团将用青春向上的态度展现中国女孩的独特魅力”即为第二待处理语音信息。
106、根据第二待处理语音信息获取第二停顿时长;
本实施例中,通过语音前端处理对该第二待处理语音信息进行语音处理,从而得到音频数据流,即音频流,同时会可以检测到语音之间停顿的时间,即得到第二停顿时长。
107、若第二停顿时长大于或等于第二时长阈值,则对第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,第二语音断句结果为文本信息。
本实施例中,如果第二停顿时长大于或者等于第二时长阈值,那么可以对该第二待处理语音信息进行语音识别,从而得到第二语言断句结果,这里的第二语言断句结果是文本信息。
具体地,根据步骤104所描述的方法计算得到第二时长阈值,假设用户A在会议中继续说了这么一段话“101女团将用青春向上的态度展现中国女孩的独特魅力”,而在“在媒介不断升级迭代的当下”被断句之后,可以计算出第二时间阈值,假设为0.3秒。检测到在说完“101女团将用青春向上的态度展现中国女孩的独特魅力”这句话之后停顿了0.32秒,然后开始说下一句话,显然,第二停顿时长0.32秒大于第二时间阈值0.3秒,因此,将得到第二语音断句结果,即“101女团将用青春向上的态度展现中国女孩的独特魅力”,并可以以字幕的形式展示在屏幕上。
下面将从语音断句装置的角度,对本发明中语音断句的方法进行介绍,请参阅图3,本发明实施例中语音断句的方法一个实施例包括:
201、获取第一待处理语音信息;
本实施例中,首先,语音断句装置获取第一待处理语音信息,这里的第一待处理语音信息通常可以是人在说话时生成的语音信息。
可以理解的是,语音断句装置可以部署于终端设备上,比如,部署于手机、平板电脑、个人电脑以及掌上电脑等,且终端设备还具有输入装置,比如麦克风等,通过麦克风收录用户说的内容。
202、根据第一待处理语音信息获取第一停顿时长;
本实施例中,语音断句装置通过语音前端处理对该第一待处理语音信息进行语音处理,从而得到音频数据流,即音频流,同时会可以检测到语音之间停顿的时间,即得到第一停顿时长。
随着深度学习技术的快速发展,安静环境下的语音识别已基本达到实用的要求,但是面对真实环境下噪声、混响和回声的干扰,面对着更自然随意的口语表达,语音识别的性能明显下降。尤其是远讲环境下的语音识别,还难以达到实用的要求。
语音前端处理技术对于提高语音识别的鲁棒性起到了非常重要的作用,通过前端处理模块抑制各种干扰,使待识别的语音更干净。尤其是面向智能家居和智能车载中的语音识别系统,语音前端处理模块扮演着重要角色。除了语音识别,语音前端处理算法在语音通信和语音修复中也有着广泛的应用。在面向语音识别的语音前端处理算法,通过回声消除、噪声抑制以及去混响提高语音识别的鲁棒性。真实环境中包含着背景噪声、人声、混响和回声等多种干扰源,上述因素组合到一起,使得语音前端处理更具挑战性。
203、若第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息,第一时长阈值为根据上一时刻所对应的语音信息确定的。
本实施例中,如果第一停顿时长大于或者等于第一时长阈值,那么语音断句装置可以对该第一待处理语音信息进行语音识别,从而得到第一语音断句结果,这里的第一语音断句结果是文本信息。
具体地,第一时长阈值是根据上一时刻语音信息(如断句结果和/或待处理语音信息)生成的,也就是说,第一时长阈值是通过人演讲特征(比如句子长度和语速快慢等)自适应动态调整的。假设用户A在会议中说了这么一段话“华语乐坛深受中国传统文化的浸润与滋养在媒介不断升级迭代的当下”,而在“华语乐坛深受中国传统文化的浸润与滋养”被断句之后,可以计算出第一时间阈值,假设为0.3秒。检测到在说完“在媒介不断升级迭代的当下”这句话之后停顿了0.35秒,然后开始说下一句话,即第二待处理语音信息,显然第一停顿时长0.35秒大于第一时间阈值0.3秒,因此,将得到第一语音断句结果,即“在媒介不断升级迭代的当下”,并可以以字幕的形式展示在屏幕上。
本发明实施例中,提供了一种语音断句的方法,首先,语音断句装置获取第一待处理语音信息,然后可以根据第一待处理语音信息获取第一停顿时长,如果第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息,第一时长阈值为根据上一时刻所对应的语音信息确定的。通过上述方式,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
可选地,在上述图3对应的实施例的基础上,本发明实施例提供的语音断句的方法第一个可选实施例中,对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,还可以包括:
确定第二时长阈值;
获取第二待处理语音信息;
根据第二待处理语音信息获取第二停顿时长;
若第二停顿时长大于或等于第二时长阈值,则对第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,第二语音断句结果为文本信息。
本实施例中,语音断句装置可以第一语音断句结果的字数信息计算第二时长阈值,或者,根据第一待处理语音信息的时长信息计算第二时长阈值,或者,根据第一语音断句结果的字数信息以及第一待处理语音信息的时长信息计算第二时长阈值。然后在获取到第一待处理语音信息之后,继续获取第二待处理语音信息。假设用户A在会议中说完“在媒介不断升级迭代的当下”,继续说道“101女团将用青春向上的态度展现中国女孩的独特魅力”,那么,“101女团将用青春向上的态度展现中国女孩的独特魅力”即为第二待处理语音信息。
语音断句装置通过语音前端处理对该第二待处理语音信息进行语音处理,从而得到音频数据流,即音频流,同时会可以检测到语音之间停顿的时间,即得到第二停顿时长。如果第二停顿时长大于或者等于第二时长阈值,那么可以对该第二待处理语音信息进行语音识别,从而得到第二语言断句结果,这里的第二语言断句结果是文本信息。
具体地,根据步骤104所描述的方法计算得到第二时长阈值,假设用户A在会议中继续说了这么一段话“101女团将用青春向上的态度展现中国女孩的独特魅力”,而在“在媒介不断升级迭代的当下”被断句之后,可以计算出第二时间阈值,假设为0.3秒。检测到在说完“101女团将用青春向上的态度展现中国女孩的独特魅力”这句话之后停顿了0.32秒,然后开始说下一句话,显然,第二停顿时长0.32秒大于第二时间阈值0.3秒,因此,将得到第二语音断句结果,即“101女团将用青春向上的态度展现中国女孩的独特魅力”,并可以以字幕的形式展示在屏幕上。
其次,本发明实施例中,语音断句装置确定第二时长阈值,然后获取第二待处理语音信息,根据第二待处理语音信息获取第二停顿时长,如果第二停顿时长大于或等于第二时长阈值,则语音断句装置对第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,第二语音断句结果为文本信息。通过上述方式,可以灵活地调整时长阈值,根据之前的语音信息生成新的时长阈值,从而来判断是否进行语音断句,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
可选地,在上述图3对应的第一个实施例的基础上,本发明实施例提供的语音断句的方法第二个可选实施例中,确定第二时长阈值,可以包括:
根据目标语音时长确定第二时长阈值;
或,
根据第一时刻的语速和第二时刻语速确定第二时长阈值;
或,
根据目标语音时长、第一时刻的语速和第二时刻语速,确定第二时长阈值。
本实施例中,在语音断句装置判断停顿时间是否大于时长阈值时,该时长阈值并不是预设的固定阈值,而是通过自适应阈值计算得到的。比如,可以根据本次的待处理语音信息确定下一次的时长阈值,待处理语音信息中携带了人演讲的特征,即说一个完整句子的时间长度,通过句子时长可以计算得到时长阈值。又比如,可以根据本次的断句结果确定下一次的时长阈值,断句结果中携带人演讲的内容,主要包括演讲的字数,通过单位之间内演讲的字数可以确定演讲语速,从而计算得到时长阈值。
当然,基于上述两种方式,还可以同时根据一个完整句子的时间长度以及演讲语速,计算得到时长阈值,可以理解的是,同时根据本次的待处理语音信息和本次的语音断句结果,确定下一次的时长阈值能够更好地适用于不同的场景,由此,提升时长阈值计算的可信度。
再次,本发明实施例中,语音断句装置根据第一语音断句结果的字数信息计算第二时长阈值,或者,根据第一待处理语音信息的时长信息计算第二时长阈值,或者,根据第一语音断句结果的字数信息以及第一待处理语音信息的时长信息计算第二时长阈值。通过上述方式,利用字数信息可以获知语速快慢,利用时长信息可以获知累积句子时长,结合语速快慢和累积句子时长均能够作为生成时长阈值的依据,从而提升时长阈值计算的可靠性。
可选地,在上述图3对应的第二个实施例的基础上,本发明实施例提供的语音断句的方法第三个可选实施例中,根据目标语音时长确定第二时长阈值,可以包括:
根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
根据目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到第二时长阈值。
本实施例中,将介绍如何利用第一待处理语音信息确定第二时长阈值,即如何利用本次得到的待处理语音信息,获取下一次需要用于比对的时长阈值,
具体地,首先,语音断句装置获取第一待处理语音信息的语音起始时刻和语音结束时刻,这里的第一待处理语音信息可以理解为是一个完整的句子,比如第一待处理语音信息为“华语乐坛深受中国传统文化的浸润与滋养”,为了便于理解,请参阅图4,图4为本发明实施例中待处理语音信息的一个实施例示意图,如图所示,在“华”这个话音开始时,即为语音起始时刻,在“养”这个话音刚落时,即为语音结束时刻,但是在实际情况下,一句话说完之后可能会有停顿时间,这段时间即为语音结束时刻至断句结束时刻。
语音断句装置根据语音起始时刻和语音结束时刻计算得到目标语音时长,最后,根据目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到第二时长阈值。其中,预设语音时长范围包括上限值和下限值,且预设语音时长范围和第一预设语音时长都是提前设定好的,具体数值此处不做限定。
为了便于理解,请参阅图5,图5为本发明实施例中基于句子时长自适应断句的一个流程示意图,如图所示,具体地:
步骤A1中,首先,由语音断句装置获取待处理语音信息;
步骤A2中,然后将该待处理语音信息送入至语音前端进行处理,处理的内容包含但不限定降低噪声、混响和回声的干扰,从而输出待处理语音信息的音频流、相应的停顿时间t和这句话的时间长度信息;
步骤A3中,判断停顿时间t是否大于时长阈值T,这里的时长阈值T并不是预先固定好的值,而是根据人演讲的特征进行调整后得到的。如果停顿时间t大于时长阈值T,则进入步骤A4,即进行断句处理;
步骤A4中,音频流进入语音识别模块后将会被识别为具体的字幕;
步骤A5中,识别结果即可表示为字幕;
步骤A6中,利用这句话的时间长度信息可以自适应地计算下一次的时长阈值,这是因为,从统计角度来讲,正常的句子长度都会有一定的范围,因此,当累积时长小于这个范围时,应该倾向于不容易断句。而当累积时长大于这个范围时,应该更倾向于容易断句。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长,然后根据目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到第二时长阈值。通过上述方式,能够有效地利用待处理语音信息中句子时长的信息,由此计算得到的时长阈值具有较好的参考性和可靠性。
可选地,在上述图3对应的第三个实施例的基础上,本发明实施例提供的语音断句的方法第四个可选实施例中,根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长,可以包括:
采用如下方式计算目标语音时长:
d=ct-st
其中,d表示目标语音时长,ct表示语音结束时刻,st表示语音起始时刻;
根据目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到第二时长阈值,可以包括:
采用如下方式计算第二时长阈值:
Figure BDA0001752406780000121
其中,T表示第二时长阈值,f0(d)表示第一阈值计算函数,T0表示第一预设语音时长,Dlow表示预设语音时长范围中的最小值,Dhigh表示预设语音时长范围中的最大值,Dmax表示最大语音时长。
本实施例中,语音时长是指上一句语音断句之后,本句语音从语音起始时刻st到语音结束时刻ct的时间长度,因此语音时长可以等于d=ct-st,若语音起始时刻st为12点15分32秒,语音结束时刻ct为12点15分41秒,则目标语音时长d为9秒。
从统计角度上看,正常的句子长度会有一定范围。因此当停顿时长小于这个范围时,算法应该倾向于不容易断句,而当停顿时长大于这个范围时,算法应该倾向于容易断句。即随着累计句长的增加,触发断句的难度应该降低。因此,第二时长阈值T可表示为:
T=f0(d);
其中,f0可以是任意单调非增函数,即表示为:
Figure BDA0001752406780000131
T0表示第一预设语音时长,Dlow表示预设语音时长范围中的最小值,Dhigh表示预设语音时长范围中的最大值,Dmax表示最大语音时长,也就是说大于Dmax的时候强制断句。
一种可行的设定为,T0可以为0.5,Dlow可以为2秒,Dhigh可以为8秒,Dmax可以为20秒,于是第二时长阈值T可以表示为:
Figure BDA0001752406780000132
假设d为1秒,则根据第一个式子可以得到第二时长阈值T等于0.75秒。假设d为5秒,则根据第二个式子可以得到第二时长阈值T等于0.5秒。假设d为12秒,则根据第三个式子可以得到第二时长阈值T等于0.33秒。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑到正常句子都会有一定的时长范围,所以以讲话者的讲话停顿时长作为判断是否断句的依据,当停顿时长小于时长范围时,算法应该倾向于不容易断句,而当停顿时长大于这个范围时,算法应该倾向于容易断句。通过上述方式,充分利用了句子时长的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及句子的合理长度,从而提升了时长阈值计算的可靠性。
可选地,在上述图3对应的第二个实施例的基础上,本发明实施例提供的语音断句的方法第五个可选实施例中,根据第一时刻的语速和第二时刻语速确定第二时长阈值,可以包括:
获取文本字数以及目标单位时间;
根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,其中,第一时刻为第二时刻之前的一个时刻;
根据第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到第二时长阈值。
本实施例中,将介绍如何利用第一语音断句结果确定第二时长阈值,即如何利用本次断句得到的文本信息,获取下一次需要用于比对的时长阈值,
具体地,首先可以根据获取文本信息所对应的文本字数(比如根据第一语音断句结果或者这句话所用的时间以及总字数)以及说这段文本的时间。接下来可以根据文本字数和目标单位时间计算得到上一个时间点的语速,假设每隔1秒更新一次语速,则第二时刻与第一时刻之差为1秒,利用第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速。最后结合第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到第二时长阈值。
为了便于理解,请参阅图6,图6为本发明实施例中基于语速自适应断句的一个流程示意图,如图所示,具体地:
步骤B1中,首先,由语音断句装置获取待处理语音信息;
步骤B2中,然后将该待处理语音信息送入至语音前端进行处理,处理的内容包含但不限定降低噪声、混响和回声的干扰,从而输出待处理语音信息的音频流、相应的停顿时间t和这句话的时间长度信息;
步骤B3中,判断停顿时间t是否大于时长阈值T,这里的时长阈值T并不是预先固定好的值,而是根据人演讲的特征进行调整后得到的。如果停顿时间t大于时长阈值T,则进入步骤B4,即进行断句处理;
步骤B4中,音频流进入语音识别模块后将会被识别为具体的字幕;
步骤B5中,识别结果即可表示为字幕;
步骤B6中,利用这句话的语速可以自适应地计算下一次的时长阈值,这是因为,从统计角度来讲,如果语速越快,则句子中间的停顿就越短,相反地,如果语速越慢,则句子中间的停顿就越长。因此,语速快慢与时长阈值大小应该成负相关的关系。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以获取文本字数以及目标单位时间,然后根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,其中,第一时刻为第二时刻之前的一个时刻,最后根据第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到第二时长阈值。通过上述方式,能够有效地考虑到语音断句结果中的语速快慢,根据语速快慢不断更新时长阈值,从而使得时长阈值具有较好的参考性和可靠性。
可选地,在上述图3对应的第五个实施例的基础上,本发明实施例提供的语音断句的方法第六个可选实施例中,根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,可以包括:
采用如下方式计算第二时刻的语速:
Figure BDA0001752406780000151
其中,si表示第二时刻的语速,si-1表示第一时刻的语速,n表示文本字数,Δt表示目标单位时间,α表示平滑因子;
根据第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到第二时长阈值,包括:
采用如下方式计算第二时长阈值:
Figure BDA0001752406780000152
其中,T表示第二时长阈值,f1(s)表示第二阈值计算函数,T1表示第一预设语音时长,Shigh表示预设语速范围中的最大值,Slow表示预设语速范围中的最小值,Si表示第二时刻的语速。
本实施例中,首先,语音断句装置获取文本字数以及目标单位时间(一种可行的情况为,文本字数可以是第一语音断句结果所对应的字数,目标单位时间可以是说这句话的时间),假设文本为“今天是值得纪念的日子”,这句话说完用了2秒,且一共说了10个字,那么文本字数为10个字,目标单位时间为2秒。
在实际系统中,由于识别返回的字数信息有一定延迟,而且说话人的语速也一直在变化,为了保证算法的稳定性,实际使用时需要一个相对平滑的语速信息,即引入平滑因子α,其中α的取值范围可以是大于0且小于1的数值。从统计角度上看,语速越快,句子中间的停顿就越短;语速越慢,句子中间的停顿就越长。因此,语速快慢与断句阈值大小应该成负相关的关系。即第二时长阈值T可表示为:
T=f1(d);
其中,f1可以是任意单调非增函数,即表示为:
Figure BDA0001752406780000161
其中,T表示第二时长阈值,f1(s)表示第二阈值计算函数,T1表示第一预设语音时长,即正常语速时的时长阈值,Shigh表示预设语速范围中的最大值,Slow表示预设语速范围中的最小值,Si表示第二时刻的语速。
一种可行的设定为,T1可以为0.5,Shigh可以为5字数每秒,Slow表示2字数每秒,Si可以采用如下公式进行计算:
Figure BDA0001752406780000162
其中,si表示第二时刻的语速,si-1表示第一时刻的语速,n表示文本字数,Δt表示目标单位时间,α表示平滑因子。
一种可行的设定为,si-1可以为3字数每秒,n可以为10个字,Δt可以为2秒,α可以为0.9,于是计算得到Si为3.2字数每秒,代入到计算f1(d)的公式后即可得到如下结果:
Figure BDA0001752406780000163
即第二时长阈值可以为0.55秒。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑不同的人在讲话时会有不同的语速,因此以讲话者的语速快慢作为判断是否断句的依据,速越快,句子中间的停顿就越短,语速越慢,句子中间的停顿就越长。因此,语速快慢与断句阈值大小应该成负相关的关系。通过上述方式,充分利用了语速快慢的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及语速的快慢,从而提升了时长阈值计算的可靠性。此外,语速的更新越缓慢,客户端会延迟,字数反馈不稳定,计算起来单位时间的语音变化快,所以加入平滑因子之后可以让算法结果更稳定,进而提升方案的实用性。
可选地,在上述图3对应的第二个实施例的基础上,本发明实施例提供的语音断句的方法第七个可选实施例中,根据目标语音时长、第一时刻的语速和第二时刻语速,确定第二时长阈值,可以包括:
根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,其中,第一时刻为第二时刻之前的一个时刻;
根据目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到第二时长阈值。
本实施例中,将介绍如何利用第一待处理语音信息和第一语音断句结果确定第二时长阈值,即如何利用本次断句得到的文本信息以及本次得到的待处理语音信息,获取下一次需要用于比对的时长阈值,
具体地,首先,语音断句装置获取第一待处理语音信息的语音起始时刻和语音结束时刻,这里的第一待处理语音信息可以理解为是一个完整的句子,比如第一待处理语音信息为“华语乐坛深受中国传统文化的浸润与滋养”,为了便于理解,请参阅图4,在“华”这个话音开始时,即为语音起始时刻,在“养”这个话音刚落时,即为语音结束时刻,但是在实际情况下,一句话说完之后可能会有停顿时间,这段时间即为语音结束时刻至断句结束时刻。语音断句装置根据语音起始时刻和语音结束时刻计算得到目标语音时长。语音断句装置可以获取文本信息所对应的文本字数,以及说这句话的目标单位时间。接下来可以根据文本字数和目标单位时间计算得到上一个时间点的语速,假设每隔1秒更新一次语速,则第二时刻与第一时刻之差为1秒。再利用第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速。最后,根据目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到第二时长阈值。其中,预设语音时长范围包括上限值和下限值,且预设语音时长范围和第一预设语音时长都是提前设定好的,具体数值此处不做限定。预设语速范围也包括上限值和下限值,且预设语速范围和第二预设语音时长都是提前设定好的,具体数值此处不做限定。
为了便于理解,请参阅图7,图7为本发明实施例中基于句子时长以及语速自适应断句的一个流程示意图,如图所示,具体地:
步骤C1中,首先,由语音断句装置获取待处理语音信息;
步骤C2中,然后将该待处理语音信息送入至语音前端进行处理,处理的内容包含但不限定降低噪声、混响和回声的干扰,从而输出待处理语音信息的音频流、相应的停顿时间t和这句话的时间长度信息;
步骤C3中,判断停顿时间t是否大于时长阈值T,这里的时长阈值T并不是预先固定好的值,而是根据人演讲的特征进行调整后得到的。如果停顿时间t大于时长阈值T,则进入步骤A4,即进行断句处理;
步骤C4中,音频流进入语音识别模块后将会被识别为具体的字幕;
步骤C5中,识别结果即可表示为字幕;
步骤C6中,利用这句话的时间长度信息和语速可以自适应地计算下一次的时长阈值,这是因为,从统计角度来讲,正常的句子长度都会有一定的范围,因此,当累积时长小于这个范围时,应该倾向于不容易断句。而当累积时长大于这个范围时,应该更倾向于容易断句。且从统计角度来讲,如果语速越快,则句子中间的停顿就越短,相反地,如果语速越慢,则句子中间的停顿就越长。因此,语速快慢与时长阈值大小应该成负相关的关系。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以同时考虑到语音断句结果和待处理语音信息对时长阈值的影响,最后综合根据目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到第二时长阈值。通过上述方式,一方面能够有效地考虑到语音断句结果中的语速快慢,根据语速快慢不断更新时长阈值,从而使得时长阈值具有较好的参考性和可靠性。另一方面,能够有效地利用待处理语音信息中句子时长的信息,由此计算得到的时长阈值具有较好的参考性和可靠性。
可选地,在上述图3对应的第七个实施例的基础上,本发明实施例提供的语音断句的方法第八个可选实施例中,根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长,可以包括:
采用如下方式计算目标语音时长:
d=ct-st
其中,d表示目标语音时长,ct表示语音结束时刻,st表示语音起始时刻;
根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,可以包括:
采用如下方式计算第二时刻的语速:
Figure BDA0001752406780000191
其中,si表示第二时刻的语速,si-1表示第一时刻的语速,n表示文本字数,Δt表示目标单位时间,α表示平滑因子;
根据目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到第二时长阈值,包括:
Figure BDA0001752406780000192
Figure BDA0001752406780000193
Figure BDA0001752406780000194
Figure BDA0001752406780000201
其中,T表示第二时长阈值,f2(d,s)表示第三阈值计算函数,T0(s)表示第一中间参数,Dlow(s)表示第二中间参数,Dhigh(s)表示第三中间参数,Dlow表示预设语音时长范围中的最小值,Dhigh表示预设语音时长范围中的最大值,Dmax表示最大语音时长,T2表示第三预设语音时长,Shigh表示预设语速范围中的最大值,Slow表示预设语速范围中的最小值。
本实施例中,语音断句装置除了单独利用句长时长或者语速信息以外,还可以联合两者计算时长阈值,即第二时长阈值T可表示为:
T=f2(d,s);
其中,f2可以是任意单调非增函数,即表示为:
Figure BDA0001752406780000202
其中,T表示第二时长阈值,f2(d,s)表示第三阈值计算函数,T0(s)表示第一中间参数Dlow(s)表示第二中间参数,Dhigh(s)表示第三中间参数,Dlow表示预设语音时长范围中的最小值,Dhigh表示预设语音时长范围中的最大值,Dmax表示最大语音时长,T2表示第三预设语音时长,Shigh表示预设语速范围中的最大值,Slow表示预设语速范围中的最小值。
一种可行的设定为,Shigh可以为5字数每秒,Slow表示2字数每秒,Dlow可以为2秒,Dhigh可以为8秒,Dmax可以为20秒,利用上述参数以及如下公式分别计算得到T0(s)、Dlow(s)和Dhigh(s)。
Figure BDA0001752406780000203
其中,
Figure BDA0001752406780000211
其中,si表示第二时刻的语速,si-1表示第一时刻的语速,n表示文本字数,Δt表示目标单位时间,α表示平滑因子。
一种可行的设定为,si-1可以为3字数每秒,n可以为10个字,Δt可以为2秒,α可以为0.9,于是计算得到Si为3.2字数每秒。又假设T2可以为0.5,结合上述参数,计算得到T0(s)为0.55秒。
基于上述参数,采用如下公式可以计算得到Dlow(s),即:
Figure BDA0001752406780000212
基于上述参数,采用如下公式可以计算得到Dhigh(s),即:
Figure BDA0001752406780000213
基于上述计算得到的T0(s)、Dlow(s)和Dhigh(s),可以得到如下公式:
Figure BDA0001752406780000214
语音时长可以等于d=ct-st,若语音起始时刻st为12点15分32秒,语音结束时刻ct为12点15分41秒,则目标语音时长d为9秒。
假设d为1秒,则根据第一个式子可以得到第二时长阈值T等于0.85秒。假设d为5秒,则根据第二个式子可以得到第二时长阈值T等于0.55秒。假设d为12秒,则根据第三个式子可以得到第二时长阈值T等于0.39秒。
可以理解的是,上述参数均为一种可行的参数,在实际应用中,可以根据不同的情形对其进行设定,此处不做限定。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑不同的人在讲话时会有不同的语速,因此以讲话者的语速快慢作为判断是否断句的依据,速越快,句子中间的停顿就越短,语速越慢,句子中间的停顿就越长。因此,语速快慢与断句阈值大小应该成负相关的关系。此外,考虑到正常句子都会有一定的时长范围,所以以讲话者的讲话停顿时长作为判断是否断句的依据,当停顿时长小于时长范围时,算法应该倾向于不容易断句,而当停顿时长大于这个范围时,算法应该倾向于容易断句。通过上述方式,充分利用了语速快慢的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及语速的快慢,从而提升了时长阈值计算的可靠性。此外,语速的更新越缓慢,客户端会延迟,字数反馈不稳定,计算起来单位时间的语音变化快,所以加入平滑因子之后可以让算法结果更稳定,进而提升方案的实用性。且,充分利用了句子时长的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及句子的合理长度,进一步提升了时长阈值计算的可靠性。
下面对本发明中的语音断句装置进行详细描述,请参阅图8,图8为本发明实施例中语音断句装置一个实施例示意图,语音断句装置30包括:
获取模块301,用于获取第一待处理语音信息;
所述获取模块301,还用于根据所述第一待处理语音信息获取第一停顿时长;
断句模块302,用于若所述获取模块301获取的所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。
本实施例中,获取模块301获取第一待处理语音信息,所述获取模块301根据所述第一待处理语音信息获取第一停顿时长,若所述获取模块301获取的所述第一停顿时长大于或等于第一时长阈值,则断句模块302对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。
本发明实施例中,提供了一种语音断句装置,首先,语音断句装置获取第一待处理语音信息,然后可以根据第一待处理语音信息获取第一停顿时长,如果第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息,第一时长阈值为根据上一时刻所对应的语音信息确定的。通过上述方式,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
可选地,在上述图8所对应的实施例的基础上,请参阅图9,本发明实施例提供的语音断句装置30的另一实施例中,所述语音断句装置30还包括确定模块303;
所述确定模块303,用于所述断句模块302对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,确定第二时长阈值;
所述获取模块301,还用于获取第二待处理语音信息;
所述获取模块301,还用于根据所述第二待处理语音信息获取第二停顿时长;
所述断句模块302,还用于若所述获取模块301获取的所述第二停顿时长大于或等于所述确定模块确定的所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。
其次,本发明实施例中,语音断句装置确定第二时长阈值,然后获取第二待处理语音信息,根据第二待处理语音信息获取第二停顿时长,如果第二停顿时长大于或等于第二时长阈值,则语音断句装置对第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,第二语音断句结果为文本信息。通过上述方式,可以灵活地调整时长阈值,根据之前的语音信息生成新的时长阈值,从而来判断是否进行语音断句,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于根据目标语音时长确定所述第二时长阈值;
或,
根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;
或,
根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值。
再次,本发明实施例中,语音断句装置根据第一语音断句结果的字数信息计算第二时长阈值,或者,根据第一待处理语音信息的时长信息计算第二时长阈值,或者,根据第一语音断句结果的字数信息以及第一待处理语音信息的时长信息计算第二时长阈值。通过上述方式,利用字数信息可以获知语速快慢,利用时长信息可以获知累积句子时长,结合语速快慢和累积句子时长均能够作为生成时长阈值的依据,从而提升时长阈值计算的可靠性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以根据第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长,然后根据目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到第二时长阈值。通过上述方式,能够有效地利用待处理语音信息中句子时长的信息,由此计算得到的时长阈值具有较好的参考性和可靠性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000251
其中,所述T表示所述第二时长阈值,所述f0(d)表示第一阈值计算函数,所述T0表示所述第一预设语音时长,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示所述预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑到正常句子都会有一定的时长范围,所以以讲话者的讲话停顿时长作为判断是否断句的依据,当停顿时长小于时长范围时,算法应该倾向于不容易断句,而当停顿时长大于这个范围时,算法应该倾向于容易断句。通过上述方式,充分利用了句子时长的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及句子的合理长度,从而提升了时长阈值计算的可靠性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以获取文本字数以及目标单位时间,然后根据第一时刻的语速、文本字数、目标单位时间以及平滑因子,计算第二时刻的语速,其中,第一时刻为第二时刻之前的一个时刻,最后根据第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到第二时长阈值。通过上述方式,能够有效地考虑到语音断句结果中的语速快慢,根据语速快慢不断更新时长阈值,从而使得时长阈值具有较好的参考性和可靠性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于采用如下方式计算所述第二时刻的语速:
Figure BDA0001752406780000261
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000262
其中,所述T表示所述第二时长阈值,所述f1(s)表示第二阈值计算函数,所述T1表示所述第一预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值,所述Si表示所述第二时刻的语速。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑不同的人在讲话时会有不同的语速,因此以讲话者的语速快慢作为判断是否断句的依据,速越快,句子中间的停顿就越短,语速越慢,句子中间的停顿就越长。因此,语速快慢与断句阈值大小应该成负相关的关系。通过上述方式,充分利用了语速快慢的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及语速的快慢,从而提升了时长阈值计算的可靠性。此外,语速的更新越缓慢,客户端会延迟,字数反馈不稳定,计算起来单位时间的语音变化快,所以加入平滑因子之后可以让算法结果更稳定,进而提升方案的实用性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
进一步地,本发明实施例中,介绍了第一种语音断句装置计算时间阈值的方式,可以同时考虑到语音断句结果和待处理语音信息对时长阈值的影响,最后综合根据目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到第二时长阈值。通过上述方式,一方面能够有效地考虑到语音断句结果中的语速快慢,根据语速快慢不断更新时长阈值,从而使得时长阈值具有较好的参考性和可靠性。另一方面,能够有效地利用待处理语音信息中句子时长的信息,由此计算得到的时长阈值具有较好的参考性和可靠性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的语音断句装置30的另一实施例中,
所述确定模块303,具体用于采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
采用如下方式计算所述第二时刻的语速:
Figure BDA0001752406780000271
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
所述根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值,包括:
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000281
Figure BDA0001752406780000282
Figure BDA0001752406780000283
Figure BDA0001752406780000284
其中,所述T表示所述第二时长阈值,所述f2(d,s)表示第三阈值计算函数,所述T0(s)表示第一中间参数,所述Dlow(s)表示第二中间参数,所述Dhigh(s)表示第三中间参数,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长,所述T2表示所述第三预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值。
更进一步地,本发明实施例中,介绍了计算第二时长阈值的具体方式,考虑不同的人在讲话时会有不同的语速,因此以讲话者的语速快慢作为判断是否断句的依据,速越快,句子中间的停顿就越短,语速越慢,句子中间的停顿就越长。因此,语速快慢与断句阈值大小应该成负相关的关系。此外,考虑到正常句子都会有一定的时长范围,所以以讲话者的讲话停顿时长作为判断是否断句的依据,当停顿时长小于时长范围时,算法应该倾向于不容易断句,而当停顿时长大于这个范围时,算法应该倾向于容易断句。通过上述方式,充分利用了语速快慢的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及语速的快慢,从而提升了时长阈值计算的可靠性。此外,语速的更新越缓慢,客户端会延迟,字数反馈不稳定,计算起来单位时间的语音变化快,所以加入平滑因子之后可以让算法结果更稳定,进而提升方案的实用性。且,充分利用了句子时长的特性,在生成时长阈值的时候更贴近讲话者的讲话方式以及句子的合理长度,进一步提升了时长阈值计算的可靠性。
本发明实施例还提供了另一种语音断句装置,如图10所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图10示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图10中,触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一手机,或者将音频数据输出至存储器420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器480还具有以下功能:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;
根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;
获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。
在本发明实施例中,该终端所包括的处理器480也具有以下功能:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。
可选地,处理器480还用于执行如下步骤:
确定第二时长阈值;
获取第二待处理语音信息;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。
可选地,处理器480具体用于执行如下步骤:
根据目标语音时长确定所述第二时长阈值;
或,
根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;
或,
根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值。
可选地,处理器480具体用于执行如下步骤:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
可选地,处理器480具体用于执行如下步骤:
采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000331
其中,所述T表示所述第二时长阈值,所述f0(d)表示第一阈值计算函数,所述T0表示所述第一预设语音时长,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示所述预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长。
可选地,处理器480具体用于执行如下步骤:
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值。
可选地,处理器480具体用于执行如下步骤:
采用如下方式计算所述第二时刻的语速:
Figure BDA0001752406780000341
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000342
其中,所述T表示所述第二时长阈值,所述f1(s)表示第二阈值计算函数,所述T1表示所述第一预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值,所述Si表示所述第二时刻的语速。
可选地,处理器480具体用于执行如下步骤:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
可选地,处理器480具体用于执行如下步骤:
采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
采用如下方式计算所述第二时刻的语速:
Figure BDA0001752406780000351
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
采用如下方式计算所述第二时长阈值:
Figure BDA0001752406780000352
Figure BDA0001752406780000353
Figure BDA0001752406780000354
Figure BDA0001752406780000355
其中,所述T表示所述第二时长阈值,所述f2(d,s)表示第三阈值计算函数,所述T0(s)表示第一中间参数,所述Dlow(s)表示第二中间参数,所述Dhigh(s)表示第三中间参数,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长,所述T2表示所述第三预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音识别的方法,其特征在于,包括:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;
根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;
获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息;
所述根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值包括:
根据所述第一语音断句结果的字数信息计算第二时长阈值,或者,根据所述第一待处理语音信息的时长信息计算第二时长阈值,或者,根据所述第一语音断句结果的字数信息以及所述第一待处理语音信息的时长信息计算第二时长阈值;
根据所述第一语音断句结果的字数信息计算第二时长阈值,包括:
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值;
根据所述第一待处理语音信息的时长信息计算第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值;
根据所述第一语音断句结果的字数信息以及所述第一待处理语音信息的时长信息计算第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
2.一种语音断句的方法,其特征在于,包括:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的;
所述对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,所述方法还包括:
确定第二时长阈值;
获取第二待处理语音信息;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息;
所述确定第二时长阈值,包括:
根据目标语音时长确定所述第二时长阈值;
或,
根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;
或,
根据所述目标语音时长、所述第一时刻的语速和所述第二时刻的语速,确定所述第二时长阈值;
所述根据目标语音时长确定所述第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值;
所述根据第一时刻的语速和第二时刻语速确定所述第二时长阈值,包括:
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值;
所述根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长,包括:
采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值,包括:
采用如下方式计算所述第二时长阈值:
Figure FDA0003679798990000041
其中,所述T表示所述第二时长阈值,所述f0(d)表示第一阈值计算函数,所述T0表示所述第一预设语音时长,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示所述预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长。
4.根据权利要求2所述的方法,其特征在于,所述根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,包括:
采用如下方式计算所述第二时刻的语速:
Figure FDA0003679798990000042
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
所述根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值,包括:
采用如下方式计算所述第二时长阈值:
Figure FDA0003679798990000043
其中,所述T表示所述第二时长阈值,所述f1(s)表示第二阈值计算函数,所述T1表示所述第二预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值,所述Si表示所述第二时刻的语速。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长,包括:
采用如下方式计算所述目标语音时长:
d=ct-st
其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;
所述根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,包括:
采用如下方式计算所述第二时刻的语速:
Figure FDA0003679798990000051
其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;
所述根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值,包括:
采用如下方式计算所述第二时长阈值:
Figure FDA0003679798990000052
Figure FDA0003679798990000053
Figure FDA0003679798990000054
Figure FDA0003679798990000061
其中,所述T表示所述第二时长阈值,所述f2(d,s)表示第三阈值计算函数,所述T0(s)表示第一中间参数,所述Dlow(s)表示第二中间参数,所述Dhigh(s)表示第三中间参数,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长,所述T2表示所述第三预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值。
6.一种语音断句装置,其特征在于,包括:
获取模块,用于获取第一待处理语音信息;
所述获取模块,还用于根据所述第一待处理语音信息获取第一停顿时长;
断句模块,用于若所述获取模块获取的所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的;
所述语音断句装置还包括确定模块;
所述确定模块,用于所述断句模块对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,确定第二时长阈值;
所述获取模块,还用于获取第二待处理语音信息;
所述获取模块,还用于根据所述第二待处理语音信息获取第二停顿时长;
所述断句模块,还用于若所述获取模块获取的所述第二停顿时长大于或等于所述确定模块确定的所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息;
所述确定模块确定第二时长阈值,包括:
所述确定模块根据目标语音时长确定所述第二时长阈值;或,根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;或,根据所述目标语音时长、所述第一时刻的语速和所述第二时刻的语速,确定所述第二时长阈值;
所述确定模块根据目标语音时长确定所述第二时长阈值,包括:
所述确定模块根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值;
所述确定模块根据第一时刻的语速和第二时刻语速确定所述第二时长阈值,包括:
所述确定模块获取文本字数以及目标单位时间;根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值;
所述确定模块根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值,包括:
所述确定模块根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;获取文本字数以及目标单位时间;根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
7.一种语音断句装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取第一待处理语音信息;
根据所述第一待处理语音信息获取第一停顿时长;
若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信;
所述处理器还用于执行如下步骤:
确定第二时长阈值;
获取第二待处理语音信息;
根据所述第二待处理语音信息获取第二停顿时长;
若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息;
所述确定第二时长阈值,包括:
根据目标语音时长确定所述第二时长阈值;
或,
根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;
或,
根据所述目标语音时长、所述第一时刻的语速和所述第二时刻的语速,确定所述第二时长阈值;
所述根据目标语音时长确定所述第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;
根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值;
所述根据第一时刻的语速和第二时刻语速确定所述第二时长阈值,包括:
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值;
所述根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值,包括:
根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算目标语音时长;
获取文本字数以及目标单位时间;
根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;
根据所述目标语音时长、预设语音时长范围、预设语速范围、第三预设语音时长以及最大语音时长,计算得到所述第二时长阈值。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的方法,或者执行如权利要求2至5中任一项所述的方法。
CN201810872121.3A 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置 Active CN110164420B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910745022.3A CN110364145B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置
CN201810872121.3A CN110164420B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置
PCT/CN2019/098005 WO2020024885A1 (zh) 2018-08-02 2019-07-26 一种语音识别的方法、语音断句的方法及装置
JP2020552897A JP7036943B2 (ja) 2018-08-02 2019-07-26 音声認識方法、音声区切り方法並びにその装置及びコンピュータプログラム
US17/016,573 US11430428B2 (en) 2018-08-02 2020-09-10 Method, apparatus, and storage medium for segmenting sentences for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810872121.3A CN110164420B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910745022.3A Division CN110364145B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置

Publications (2)

Publication Number Publication Date
CN110164420A CN110164420A (zh) 2019-08-23
CN110164420B true CN110164420B (zh) 2022-07-19

Family

ID=67645171

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910745022.3A Active CN110364145B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置
CN201810872121.3A Active CN110164420B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910745022.3A Active CN110364145B (zh) 2018-08-02 2018-08-02 一种语音识别的方法、语音断句的方法及装置

Country Status (4)

Country Link
US (1) US11430428B2 (zh)
JP (1) JP7036943B2 (zh)
CN (2) CN110364145B (zh)
WO (1) WO2020024885A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364145B (zh) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
CN110400580B (zh) * 2019-08-30 2022-06-17 北京百度网讯科技有限公司 音频处理方法、装置、设备和介质
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
US11373655B2 (en) * 2020-03-18 2022-06-28 Sas Institute Inc. Dual use of acoustic model in speech-to-text framework
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
CN111832279B (zh) * 2020-07-09 2023-12-05 抖音视界有限公司 文本划分方法、装置、设备和计算机可读介质
CN111899726A (zh) * 2020-07-28 2020-11-06 上海喜日电子科技有限公司 音频处理方法、装置、电子设备及存储介质
CN111986654B (zh) * 2020-08-04 2024-01-19 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统
CN112202778B (zh) * 2020-09-30 2022-09-23 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN112435669B (zh) * 2020-11-19 2024-04-02 福州灵医科技有限公司 一种机器人多轮对话语音交互方法、系统和终端设备
CN112887779B (zh) * 2021-01-20 2022-11-18 杭州小众圈科技有限公司 基于语音节奏进行自动滚动字幕的方法、系统及装置
US11817117B2 (en) * 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications
CN113422875B (zh) * 2021-06-22 2022-11-25 中国银行股份有限公司 语音坐席的应答方法、装置、设备及存储介质
CN113838458A (zh) * 2021-09-30 2021-12-24 联想(北京)有限公司 一种参数调整方法及装置
CN114067787B (zh) * 2021-12-17 2022-07-05 广东讯飞启明科技发展有限公司 一种语音语速自适应识别系统
CN114023308A (zh) * 2021-12-17 2022-02-08 广州讯飞易听说网络科技有限公司 一种语音语句断句处理方法及系统
CN114554238B (zh) * 2022-02-23 2023-08-11 北京有竹居网络技术有限公司 直播语音同传方法、装置、介质及电子设备
CN115810346A (zh) * 2023-02-17 2023-03-17 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
DE102016204315A1 (de) * 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3789503B2 (ja) * 1994-12-22 2006-06-28 ソニー株式会社 音声処理装置
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
JP4314376B2 (ja) * 2003-01-07 2009-08-12 独立行政法人情報通信研究機構 書起し支援装置
US7542909B2 (en) * 2003-09-30 2009-06-02 Dictaphone Corporation Method, system, and apparatus for repairing audio recordings
US9191639B2 (en) * 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
CN108090038B (zh) * 2016-11-11 2022-01-14 科大讯飞股份有限公司 文本断句方法及系统
CN107679033B (zh) * 2017-09-11 2021-12-14 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置
CN110364145B (zh) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
DE102016204315A1 (de) * 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe

Also Published As

Publication number Publication date
JP7036943B2 (ja) 2022-03-15
JP2021517992A (ja) 2021-07-29
US20200410985A1 (en) 2020-12-31
US11430428B2 (en) 2022-08-30
CN110164420A (zh) 2019-08-23
CN110364145B (zh) 2021-09-07
CN110364145A (zh) 2019-10-22
WO2020024885A1 (zh) 2020-02-06

Similar Documents

Publication Publication Date Title
CN110164420B (zh) 一种语音识别的方法、语音断句的方法及装置
CN109379641B (zh) 一种字幕生成方法和装置
CN110164469B (zh) 一种多人语音的分离方法和装置
EP2821992B1 (en) Method for updating voiceprint feature model and terminal
CN108021572B (zh) 回复信息推荐方法和装置
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN111179957B (zh) 一种语音通话的处理方法以及相关装置
CN107613128B (zh) 一种音量调节方法、终端及计算机可读存储介质
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN109993821B (zh) 一种表情播放方法及移动终端
CN110570840A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN109302528B (zh) 一种拍照方法、移动终端及计算机可读存储介质
CN106940997B (zh) 一种向语音识别系统发送语音信号的方法和装置
CN111477243B (zh) 音频信号处理方法及电子设备
CN111522592A (zh) 一种基于人工智能的智能终端唤醒方法和装置
CN109126127B (zh) 游戏控制方法、双屏移动终端及计算机可读存储介质
CN108959585B (zh) 一种表情图片获取方法和终端设备
CN111739545B (zh) 音频处理方法、装置及存储介质
CN110277097B (zh) 数据处理方法及相关设备
CN109453526B (zh) 一种声音处理方法、终端及计算机可读存储介质
CN108632717B (zh) 一种基于手持电子设备的语音信息交互方法及系统
CN108958505B (zh) 一种显示候选信息的方法及终端
CN107645604B (zh) 一种通话处理方法及移动终端
CN110597973A (zh) 一种人机对话的方法、装置、终端设备和可读存储介质
CN113535926B (zh) 主动对话方法、装置及语音终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant