CN113539295B - 一种语音处理方法及装置 - Google Patents
一种语音处理方法及装置 Download PDFInfo
- Publication number
- CN113539295B CN113539295B CN202110645953.3A CN202110645953A CN113539295B CN 113539295 B CN113539295 B CN 113539295B CN 202110645953 A CN202110645953 A CN 202110645953A CN 113539295 B CN113539295 B CN 113539295B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- similar
- information
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000012634 fragment Substances 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000013138 pruning Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000002618 waking effect Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Traffic Control Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音处理方法及装置,所述方法包括:获得来自用户的第一语音信息;其中,所述第一语音信息的时长超过预设分析时长阈值;确定所述第一语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息;其中,所述第二语音信息的时长不超过所述预设分析时长阈值;对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图;应用本方法,用户在提供第一语音信息的时候,不需要控制说话速度,使用户在进行语音输入的时候更具自由性,提高了用户的语音输入体验。
Description
技术领域
本申请涉及信号处理技术领域,尤其涉及一种语音处理方法及装置。
背景技术
在使用二分类方式进行唤醒词模型训练时,需要设置一个训练窗长,训练好的唤醒词模型在训练窗长内检测到唤醒词时,能够对电子设备进行唤醒操作。但在实际的使用场景中,不同用户的语速和说话习惯是不同的,可能存在说话非常慢或者是在说话时有一个很长的停顿的情况,导致唤醒词不能训练窗长内被说完,进而导致唤醒词模型无法成功唤醒电子设备。
发明内容
本申请实施例提供了一种语音处理方法及装置,更加准确地确定用户的意图。
本申请第一方面提供一种语音处理方法,所述方法包括:获得来自用户的第一语音信息;其中,所述第一语音信息的时长超过预设分析时长阈值;确定所述第一语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息;其中,所述第二语音信息的时长不超过所述预设分析时长阈值;对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图。
在一可实施方式中,在获得来自用户的第一语音信息之前,所述方法还包括:获得来自所述用户的第三语音信息,所述第三语音信息的时长不超过所述预设分析时长阈值;当根据所述第三语音信息无法确定所述用户意图的情况下,获得来自用户的所述第一语音信息;其中,所述第一语音信息与第三语音信息的尾时间点相同。
在一可实施方式中,在所述获得来自用户的第一语音信息之后,所述方法还包括:确定与所述第一语音信息对应的信号帧;删除不存在语音的信号帧,获得语音帧;对所述语音帧进行拼接处理,获得第四语音信息。
在一可实施方式中,在所述获得第四语音信息之后,所述方法还包括:当所述第四语音信息的时长不超过所述预设分析时长阈值的情况下,对所述第四语音信息进行分析,以确定与所述第一语音信息对应的用户意图。
在一可实施方式中,所述方法还包括:当所述第四语音信息的时长超过所述预设分析时长阈值的情况下,确定所述第四语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息。
在一可实施方式中,所述确定所述第一语音信息中的相似语音片段,包括:确定与所述第一语音信息对应的语音帧,对所述语音帧进行帧和帧之间的相似度分析,根据满足相似度标准的语音帧确定相似语音片段。
在一可实施方式中,删减所述相似语音片段中的相似帧,获得第二语音信息,包括:根据所述第一语音信息的时长和所述预设分析时长阈值确定对应的删减比例;根据所述删减比例对所述相似语音片段进行删减,获得第五语音信息。
在一可实施方式中,在获得第五语音信息之后,所述方法还包括:对所述第五语音信息进行平滑处理,获得所述第二语音信息。
在一可实施方式中,所述对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图,包括:通过唤醒词模型对所述第二语音信息进行分析,以确定所述第一语音信息是否用于唤醒电子设备;其中,所述唤醒词模型通过唤醒词语音样本集经过神经网络训练获得;所述过唤醒词样本集中每一个唤醒词语音的时长不超过所述预设分析时长阈值。
本申请第二方面提供一种语音处理装置,所述装置包括:获得模块,用于获得来自用户的第一语音信息;其中,所述第一语音信息的时长超过预设分析时长阈值;确定模块,用于确定所述第一语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息;其中,所述第二语音信息的时长不超过所述预设分析时长阈值;分析模块,用于对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图。
在一可实施方式中,所述获得模块,还用于获得来自所述用户的第三语音信息,所述第三语音信息的时长不超过所述预设分析时长阈值;所述获得模块,还用于当根据所述第三语音信息无法确定所述用户意图的情况下,获得来自用户的所述第一语音信息;其中,所述第一语音信息与第三语音信息的尾时间点相同。
在一可实施方式中,所述确定模块,还用于确定与所述第一语音信息对应的信号帧;所述装置还包括:删除模块,用于删除不存在语音的信号帧,获得语音帧;拼接模块,用于对所述语音帧进行拼接处理,获得第四语音信息。
在一可实施方式中,所述分析模块,还用于当所述第四语音信息的时长不超过所述预设分析时长阈值的情况下,对所述第四语音信息进行分析,以确定与所述第一语音信息对应的用户意图。
在一可实施方式中,所述确定模块,用于当所述第四语音信息的时长超过所述预设分析时长阈值的情况下,确定所述第四语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息。
在一可实施方式中,所述确定模块,还用于确定与所述第一语音信息对应的语音帧,对所述语音帧进行帧和帧之间的相似度分析,根据满足相似度标准的语音帧确定相似语音片段。
在一可实施方式中,所述确定模块,包括:确定子模块,用于根据所述第一语音信息的时长和所述预设分析时长阈值确定对应的删减比例;删减子模块,用于根据所述删减比例对所述相似语音片段进行删减,获得第五语音信息。
在一可实施方式中,所述装置还包括:平滑模块,用于对所述第五语音信息进行平滑处理,获得所述第二语音信息。
在一可实施方式中,所述分析模块,用于通过唤醒词模型对所述第二语音信息进行分析,以确定所述第一语音信息是否用于唤醒电子设备;其中,所述唤醒词模型通过唤醒词语音样本集经过神经网络训练获得;所述唤醒词样本集中每一个唤醒词语音的时长不超过所述预设分析时长阈值。
本申请第三方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现本申请第一方面提供所述的语音处理方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面提供所述的语音处理方法。
本申请提供的语音处理方法及装置,能够对超过预设分析时长阈值的语音信息进行分析,用户在提供第一语音信息的时候,不需要控制说话速度,使用户在进行语音输入的时候更具自由性,提高了用户的语音输入体验。例如:应用本方法,在不调整分析时长窗口的情况下,可以识别说话较慢导致的用户超过预设分析时长阈值的语音信息。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本申请实施例一种语音处理方法的实现流程示意图;
图2为本申请另一实施例一种语音处理方法的实现流程示意图;
图3为本申请又一实施例一种语音处理方法的实现流程示意图;
图4为本申请实施例一种语音处理装置的实现模块示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例一种语音处理方法的实现流程示意图。
参见图1,本申请第一方面提供一种语音处理方法,方法包括:操作101,获得来自用户的第一语音信息;其中,第一语音信息的时长超过预设分析时长阈值;操作102,确定第一语音信息中的相似语音片段,删减相似语音片段中的相似帧,获得第二语音信息;其中,第二语音信息的时长不超过预设分析时长阈值;操作103,对第二语音信息进行分析,以确定与第一语音信息对应的用户意图。
本申请提供的语音处理方法通过对时长超过预设分析时长阈值的第一语音信息进行删减,删减掉第一语音信息中具有相似性的相似帧,从而获得语音时长满足预设分析时长阈值的第二语音信息,再通过对第二语音信息进行语音分析,以确定与第一语音信息对应的用户意图。其中,预设分析时长阈值根据语音分析时所使用的分析时长窗口确定,即预设分析时长阈值不超过用于语音分析的分析时长窗口。
应用本方法,装置在获得用户提供的第一语音信息的情况下,能够利用时长不超过预设分析时长阈值的分析时长窗口分析时长超过预设分析时长阈值的语音信息。应用本方法,用户在提供第一语音信息的时候,可以不需要控制说话速度,使用户在进行语音输入的时候更具自由性,提高了用户的语音输入体验,提高了语音分析的成功率和准确率。例如:应用本方法,在不调整分析时长窗口的情况下,也可以识别出超过预设分析时长阈值的语音信息,适用于说话较慢的用户。
在本方法操作101中,装置可以通过收音装置收音获得第一语音信息,例如通过麦克风收音。装置也可以与其它装置通信连接,通过接收来自其他装置的传输信息获得第一语音信息,例如,当装置为服务器的情况下,可以接收获得来自手机发送的第一语音信息。在一种情况下,第一语音信息的时长超过预设分析时长阈值。例如,语音分析通过语音分析模型进行分析,语音分析模型的输入语音对应的分析时长窗口为2秒,第一语音信息可以大于2秒,具体的,根据需要,第一语音信息可以预设为2秒~3秒、2秒~4秒之间的任一值。
可以理解的是,第一语音信息的时长也可以不超过预设分析时长阈值,当第一语音信息的时长不超过预设分析时长阈值的情况下,可以直接第一语音信息进行语音分析,以确定用户意图。
在本方法操作102中,通过对第一语音信息中的语音帧进行比较,即可确定第一语音信息中的相似语音片段,相似语音片段包括多个相似度满足预设相似性标准的语音帧,例如,同一相似语音片段中,任意两个语音帧之间的相似性超过预设相似值,如任意两个语音帧之间的相似性超过80%,同一相似语音片段中的语音帧即为相似帧。需要说明的是,当第一语音信息中不存在用户语音的语音片段,该不存在用户语音的语音片段也可以判断为相似语音片段。
可以理解的是,若第一语音信息中携带有用户意图,则第一语音信息中存在至少一个相似语音片段,通常为多个相似语音片段,在确定相似语音片段后,需要对每一个相似语音片段中的相似帧按一定比例和标准进行删减,删减标准可以是随机删减,也可以删减相似性超过预设相似程度的语音帧,相似程度可以设置对应的预设删减值进行预设。例如,同一相似语音片段中,任意两个语音帧之间的相似性超过预设删减值,如同一相似语音片段多个语音帧之间的相似性超过90%,即可只保留其中一帧或几帧,删除相似性超过90%的其他相似帧。语音帧的删减比例可以根据第一语音信息的时长和需要的第二语音信息的时长进行确定;删减可以为多次删减也可以一次完成删减,在删减后的语音信息的时长不超过预设分析时长阈值的情况下,即可将删减后的语音信息确定为第二语音信息。若删减后的语音信息仍然超过预设分析时长阈值,则可以继续进行删减。
在本方法操作103中,通过对第二语音信息进行语音分析,以确定与第一语音信息对应的用户意图。语音分析可以通过语音分析模块实现。根据需要用户意图包括但不限于,语音唤醒操作、语音控制操作等,具体包括但不限于:解锁设备、锁定设备、切换模式、调整参数等。
图2为本申请另一实施例一种语音处理方法的实现流程示意图。
参见图2,在一可实施方式中,在操作101,获得来自用户的第一语音信息之前,方法还包括:操作201,获得来自用户的第三语音信息,第三语音信息的时长不超过预设分析时长阈值;操作202,当根据第三语音信息无法确定用户意图的情况下,获得来自用户的第一语音信息;其中,第一语音信息与第三语音信息的尾时间点相同。
可以理解的是,不同用户在进行语音输入的时候,根据用户个人说话习惯,用户的说话速度是不同的,有些用户可以在预设分析时长阈值内说完特定语音,而有些用户需要花费超过预设分析时长阈值的时间才能说完特定语音,若用户在预设分析时长阈值内说完特定语音,则不需要进行相似帧的删减,可以直接对来自用户的语音信息进行语音分析。若用户在预设分析时长阈值内未说完特定语音,则需要获取超过预设分析时长阈值的语音信息,并对其中的相似帧进行删减,以获得满足设分析时长阈值的语音信息。
基于此,本方法在操作101之前,首先执行操作201,采用满足预设分析时长阈值的时长窗口对用户的输入语音进行截取,获得第三语音信息,以使第三语音信息的时长不超过预设分析时长阈值。其中,第三语音信息对应的尾时间点与装置对用户的输入语音进行截取的时间点相同。
在操作202中,当第三语音信息无法确定用户意图的情况下,即确定为第三语音信息无法提供充足的信息以分析获得用户意图,由此,需要获取该用户更多时长的语音信息以分析获得对应的用户意图,根据第三语音信息获得来自该用户的第一语音信息。根据需要,第一语音信息的时长可以预设为第三语音信息的1.1倍、1.2倍、1.3倍等,以下不做赘述。需要说明的是,为了保证语言分析的时效性,第一语音信息与第三语音信息的尾时间点相同,如此,可以采集到用户最接近当前时刻的语音信息,并进行意图理解。例如,获得的第三语音信息为“活词”,当确定为第三语音信息无法提供充足的信息以分析获得用户意图的情况下,获取第一语音信息“唤醒词”,通过对第一语音信息进行分析,以确定用户意图。
图3为本申请又一实施例一种语音处理方法的实现流程示意图。
参见图3,在一可实施方式中,在操作101,获得来自用户的第一语音信息之后,方法还包括:操作301,确定与第一语音信息对应的信号帧;操作302,删除不存在语音的信号帧,获得语音帧;操作303,对语音帧进行拼接处理,获得第四语音信息。
为提高装置的处理效率,本方法可以先完全删除第一语音信息中非语音内容的信号帧,然后再对相似语音片段中相似帧的按比例进行删减。具体的,本方法先确定与第一语音信息对应的信号帧,然后对信号帧进行分析,确定不存在语音的信号帧,然后完全删除不存在语音的信号帧,获得语音帧。最后,对语音帧进行拼接处理,获得第四语音信息。可以理解的是,删除不存在语音的信号帧后,第四语音信息的时长短于第一语音信息的时长。若对第一语音信息进行分析,确定为第一语音信息全部为含语音的信号帧,则执行按比例删减第一语音信息进行相似帧。
在一可实施方式中,在操作303,获得第四语音信息之后,方法还包括:当第四语音信息的时长不超过预设分析时长阈值的情况下,对第四语音信息进行分析,以确定与第一语音信息对应的用户意图。
在获得第四语音信息之后,需要判断第四语音信息的时长是否超过预设分析时长阈值。当第四语音信息的时长不超过预设分析时长阈值的情况下,可以直接对第四语音信息进行语音分析,以确定与第一语音信息对应的用户意图,具体的,可以通过语音分析模型对第四语音信息进行分析。
基于不同的应用场景,语音分析模型可以选用二分类模型,也可以选用多分类模型。例如,当用户意图为判断是否属于语音唤醒的情况下,语音分析模型选为二分类模型,二分类模型经过唤醒词训练样本训练获得唤醒词分类模型,用于判断语音信息是否为唤醒词,当第一语音信息为唤醒词时,解锁对应的装置。当用户意图为在多个操作指令中确定用户意图的某一操作指令的情况下,语音分析模型选为多分类模型,多分类模型经过与多个操作指令对应的语料样本训练获得指令分类模型,用于确定用户意图的操作指令。
在一可实施方式中,方法还包括:当第四语音信息的时长超过预设分析时长阈值的情况下,确定第四语音信息中的相似语音片段,删减相似语音片段中的相似帧,获得第二语音信息。
如果确定为第四语音信息的时长超过预设分析时长阈值,则预设的分析时长窗口无法分析第四语音信息,需要对第四语音信息进行删减,以获得满足预设分析时长阈值的第二语音信息。具体的,对第四语音信息的删减采用确定第四语音信息中的相似语音片段,删减相似语音片段中的相似帧的方式实现。
本方法可以预设多个梯度的删减标准值,基于从高到低的梯度对相似语音片段中相似帧进行多次删除,直至删减后的语音片段满足预设分析时长阈值。例如,删减标准值的梯度为99%、98%、97%……,则先按特定比例删减相似程度在99%的相似帧,若删减后的语音时长超过分析时长窗口,则按特定比例删减相似程度在98%的相似帧,以此类推,直至删减后的语音时长不超过分析时长窗口。
例如,在一种情况下,第四语音片段中包含三个相似语音片段,其时长分别为:片段一0.4秒、片段二0.6秒、片段三0.8秒,预设分析时长阈值为1.2秒。先分析每个片段中的相似帧的相似程度,将对相似程度满足95%的相似帧进行一定比例的删减,如片段一相似程度满足95%的相似帧为50%,片段二相似程度满足95%的相似帧为20%,片段三相似程度满足95%的相似帧为80%,删减比例为50%,则片段一删减0.4×0.5×0.5=0.1秒,片段二删减0.6×0.2×0.5=0.06秒,片段三删减0.8×0.8×0.5=0.32秒,删减后片段一0.3秒、片段二0.054秒、片段三0.48秒,删减后语音时长仍然大于1.2秒,此时对相似程度满足92%的相似帧进行一定比例的删减,依次类推,直至删减后的语音时长小于或等于1.2秒。
在一可实施方式中,确定第一语音信息中的相似语音片段,包括:确定与第一语音信息对应的语音帧,对语音帧进行帧和帧之间的相似度分析,根据满足相似度标准的语音帧确定相似语音片段。
相似语音片段中语音帧的相似程度通过对语音帧进行帧和帧之间的相似度分析确定,区别于上述的删减标准值,相似度标准用于区分语音片段是否属于相似语音片段。可以理解的是,用于区分相似语音片段的相似度标准要低于用于确定是否删减语音帧的删减标准值。根据需要,相似度标准可以为70%、75%、80%等数值,以下不做赘述。
在一可实施方式中,删减相似语音片段中的相似帧,获得第二语音信息,包括:根据第一语音信息的时长和预设分析时长阈值确定对应的删减比例;根据删减比例对相似语音片段进行删减,获得第五语音信息。
根据第一语音信息的时长和预设分析时长阈值,可以确定需要删减的语音时长,本方法可以根据需要删减的语音时长确定每一个相似语音片段中相似帧的删减比例。
例如,在一种情况下,第一语音信息中包含三个相似语音片段,其时长分别为:片段一0.4秒、片段二0.6秒、片段三0.8秒,预设分析时长阈值为1.2秒,则需要删减0.6秒,基于此,本方法可以按时长比例对相似语音片段进行删减,即片段一删减0.1秒、片段二删减0.2秒、片段三删减0.3秒。
在另一种情况下,本方法也可以按片段比例对相似语音片段进行删减,即每个片段分别删减0.2秒。可以理解的是,对第四语音信息同样可以采用上述方法进行相似帧的删减。
在一可实施方式中,在获得第五语音信息之后,方法还包括:对第五语音信息进行平滑处理,获得第二语音信息。
拼接获得的第五语音信息由于删减了相似帧,可能会导致语音发音出现难以辨别的情况下,基于此,本方法对第五语音信息进行平滑处理,使删减了相似帧的语音信息能够更接近用户说话的语音,有助于进行后续的语音分析。
在一可实施方式中,对第二语音信息进行分析,以确定与第一语音信息对应的用户意图,包括:通过唤醒词模型对第二语音信息进行分析,以确定第一语音信息是否用于唤醒电子设备;其中,唤醒词模型通过唤醒词语音样本集经过神经网络训练获得;唤醒词样本集中每一个唤醒词语音的时长不超过预设分析时长阈值。
本方法通过神经网络模型对语音进行语音分析,具体的,当本方法的第一语音信息用于判断该语音信息是否唤醒特定电子设备的情况下,本方法通过唤醒词语音样本集对二分类模型进行神经网络训练,获得用于区分第一语音信息是否为唤醒词的唤醒词模型。可以理解的是,本方法的唤醒词模型对应的输入时长窗口的时长与预设分析时长阈值对应,即唤醒词模型对应的输入时长窗口与预设分析时长阈值一致。
图4为本申请实施例一种语音处理装置的实现模块示意图。
参见图4,本申请第二方面提供一种语音处理装置,装置包括:获得模块401,用于获得来自用户的第一语音信息;其中,第一语音信息的时长超过预设分析时长阈值;确定模块402,用于确定第一语音信息中的相似语音片段,删减相似语音片段中的相似帧,获得第二语音信息;其中,第二语音信息的时长不超过预设分析时长阈值;分析模块403,用于对第二语音信息进行分析,以确定与第一语音信息对应的用户意图。
在一可实施方式中,获得模块401,还用于获得来自用户的第三语音信息,第三语音信息的时长不超过预设分析时长阈值;获得模块401,还用于当根据第三语音信息无法确定用户意图的情况下,获得来自用户的第一语音信息;其中,第一语音信息与第三语音信息的尾时间点相同。
在一可实施方式中,确定模块402,还用于确定与第一语音信息对应的信号帧;装置还包括:删除模块404,用于删除不存在语音的信号帧,获得语音帧;拼接模块,用于对语音帧进行拼接处理,获得第四语音信息。
在一可实施方式中,分析模块403,还用于当第四语音信息的时长不超过预设分析时长阈值的情况下,对第四语音信息进行分析,以确定与第一语音信息对应的用户意图。
在一可实施方式中,确定模块402,用于当第四语音信息的时长超过预设分析时长阈值的情况下,确定第四语音信息中的相似语音片段,删减相似语音片段中的相似帧,获得第二语音信息。
在一可实施方式中,确定模块402,还用于确定与第一语音信息对应的语音帧,对语音帧进行帧和帧之间的相似度分析,根据满足相似度标准的语音帧确定相似语音片段。
在一可实施方式中,确定模块402,包括:确定子模块4021,用于根据第一语音信息的时长和预设分析时长阈值确定对应的删减比例;删减子模块4022,用于根据删减比例对相似语音片段进行删减,获得第五语音信息。
在一可实施方式中,装置还包括:平滑模块405,用于对第五语音信息进行平滑处理,获得第二语音信息。
在一可实施方式中,分析模块403,用于通过唤醒词模型对第二语音信息进行分析,以确定第一语音信息是否用于唤醒电子设备;其中,唤醒词模型通过唤醒词语音样本集经过神经网络训练获得;唤醒词样本集中每一个唤醒词语音的时长不超过预设分析时长阈值。
本申请第三方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现本申请第一方面提供的语音处理方法。
本申请第四方面提供一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本申请第一方面提供的语音处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种语音处理方法,所述方法包括:
获得来自用户的第一语音信息;其中,所述第一语音信息的时长超过预设分析时长阈值;
确定所述第一语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息;其中,所述第二语音信息的时长不超过所述预设分析时长阈值;
对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图;
其中,所述删减所述相似语音片段中的相似帧,获得第二语音信息,包括:根据所述第一语音信息的时长和所述预设分析时长阈值确定对应的删减比例;根据所述删减比例对所述相似语音片段进行删减,获得第五语音信息;对所述第五语音信息进行平滑处理,获得所述第二语音信息。
2.根据权利要求1所述的方法,在获得来自用户的第一语音信息之前,所述方法还包括:
获得来自所述用户的第三语音信息,所述第三语音信息的时长不超过所述预设分析时长阈值;
当根据所述第三语音信息无法确定所述用户意图的情况下,获得来自用户的所述第一语音信息;
其中,所述第一语音信息与第三语音信息的尾时间点相同。
3.根据权利要求1所述的方法,在所述获得来自用户的第一语音信息之后,所述方法还包括:
确定与所述第一语音信息对应的信号帧;
删除不存在语音的信号帧,获得语音帧;
对所述语音帧进行拼接处理,获得第四语音信息。
4.根据权利要求3所述的方法,在所述获得第四语音信息之后,所述方法还包括:
当所述第四语音信息的时长不超过所述预设分析时长阈值的情况下,对所述第四语音信息进行分析,以确定与所述第一语音信息对应的用户意图。
5.根据权利要求4所述的方法,所述方法还包括:
当所述第四语音信息的时长超过所述预设分析时长阈值的情况下,确定所述第四语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息。
6.根据权利要求1所述的方法,所述确定所述第一语音信息中的相似语音片段,包括:
确定与所述第一语音信息对应的语音帧,对所述语音帧进行帧和帧之间的相似度分析,根据满足相似度标准的语音帧确定相似语音片段。
7.根据权利要求1~6任一项所述的方法,所述对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图,包括:
通过唤醒词模型对所述第二语音信息进行分析,以确定所述第一语音信息是否用于唤醒电子设备;
其中,所述唤醒词模型通过唤醒词语音样本集经过神经网络训练获得;所述唤醒词语音样本集中每一个唤醒词语音的时长不超过所述预设分析时长阈值。
8.一种语音处理装置,所述装置包括:
获得模块,用于获得来自用户的第一语音信息;其中,所述第一语音信息的时长超过预设分析时长阈值;
确定模块,用于确定所述第一语音信息中的相似语音片段,删减所述相似语音片段中的相似帧,获得第二语音信息;其中,所述第二语音信息的时长不超过所述预设分析时长阈值;
分析模块,用于对所述第二语音信息进行分析,以确定与所述第一语音信息对应的用户意图;
其中,所述确定模块,包括:确定子模块,用于根据所述第一语音信息的时长和所述预设分析时长阈值确定对应的删减比例;删减子模块,用于根据所述删减比例对所述相似语音片段进行删减,获得第五语音信息;
所述装置还包括:平滑模块,用于对所述第五语音信息进行平滑处理,获得所述第二语音信息。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645953.3A CN113539295B (zh) | 2021-06-10 | 2021-06-10 | 一种语音处理方法及装置 |
US17/654,270 US20220399012A1 (en) | 2021-06-10 | 2022-03-10 | Speech processing method and apparatus |
GB2205412.6A GB2607992A (en) | 2021-06-10 | 2022-04-12 | Speech processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645953.3A CN113539295B (zh) | 2021-06-10 | 2021-06-10 | 一种语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539295A CN113539295A (zh) | 2021-10-22 |
CN113539295B true CN113539295B (zh) | 2024-04-23 |
Family
ID=78124799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110645953.3A Active CN113539295B (zh) | 2021-06-10 | 2021-06-10 | 一种语音处理方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220399012A1 (zh) |
CN (1) | CN113539295B (zh) |
GB (1) | GB2607992A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157301A (zh) * | 2014-07-25 | 2014-11-19 | 广州三星通信技术研究有限公司 | 删除语音信息空白片段的方法、装置和终端 |
CN105245496A (zh) * | 2015-08-26 | 2016-01-13 | 广州市百果园网络科技有限公司 | 一种播放音频数据的方法和装置 |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
CN109979474A (zh) * | 2019-03-01 | 2019-07-05 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
CN110310632A (zh) * | 2019-06-28 | 2019-10-08 | 联想(北京)有限公司 | 语音处理方法及装置、以及电子设备 |
CN112133296A (zh) * | 2020-08-27 | 2020-12-25 | 北京小米移动软件有限公司 | 全双工语音控制方法、装置、存储介质及语音设备 |
CN112417123A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于人工智能的客户应答识别方法及其相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221326B (zh) * | 2017-05-16 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
KR102040406B1 (ko) * | 2018-07-27 | 2019-11-05 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
-
2021
- 2021-06-10 CN CN202110645953.3A patent/CN113539295B/zh active Active
-
2022
- 2022-03-10 US US17/654,270 patent/US20220399012A1/en active Pending
- 2022-04-12 GB GB2205412.6A patent/GB2607992A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104157301A (zh) * | 2014-07-25 | 2014-11-19 | 广州三星通信技术研究有限公司 | 删除语音信息空白片段的方法、装置和终端 |
CN105245496A (zh) * | 2015-08-26 | 2016-01-13 | 广州市百果园网络科技有限公司 | 一种播放音频数据的方法和装置 |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US10475445B1 (en) * | 2015-11-05 | 2019-11-12 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
CN107799113A (zh) * | 2017-09-26 | 2018-03-13 | 广东欧珀移动通信有限公司 | 音频处理方法、装置、存储介质及移动终端 |
CN109979474A (zh) * | 2019-03-01 | 2019-07-05 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
CN110310632A (zh) * | 2019-06-28 | 2019-10-08 | 联想(北京)有限公司 | 语音处理方法及装置、以及电子设备 |
CN112133296A (zh) * | 2020-08-27 | 2020-12-25 | 北京小米移动软件有限公司 | 全双工语音控制方法、装置、存储介质及语音设备 |
CN112417123A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于人工智能的客户应答识别方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
GB202205412D0 (en) | 2022-05-25 |
US20220399012A1 (en) | 2022-12-15 |
CN113539295A (zh) | 2021-10-22 |
GB2607992A (en) | 2022-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11127416B2 (en) | Method and apparatus for voice activity detection | |
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
US9666186B2 (en) | Voice identification method and apparatus | |
US20190266998A1 (en) | Speech recognition method and device, computer device and storage medium | |
EP2122610B1 (en) | Customizable method and system for emotional recognition | |
KR20180065759A (ko) | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN110853621B (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN109979440B (zh) | 关键词样本确定方法、语音识别方法、装置、设备和介质 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN105810205A (zh) | 一种语音处理方法及装置 | |
CN109994126A (zh) | 音频消息分段方法、装置、存储介质和电子设备 | |
CN110728983B (zh) | 一种信息显示方法、装置、设备及可读存储介质 | |
CN108536668A (zh) | 唤醒词评估方法及装置、存储介质、电子设备 | |
CN111639157B (zh) | 音频标记方法、装置、设备及可读存储介质 | |
CN108510981B (zh) | 语音数据的获取方法和系统 | |
CN113539295B (zh) | 一种语音处理方法及装置 | |
CN111866289B (zh) | 外呼号码状态检测方法及装置、智能外呼方法及系统 | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN116881730A (zh) | 基于语境的聊天场景匹配系统、方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |