CN111627453B - 公安语音信息管理方法、装置、设备及计算机存储介质 - Google Patents
公安语音信息管理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111627453B CN111627453B CN202010404083.6A CN202010404083A CN111627453B CN 111627453 B CN111627453 B CN 111627453B CN 202010404083 A CN202010404083 A CN 202010404083A CN 111627453 B CN111627453 B CN 111627453B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- frame
- invalid
- mute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 124
- 239000012634 fragment Substances 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000002699 waste material Substances 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音识别领域,本发明公开了一种公安语音信息管理方法、装置、设备和计算机可读存储介质。所述方法包括如下步骤:获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段;若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。本发明中提高了公安语音信息管理的效率,减少了人力资源的浪费。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及公安语音信息管理方法、装置、设备及计算机存储介质。
背景技术
随着语音识别技术的快速发展,语音识别技术的应用越来越广泛。
当前公安系统将语音识别技术应用在案件处理上,具体地:公安系统通过建立公安语音数据库,然后利用公安语音数据库和语音技术快速确认说话人身份,为案件侦破过程提供新的线索和证据,公安语音数据库在提升案件侦破能力上推动作用;然而公安语音数据库的建立并不简单,公安语音数据库为了保证语音信息的质量,设置严格的语音采集规则,通常情况下语音采集发生在案件处理过程中,这样语音采集往往不能完全满足设置的语音采集规则,采集到的语音信息会被判定为无效语音信息,语音信息重新采集难度比较大,因此,会采用声音学专家进行人工甄别,然后保存至公安语音信息库,这样方式人力资源浪费严重,且公安语音信息管理效率低。
发明内容
本发明的主要目的在于提出一种公安语音信息管理方法、装置、设备及计算机存储介质,旨在提高公安语音信息管理的效率,减少公安语音信息管理过程中人力资源的浪费。
为实现上述目的,本发明提供一种公安语音信息管理方法,所述公安语音信息管理方法包括如下步骤:
获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;
根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段;
若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;
将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
在一实施例中,所述获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值的步骤,包括:
获取待入库的语音信息,对所述语音信息进行能量归一化处理;
将处理后的语音信息进行分帧,并计算所述语音信息中各语音帧的短时能量值。
在一实施例中,所述根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段的步骤,包括:
将短时能量值低于预设能量阈值的语音帧叫作静音语音帧,判断所述语音信息中是否存在第一静音语音帧序列,其中,所述第一静音语音帧序列是指第一预设数量的连续静音语音帧;
若所述语音信息中存在第一静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在第一静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述若所述语音信息中不存在第一静音语音帧序列,则判定所述语音信息中不包含无效语音片段的步骤,包括:
若所述语音信息中不存在第一静音语音帧序列,则判断所述语音信息中是否存在两个相邻的第二静音语音帧序列,其中,所述第二静音语音帧序列是指第二预设数量的连续静音语音帧,所述第二预设数量小于所述第一预设数量;
若所述语音信息中存在两个相邻的第二静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述若所述语音信息中不存在两个相邻的第二静音语音帧序列,则判定所述语音信息中不包含无效语音片段的步骤,包括:
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则将所述语音信息输入至预设的语音识别模型中,判断所述语音信息中是否包含多人声语音片段;
若所述语音信息中包含多人声语音片段,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不包含多人声语音片段,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧的步骤,包括:
若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为静音语音片段;
若所述无效语音片段为静音语音片段,则将所述语音信息中相邻两个语音帧组合得到语音帧组合,计算所述语音帧组合中语音帧短时能量值的能量变化值;
获取能量变化值最大的两个目标语音帧组合,将所述目标语音帧组合中最小短时能量值的语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
在一实施例中,所述若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧的步骤,包括:
若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为多人声语音片段;
若所述无效语音片段为多人声语音片段,则获取所述无效语音片段两端预设时间段的语音帧,及所述语音帧的短时能量值;
从所述无效语音片段两端语音帧中各选择一个短时能量值最小的目标语音帧,将所述目标语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
此外,为实现上述目的,本发明还提供一种公安语音信息管理装置,所述公安语音信息管理装置包括:
获取计算模块,用于获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;
语音判断模块,用于根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段;
端点确定模块,用于若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;
语音保存模块,用于将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
此外,为实现上述目的,本发明还提供一种公安语音信息管理设备,所述公安语音信息管理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的公安语音信息管理对应的计算机程序,所述公安语音信息管理对应的计算机程序被所述处理器执行时实现如上所述的公安语音信息管理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有公安语音信息管理对应的计算机程序,所述公安语音信息管理对应的计算机程序被处理器执行时实现如上所述的公安语音信息管理方法的步骤。
本发明提供一种公安语音信息管理方法、装置、设备及计算机存储介质,本发明本实施例中获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段;若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。本发明实施例中在语音信息入库时,根据语音信息中各语音帧的短时能量值,确定无效语音片段和无效语音片段的启始语音帧和终止语音帧,然后按照启始语音帧和终止语音帧对语音信息中的无效语音片段进行裁剪处理,保证入库语音信息的有效性,这样的语音信息处理方式不需要声音学专家识别处理,提高了公安语音信息管理的效率,减少了人力资源的浪费。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明公安语音信息管理方法第一实施例的流程示意图;
图3为本发明公安语音信息管理方法第三实施例的流程示意图;
图4为本发明公安语音信息管理方法第四实施例的流程示意图;
图5为本发明公安语音信息管理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。本发明实施例公安语音信息管理设备可以是手机、PC机或服务器设备,如图1所示,该公安语音信息管理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作网络通信模块、用户接口模块以及公安语音信息管理对应的计算机程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的公安语音信息管理对应的计算机程序,并执行下述公安语音信息管理方法中的操作。
基于上述硬件结构,提出本发明公安语音信息管理方法实施例。
参照图2,图2为本发明公安语音信息管理方法第一实施例的流程示意图,在本实施例中所述公安语音信息管理方法包括:
步骤S10,获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值。
本实施例中公安语音信息管理方法应用于公安机构中的公安语音信息管理设备;公安语音信息管理设备中预先设置公安语音数据库,公安语音数据库用于保存公安案件的语音信息。
公安语音信息管理设备接收语音信息入库请求,语音信息入库请求的触发方式不作具体限定,即,语音信息入库请求可以是用户主动触发的,例如,用户在公安语音信息管理设备上点击“语音信息入库”按键触发语音信息入库请求;或者语音信息入库请求还可以是公安语音信息管理设备自动触发的,例如,公安语音信息管理设备中预设每次新增语音信息时自动触发触发语音信息入库请求,公安语音信息管理设备在检测到符合预设的语音信息入库条件时,自动触发语音信息入库请求。
公安语音信息管理设备接收到语音信息入库请求时,公安语音信息管理设备获取语音信息入库请求对应待入库的语音信息,公安语音信息管理设备计算语音信息中各语音帧的短时能量值,具体地,包括:
步骤a1,获取待入库的语音信息,对所述语音信息进行能量归一化处理;
步骤a2,将处理后的语音信息进行分帧,并计算所述语音信息中各语音帧的短时能量值。
公安语音信息管理设备获取待入库的语音信息,对语音信息进行能量归一化处理,公安语音信息管理设备对语音信息进行能量归一化处理的步骤包括:求出整段语音信息的能量总和,将语音信息的每个点除以能量总和的开方数,将语音信息进行能量归一化处理是为了保证语音信息的能量量纲统一,公安语音信息管理设备将能量归一化处理之后的语音信息进行分帧处理(分帧处理的步骤包括设定语音信息的帧长=256,帧移=256,然后根据帧长=256,帧移=256进行加窗实现语音信息分帧),最后,公安语音信息管理设备计算语音信息中各语音帧的短时能量值,计算短时能量值可以参照现有技术,本实施例中不作赘述。
本实施例中,公安语音信息管理设备先计算语音信息中各语音帧的短时能量值;以便公安语音信息管理设备根据语音信息中各语音帧的短时能量值,判断语音信息中是否包含无效语音片段(无效语音片段是指不按照公安语音采集规则采集到与语音,例如,信噪比超过预设的性噪比的语音,或者静音时间段的语音片段),公安语音信息管理设备根据语音信息中是否包含无效语音片段,确定语音信息的处理步骤,并将处理后的语音信息保存至公安语音库,具体地:
步骤S20,根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段。
公安语音信息管理设备根据各语音帧的短时能量值,判断语音信息中是否包含无效语音片段,具体地:
方式一:公安语音信息管理设备获取各语音帧的短时能量值,若存在预设数量(预设数量根据具体场景设置,例如设置为300帧)个语音帧的短时能量值低于预设能量阈值(预设能量阈值可以根据具体场景灵活设置,例如,预设能量阈值设置为零,或者预设能量阈值设置为环境噪音能量值30分贝),公安语音信息管理设备判定语音信息中包含无效语音片段;反之,若不存在预设数量个语音帧的短时能量值低于预设能量阈值,公安语音信息管理设备判定语音信息中不包含无效语音片段。本实施例中根据语音信息中各语音帧的短时能量值,有效地识别静音语音,避免保存无效语音信息。
方式二:公安语音信息管理设备获取各语音帧的短时能量值,公安语音信息管理设备根据各语音帧的短时能量值和语音信息的声纹特征确定语音信息中是否包含多人声语音片段,若语音信息中包含多人声语音片段,则判定语音信息中包含无效语音片段,反之,若语音信息中包含不多人声语音片段,则判定语音信息中不包含无效语音片段。由于公安语音数据库中不可以保存多人声语音信息(多人声是指多个人同时说话),本实施例中有效地识别多人声,避免保存无效语音信息。
可以理解的是,公安语音信息管理设备可以将公安语音信息的采集规则与语音信息中各语音帧的短时能量值进行结合,有效地识别语音信息中的无效语音片段,保证公安语音数据库中保存语音信息的有效性。
本实施例中根据各语音帧的短时能量值,判断语音信息中是否包含无效语音片段语音信息之后,包括若语音信息中不包含无效语音片段,公安语音信息管理设备则将语音信息保存至公安语音数据库。
步骤S30,若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧。
若语音信息中包含无效语音片段,公安语音信息管理设备则根据语音信息中各语音帧的短时能量值确定无效语音片段的启始语音帧和终止语音帧,具体地:
实现方式一:公安语音信息管理设备根据语音信息中各语音帧的短时能量值确定无效语音片段为静音语音片段时,公安语音信息管理设备将静音片段的第一个语音帧和最后一个语音帧作为无效语音片段的启始语音帧和终止语音帧。
实现方式二:公安语音信息管理设备根据语音信息中各语音帧的短时能量值确定无效语音片段为多人声语音片段时,公安语音信息管理设备将距离多人声语音片段两端距离多人声语音片段最近的静音帧作为无效语音片段的启始语音帧和终止语音帧。
本实施例中公安语音信息管理设备确定语音信息中包含无效语音片段,公安语音信息管理设备则根据语音信息中各语音帧的短时能量值确定无效语音片段的启始语音帧和终止语音帧,这样获得的无效语音片段的启始语音帧和终止语音帧更加准确。
公安语音信息管理设备无效语音片段的启始语音帧和终止语音帧之后,公安语音信息管理设备根据无效语音片段的启始语音帧和终止语音帧进行语音片段裁剪,具体地:
步骤S40,将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
公安语音信息管理设备将启始语音帧和终止语音帧之间的无效语音片段进行裁剪,获得新的不包含无效语音片段的语音信息,公安语音信息管理设备并将新的语音信息保存至公安语音数据库。
本实施例中在语音信息入库时,根据语音信息中各语音帧的短时能量值,确定无效语音片段和无效语音片段的启始语音帧和终止语音帧,然后对语音信息中的无效语音片段进行裁剪处理,保证入库语音信息的有效性,这样的语音信息处理方式不需要声音学专家识别处理,提高了公安语音信息管理的效率,减少了人力资源的浪费。
进一步地,基于本发明公安语音信息管理方法第一实施例,提出本发明公安语音信息管理方法第二实施例。
本实施例是第一实施例中步骤S20的细化,本实施例中给出了两种预警模型训练的具体实现方式,包括:
将短时能量值低于预设能量阈值的语音帧叫作静音语音帧,判断所述语音信息中是否存在第一静音语音帧序列,其中,所述第一静音语音帧序列是指第一预设数量的连续静音语音帧;
若所述语音信息中存在第一静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在第一静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
公安语音信息管理设备将短时能量值低于预设能量阈值(预设能量阈值与第一实施例相同,本实施例不作赘述)的语音帧叫作静音语音帧,公安语音信息管理设备判断语音信息中是否存在第一静音语音帧序列,其中,第一静音语音帧序列是指第一预设数量(第一预设数量是指预先设置的静音片段长度,例如,第一预设数量设置为600帧)的连续静音语音帧;若语音信息中存在第一静音语音帧序列,公安语音信息管理设备判定语音信息中包含无效语音片段;若语音信息中不存在第一静音语音帧序列,公安语音信息管理设备则判定语音信息中不包含无效语音片段。
在本实施例中,公安语音信息管理设备在确定语音信息中包含大段的静音语音片段时,有效地识别语音信息中的静音片段。
进一步地,在本实施例中若语音信息中不存在第一静音语音帧序列,则判定所述语音信息中不包含无效语音片段的步骤,包括:
若所述语音信息中不存在第一静音语音帧序列,则判断所述语音信息中是否存在两个相邻的第二静音语音帧序列,其中,所述第二静音语音帧序列是指第二预设数量的连续静音语音帧,所述第二预设数量小于所述第一预设数量;
若所述语音信息中存在两个相邻的第二静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
公安语音信息管理设备确定语音信息中不存在第一静音语音帧序列,则判断语音信息中是否存在两个相邻的第二静音语音帧序列,其中,第二静音语音帧序列是指第二预设数量的连续静音语音帧,第二预设数量是指预先设置的静音片段长度,例如,第二预设数量设置为300帧,第二预设数量小于第一预设数量;若语音信息中存在两个相邻的第二静音语音帧序列,公安语音信息管理设备则判定语音信息中包含无效语音片段;若语音信息中不存在两个相邻的第二静音语音帧序列,公安语音信息管理设备则判定语音信息中不包含无效语音片段。
本实施例中语音信息采集过程中,若用户没有说话还可能会出现其他噪声(例如汽车鸣笛),这样语音信息中的静音片段中可能会出现环境噪声,公安语音信息管理设备可以有效地识别包含部分噪声的静音片段,以实现准确地静音片段识别。
进一步地,在本实施例中若所述语音信息中不存在两个相邻的第二静音语音帧序列,则判定所述语音信息中不包含无效语音片段的步骤,包括:
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则将所述语音信息输入至预设的语音识别模型中,判断所述语音信息中是否包含多人声语音片段;
若所述语音信息中包含多人声语音片段,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不包含多人声语音片段,则判定所述语音信息中不包含无效语音片段。
公安语音信息管理设备若语音信息中不存在两个相邻的第二静音语音帧序列,公安语音信息管理设备则将语音信息输入至预设的语音识别模型(语音识别模型是指用于声纹识别的算法,语音识别模型可以识别语音信息中的声纹信息,并根据声纹信息确定是否有多个人同时说话)中,判断语音信息中是否包含多人声语音片段;若语音信息中包含多人声语音片段,公安语音信息管理设备则判定语音信息中包含无效语音片段;若语音信息中不包含多人声语音片段,公安语音信息管理设备则判定语音信息中不包含无效语音片段。本实施例中公安语音数据库中的语音信息不可以包含多人声,公安语音信息管理设备可以有效地识别语音信息中的多人声语音片段。
进一步地,参照图3,基于本发明公安语音信息管理方法上述实施例,提出本发明公安语音信息管理方法第三实施例。
本实施例是第一实施例中步骤S30的细化步骤,本实施例与上述实施例的区别在于:
步骤S31,若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为静音语音片段;
步骤S32,若所述无效语音片段为静音语音片段,则将所述语音信息中相邻两个语音帧组合得到语音帧组合,计算所述语音帧组合中语音帧短时能量值的能量变化值;
步骤S33,获取能量变化值最大的两个目标语音帧组合,将所述目标语音帧组合中最小短时能量值的语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
若语音信息中包含无效语音片段,公安语音信息管理设备则判断无效语音片段是否为静音语音片段;若无效语音片段为静音语音片段,公安语音信息管理设备则将语音信息中相邻两个语音帧组合得到语音帧组合,公安语音信息管理设备计算所述语音帧组合中语音帧短时能量值的能量变化值;公安语音信息管理设备,获取能量变化值最大的两个目标语音帧组合,公安语音信息管理设备将目标语音帧组合中最小短时能量值的语音帧作为无效语音片段的启始语音帧和终止语音帧。
本实施例中,公安语音信息管理设备在确定无效语音片段为静音语音片段时,公安语音信息管理设备根据语音帧的能量变化值,确定突然静音的语音帧和突然说话的语音帧,本实施例中可以准确地确定静音语音片段的初始语音帧和终止语音帧,实现准确的静音语音片段的裁剪,使得公安语音数据库中的语音信息更加准确。
进一步地,参考图4,基于本发明公安语音信息管理方法上述实施例,提出本发明公安语音信息管理方法第四实施例。
本实施例是第一实施例中步骤S30的细化步骤,本实施例与上述实施例的区别在于:
步骤S34,若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为多人声语音片段;
步骤S35,若所述无效语音片段为多人声语音片段,则获取所述无效语音片段两端预设时间段的语音帧,及所述语音帧的短时能量值;
步骤S36,从所述无效语音片段两端语音帧中各选择一个短时能量值最小的目标语音帧,将所述目标语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
若语音信息中包含无效语音片段,公安语音信息管理设备则判断无效语音片段是否为多人声语音片段;若无效语音片段为多人声语音片段,公安语音信息管理设备则获取无效语音片段两端预设时间段(预设时间段可以根据具体场景设置,例如设置为30s)的语音帧,及语音帧的短时能量值;公安语音信息管理设备从无效语音片段两端语音帧中各选择一个短时能量值最小的目标语音帧,公安语音信息管理设备将目标语音帧作为无效语音片段的启始语音帧和终止语音帧。
本实施例中公安语音信息管理设备选择多人声语音片段两端最近的一个静音语音帧作为无效语音片段的启始语音帧和终止语音帧,使得语音信息不会突然中断,保证语音信息的连续性,实现准确的多人声语音片段的裁剪,使得公安语音数据库中的语音信息更加准确。
参照图5,本发明还提供一种公安语音信息管理装置,所述公安语音信息管理装置包括:
获取计算模块10,用于获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;
语音判断模块20,用于根据所述各语音帧的短时能量值,判断所述语音信息中是否包含无效语音片段;
端点确定模块30,用于若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;
语音保存模块40,用于将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
在一实施例中,所述获取计算模块10,包括:
归一化处理单元,用于获取待入库的语音信息,对所述语音信息进行能量归一化处理;
分帧计算单元,用于将处理后的语音信息进行分帧,并计算所述语音信息中各语音帧的短时能量值。
在一实施例中,所述语音判断模块20,包括:
第一判断子模块,用于将短时能量值低于预设能量阈值的语音帧叫作静音语音帧,判断所述语音信息中是否存在第一静音语音帧序列,其中,所述第一静音语音帧序列是指第一预设数量的连续静音语音帧;
第一判定子模块,用于若所述语音信息中存在第一静音语音帧序列,则判定所述语音信息中包含无效语音片段;
第二判定子模块,用于若所述语音信息中不存在第一静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述第二判定子模块,包括:
第一判断单元,用于若所述语音信息中不存在第一静音语音帧序列,则判断所述语音信息中是否存在两个相邻的第二静音语音帧序列,其中,所述第二静音语音帧序列是指第二预设数量的连续静音语音帧,所述第二预设数量小于所述第一预设数量;
第一判定单元,用于若所述语音信息中存在两个相邻的第二静音语音帧序列,则判定所述语音信息中包含无效语音片段;
第二判定单元,用于若所述语音信息中不存在两个相邻的第二静音语音帧序列,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述第二判定单元,包括:
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则将所述语音信息输入至预设的语音识别模型中,判断所述语音信息中是否包含多人声语音片段;
若所述语音信息中包含多人声语音片段,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不包含多人声语音片段,则判定所述语音信息中不包含无效语音片段。
在一实施例中,所述端点确定模块30,包括:
第一判断单元,用于若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为静音语音片段;
变化计算单元,用于若所述无效语音片段为静音语音片段,则将所述语音信息中相邻两个语音帧组合得到语音帧组合,计算所述语音帧组合中语音帧短时能量值的能量变化值;
第一确定单元,用于获取能量变化值最大的两个目标语音帧组合,将所述目标语音帧组合中最小短时能量值的语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
在一实施例中,所述端点确定模块30,包括:
第二判断单元,用于若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为多人声语音片段;
能量获取单元,用于若所述无效语音片段为多人声语音片段,则获取所述无效语音片段两端预设时间段的语音帧,及所述语音帧的短时能量值;
第二确定单元,用于从所述无效语音片段两端语音帧中各选择一个短时能量值最小的目标语音帧,将所述目标语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
其中,在所述处公安语音信息管理装置被执行时所实现的方法可参照本发明公安语音信息管理方法各个实施例,此处不再赘述。
本实施例中公安语音信息管理装置在语音信息入库时,根据语音信息中各语音帧的短时能量值,确定无效语音片段和无效语音片段的启始语音帧和终止语音帧,然后对语音信息中的无效语音片段进行裁剪处理,保证入库语音信息的有效性,这样的语音信息处理方式不需要声音学专家识别处理,提高了公安语音信息管理的效率,减少了人力资源的浪费。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有公安语音信息管理对应的计算机程序,所述公安语音信息管理对应的计算机程序被处理器执行时实现如上所述的公安语音信息管理方法的步骤。
其中,在所述处理器上运行的公安语音信息管理对应的计算机程序被执行时所实现的方法可参照本发明公安语音信息管理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种公安语音信息管理方法,其特征在于,所述公安语音信息管理方法包括如下步骤:
获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;
将短时能量值低于预设能量阈值的语音帧叫作静音语音帧,判断所述语音信息中是否存在第一静音语音帧序列,其中,所述第一静音语音帧序列是指第一预设数量的连续静音语音帧;
若所述语音信息中存在第一静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在第一静音语音帧序列,则判断所述语音信息中是否存在两个相邻的第二静音语音帧序列,以识别包含部分噪声的静音片段,其中,所述第二静音语音帧序列是指第二预设数量的连续静音语音帧,所述第二预设数量小于所述第一预设数量;
若所述语音信息中存在两个相邻的第二静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则将所述语音信息输入至预设的语音识别模型中,判断所述语音信息中是否包含多人声语音片段;
若所述语音信息中包含多人声语音片段,则判定所述语音信息中包含无效语音片段;
若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;
将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
2.如权利要求1所述的公安语音信息管理方法,其特征在于,所述获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值的步骤,包括:
获取待入库的语音信息,对所述语音信息进行能量归一化处理;
将处理后的语音信息进行分帧,并计算所述语音信息中各语音帧的短时能量值。
3.如权利要求1所述的公安语音信息管理方法,其特征在于,所述若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧的步骤,包括:
若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为静音语音片段;
若所述无效语音片段为静音语音片段,则将所述语音信息中相邻两个语音帧组合得到语音帧组合,计算所述语音帧组合中语音帧短时能量值的能量变化值;
获取能量变化值最大的两个目标语音帧组合,将所述目标语音帧组合中最小短时能量值的语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
4.如权利要求1至3任意一项所述的公安语音信息管理方法,其特征在于,所述若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧的步骤,包括:
若所述语音信息中包含无效语音片段,则判断所述无效语音片段是否为多人声语音片段;
若所述无效语音片段为多人声语音片段,则获取所述无效语音片段两端预设时间段的语音帧,及所述语音帧的短时能量值;
从所述无效语音片段两端语音帧中各选择一个短时能量值最小的目标语音帧,将所述目标语音帧作为所述无效语音片段的启始语音帧和终止语音帧。
5.一种公安语音信息管理装置,其特征在于,所述公安语音信息管理装置包括:
获取计算模块,用于获取待入库的语音信息,计算所述语音信息中各语音帧的短时能量值;
语音判断模块,用于将短时能量值低于预设能量阈值的语音帧叫作静音语音帧,判断所述语音信息中是否存在第一静音语音帧序列,其中,所述第一静音语音帧序列是指第一预设数量的连续静音语音帧;
若所述语音信息中存在第一静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在第一静音语音帧序列,则判断所述语音信息中是否存在两个相邻的第二静音语音帧序列,以识别包含部分噪声的静音片段,其中,所述第二静音语音帧序列是指第二预设数量的连续静音语音帧,所述第二预设数量小于所述第一预设数量;
若所述语音信息中存在两个相邻的第二静音语音帧序列,则判定所述语音信息中包含无效语音片段;
若所述语音信息中不存在两个相邻的第二静音语音帧序列,则将所述语音信息输入至预设的语音识别模型中,判断所述语音信息中是否包含多人声语音片段;
若所述语音信息中包含多人声语音片段,则判定所述语音信息中包含无效语音片段;
端点确定模块,用于若所述语音信息中包含无效语音片段,则根据所述语音信息中各语音帧的短时能量值确定所述无效语音片段的启始语音帧和终止语音帧;
语音保存模块,用于将所述启始语音帧和所述终止语音帧之间的所述无效语音片段进行裁剪,获得新的语音信息,并将新的语音信息保存至公安语音数据库。
6.一种公安语音信息管理设备,其特征在于,所述公安语音信息管理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的公安语音信息管理对应的计算机程序,所述公安语音信息管理对应的计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的公安语音信息管理方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有公安语音信息管理对应的计算机程序,所述公安语音信息管理对应的计算机程序被处理器执行时实现如权利要求1至4中任一项所述的公安语音信息管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404083.6A CN111627453B (zh) | 2020-05-13 | 2020-05-13 | 公安语音信息管理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404083.6A CN111627453B (zh) | 2020-05-13 | 2020-05-13 | 公安语音信息管理方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627453A CN111627453A (zh) | 2020-09-04 |
CN111627453B true CN111627453B (zh) | 2024-02-09 |
Family
ID=72271886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404083.6A Active CN111627453B (zh) | 2020-05-13 | 2020-05-13 | 公安语音信息管理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627453B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185424A (zh) * | 2020-09-29 | 2021-01-05 | 国家计算机网络与信息安全管理中心 | 一种语音文件裁剪还原方法、装置、设备和存储介质 |
CN114186581A (zh) * | 2021-11-15 | 2022-03-15 | 国网天津市电力公司 | 基于mfcc和扩散化高斯混合模型的电缆隐患识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
CN104021789A (zh) * | 2014-06-25 | 2014-09-03 | 厦门大学 | 一种利用短时时频值的自适应端点检测方法 |
CN108847217A (zh) * | 2018-05-31 | 2018-11-20 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110992989A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
JP5575977B2 (ja) * | 2010-04-22 | 2014-08-20 | クゥアルコム・インコーポレイテッド | ボイスアクティビティ検出 |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
CN103903633B (zh) * | 2012-12-27 | 2017-04-12 | 华为技术有限公司 | 检测语音信号的方法和装置 |
CN110875059B (zh) * | 2018-08-31 | 2022-08-05 | 深圳市优必选科技有限公司 | 收音结束的判断方法、装置以及储存装置 |
-
2020
- 2020-05-13 CN CN202010404083.6A patent/CN111627453B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886871A (zh) * | 2014-01-28 | 2014-06-25 | 华为技术有限公司 | 语音端点的检测方法和装置 |
CN104021789A (zh) * | 2014-06-25 | 2014-09-03 | 厦门大学 | 一种利用短时时频值的自适应端点检测方法 |
CN108847217A (zh) * | 2018-05-31 | 2018-11-20 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
CN110992989A (zh) * | 2019-12-06 | 2020-04-10 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111627453A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584876B (zh) | 语音数据的处理方法、装置和语音空调 | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
CN111627453B (zh) | 公安语音信息管理方法、装置、设备及计算机存储介质 | |
CN110769111A (zh) | 一种降噪方法、系统、存储介质以及终端 | |
CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
KR100631608B1 (ko) | 음성 판별 방법 | |
CN110808030B (zh) | 语音唤醒方法、系统、存储介质及电子设备 | |
EP3792918B1 (en) | Digital automatic gain control method and apparatus | |
CN111754982A (zh) | 语音通话的噪声消除方法、装置、电子设备及存储介质 | |
CN111696556A (zh) | 一种分析用户对话情绪方法、系统、设备和存储介质 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN105827787B (zh) | 一种号码标记方法及装置 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN111128253A (zh) | 音频剪辑方法及装置 | |
CN111640421B (zh) | 语音对比方法、装置、设备及计算机可读存储介质 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN111046366B (zh) | 用户身份识别方法、装置和电子设备 | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
JP2002261553A (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
CN107154996B (zh) | 来电拦截方法、装置、存储介质及终端 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN115273909A (zh) | 语音活性检测方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |