CN111640421A - 语音对比方法、装置、设备及计算机可读存储介质 - Google Patents
语音对比方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111640421A CN111640421A CN202010405176.0A CN202010405176A CN111640421A CN 111640421 A CN111640421 A CN 111640421A CN 202010405176 A CN202010405176 A CN 202010405176A CN 111640421 A CN111640421 A CN 111640421A
- Authority
- CN
- China
- Prior art keywords
- target
- standard
- spectrogram
- segment
- sound segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种语音对比方法,该方法包括:当接收到语音对比指令时,获取语音对比指令对应的待检的目标语谱图,和预设的标准语谱图;当接收到音段查看指令时,获取音段查看指令对应的操作信息,根据操作信息从目标语谱图中选择目标音段,根据目标音段从标准语谱图中选择标准音段;提取操作信息中的目标频率,并获取目标音段中目标频率对应的目标能量值,和标准音段中目标频率对应的标准能量值;根据目标能量值与标准能量值的对比结果,确定目标语谱图和标准语谱图的对比结果。本发明还公开了一种语音对比装置、设备及计算机可读存储介质。本发明实现了更加简便、准确且节约人力成本的语音对比方法。
Description
技术领域
本发明涉及语音识别领域,尤其涉及语音对比方法、装置、设备及计算机可读存储介质。
背景技术
随着语音识别技术的快速发展,语音识别已应用于越来越多的行业和系统,例如公安系统,可知地,语谱图(语音频谱图)中能量比较集中的区域所表现出来的语音信息(例如频率和能量值),可以作为语音识别结果的依据。
在现有的语音识别中,对包含很多复杂信息的语音文件进行识别对比往往需要专业的人员来操作,繁杂冗长的操作过程不仅限制了其他人员(例如普通警员)的理解和使用,邀请专业人员的支持也无疑增加了人力成本,而且,专业人员在进行语音识别对比的操作时,也常常包含个人主观音素的判断,这也使得语音对比的结果不够准确。
发明内容
本发明的主要目的在于提供一种语音对比方法,旨在解决现有技术中语音对比过程复杂,增加人力成本,且语音对比结果不准确的技术问题。
此外,为实现上述目的,本发明还提供一种语音对比方法,所述语音对比方法包括以下步骤:
当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段;
提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值;
根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
可选地,所述根据所述目标音段从所述标准语谱图中选择标准音段的步骤包括:
获取目标音段的目标上边缘线和目标下边缘线,获取标准语谱图中与所述目标音段具有相似上边缘线的音段,形成音段集合;
判断所述音段集合中是否存在与所述目标音段具有相同下边缘线的第一音段;
若存在所述第一音段,则将所述第一音段作为标准音段。
可选地,所述获取标准语谱图中与所述目标音段具有相似上边缘线的音段的步骤包括:
获取标准语谱图中所有音段的上边缘线,形成上边缘线集合;
从所述上边缘线集合中选取标准上边缘线,将所述目标上边缘线和所述标准上边缘线划分成多个线段,并获取线段总数;
将所述目标上边缘线的每个线段与所述标准上边缘线的每个线段对应地进行重叠对比,并获取重叠率;
若所述重叠率大于第一预设阈值,则判定所述标准上边缘线与目标上边缘线相同。
可选地,所述根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段的步骤之后,包括:
查看所述目标音段的目标时间长度和所述标准音段的标准时间长度,并根据所述目标时间长度和所述标准时间长度,确定时间比例;
查找所述操作信息中的目标音频和目标时间点,确定由所述目标音频和所述目标时间点组成的第一坐标点,并获取所述第一坐标点对应的目标能量值;
根据所述时间比例和所述目标时间点,确定标准时间点,由所述目标音频和所述标准时间点组成第二坐标点,并获取所述第二坐标点对应的标准能量值。
可选地,所述根据所述时间比例和所述目标时间点,确定标准时间点的步骤包括:
获取目标音段沿时间轴方向上的左临点和右临点,和所述标准音段沿时间轴方向上的左临点和右临点;
计算目标时间点与所述目标音段的左临点的差值,并将所述差值与实践比例相乘,得到时间长度差;
将所述时间长度差与所述标准音段的左临点相加,得到标准时间点。
可选地,所述根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果的步骤包括:
计算目标能量值与标准能量值的绝对差值,并判断所述绝对差值是否小于第二预设阈值;
若所述绝对差值小于所述第二预设阈值,则确定所述目标语谱图和所述标准语谱图的对比结果为高度相似。
可选地,所述根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段的步骤之后,还包括:
若所述标准音段的数量大于一,则获取所述标准音段中与目标频率对应的所有标准能量值;
依次计算所述所有标准能量值与所述目标能量值的所有绝对差值,和所述所有绝对差值的平均绝对差值,并判断所述平均绝对差值是否小于第三预设阈值;
若所述平均绝对差值小于所述第三预设阈值,则确定所述待检语音与所述预设样本语音的对比结果为高度相似。
此外,为实现上述目的,本发明还提供一种语音对比装置,所述语音对比装置包括:
接收模块,用于当接收到语音对比指令时,获取所述语音对比指令对应的待检的目标语谱图,和预设的标准语谱图;
获取模块,用于当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段;
查找模块,用于提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值;
判定模块,用于根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
此外,为实现上述目的,本发明还提供一种语音对比设备,所述语音对比设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音对比程序,所述语音对比程序被所述处理器执行时实现如上述的语音对比方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音对比程序,所述语音对比程序被处理器执行时实现如上述的语音对比方法的步骤。
本发明实施例提出的一种语音对比方法、装置、设备及可读存储介质。本发明实施例中当语音对比程序接收到代表着语音对比开始的语音对比指令时,将获取用于对比的待检语音的目标语谱图,和预先设置的样本语音的标准语谱图,当语音对比程序进一步接收到音段查看指令时,将进一步获取音段查看指令对应的操作信息,并根据操作信息从目标语谱图中选取目标音段,又根据目标音段从标准语谱图中选取标准音段,语音对比程序提取操作信息中的目标频率,并从目标音段中获取目标频率对应的目标能量值,从标准音段中获取目标频率对应的标准能量值,通过将目标能量值和标准能量值进行对比的结果,确定目标语谱图和标准语谱图的对比结果,可知地,目标音段与标准音段是两个相似的音段,在目标频率一致的情况下,通过将目标能量值与标准能量值进行对比,可以得出两个相似音段的对比结果,进而反映目标语谱图和标准语谱图的对比结果。
附图说明
图1为本发明实施例提供的语音对比设备一种实施方式的硬件结构示意图;
图2为本发明语音对比方法第一实施例的流程示意图;
图3为本发明语音对比方法第一实施例中语谱图对比的示意图;
图4为本发明语音对比方法第二实施例的流程示意图;
图5为本发明语音对比方法第三实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例语音对比终端(又叫终端、设备或者终端设备)可以是个人电脑,智能手机和便携式计算机等具有数据分析和计算能力的可移动设备,也可以是录音机和录音话筒等可以采集语音信息的设备,还可以是包括存储器和服务器等具有信息储存功能的设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音对比程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音对比程序,所述语音对比程序被处理器执行时实现下述实施例提供的语音对比方法中的操作。
基于上述设备硬件结构,提出了本发明语音对比方法的实施例。
参照图2,在本发明方法的第一实施例中,所述语音对比方法包括:
步骤S10,当接收到语音对比指令时,获取所述语音对比指令对应的待检的目标语谱图,和预设的标准语谱图。
本实施例中语音对比方法应用于语音对比设备,其中,语音对比设备包括个人电脑,智能手机和便携式计算机等具有数据分析和计算能力的可移动设备,也可以是录音机和录音话筒等可以采集语音信息的设备,还可以是包括存储器和服务器等具有信息储存功能的设备。
本实施例中语音对比方法应用于对两段语音信息的相似性进行对比,且其中一段语音信息为对比参考语音,是在语音对比前已经获得的语音信息,一般以语音样本的形式存储在语音对比设备中,而语音对比指令是指,当用于对比的语音信息准备完毕时,生成的一种指令,作用是语音对比开始的信号。生成语音对比指令的方法可以是用户主动触发,例如,用户手动开启语音对比;也可以是系统自动生成语音对比指令,例如,当系统检测到待对比语音输入到语音对比程序后,自动生成语音对比指令。当语音对比程序接收到语音对比指令后,将获取触发该语音对比指令的语音信息。可知地,待对比语音为从外界获取的语音信息,其可能会存在噪音,或者信息不完整等问题,在现有技术中可实现对待对比语音的降噪或者切分掉杂音等操作,本实施例不再详述。本实施例中的目标语谱图是指待对比语音的语谱图,而标准语谱图是指语音样本的语谱图,可知地,语谱图是语音频谱图的简称,语谱图中的横坐标是时间,纵坐标是频率,可通过频谱图中声波较为集中区域的颜色深浅表示在某个频率和时间点上能量的高低,以此来表示声音的特征。
步骤S20,当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段。
本实施例中音段查看指令是指,当语音对比设备(例如电脑)的显示界面中显示目标语谱图和标准语谱图后,用户手动点击目标语谱图中声波集中区域内的某个点,或者在弹出的对话框内输入时间值或频率值时,生成的一个指令。用户点击某个点或者在对话框中输入时间值或频率值即是操作信息,本实施例中操作信息既包括用户的操作,又包括用户操作时输入的信息。本实施例中目标音段是指目标语谱图中声音能量比较集中的一些区域,而标准音段是指标准语谱图中声音能量比较集中的一些区域,如图3所示,若图3中上部分为目标语谱图,下部分为标准语谱图,则图中上部分阴影集中的区域即是目标音段,图中下部分阴影集中的区域则是标准音段。可知地,根据语音的组成部分,音段既可以是语音的最小单位音素,也可以是由音素组成的音节,具体情况本实施例不再详述。
步骤S30,提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值。
已知语谱图中的纵坐标是频率,当用户点击语谱图中的某个点,或者在在弹出的对话框内输入一些数值时,在语谱图中都存在对应的频率,这个对应的频率即是本实施例中的目标频率,如图3所示,当用户点击图中上部分的坐标点,或者在弹出的对话框内输入1100Hz和02:10:728ms时,语音对比程序将自动选择图中的坐标点,且还会显示该坐标点对应的声音能量值,即本实施例中的目标能量值(图3中的-7.7dB,其中dB为声音能量的单位),这个声音能量值可以通过阴影部分颜色的深浅来表征,声音能量值的具体计算方法本实施例不再详述。可知地,当用户点击图中的点,或者在弹出的对话框内输入的一些数值,使得坐标点落在了图中的白色区域(白色区域内不包含音段)时,语音对比程序还可以输出一些信息,以提示用户选择正确的点或者输入正确的数值。
当语音对比程序选择图中上部分的坐标点后,根据这个坐标点所属的目标音段,语音对比程序还将在标准语谱图中选取与目标音段相似的标准音段,具体的选取方法本实施例不再详述,当标准音段被选中后,语音对比程序还将根据目标语谱图中坐标点的坐标值,在标准语谱图中选取一个坐标点,而这个坐标点对应的声音能量值即是本实施例中的标准能量值。
步骤S40,根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
可知地,声音能量在音段中各个频率上的能量值表示了语音的一些特征,也是本实施例中语音对比所使用的方法,若相似的两个音段在同一频率上的能量值相差不大,则可以说明两个音段所属的语谱图相似。如图3所示,目标语谱图中坐标点对应的目标能量值为-7.7,而标准语谱图中坐标点对应的标准能量值为-6.7,若预先规定当目标能量值与标准能量值的绝对差值不大于1时,可判定目标语谱图和标准语谱图的对比结果为高度相似,因为-7.7与-6.7的绝对差值不大于1,,所以语音对比程序可判定目标语谱图和标准语谱图的对比结果为高度相似,可知地,对比结果还可以包括基本相似和微弱相似等,可通过目标能量值与标准能量值的绝对差值,来确定具体的对比结果。
具体地,步骤S20细化的步骤,还包括:
步骤a1,获取目标音段的目标上边缘线和目标下边缘线,获取标准语谱图中与所述目标音段具有相似上边缘线的音段,形成音段集合。
步骤a2,判断所述音段集合中是否存在与所述目标音段具有相同下边缘线的第一音段。
步骤a3,判断所述音段集合中是否存在与所述目标音段具有相同下边缘线的第一音段。
如图3所示,目标语谱图和标准语谱图中每个音段都具有上下左右的边界线,本实施例中目标上边缘线即是指目标音段的上边界线,而目标下边缘线即是指目标音段的下边界线,由图可知,目标上边缘线和目标下边缘线均是弯曲的线段,根据语谱图的定义可知,目标上边缘线和目标下边缘线的弯曲程度和走势,表示音段在每个时间点的频率分布情况,这可以作为判断两个音段是否相似的条件。判定目标音段与标准音段相似的步骤包括:首先获取目标音段的目标上边缘线,再获取标准语谱图中每个音段的上边缘线,进而将目标上边缘线与标准语谱图中每个音段的上边缘线依次进行对比,若标准语谱图的每个音段的上边缘线中存在与目标上边缘线相同的音段,则再次将目标下边缘线与相同音段的下边缘线进行对比,若标准语谱图中同时存在上边缘线与下边缘线与目标上边缘线和目标下边缘线分别对应相同的音段,则将这个音段作为标准音段。可知地,本实施例中第一音段是指,标准语谱图中每次与目标上边缘线进行对比的音段。音段集合是指标准语谱图中具有与目标上边缘线相同的上边缘线的音段的集合,上边缘线相同的定义也可以根据情况进行确定,并不是字面意义上的完全相同。
具体地,步骤a1细化的步骤,还包括:
步骤b1,获取标准语谱图中所有音段的上边缘线,形成上边缘线集合。
步骤b2,从所述上边缘线集合中选取标准上边缘线,将所述目标上边缘线和所述标准上边缘线划分成多个线段,并获取线段总数。
步骤b3,将所述目标上边缘线的每个线段与所述标准上边缘线的每个线段对应地进行重叠对比,并获取重叠率。
步骤b4,若所述重叠率大于第一预设阈值,则判定所述标准上边缘线与目标上边缘线相同。
本实施例中上边缘线集合是指,标准语谱图中所有音段的上边缘线形成的集合,可知地,上边缘线相同的定义也可以根据情况进行确定,并不是字面意义上的完全相同,判断目标上边缘线与标准上边缘线相同的步骤包括:首先从标准语谱图中所有音段的上边缘线中随机选出一条上边缘线,然后将选出的这条上边缘线和目标上边缘划分成相同的有限数量的线段,并获线段总数,再将选出上边缘线的每个线段与标准上边缘线的每个线段分别对应地进行重叠对比,并获取每对用于重叠对比的线段的重叠率,最后将获取的重叠率与第一预设阈值进行对比,若所述重叠率大于第一预设阈值,则判定所述标准上边缘线与目标上边缘线相同。
在本实施例中当语音对比程序接收到代表着语音对比开始的语音对比指令时,将获取用于对比的待检语音的目标语谱图,和预先设置的样本语音的标准语谱图,当语音对比程序进一步接收到音段查看指令时,将进一步获取音段查看指令对应的操作信息,并根据操作信息从目标语谱图中选取目标音段,又根据目标音段从标准语谱图中选取标准音段,语音对比程序提取操作信息中的目标频率,并从目标音段中获取目标频率对应的目标能量值,从标准音段中获取目标频率对应的标准能量值,通过将目标能量值和标准能量值进行对比的结果,确定目标语谱图和标准语谱图的对比结果,可知地,目标音段与标准音段是两个相似的音段,在目标频率一致的情况下,通过将目标能量值与标准能量值进行对比,可以得出两个相似音段的对比结果,进而反映目标语谱图和标准语谱图的对比结果。
进一步地,参照图4,在本发明上述实施例的基础上,提出了本发明语音对比方法的第二实施例。
本实施例是第一实施例中步骤S20之后的步骤,本实施例与本发明上述实施例的区别在于:
步骤S30,查看所述目标音段的目标时间长度和所述标准音段的标准时间长度,并根据所述目标时间长度和所述标准时间长度,确定时间比例。
步骤S40,查找所述操作信息中的目标音频和目标时间点,确定由所述目标音频和所述目标时间点组成的第一坐标点,并获取所述第一坐标点对应的目标能量值。
步骤S50,根据所述时间比例和所述目标时间点,确定标准时间点,由所述目标音频和所述标准时间点组成第二坐标点,并获取所述第二坐标点对应的标准能量值。
可知地,目标音段与标准音段所占的时间长度并不一定相同,音段所占的时间长度是指,音段的在时间轴方向上的前后边界线的差值,如图3所示,若目标音段在时间轴左边的边界线为02:09:728ms,而目标音段在时间轴右边的边界线为02:11:728ms,则目标音段的时间长度为2秒,由此可计算,若标准音段的时间长度为4秒,则时间比例为0.5,如图3所示,目标音频为1100Hz,目标时间点为02:10:728ms,则第一坐标点的坐标值为(02:10:728,1100),目标能量值为-7.7dB。通过获取边界线的时间值可知,若标准音段在时间轴左边的边界线为02:24:599ms,则根据标准音段的时间长度为4秒,可计算标准音段在时间轴右边的边界线则为02:28:599ms,已知目标时间点为02:10:728ms,目标音段在时间轴左边的边界线为02:09:728ms,则目标时间点与目标音段的左边界线的差值为1秒,而时间比例为0.5,则标准时间点与标准音段的左边界线的差值应为2秒,由此可计算出标准时间点为02:26:599ms,根据标准时间点和目标音频可确定第二坐标点为(02:26:599,1100),也可获得第二坐标点对应的标准能量值-6.7dB。
具体地,步骤S50细化的步骤,还包括:
步骤c1,获取目标音段沿时间轴方向上的左临点和右临点,和所述标准音段沿时间轴方向上的左临点和右临点。
步骤c2,计算目标时间点与所述目标音段的左临点的差值,并将所述差值与实践比例相乘,得到时间长度差。
步骤c3,将所述时间长度差与所述标准音段的左临点相加,得到标准时间点。
如图3所示,若目标音段在时间轴左边的边界线(即本实施例中的左临点)为02:09:728ms,而目标音段在时间轴右边的边界线(即本实施例中的右临点)为02:11:728ms,则目标音段的时间长度为2秒,由此可计算,若标准音段的时间长度为4秒,则时间比例为0.5,如图3所示,目标音频为1100Hz,目标时间点为02:10:728ms,则第一坐标点的坐标值为(02:10:728,1100),目标能量值为-7.7dB。通过获取边界线的时间值可知,若标准音段在时间轴左边的边界线为02:24:599ms,则根据标准音段的时间长度为4秒,可计算标准音段在时间轴右边的边界线则为02:28:599ms,已知目标时间点为02:10:728ms,目标音段在时间轴左边的边界线为02:09:728ms,则目标时间点与目标音段的左边界线的差值为1秒,而时间比例为0.5,则标准时间点与标准音段的左边界线的差值应为2秒,由此可计算出标准时间点为02:26:599ms,根据标准时间点和目标音频可确定第二坐标点为(02:26:599,1100),也可获得第二坐标点对应的标准能量值-6.7dB。
具体地,步骤S20之后的步骤,还包括:
步骤d1,若所述标准音段的数量大于一,则获取所述标准音段中与目标频率对应的所有标准能量值。
步骤d2,依次计算所述所有标准能量值与所述目标能量值的所有绝对差值,和所述所有绝对差值的平均绝对差值,并判断所述平均绝对差值是否小于第三预设阈值。
步骤d3,若所述平均绝对差值小于所述第三预设阈值,则确定所述待检语音与所述预设样本语音的对比结果为高度相似。
可知地,若标准音段的数量大于一,即标准语谱图中不止存在一个与目标音段相似的音段,即也存在多个标准能量值,如表1所示,若标准语谱图中存在三个标准音段,也存在三个第二坐标点对应的标准能量值,他们分别是标准音段一对应的标准能量值-6.7dB,标准音段二对应的标准能量值-6.9dB,标准音段三对应的标准能量值-7.1dB,通过计算可知,目标能量值与这三个标准能量值的平均绝对差值为0.8。
标准音段 | 标准音段一 | 标准音段二 | 标准音段三 |
标准能量值 | -6.7dB | -6.9dB | -7.1dB |
表1
若预先规定当目标能量值与标准能量值的平均绝对差值不大于1时,可判定目标语谱图和标准语谱图的对比结果为高度相似,因为平均绝对差值0.8不大于1,所以语音对比程序可判定目标语谱图和标准语谱图的对比结果为高度相似,可知地,对比结果还可以包括基本相似和微弱相似等,可通过目标能量值与标准能量值的绝对差值,来确定具体的对比结果。
在本实施例中通过计算目标能量值与标准能量值的差值,并对差值进行大小判断,给出了目标语谱图和标准语谱图对比结果的确定方法。
进一步地,参照图5,在本发明上述实施例的基础上,提出了本发明语音对比方法的第三实施例。
本实施例是第一实施例中步骤S30细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S21,计算目标能量值与标准能量值的绝对差值,并判断所述绝对差值是否小于第二预设阈值。
步骤S22,若所述绝对差值小于所述第二预设阈值,则确定所述目标语谱图和所述标准语谱图的对比结果为高度相似。
可知地,声音能量在音段中各个频率上的能量值表示了语音的一些特征,也是本实施例中语音对比所使用的方法,若相似的两个音段在同一频率上的能量值相差不大,则可以说明两个音段所属的语谱图相似。如图3所示,目标语谱图中坐标点对应的目标能量值为-7.7,而标准语谱图中坐标点对应的标准能量值为-6.7,若预先规定当目标能量值与标准能量值的绝对差值不大于1时,可判定目标语谱图和标准语谱图的对比结果为高度相似,因为-7.7与-6.7的绝对差值不大于1,,所以语音对比程序可判定目标语谱图和标准语谱图的对比结果为高度相似,可知地,对比结果还可以包括基本相似和微弱相似等,可通过目标能量值与标准能量值的绝对差值,来确定具体的对比结果。
在本实施例中通过计算目标能量值与标准能量值的绝对差值,并对差值进行大小判断,给出了目标语谱图和标准语谱图对比结果的确定方法。
此外,本发明实施例还提出一种语音对比装置,所述语音对比装置包括:
接收模块,用于当接收到语音对比指令时,获取所述语音对比指令对应的待检的目标语谱图,和预设的标准语谱图;
获取模块,用于当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段;
查找模块,用于提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值;
判定模块,用于根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
可选地,所述获取模块包括:
第一获取单元,用于获取目标音段的目标上边缘线和目标下边缘线,获取标准语谱图中与所述目标音段具有相似上边缘线的音段,形成音段集合;
判断单元,用于判断所述音段集合中是否存在与所述目标音段具有相同下边缘线的第一音段;
第一判定单元,用于若存在所述第一音段,则将所述第一音段作为标准音段。
可选地,所述第一获取单元包括:
第二获取单元,用于获取标准语谱图中所有音段的上边缘线,形成上边缘线集合;
划分单元,用于从所述上边缘线集合中选取标准上边缘线,将所述目标上边缘线和所述标准上边缘线划分成多个线段,并获取线段总数;
重叠对比单元,用于将所述目标上边缘线的每个线段与所述标准上边缘线的每个线段对应地进行重叠对比,并获取重叠率;
第二判定单元,用于若所述重叠率大于第一预设阈值,则判定所述标准上边缘线与目标上边缘线相同。
可选地,所述语音对比装置,还包括:
查看单元,用于查看所述目标音段的目标时间长度和所述标准音段的标准时间长度,并根据所述目标时间长度和所述标准时间长度,确定时间比例;
查找单元,用于查找所述操作信息中的目标音频和目标时间点,确定由所述目标音频和所述目标时间点组成的第一坐标点,并获取所述第一坐标点对应的目标能量值;
确定单元,用于根据所述时间比例和所述目标时间点,确定标准时间点,由所述目标音频和所述标准时间点组成第二坐标点,并获取所述第二坐标点对应的标准能量值。
可选地,所述确定单元包括:
第三获取单元,用于获取目标音段沿时间轴方向上的左临点和右临点,和所述标准音段沿时间轴方向上的左临点和右临点;
第一计算单元,用于计算目标时间点与所述目标音段的左临点的差值,并将所述差值与实践比例相乘,得到时间长度差;
第二计算单元,用于将所述时间长度差与所述标准音段的左临点相加,得到标准时间点。
可选地,所述判定模块包括:
第三计算单元,用于计算目标能量值与标准能量值的绝对差值,并判断所述绝对差值是否小于第二预设阈值;
第三判定单元,用于若所述绝对差值小于所述第二预设阈值,则确定所述目标语谱图和所述标准语谱图的对比结果为高度相似。
可选地,所述语音对比装置,还包括:
第三获取单元,用于若所述标准音段的数量大于一,则获取所述标准音段中与目标频率对应的所有标准能量值;
第四计算单元,用于依次计算所述所有标准能量值与所述目标能量值的所有绝对差值,和所述所有绝对差值的平均绝对差值,并判断所述平均绝对差值是否小于第三预设阈值;
第四判定单元,用于若所述平均绝对差值小于所述第三预设阈值,则确定所述待检语音与所述预设样本语音的对比结果为高度相似。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机和平板电脑等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音对比方法,其特征在于,所述语音对比方法包括以下步骤:
当接收到语音对比指令时,获取所述语音对比指令对应的待检的目标语谱图,和预设的标准语谱图;
当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段;
提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值;
根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
2.如权利要求1所述的语音对比方法,其特征在于,所述根据所述目标音段从所述标准语谱图中选择标准音段的步骤包括:
获取目标音段的目标上边缘线和目标下边缘线,获取标准语谱图中与所述目标音段具有相似上边缘线的音段,形成音段集合;
判断所述音段集合中是否存在与所述目标音段具有相同下边缘线的第一音段;
若存在所述第一音段,则将所述第一音段作为标准音段。
3.如权利要求2所述的语音对比方法,其特征在于,所述获取标准语谱图中与所述目标音段具有相似上边缘线的音段的步骤包括:
获取标准语谱图中所有音段的上边缘线,形成上边缘线集合;
从所述上边缘线集合中选取标准上边缘线,将所述目标上边缘线和所述标准上边缘线划分成多个线段,并获取线段总数;
将所述目标上边缘线的每个线段与所述标准上边缘线的每个线段对应地进行重叠对比,并获取重叠率;
若所述重叠率大于第一预设阈值,则判定所述标准上边缘线与目标上边缘线相同。
4.如权利要求1所述的语音对比方法,其特征在于,所述根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段的步骤之后,包括:
查看所述目标音段的目标时间长度和所述标准音段的标准时间长度,并根据所述目标时间长度和所述标准时间长度,确定时间比例;
查找所述操作信息中的目标音频和目标时间点,确定由所述目标音频和所述目标时间点组成的第一坐标点,并获取所述第一坐标点对应的目标能量值;
根据所述时间比例和所述目标时间点,确定标准时间点,由所述目标音频和所述标准时间点组成第二坐标点,并获取所述第二坐标点对应的标准能量值。
5.如权利要求4所述的语音对比方法,其特征在于,所述根据所述时间比例和所述目标时间点,确定标准时间点的步骤包括:
获取目标音段沿时间轴方向上的左临点和右临点,和所述标准音段沿时间轴方向上的左临点和右临点;
计算目标时间点与所述目标音段的左临点的差值,并将所述差值与实践比例相乘,得到时间长度差;
将所述时间长度差与所述标准音段的左临点相加,得到标准时间点。
6.如权利要求1所述的语音对比方法,其特征在于,所述根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果的步骤包括:
计算目标能量值与标准能量值的绝对差值,并判断所述绝对差值是否小于第二预设阈值;
若所述绝对差值小于所述第二预设阈值,则确定所述目标语谱图和所述标准语谱图的对比结果为高度相似。
7.如权利要求1所述的语音对比方法,其特征在于,所述根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段的步骤之后,还包括:
若所述标准音段的数量大于一,则获取所述标准音段中与目标频率对应的所有标准能量值;
依次计算所述所有标准能量值与所述目标能量值的所有绝对差值,和所述所有绝对差值的平均绝对差值,并判断所述平均绝对差值是否小于第三预设阈值;
若所述平均绝对差值小于所述第三预设阈值,则确定所述待检语音与所述预设样本语音的对比结果为高度相似。
8.一种语音对比装置,其特征在于,所述语音对比装置包括:
接收模块,用于当接收到语音对比指令时,获取所述语音对比指令对应的待检的目标语谱图,和预设的标准语谱图;
获取模块,用于当接收到音段查看指令时,获取所述音段查看指令对应的操作信息,根据所述操作信息从所述目标语谱图中选择目标音段,根据所述目标音段从所述标准语谱图中选择标准音段;
查找模块,用于提取所述操作信息中的目标频率,并获取所述目标音段中所述目标频率对应的目标能量值,和所述标准音段中所述目标频率对应的标准能量值;
判定模块,用于根据所述目标能量值与所述标准能量值的对比结果,确定所述目标语谱图和所述标准语谱图的对比结果。
9.一种语音对比设备,其特征在于,所述语音对比设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音对比程序,所述语音对比程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音对比方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音对比程序,所述语音对比程序被处理器执行时实现如权利要求1至7中任一项所述的语音对比方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405176.0A CN111640421B (zh) | 2020-05-13 | 2020-05-13 | 语音对比方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405176.0A CN111640421B (zh) | 2020-05-13 | 2020-05-13 | 语音对比方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111640421A true CN111640421A (zh) | 2020-09-08 |
CN111640421B CN111640421B (zh) | 2023-06-16 |
Family
ID=72332121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405176.0A Active CN111640421B (zh) | 2020-05-13 | 2020-05-13 | 语音对比方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111640421B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038468A (zh) * | 2022-01-07 | 2022-02-11 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
CN117451113A (zh) * | 2023-12-22 | 2024-01-26 | 中国电建集团华东勘测设计研究院有限公司 | 基于光纤传感的自升式平台桩腿结构健康监测系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216535A1 (en) * | 2008-02-22 | 2009-08-27 | Avraham Entlis | Engine For Speech Recognition |
US20090326942A1 (en) * | 2008-06-26 | 2009-12-31 | Sean Fulop | Methods of identification using voice sound analysis |
CN106558318A (zh) * | 2015-09-24 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 音频识别方法和系统 |
CN108831492A (zh) * | 2018-05-21 | 2018-11-16 | 广州国音科技有限公司 | 一种处理语音数据的方法、装置、设备及可读存储介质 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN110875036A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 语音分类方法、装置、设备及计算机可读存储介质 |
CN111133508A (zh) * | 2019-12-24 | 2020-05-08 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
-
2020
- 2020-05-13 CN CN202010405176.0A patent/CN111640421B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216535A1 (en) * | 2008-02-22 | 2009-08-27 | Avraham Entlis | Engine For Speech Recognition |
US20090326942A1 (en) * | 2008-06-26 | 2009-12-31 | Sean Fulop | Methods of identification using voice sound analysis |
CN106558318A (zh) * | 2015-09-24 | 2017-04-05 | 阿里巴巴集团控股有限公司 | 音频识别方法和系统 |
CN108831492A (zh) * | 2018-05-21 | 2018-11-16 | 广州国音科技有限公司 | 一种处理语音数据的方法、装置、设备及可读存储介质 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN109448733A (zh) * | 2019-01-07 | 2019-03-08 | 广州势必可赢网络科技有限公司 | 一种语谱图生成方法、系统及相关装置 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN110875036A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 语音分类方法、装置、设备及计算机可读存储介质 |
CN111133508A (zh) * | 2019-12-24 | 2020-05-08 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038468A (zh) * | 2022-01-07 | 2022-02-11 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
CN114038468B (zh) * | 2022-01-07 | 2022-04-15 | 深圳市声扬科技有限公司 | 语音数据比对处理方法、装置、电子设备和存储介质 |
CN117451113A (zh) * | 2023-12-22 | 2024-01-26 | 中国电建集团华东勘测设计研究院有限公司 | 基于光纤传感的自升式平台桩腿结构健康监测系统 |
CN117451113B (zh) * | 2023-12-22 | 2024-03-26 | 中国电建集团华东勘测设计研究院有限公司 | 基于光纤传感的自升式平台桩腿结构健康监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111640421B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107702706B (zh) | 路径确定方法、装置、存储介质及移动终端 | |
CN110992989B (zh) | 语音采集方法、装置及计算机可读存储介质 | |
CN111179907B (zh) | 语音识别测试方法、装置、设备及计算机可读存储介质 | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
CN111640421B (zh) | 语音对比方法、装置、设备及计算机可读存储介质 | |
CN108052818B (zh) | 应用启动方法、装置、存储介质及电子设备 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN109003607B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111582257A (zh) | 用于对待检测对象进行检测的方法、装置及系统 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN111209354A (zh) | 一种地图兴趣点判重的方法、装置及电子设备 | |
CN111640445A (zh) | 音频差异检测方法、装置、设备及可读存储介质 | |
CN110827849A (zh) | 数据建库的人声分离方法、装置、终端及可读存储介质 | |
CN112381091B (zh) | 视频内容识别方法、装置、电子设备及存储介质 | |
CN110827834B (zh) | 声纹注册方法、系统及计算机可读存储介质 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
WO2023142396A1 (zh) | 重定位模块的测试方法及装置、设备、系统、介质、计算机程序、计算机程序产品 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN111640454A (zh) | 频谱图匹配方法、装置、设备及计算机可读存储介质 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN110992930A (zh) | 声纹特征提取方法、装置、终端及可读存储介质 | |
CN111145604A (zh) | 绘本识别方法、装置及计算机可读存储介质 | |
CN111627422B (zh) | 语音加速检测方法、装置、设备及可读存储介质 | |
CN110970035B (zh) | 单机语音识别方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |