CN112433797B - 可视化语音信号处理方法及系统 - Google Patents

可视化语音信号处理方法及系统 Download PDF

Info

Publication number
CN112433797B
CN112433797B CN202011326006.XA CN202011326006A CN112433797B CN 112433797 B CN112433797 B CN 112433797B CN 202011326006 A CN202011326006 A CN 202011326006A CN 112433797 B CN112433797 B CN 112433797B
Authority
CN
China
Prior art keywords
developer
audio
interface
point
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011326006.XA
Other languages
English (en)
Other versions
CN112433797A (zh
Inventor
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202011326006.XA priority Critical patent/CN112433797B/zh
Publication of CN112433797A publication Critical patent/CN112433797A/zh
Application granted granted Critical
Publication of CN112433797B publication Critical patent/CN112433797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开一种可视化语音信号处理方法及系统,方法包括:响应于开发者对音频文件的输入操作,向开发者展示功能选择界面;基于开发者对显示控件的操作,向开发者展示音频对点分析子界面;响应于开发者在音频对点分析子界面对至少一个自定义参数的设置,从开发者输入音频文件中获取至少两个采样音频数据;判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;若至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。使得开发者在对语音信号进行处理时,能够实现交互处理,从而有效地提高开发人员的工作效率以及操作的正确性。

Description

可视化语音信号处理方法及系统
技术领域
本发明属于语音信号处理技术领域,尤其涉及一种可视化语音信号处理方法及系统。
背景技术
针对语音信号处理,现有技术中常采用audacity音频编辑分析软件或matlab用于数据分析、无线通信、深度学习、信号处理等功能的数学软件。
但是,发明人在实现本申请的过程中发现:audacity对pcm文件操作不够友好,对音频操作如拆分、合并通道、加音频头等并不是比特一致的或者需要复杂的设置才可以。matlab和c工程代码的计算不是比特一致,不能比特一致会导致误判,在对比一致性过程中浪费研究和工程的时间以及matlab程序调式算力更高,更耗费时间。
发明内容
本发明实施例提供一种可视化语音信号处理方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种可视化语音信号处理方法,包括:响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面,其中,所述功能选择界面中包含显示控件;基于开发者对所述显示控件的操作,向所述开发者展示音频对点分析子界面,其中,所述音频对点分析子界面用于采集所述开发者设置的至少一个自定义参数;响应于开发者在所述音频对点分析子界面对至少一个自定义参数的设置,从所述开发者输入音频文件中获取至少两个采样音频数据,其中,各个所述采样音频数据不相同;判断所述至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;若所述至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向所述开发者展示所述至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
第二方面,本发明实施例提供一种语音信号处理系统,包括:第一显示模块,配置为响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面,其中,所述功能选择界面中包含显示控件;第二显示模块,配置为基于开发者对所述显示控件的操作,向所述开发者展示音频对点分析子界面,其中,所述音频对点分析子界面用于采集所述开发者设置的至少一个自定义参数;获取模块,配置为响应于开发者在所述音频对点分析子界面对至少一个自定义参数的设置,从所述开发者输入音频文件中获取至少两个采样音频数据,其中,各个所述采样音频数据不相同;判断模块,配置为判断所述至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;输出模块,配置为若所述至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向所述开发者展示所述至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的可视化语音信号处理方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的可视化语音信号处理方法的步骤。
本申请的方法及系统采用可视化界面,使得开发者在对语音信号进行处理时,能够实现交互处理,从而有效地提高开发人员的工作效率以及操作的正确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种可视化语音信号处理方法的流程图;
图2为本发明一实施例提供的又一种可视化语音信号处理方法的流程图;
图3为本发明一实施例提供的再一种可视化语音信号处理方法的流程图;
图4为本发明一实施例提供的还一种可视化语音信号处理方法的流程图;
图5为本发明一实施例提供的一具体实施例的可视化语音信号处理系统的结构框图;
图6为本发明一实施例提供的一具体实施例的可视化语音信号处理系统的功能流程图;
图7为本发明一实施例提供的又一具体实施例的可视化语音信号处理系统的功能流程图;
图8为本发明一实施例提供的再一具体实施例的可视化语音信号处理系统的功能流程图;
图9为本发明一实施例提供的一种可视化语音信号处理系统的框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的可视化语音信号处理方法一实施例的流程图,本实施例的可视化语音信号处理方法可以适用于具备语音信号处理功能的终端,如智能手机、笔记本电脑以及其他现有的支持语音信号处理的智能终端。
如图1所示,本实施例的可视化语音信号处理方法,包括以下步骤:
步骤101,响应于开发者对音频文件的输入操作,向开发者展示功能选择界面,其中,功能选择界面中包含显示控件。
在本实施例中,对于步骤101,在开发者打开可视化语音信号处理系统之后,可视化语音信号处理系统响应于开发者对音频文件的输入操作,向开发者展示功能选择界面,其中,功能选择界面中包含显示控件。这样使得开发者在进行语音信号处理过程中,可视化语音信号处理系统能够向开发者展示与开发者操作相对应界面,从而实现语音信号处理过程的可视化。
步骤102,基于开发者对显示控件的操作,向开发者展示音频对点分析子界面,其中,音频对点分析子界面用于采集开发者设置的至少一个自定义参数。
在本实施例中,对于步骤102,在开发者对显示控件进行操作后,可视化语音信号处理系统向开发者展示音频对点分析子界面,其中,音频对点分析子界面用于采集开发者设置的至少一个自定义参数。例如,开发者对显示控件进行手动点选操作,可视化语音信号处理系统向开发者展示音频对点分析子界面。
步骤103,响应于开发者在音频对点分析子界面对至少一个自定义参数的设置,从开发者输入音频文件中获取至少两个采样音频数据,其中,各个采样音频数据不相同。
在本实施例中,对于步骤103,在可视化语音信号处理系统向用户展示音频对点分析子界面之后,可视化语音信号处理系统响应于开发者在音频对点分析子界面内输入至少一个自定义参数,从开发者输入音频文件中获取至少两个采样音频数据,其中,自定义参数可以是采样点、帧移时长或通道数。这样,通过开发者在音频对点分析子界面内输入至少一个自定义参数,能够实现开发者对音频文件进行自定义取样。例如,开发者通过输入两个不同的帧移时长进行截取音频文件,从而获得两个不同的采样音频数据。再例如,开发者通过输入两组不同的帧移时长和通道数的数值,从而获得两个不同的采样音频数据。
步骤104,判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值。
在本实施例中,对于步骤104,可视化语音信号处理系统判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值。通过比对两个采样音频数据的一致性数值是否大于预设的一致性阈值,能够判断当前的至少两个采样音频数据的一致性是否过关。
步骤105,若至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
在本实施例中,对于步骤105,若至少两个采样音频数据的一致性数值大于预设的一致性阈值,可视化语音信号处理系统则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。这样,通过向开发者展示采样音频的作差曲线,使得开发者能够直观的判断当前的至少两个采样音频的一致性是否过关,从而能够提高开发者的工作效率。
上述的方法中,可视化语音信号处理系统向开发者展示与开发者各个操作相对应的界面,能够便于开发者对各个步骤的正确性进行检查,而且通过开发者截取两个不同的采样音频,可视化语音信号处理系统能够向开发者展示至少两个采样音频的作差曲线,能够实现可视化交互处理语音信号,从而有效地提高开发人员的工作效率以及操作的正确性。
在一些可选的实施例中,其中,在输出第一次超过阈值的帧号之后,方法还包括:响应于获取的帧号,对至少两个采样音频数据进行debug分析。这样,通过对采样音频数据进行debug分析,以便开发者后续对采样音频数据一致性调整的操作。
请参阅图2,其示出了本申请一实施例提供的又一种可视化语音信号处理方法的流程图。该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图。
如图2所示,本实施例的可视化语音信号处理方法,还包括以下步骤:
步骤201,基于开发者对显示控件的操作,向开发者展示图形分析子界面,其中,图形分析子界面中包含生成语谱图子控件。
在本实施例中,对于步骤201,基于开发者对显示控件的操作,可视化语音信号处理系统向开发者展示图形分析子界面,其中,图形分析子界面中包含生成语谱图子控件。
上述操作完成后,通过向开发者展示图形分析子界面,使得开发者在图形分析子界面上进行操作,从而进行后续交互操作。
步骤202,响应于开发者对生成语谱图子控件的操作,向开发者展示音频语谱图以及音频波形图。
在本实施例中,对于步骤202,响应于开发者对生成语谱图子控件的操作,可视化语音信号处理系统向开发者展示音频语谱图以及音频波形图。使得开发者能够查看音频的波形图和语谱图。
请参阅图3,其示出了本申请一实施例提供的又一种可视化语音信号处理方法的流程图。该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图,其中,功能选择界面中还包括音频编辑控件。
如图3所示,本实施例的可视化语音信号处理方法,还包括以下步骤:
步骤301,响应于开发者对算法分析控件的操作,python控制ctypes接口调用C信号处理算法库,其中,C信号处理算法库包含回声消除算法、波束成形算法、盲源分离算法以及自动增益控制算法。
在本实施例中,对于步骤301,响应于开发者对算法分析控件的操作,可视化语音信号处理系统中的python控制ctypes接口调用C信号处理算法库,其中,C信号处理算法库包含回声消除算法、波束成形算法、盲源分离算法以及自动增益控制算法。
步骤302,基于不同的算法进行组合成不同的算法链路,对原始音频文件进行分析并输出信号处理后的处理音频文件。
在本实施例中,对于步骤302,通过配置选择不同的资源来组合成不同的算法链路,即可能够实现离线调试分析。
上述的方法中,相对于matlab mex接口,python接口开发更容易,利用ctypes库直接调用库文件,可以根据不同需求对算法模块任意组合,对于研究和开发人员分析调试更加方便。
请参阅图4,其示出了本申请一实施例提供的又一种可视化语音信号处理方法的流程图。该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图,其中,功能选择界面中还包括音频编辑控件。
如图4所示,本实施例的可视化语音信号处理方法,还包括以下步骤:
步骤401,基于开发者对音频编辑控件的操作,向开发者展示编辑功能栏。
在本实施例中,对于步骤401,基于开发者对音频编辑控件的操作,可视化语音信号处理系统向开发者展示编辑功能栏。这样,能够使得开发者能够对音频进行编辑操作。
步骤402,响应于开发者对编辑功能栏的编辑操作,对编辑功能栏进行内容填充,使完成音频编辑操作。
在本实施例中,响应于开发者对编辑功能栏的编辑操作,可视化语音信号处理系统对编辑功能栏进行内容填充,使完成音频编辑操作。
上述方法中对音频编辑处理都是比特一致的,且可视化工具更加方便。
在一些可选的实施例中,编辑功能栏包括pcm文件转换wav文件功能栏、合并通道功能栏、通道拆分功能栏、截取音频功能栏以及wav文件转换pcm文件功能栏。相对于现有技术中的音频编辑,丰富了音频编辑功能。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:
1)、matlab的浮点运算是基于double数据类型,而c工程为了节省算力和内存多数会用float类型从而导致精度不一致。matlab也会调用第三方数学库,也会导致和C工程的差异;
2)、通过matlab mex接口去调用C库操作比较复杂;
3)、audacity对音频的操作默认属性不是比特一致的,会破坏数据的一致性。
本申请的方案主要从以下几个方面入手进行设计和优化来解决比特不一致、操作复杂以及会破坏数据的一致性的技术问题:
1)、对音频编辑处理(增加wav头、通道拆分、通道合并等操作)都是比特一致的,且可视化工具更加方便;
2)、相对于matlab mex接口,python接口开发更容易,利用ctypes库直接调用库文件,可以根据不同需求对算法模块任意组合,对于研究和开发人员分析调试更加方便;
3)、增加了音频对点模式,通过对c工程的音频和matlab跑出来的音频文件进行对点,对点差异超过阈值则表示一致性不过关,则输出首次超过阈值的帧号,方便工程开发人员通过帧号进一步debug分析。
如图5所示,首先根据登陆密码的权限是否为开发者,如果没有密码则直接跳过登陆界面,仅有编辑音频功能权限,如果密码正确则可以享有语音算法分析功能模块、音频编辑模块、显示功能模块等全功能权限。
请参阅图6,其示出了本申请的一具体实施例的可视化语音信号处理系统的功能流程图。
如图6所示,音频编辑功能模块包括五个功能,分别是pcm文件转换成wav、wav转换成pcm文件、多个单通道音频合并成一个多通道音频、一个多通道音频拆分成多个单通道音频、通过选取时长来截取音频。本模块所有操作均为比特一致操作,不会影响音频编辑前后的一致性,给语音信号处理的研究开发人员提供了一站式服务、大大提高工作效率。
请参阅图7,其示出了本申请的又一具体实施例的可视化语音信号处理系统的功能流程图。
如图7所示,可视化语音信号处理系统基于PyQt去完成GUI的设计及代码的编写的,采用MVC设计模式即Model-View-Controller(模型-视图-控制器)模式,此模式用于应用程序的分层开发,GUI通过qtDesigner设计,业务逻辑控制通过Python编写,python通过调用ctypes接口去调用C信号处理算法库,算法库包含(回声消除、波束成形、盲源分离、自动增益控制等等)。python调用platform.system()调用不同平台下的库(linux调用.so库,windows调用.dll库),根据需求如图7所示,配置选择不同的资源来组合成不同的算法链路,便可以进行离线调试分析。
请参阅图8,其示出了本申请的再一具体实施例的可视化语音信号处理系统的功能流程图。
如图8所示,显示功能模块可以查看音频的波形图和语谱图,也可以对不同音频的一致性对点分析,并画出对比音频的差异曲线,一般在工程实现中,c和matlab的一致性(即输出采样点的差异)要在一定的阈值范围内,工程开发人员可以通过实现情况设置阈值范围,如果差异超过阈值则表示一致性不过关,则输出首次超过阈值的帧号,方便工程开发人员通过帧号进一步debug分析。
请参阅图9,其示出了本发明一实施例提供的一种可视化语音信号处理系统的框图。
如图9所示,可视化语音信号处理系统500,包括第一显示模块510、第二显示模块520、获取模块530、判断模块540以及输出模块550。
其中,第一显示模块510,配置为响应于开发者对音频文件的输入操作,向开发者展示功能选择界面,其中,功能选择界面中包含显示控件;第二显示模块520,配置为基于开发者对显示控件的操作,向开发者展示音频对点分析子界面,其中,音频对点分析子界面用于采集开发者设置的至少一个自定义参数;获取模块530,配置为响应于开发者在音频对点分析子界面对至少一个自定义参数的设置,从开发者输入音频文件中获取至少两个采样音频数据,其中,各个采样音频数据不相同;判断模块540,配置为判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;输出模块550,配置为若至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
应当理解,图9中记载的诸单元与参考图1、图2、图3以及图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9中的诸单元,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如判断模块可以描述为判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如判断模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的可视化语音信号处理方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于开发者对音频文件的输入操作,向开发者展示功能选择界面,其中,功能选择界面中包含显示控件;
基于开发者对显示控件的操作,向开发者展示音频对点分析子界面,其中,音频对点分析子界面用于采集开发者设置的至少一个自定义参数;
响应于开发者在音频对点分析子界面对至少一个自定义参数的设置,从开发者输入音频文件中获取至少两个采样音频数据,其中,各个采样音频数据不相同;
判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;
若至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据可视化语音信号处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至可视化语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项可视化语音信号处理方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示,该设备包括:一个或多个处理器610以及存储器620,图10中以一个处理器610为例。可视化语音信号处理方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例可视化语音信号处理方法。输入装置630可接收输入的数字或字符信息,以及产生与可视化语音信号处理装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于可视化语音信号处理装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于开发者对音频文件的输入操作,向开发者展示功能选择界面,其中,功能选择界面中包含显示控件;
基于开发者对显示控件的操作,向开发者展示音频对点分析子界面,其中,音频对点分析子界面用于采集开发者设置的至少一个自定义参数;
响应于开发者在音频对点分析子界面对至少一个自定义参数的设置,从开发者输入音频文件中获取至少两个采样音频数据,其中,各个采样音频数据不相同;
判断至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;
若至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向开发者展示至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种可视化语音信号处理方法,包括:
响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面,其中,所述功能选择界面中包含显示控件;
基于开发者对所述显示控件的操作,向所述开发者展示音频对点分析子界面,其中,所述音频对点分析子界面用于采集所述开发者设置的至少一个自定义参数;
响应于开发者在所述音频对点分析子界面对至少一个自定义参数的设置,从所述开发者输入音频文件中获取至少两个采样音频数据,其中,各个所述采样音频数据不相同;
判断所述至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;
若所述至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向所述开发者展示所述至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号,所述作差曲线为表示所述至少两个采样音频的差异的曲线。
2.根据权利要求1所述的方法,其中,基于开发者对所述显示控件的操作,向所述开发者展示音频对点分析子界面之前,所述方法还包括:
基于开发者对所述显示控件的操作,向所述开发者展示图形分析子界面,其中,所述图形分析子界面中包含生成语谱图子控件;
响应于开发者对所述生成语谱图子控件的操作,向所述开发者展示音频语谱图以及音频波形图。
3.根据权利要求1所述的方法,其中,在输出第一次超过阈值的帧号之后,所述方法还包括:
响应于获取的所述帧号,对所述至少两个采样音频数据进行debug分析。
4.根据权利要求1所述的方法,其中,在响应于开发者在所述音频对点分析子界面对至少一个自定义参数的设置,从所述开发者输入音频文件中获取至少两个采样音频数据中,自定义参数包括:采样点、帧移时长或通道数。
5.根据权利要求1所述的方法,其中,所述功能选择界面中还包括算法分析控件,在响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面之后,所述方法还包括:
响应于开发者对所述算法分析控件的操作,python控制ctypes接口调用C信号处理算法库,其中,所述C信号处理算法库包含回声消除算法、波束成形算法、盲源分离算法以及自动增益控制算法;
基于不同的算法进行组合成不同的算法链路,对原始音频文件进行分析并输出信号处理后的处理音频文件。
6.根据权利要求1所述的方法,其中,所述功能选择界面中还包括音频编辑控件,在响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面之后,所述方法还包括:
基于开发者对所述音频编辑控件的操作,向所述开发者展示编辑功能栏;
响应于开发者对所述编辑功能栏的编辑操作,对所述编辑功能栏进行内容填充,使完成音频编辑操作。
7.根据权利要求6所述的方法,其中,所述编辑功能栏包括pcm文件转换wav文件功能栏、合并通道功能栏、通道拆分功能栏、截取音频功能栏以及wav文件转换pcm文件功能栏。
8.一种语音信号处理系统,包括:
第一显示模块,配置为响应于开发者对音频文件的输入操作,向所述开发者展示功能选择界面,其中,所述功能选择界面中包含显示控件;
第二显示模块,配置为基于开发者对所述显示控件的操作,向所述开发者展示音频对点分析子界面,其中,所述音频对点分析子界面用于采集所述开发者设置的至少一个自定义参数;
获取模块,配置为响应于开发者在所述音频对点分析子界面对至少一个自定义参数的设置,从所述开发者输入音频文件中获取至少两个采样音频数据,其中,各个所述采样音频数据不相同;
判断模块,配置为判断所述至少两个采样音频数据的一致性数值是否大于预设的一致性阈值;
输出模块,配置为若所述至少两个采样音频数据的一致性数值大于预设的一致性阈值,则向所述开发者展示所述至少两个采样音频的作差曲线,并输出第一次超过阈值的音频帧号,所述作差曲线为表示所述至少两个采样音频的差异的曲线。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202011326006.XA 2020-11-23 2020-11-23 可视化语音信号处理方法及系统 Active CN112433797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011326006.XA CN112433797B (zh) 2020-11-23 2020-11-23 可视化语音信号处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011326006.XA CN112433797B (zh) 2020-11-23 2020-11-23 可视化语音信号处理方法及系统

Publications (2)

Publication Number Publication Date
CN112433797A CN112433797A (zh) 2021-03-02
CN112433797B true CN112433797B (zh) 2022-07-08

Family

ID=74693798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011326006.XA Active CN112433797B (zh) 2020-11-23 2020-11-23 可视化语音信号处理方法及系统

Country Status (1)

Country Link
CN (1) CN112433797B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133246A1 (en) * 2001-03-02 2002-09-19 Hong-Kee Kim Method of editing audio data and recording medium thereof and digital audio player
CN109408815A (zh) * 2018-10-09 2019-03-01 苏州思必驰信息科技有限公司 用于语音对话平台的词库管理方法和系统
CN110096612A (zh) * 2019-05-06 2019-08-06 苏州思必驰信息科技有限公司 语音日志的在线音频分析数据的获取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133246A1 (en) * 2001-03-02 2002-09-19 Hong-Kee Kim Method of editing audio data and recording medium thereof and digital audio player
CN109408815A (zh) * 2018-10-09 2019-03-01 苏州思必驰信息科技有限公司 用于语音对话平台的词库管理方法和系统
CN110096612A (zh) * 2019-05-06 2019-08-06 苏州思必驰信息科技有限公司 语音日志的在线音频分析数据的获取方法及系统

Also Published As

Publication number Publication date
CN112433797A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN107516510B (zh) 一种智能设备自动化语音测试方法及装置
CN111063353B (zh) 允许自定义语音交互内容的客户端处理方法及用户终端
CN111312218B (zh) 神经网络的训练和语音端点检测方法及装置
CN105611491B (zh) 一种蓝牙连接方法及装置
KR20210098397A (ko) 차량용 기기의 응답 속도 테스트 방법, 장치, 기기 및 저장매체
CN111143004A (zh) 一种场景引导方法、装置、电子设备及存储介质
CN105069013A (zh) 在搜索界面中提供输入接口的控制方法和装置
CN112416775B (zh) 基于人工智能的软件自动化测试方法、装置及电子设备
CN109637536B (zh) 一种自动化识别语义准确性的方法及装置
CN112102828A (zh) 大屏幕自动播报内容的语音控制方法及系统
CN106951248A (zh) 添加代码的方法、装置和可读存储介质
CN108509175B (zh) 一种语音交互方法及电子设备
CN112882930A (zh) 自动化测试方法、装置、存储介质及电子设备
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
CN105809117A (zh) 一种信息提示方法及用户终端
CN109857910B (zh) Xml文件的生成方法、装置、计算机设备及存储介质
CN110855626A (zh) 电子白板丢包处理方法、系统、介质和电子设备
CN112433797B (zh) 可视化语音信号处理方法及系统
WO2024099359A1 (zh) 语音检测的方法和装置、电子设备和存储介质
CN110909522B (zh) 一种数据处理方法、装置和电子设备及介质
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN113129909A (zh) 单麦克风语音数据处理方法、装置及计算机存储介质
US20230005490A1 (en) Packet loss recovery method for audio data packet, electronic device and storage medium
CN107967363B (zh) 一种数据处理方法、装置及电子设备
CN115577363A (zh) 恶意代码反序列化利用链的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant