CN116994597A - 一种音频处理系统、方法及存储介质 - Google Patents

一种音频处理系统、方法及存储介质 Download PDF

Info

Publication number
CN116994597A
CN116994597A CN202311244179.0A CN202311244179A CN116994597A CN 116994597 A CN116994597 A CN 116994597A CN 202311244179 A CN202311244179 A CN 202311244179A CN 116994597 A CN116994597 A CN 116994597A
Authority
CN
China
Prior art keywords
audio
track
voice
data
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311244179.0A
Other languages
English (en)
Other versions
CN116994597B (zh
Inventor
何开武
卢艳亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shengpuda Sound Technology Co ltd
Original Assignee
Guangzhou Shengpuda Sound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shengpuda Sound Technology Co ltd filed Critical Guangzhou Shengpuda Sound Technology Co ltd
Priority to CN202311244179.0A priority Critical patent/CN116994597B/zh
Publication of CN116994597A publication Critical patent/CN116994597A/zh
Application granted granted Critical
Publication of CN116994597B publication Critical patent/CN116994597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频处理系统、方法及存储介质,属于数字多媒体技术领域。为解决在对音频进行存储或调取时难以对音频关键内容进行统一识别备注的问题,音频转译模块对人声子音轨进行语音识别,特征捕捉模块对环境子音轨中的环境音进行特征捕捉提取及匹配,从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配,可以对大量的音频文件进行识别处理,从而通过自动识别匹配提高对音频的处理效率,标签处理模块基于信息识别单元生成的信息识别结果生成音频内容关联标签,从而可以根据音频的内容进行基本搜索,从而可以提高对相关音频的检索效率,无需人工对音频进行查看即可对内容进行先行的识别和标注。

Description

一种音频处理系统、方法及存储介质
技术领域
本发明涉及数字多媒体技术领域,特别涉及一种音频处理系统、方法及存储介质。
背景技术
随着数字多媒体技术的快速发展,越来越多的多媒体技术应用到人们的工作和生活中,在多媒体系统的工作中,对音频文件进行处理是必不可少的一项工作。
音频一词已用作一般性描述音频范围内和声音有关的设备及其作用。人类能够听到的所有声音都称之为音频,它可能包括噪音等。声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理,或是把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。如果有计算机再加上相应的音频卡-就是我们经常说的声卡,可以把所有的声音录制下来,声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存下来。
在对音频进行实际的存储处理操作中还存在以下问题:
1、在对音频数据进行分析处理时,往往因为其音质或噪声问题影响对音频数据的使用,同时也会降低对音频内容的识别分析效果。
2、在对音频数据进行存储时,往往都是根据音频的时间或名称进行分区域存储,在进行存储时难以对音频的具体内容或关键信息进行批量的处理,从而使得后续在对音频文件进行调取获取用时带来不便。
3、在对音频进行检索和调取时,往往都是根据音频名称或者音频的时间进行选择调取,在需要对某一特定内容的音频进行调取时往往需要人工进行检索和查看,调取的效率和准确率都收到一定的影响。
发明内容
本发明的目的在于提供一种音频处理系统、方法及存储介质,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种音频处理系统,包括:
数据采集单元,用于:
对音频数据文件进行采集获取,并对所采集的音频数据文件进行预处理,并对经过预处理的音频文件进行文件输出;
音频处理单元,用于:
对数据采集单元所输出的音频文件进行处理,对音频文件进行整体的降噪优化,同时对完成优化的音频文件进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨;
音频分析单元,用于:
基于音频处理单元所生成的子音轨,对子音轨进行音频分析,基于人声子音轨对人声音频进行智能识别分析,对人声音频进行文字转化并输出人声内容,基于环境子音轨对环境音频进行环境音识别及归类,并根据归类结果对环境音频赋予相对应的环境标签;
信息识别单元,用于:
基于音频分析单元所输出的人声内容,对人声内容进行信息识别,并对音频文件所对应的人声内容的关键信息进行提取和整理;
结果导出单元,用于:
对信息识别单元的识别结果进行分类结果导出。
进一步的,所述数据采集单元包括:
数据获取模块,用于:
对音频数据进行采集获取,对音频数据进行声音信号转换并转换为音频信号,并对音频信号进行传输;
信号处理模块,用于:
获取到目标音频信号,基于数据获取模块所采集获取的目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
数据输出模块,用于:
基于数据处理模块的处理结果对音频信号进行信号数据输出。
进一步的,所述音频处理单元包括:
音频接收模块,用于:
对数据采集单元所传输的音频数据文件的音频信号数据进行接收;
音频优化模块,用于:
对音频数据文件进行音频数据优化,在进行优化时,对输入的音频数据文件进行基音分析,对基音进行谐波噪声去除,对完成噪声去除的基因进行音频特征提取,根据特征提取的结构对音频数据进行噪声频谱估计并得出频带增益,对原始音频信号进行增益处理,优化完成后输出音频优化数据;
音频提取模块,用于:
对完成优化的音频优化数据进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨。
进一步的,所述音频分析单元包括:
音频转译模块,用于:
对人声子音轨进行语音识别,并且对人声子音轨中的人声语音进行识别转译,对所转译出的人生语音内容进行文本数据记录并生成音轨内容文档数据;
特征捕捉模块,用于:
对环境子音轨中的环境音进行特征捕捉提取,将所提取出的环境特征音进行组合,生成环境特征组;
环境匹配模块,用于:
搭建特征匹配模型,将环境特征组放入特征匹配模型中进行特征匹配,根据特征匹配的结果对环境子音轨进行环境归类,并根据归类结果对音频数据赋予相对应的环境标签。
进一步的,所述音频分析单元还包括:
会话方关系判断模块,用于:
获取音轨内容文档数据中会话方的相互称谓信息,通过提取关键词确定会话主题,根据相互称谓信息和会话主题判断参与会话相关方的相互关系;
语境确定模块,用于:
根据参与会话相关方的相互关系、会话主题和环境标签,确定会话相关方的会话语境;
专业验证模块,用于:
根据会话语境确定会话涉及的专业领域,通过专业领域调取对应专业领域的专业术语词典,对人声子音轨进行二次语音识别,在二次语音识别过程中参照专业术语词典,对人声子音轨中存在与专业术语词典中内容发音相似度超过设定阈值的人声子音轨片段,采用专业术语词典中内容对相应的音轨内容文档数据进行更正。
进一步的,所述信息识别单元包括:
信息识别模块,用于:
对音轨内容文档数据进行特征捕捉提取,对音轨内容文档数据中的关键词信息进行高亮处理,对高亮处理的关键词信息进行整合并进行逻辑排序处理,输出音轨信息组;
信息关联模块,用于:
将音轨信息组与环境标签进行关联,并生成信息识别结果。
进一步的,所述结果导出单元包括:
标签处理模块,用于:
基于信息识别单元生成的信息识别结果生成音频内容关联标签,并将音频内容关联标签与相对应的音频数据文件进行匹配;
音频导出模块,用于:
对完成音频内容关联标签匹配的音频数据文件进行导出。
进一步的,所述专业验证模块包括:
人声音轨转化子模块,用于:
对专业术语词典中涉及的专业术语内容分别进行人声音轨模拟转化,得到专业术语内容的术语模拟音轨库;
图像化子模块,用于:
将人声子音轨转化为人声音轨曲线图像;并将术语模拟音轨库中的各术语模拟音轨转化为对应的术语模拟音轨曲线片段;
相似度计算子模块,用于:
遍历人声音轨曲线图像上的节点,以各节点为起点,根据用于对比的术语模拟音轨曲线片段长度,在人声音轨曲线图像上分别截取人声音轨曲线片段,将人声音轨曲线片段与术语模拟音轨曲线片段的起点模拟重合,然后采用以下公式计算起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值:
上式中,表示起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值;/>表示人声音轨曲线片段上第/>个节点的横坐标;/>表示术语模拟音轨曲线片段上第/>个节点的横坐标;/>表示人声音轨曲线片段上第/>个节点的纵坐标;/>表示术语模拟音轨曲线片段上第/>个节点的纵坐标,其中i为正整数,n为人声音轨迹曲线片段上的节点总数,取值正整数;
采用距离均值作为发音相似度,用于和设定阈值进行对比,若发音相似度超过设定阈值,即认定为人声音轨曲线片段对应的内容涉及专业术语内容,需要采用专业术语内容进行更正。
本申请实施例还提供一种音频处理方法,包括以下步骤:
音频采集,对音频数据进行采集获取并转换为音频信号,对目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
音频处理,对音频数据文件进行音频数据优化,对基音进行谐波噪声去除,并对原始音频信号进行增益处理,优化完成后输出音频优化数据,对音频优化数据进行音频数据分类提取,并根据数据种类生成人声子音轨和环境子音轨;
音频分析,对人声子音轨进行语音识别并转译,生成音轨内容文档数据,对环境子音轨中的环境音进行特征捕捉提取并组合生成环境特征组,搭建特征匹配模型对环境特征组进行特征匹配并环境归类,根据归类结果对音频数据赋予相对应的环境标签;
信息识别,对音轨内容文档数据进行特征捕捉提取并输出音轨信息组,将音轨信息组与环境标签进行关联,并生成信息识别结果;
结果导出,生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的音频处理系统。
与现有技术相比,本发明的有益效果是:
1.现有技术下,在对音频数据进行分析处理时,往往因为其音质或噪声问题影响对音频数据的使用,同时也会降低对音频内容的识别分析效果,而本发明的音频优化模块对音频数据文件进行音频数据优化,通过音频优化模块可以对采集到的音频进行预处理,从而对音频数据进行优化处理,对音频中的噪声进行一层去除处理,不仅提高了后续在对音频调取使用时的音频整体质量,同时也提高了后续对音频内容进行智能识别分析时的准确性,提高音频的处理效果。
2.现有技术下,在对音频数据进行存储时,往往都是根据音频的时间或名称进行分区域存储,在进行存储时难以对音频的具体内容或关键信息进行批量的处理,从而使得后续在对音频文件进行调取获取用时带来不便,而本发明的音频转译模块对人声子音轨进行语音识别,特征捕捉模块对环境子音轨中的环境音进行特征捕捉提取及匹配,通过音频转译模块可以对音频中的人声内容进行识别并转译,同时与信息识别模块交互,可以对人声内容中的关键信息进行提取总结,通过特征捕捉模块可以环境音中的特征因素进行捕捉识别,从对音频的整体环境因素进行匹配并生成环境标签,从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配,可以对大量的音频文件进行识别处理,从而通过自动识别匹配提高对音频的处理效率。
3.现有技术下,在对音频进行检索和调取时,往往都是根据音频名称或者音频的时间进行选择调取,在需要对某一特定内容的音频进行调取时往往需要人工进行检索和查看,调取的效率和准确率都收到一定的影响,而本发明的标签处理模块基于信息识别单元生成的信息识别结果生成音频内容关联标签,并将音频内容关联标签与相对应的音频数据文件进行匹配,经过处理后的音频在导出后可以通过音频内容关联标签与音频的内容进行一定的相关性匹配,从而在对音频进行检索调取或使用时,根据音频的内容进行基本搜索,从而可以提高对相关音频的检索效率,无需人工对音频进行查看即可对内容进行先行的识别和标注,提高在对音频进行储存和调用时的便利性。
附图说明
图1为本发明音频处理系统的模块示意图;
图2为本发明音频处理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:
一种音频处理系统,包括:
数据采集单元,用于:
对音频数据文件进行采集获取,并对所采集的音频数据文件进行预处理,并对经过预处理的音频文件进行文件输出;
音频处理单元,用于:
对数据采集单元所输出的音频文件进行处理,对音频文件进行整体的降噪优化,同时对完成优化的音频文件进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨;
音频分析单元,用于:
基于音频处理单元所生成的子音轨,对子音轨进行音频分析,基于人声子音轨对人声音频进行智能识别分析,对人声音频进行文字转化并输出人声内容,基于环境子音轨对环境音频进行环境音识别及归类,并根据归类结果对环境音频赋予相对应的环境标签;
信息识别单元,用于:
基于音频分析单元所输出的人声内容,对人声内容进行信息识别,并对音频文件所对应的人声内容的关键信息进行提取和整理;
结果导出单元,用于:
对信息识别单元的识别结果进行分类结果导出。
具体的,在系统进行工作时,对音频数据进行采集获取并转换为音频信号,对目标音频信号进行压缩处理并得到压缩音频信号,对音频数据文件进行音频数据优化,对音频优化数据进行音频数据分类提取,并根据数据种类生成人声子音轨和环境子音轨,对人声子音轨进行语音识别并转译,对环境子音轨中的环境特征组进行特征匹配并环境归类,根据归类结果对音频数据赋予相对应的环境标签,对音轨内容文档数据进行特征捕捉提取并输出音轨信息组,将音轨信息组与环境标签进行关联,并生成信息识别结果,最后生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。
数据采集单元包括:
数据获取模块,用于:
对音频数据进行采集获取,对音频数据进行声音信号转换并转换为音频信号,并对音频信号进行传输;
信号处理模块,用于:
获取到目标音频信号,基于数据获取模块所采集获取的目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
数据输出模块,用于:
基于数据处理模块的处理结果对音频信号进行信号数据输出。
音频处理单元包括:
音频接收模块,用于:
对数据采集单元所传输的音频数据文件的音频信号数据进行接收;
音频优化模块,用于:
对音频数据文件进行音频数据优化,在进行优化时,对输入的音频数据文件进行基音分析,对基音进行谐波噪声去除,对完成噪声去除的基因进行音频特征提取,根据特征提取的结构对音频数据进行噪声频谱估计并得出频带增益,对原始音频信号进行增益处理,优化完成后输出音频优化数据;
音频提取模块,用于:
对完成优化的音频优化数据进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨。
具体的,通过音频优化模块可以对采集到的音频进行预处理,从而对音频数据进行优化处理,对音频中的噪声进行一层去除处理,不仅提高了后续在对音频调取使用时的音频整体质量,同时也提高了后续对音频内容进行智能识别分析时的准确性,提高音频的处理效果。
音频分析单元包括:
音频转译模块,用于:
对人声子音轨进行语音识别,并且对人声子音轨中的人声语音进行识别转译,对所转译出的人生语音内容进行文本数据记录并生成音轨内容文档数据;
特征捕捉模块,用于:
对环境子音轨中的环境音进行特征捕捉提取,将所提取出的环境特征音进行组合,生成环境特征组;
环境匹配模块,用于:
搭建特征匹配模型,将环境特征组放入特征匹配模型中进行特征匹配,根据特征匹配的结果对环境子音轨进行环境归类,并根据归类结果对音频数据赋予相对应的环境标签。
所述音频分析单元还包括:
会话方关系判断模块,用于:
获取音轨内容文档数据中会话方的相互称谓信息,通过提取关键词确定会话主题,根据相互称谓信息和会话主题判断参与会话相关方的相互关系;
语境确定模块,用于:
根据参与会话相关方的相互关系、会话主题和环境标签,确定会话相关方的会话语境;
专业验证模块,用于:
根据会话语境确定会话涉及的专业领域,通过专业领域调取对应专业领域的专业术语词典,对人声子音轨进行二次语音识别,在二次语音识别过程中参照专业术语词典,对人声子音轨中存在与专业术语词典中内容发音相似度超过设定阈值的人声子音轨片段,采用专业术语词典中内容对相应的音轨内容文档数据进行更正。
上述方案通过初次得到的音轨内容文档数据中会话方的相互称谓信息,以及通过提取关键词确定会话主题,判断参与会话相关方的相互关系;再结合参与会话相关方的相互关系、会话主题和环境标签,确定会话相关方的会话语境;根据会话语境确定会话涉及的专业领域,若不属于专业性会话,则不进行下面的步骤,若涉及专业性会话,则通过专业领域调取对应专业领域的专业术语词典,通过对人声子音轨进行二次语音识别,引入专业术语词典作为专业术语参照,通过发音相似度与设定阈值的对比确定是否涉及专业术语内容;如果发音相似度超过设定阈值,则表示涉及专业术语内容,原来语音识别时得出的音轨内容文档数据可能存在错误或者偏差,需要采用专业术语内容进行更正,从而提高对具有专业性会话的音轨内容文档数据的准确性。
信息识别单元包括:
信息识别模块,用于:
对音轨内容文档数据进行特征捕捉提取,对音轨内容文档数据中的关键词信息进行高亮处理,对高亮处理的关键词信息进行整合并进行逻辑排序处理,输出音轨信息组;
信息关联模块,用于:
将音轨信息组与环境标签进行关联,并生成信息识别结果。
具体的,通过音频转译模块可以对音频中的人声内容进行识别并转译,同时与信息识别模块交互,可以对人声内容中的关键信息进行提取总结,通过特征捕捉模块可以环境音中的特征因素进行捕捉识别,从对音频的整体环境因素进行匹配并生成环境标签,从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配,可以对大量的音频文件进行识别处理,从而通过自动识别匹配提高对音频的处理效率。
结果导出单元包括:
标签处理模块,用于:
基于信息识别单元生成的信息识别结果生成音频内容关联标签,并将音频内容关联标签与相对应的音频数据文件进行匹配;
音频导出模块,用于:
对完成音频内容关联标签匹配的音频数据文件进行导出。
具体的,经过处理后的音频在导出后可以通过音频内容关联标签与音频的内容进行一定的相关性匹配,从而在对音频进行检索调取或使用时,根据音频的内容进行基本搜索,从而可以提高对相关音频的检索效率,无需人工对音频进行查看即可对内容进行先行的识别和标注,提高在对音频进行储存和调用时的便利性,在操作者需要包含某一关键信息的音频文件进行调取时,可以对关键信息进行统一的搜索,从而可以对包含改关键信息关联标签的音频数据进行统一的检索和调取。
所述专业验证模块包括:
人声音轨转化子模块,用于:
对专业术语词典中涉及的专业术语内容分别进行人声音轨模拟转化,得到专业术语内容的术语模拟音轨库;
图像化子模块,用于:
将人声子音轨转化为人声音轨曲线图像;并将术语模拟音轨库中的各术语模拟音轨转化为对应的术语模拟音轨曲线片段;
相似度计算子模块,用于:
遍历人声音轨曲线图像上的节点,以各节点为起点,根据用于对比的术语模拟音轨曲线片段长度,在人声音轨曲线图像上分别截取人声音轨曲线片段,将人声音轨曲线片段与术语模拟音轨曲线片段的起点模拟重合,然后采用以下公式计算起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值:
上式中,表示起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值;/>表示人声音轨曲线片段上第/>个节点的横坐标;/>表示术语模拟音轨曲线片段上第/>个节点的横坐标;/>表示人声音轨曲线片段上第/>个节点的纵坐标;/>表示术语模拟音轨曲线片段上第/>个节点的纵坐标,其中i为正整数,n为人声音轨迹曲线片段上的节点总数,取值正整数;由于同长度截取,所以2个相互对比的曲线片段节点数相同,即2个的节点总数都是n。
采用距离均值作为发音相似度,用于和设定阈值进行对比,若发音相似度超过设定阈值,即认定为人声音轨曲线片段对应的内容涉及专业术语内容,需要采用专业术语内容进行更正。
上述方案通过将专业术语词典中涉及的专业术语内容音轨化,再通过将音轨转化为曲线图像表达方式,采用遍历人声音轨曲线图像上的节点作为起点,使用术语模拟音轨曲线片段的长度标准截取相应的人声音轨曲线片段,然后在两者起点模拟重合的基础上,采用上述公式计算术语模拟音轨曲线片段和各人声音轨曲线片段上各对应点的距离均值,采用距离均值作为发音相似度,用于和设定阈值进行对比,若发音相似度超过设定阈值,即认定为人声音轨曲线片段对应的内容涉及专业术语内容,原来语音识别时得出的音轨内容文档数据可能存在错误或者偏差,需要采用专业术语内容进行更正,从而提高对具有专业性会话的音轨内容文档数据的准确性。
请参阅图2,本申请还提供一种音频处理方法,包括以下步骤:
音频采集,对音频数据进行采集获取并转换为音频信号,对目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
音频处理,对音频数据文件进行音频数据优化,对基音进行谐波噪声去除,并对原始音频信号进行增益处理,优化完成后输出音频优化数据,对音频优化数据进行音频数据分类提取,并根据数据种类生成人声子音轨和环境子音轨;
音频分析,对人声子音轨进行语音识别并转译,生成音轨内容文档数据,对环境子音轨中的环境音进行特征捕捉提取并组合生成环境特征组,搭建特征匹配模型对环境特征组进行特征匹配并环境归类,根据归类结果对音频数据赋予相对应的环境标签;
信息识别,对音轨内容文档数据进行特征捕捉提取并输出音轨信息组,将音轨信息组与环境标签进行关联,并生成信息识别结果;
结果导出,生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。
本申请还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的音频处理系统。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种音频处理系统,其特征在于,包括:
数据采集单元,用于:
对音频数据文件进行采集获取,并对所采集的音频数据文件进行预处理,并对经过预处理的音频文件进行文件输出;
音频处理单元,用于:
对数据采集单元所输出的音频文件进行处理,对音频文件进行整体的降噪优化,同时对完成优化的音频文件进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨;
音频分析单元,用于:
基于音频处理单元所生成的子音轨,对子音轨进行音频分析,基于人声子音轨对人声音频进行智能识别分析,对人声音频进行文字转化并输出人声内容,基于环境子音轨对环境音频进行环境音识别及归类,并根据归类结果对环境音频赋予相对应的环境标签;
信息识别单元,用于:
基于音频分析单元所输出的人声内容,对人声内容进行信息识别,并对音频文件所对应的人声内容的关键信息进行提取和整理;
结果导出单元,用于:
对信息识别单元的识别结果进行分类结果导出。
2.如权利要求1所述的一种音频处理系统,其特征在于:所述数据采集单元包括:
数据获取模块,用于:
对音频数据进行采集获取,对音频数据进行声音信号转换并转换为音频信号,并对音频信号进行传输;
信号处理模块,用于:
获取到目标音频信号,基于数据获取模块所采集获取的目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
数据输出模块,用于:
基于数据处理模块的处理结果对音频信号进行信号数据输出。
3.如权利要求2所述的一种音频处理系统,其特征在于:所述音频处理单元包括:
音频接收模块,用于:
对数据采集单元所传输的音频数据文件的音频信号数据进行接收;
音频优化模块,用于:
对音频数据文件进行音频数据优化,在进行优化时,对输入的音频数据文件进行基音分析,对基音进行谐波噪声去除,对完成噪声去除的基因进行音频特征提取,根据特征提取的结构对音频数据进行噪声频谱估计并得出频带增益,对原始音频信号进行增益处理,优化完成后输出音频优化数据;
音频提取模块,用于:
对完成优化的音频优化数据进行音频数据分类提取,并根据数据种类生成子音轨,所述子音轨包括人声子音轨和环境子音轨。
4.如权利要求3所述的一种音频处理系统,其特征在于:所述音频分析单元包括:
音频转译模块,用于:
对人声子音轨进行语音识别,并且对人声子音轨中的人声语音进行识别转译,对所转译出的人生语音内容进行文本数据记录并生成音轨内容文档数据;
特征捕捉模块,用于:
对环境子音轨中的环境音进行特征捕捉提取,将所提取出的环境特征音进行组合,生成环境特征组;
环境匹配模块,用于:
搭建特征匹配模型,将环境特征组放入特征匹配模型中进行特征匹配,根据特征匹配的结果对环境子音轨进行环境归类,并根据归类结果对音频数据赋予相对应的环境标签。
5.如权利要求4所述的一种音频处理系统,其特征在于:所述音频分析单元还包括:
会话方关系判断模块,用于:
获取音轨内容文档数据中会话方的相互称谓信息,通过提取关键词确定会话主题,根据相互称谓信息和会话主题判断参与会话相关方的相互关系;
语境确定模块,用于:
根据参与会话相关方的相互关系、会话主题和环境标签,确定会话相关方的会话语境;
专业验证模块,用于:
根据会话语境确定会话涉及的专业领域,通过专业领域调取对应专业领域的专业术语词典,对人声子音轨进行二次语音识别,在二次语音识别过程中参照专业术语词典,对人声子音轨中存在与专业术语词典中内容发音相似度超过设定阈值的人声子音轨片段,采用专业术语词典中内容对相应的音轨内容文档数据进行更正。
6.如权利要求4所述的一种音频处理系统,其特征在于:所述信息识别单元包括:
信息识别模块,用于:
对音轨内容文档数据进行特征捕捉提取,对音轨内容文档数据中的关键词信息进行高亮处理,对高亮处理的关键词信息进行整合并进行逻辑排序处理,输出音轨信息组;
信息关联模块,用于:
将音轨信息组与环境标签进行关联,并生成信息识别结果。
7.如权利要求6所述的一种音频处理系统,其特征在于:所述结果导出单元包括:
标签处理模块,用于:
基于信息识别单元生成的信息识别结果生成音频内容关联标签,并将音频内容关联标签与相对应的音频数据文件进行匹配;
音频导出模块,用于:
对完成音频内容关联标签匹配的音频数据文件进行导出。
8.如权利要求5所述的一种音频处理系统,其特征在于:所述专业验证模块包括:
人声音轨转化子模块,用于:
对专业术语词典中涉及的专业术语内容分别进行人声音轨模拟转化,得到专业术语内容的术语模拟音轨库;
图像化子模块,用于:
将人声子音轨转化为人声音轨曲线图像;并将术语模拟音轨库中的各术语模拟音轨转化为对应的术语模拟音轨曲线片段;
相似度计算子模块,用于:
遍历人声音轨曲线图像上的节点,以各节点为起点,根据用于对比的术语模拟音轨曲线片段长度,在人声音轨曲线图像上分别截取人声音轨曲线片段,将人声音轨曲线片段与术语模拟音轨曲线片段的起点模拟重合,然后采用以下公式计算起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值:
上式中,表示起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值;/>表示人声音轨曲线片段上第/>个节点的横坐标;/>表示术语模拟音轨曲线片段上第/>个节点的横坐标;/>表示人声音轨曲线片段上第/>个节点的纵坐标;/>表示术语模拟音轨曲线片段上第/>个节点的纵坐标,其中i为正整数,n为人声音轨迹曲线片段上的节点总数,取值正整数;
采用距离均值作为发音相似度,用于和设定阈值进行对比,若发音相似度超过设定阈值,即认定为人声音轨曲线片段对应的内容涉及专业术语内容,需要采用专业术语内容进行更正。
9.一种音频处理方法,基于权利要求6所述的音频处理系统实现,其特征在于,包括以下步骤:
音频采集,对音频数据进行采集获取并转换为音频信号,对目标音频信号进行压缩处理并得到压缩音频信号,对压缩音频信号进行频率检测并确定目标输出频率;
音频处理,对音频数据文件进行音频数据优化,对基音进行谐波噪声去除,并对原始音频信号进行增益处理,优化完成后输出音频优化数据,对音频优化数据进行音频数据分类提取,并根据数据种类生成人声子音轨和环境子音轨;
音频分析,对人声子音轨进行语音识别并转译,生成音轨内容文档数据,对环境子音轨中的环境音进行特征捕捉提取并组合生成环境特征组,搭建特征匹配模型对环境特征组进行特征匹配并环境归类,根据归类结果对音频数据赋予相对应的环境标签;
信息识别,对音轨内容文档数据进行特征捕捉提取并输出音轨信息组,将音轨信息组与环境标签进行关联,并生成信息识别结果;
结果导出,生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的音频处理系统。
CN202311244179.0A 2023-09-26 2023-09-26 一种音频处理系统、方法及存储介质 Active CN116994597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311244179.0A CN116994597B (zh) 2023-09-26 2023-09-26 一种音频处理系统、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311244179.0A CN116994597B (zh) 2023-09-26 2023-09-26 一种音频处理系统、方法及存储介质

Publications (2)

Publication Number Publication Date
CN116994597A true CN116994597A (zh) 2023-11-03
CN116994597B CN116994597B (zh) 2023-12-15

Family

ID=88532464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311244179.0A Active CN116994597B (zh) 2023-09-26 2023-09-26 一种音频处理系统、方法及存储介质

Country Status (1)

Country Link
CN (1) CN116994597B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
US20180090132A1 (en) * 2016-09-28 2018-03-29 Toyota Jidosha Kabushiki Kaisha Voice dialogue system and voice dialogue method
CN110825865A (zh) * 2020-01-09 2020-02-21 浩鲸云计算科技股份有限公司 一种基于专有词纠正和冷启动的多轮对话智能客服系统
CN112487248A (zh) * 2020-12-01 2021-03-12 深圳市易平方网络科技有限公司 视频文件的标签生成方法、装置、智能终端及存储介质
CN112700787A (zh) * 2021-03-24 2021-04-23 深圳市中科蓝讯科技股份有限公司 一种降噪方法、非易失性可读存储介质及电子设备
CN114329041A (zh) * 2021-11-17 2022-04-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置以及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
US20180090132A1 (en) * 2016-09-28 2018-03-29 Toyota Jidosha Kabushiki Kaisha Voice dialogue system and voice dialogue method
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN110825865A (zh) * 2020-01-09 2020-02-21 浩鲸云计算科技股份有限公司 一种基于专有词纠正和冷启动的多轮对话智能客服系统
CN112487248A (zh) * 2020-12-01 2021-03-12 深圳市易平方网络科技有限公司 视频文件的标签生成方法、装置、智能终端及存储介质
CN112700787A (zh) * 2021-03-24 2021-04-23 深圳市中科蓝讯科技股份有限公司 一种降噪方法、非易失性可读存储介质及电子设备
CN114329041A (zh) * 2021-11-17 2022-04-12 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置以及可读存储介质

Also Published As

Publication number Publication date
CN116994597B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
US10977299B2 (en) Systems and methods for consolidating recorded content
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN1333363C (zh) 音频信号处理设备和音频信号处理方法
CN108829765A (zh) 一种信息查询方法、装置、计算机设备及存储介质
US9401154B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
CN112115706A (zh) 文本处理方法、装置、电子设备及介质
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN107507626A (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN113053410B (zh) 声音识别方法、装置、计算机设备和存储介质
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN116246610A (zh) 基于多模态识别的会议记录生成方法及系统
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CN116994597B (zh) 一种音频处理系统、方法及存储介质
CN110970027B (zh) 一种语音识别方法、装置、计算机存储介质及系统
CN115985331B (zh) 一种用于野外观测的音频自动分析方法
CN111382303B (zh) 一种基于指纹权重的音频样例检索方法
CN116129909A (zh) 一种基于聚类的声纹数据自动采集方法
CN114822505A (zh) 一种基于语音芯片的人物搜寻语音识别系统及方法
CN114155841A (zh) 语音识别方法、装置、设备及存储介质
CN113889081A (zh) 语音识别方法、介质、装置和计算设备
CN114121038A (zh) 音响语音测试方法、装置、设备及存储介质
Li et al. BlackFeather: A framework for background noise forensics
CN112820274B (zh) 一种语音信息识别校正方法和系统
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant