CN111724824A - 一种音频的储存和检索方法 - Google Patents

一种音频的储存和检索方法 Download PDF

Info

Publication number
CN111724824A
CN111724824A CN202010529367.8A CN202010529367A CN111724824A CN 111724824 A CN111724824 A CN 111724824A CN 202010529367 A CN202010529367 A CN 202010529367A CN 111724824 A CN111724824 A CN 111724824A
Authority
CN
China
Prior art keywords
audio
data
pcm
inflection point
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010529367.8A
Other languages
English (en)
Other versions
CN111724824B (zh
Inventor
龙图景
刘政伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kaishida Information Technology Co ltd
Original Assignee
Beijing Kaishida Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kaishida Information Technology Co ltd filed Critical Beijing Kaishida Information Technology Co ltd
Priority to CN202010529367.8A priority Critical patent/CN111724824B/zh
Publication of CN111724824A publication Critical patent/CN111724824A/zh
Application granted granted Critical
Publication of CN111724824B publication Critical patent/CN111724824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及一种音频的储存和检索方法,在存储音频数据时,将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录,同时将相邻拐点横向距离和纵向距离进行计算并记录,从而得出一个可以大致反应音频数据PCM波形的数据列,将冗余信息剔除,节省存储空间;检索时,按照同样的步骤获得音频样本的数据列,再通过分步检索,首先将音频样本中的部分数据列带入至存储音频中的数据列中,如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中,如果符合再将音频样本的PCM波形带入至存储音频中的PCM波形中,分段检索,实现先粗略再精细的检索方式,避免浪费大量的运算力进行逐一对比,从而提高检索效率。

Description

一种音频的储存和检索方法
技术领域
本发明涉及音频处理技术领域,具体是一种音频的储存和检索方法。
背景技术
随着多媒体技术的发展,音频检索作为研究热点,已经在广告检索、网络监管领域得到了广泛应用。音频检索,是从待检音频中检索并定位与指定音频 (或者称为样本音频)同源的音频片段。
当然,同源并非完全相同,也可能经过翻录或者编码压缩等处理。目前,一种音频检索方法是,将待检音频与样本音频按相同的时间间隔划分成帧系列,分别提取各帧的语音特征,并计算对应位置上的两个语音特征的距离,将各个距离累加后,根据距离和值来判断待检音频与样本音频的相似度。但是,由于样本音频通常较短,它在待检音频中的位置是不确定的,因此,需要采用滑移窗口的方式,依次在待检音频中,执行上述音频检索方法,以在待检音频中检索并定位样本音频。
然而,以上音频检索方式,运算量较大,检索效率较低。
发明内容
有鉴于此,本发明的目的是提供一种音频的储存和检索方法,能够对音频进行压缩存储,同时检索时能够减少运算量,提高检索速度和正确率。
本发明的一种音频的储存和检索方法,包括步骤:
步骤S101,将音频数据进行模数转换,同时按照特定的采样率f将音频进行 PCM编码,从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的波形;
步骤S102,将获得的PCM音频数据中的冗余信息进行剔除;
步骤S103,将剔除冗余信息后的PCM音频编码进行拐点统计,并对拐点进行标记,标记出拐点An处的坐标值(xn,yn);
步骤S104,计算出所有的相邻拐点An之间的横坐标和纵坐标的差值(Δx,Δy),将其记录在前一个或者后一个的拐点信息内,从而获得音调和音强的两个的拐点数据列S(Δxn)和S(Δyn);
步骤S105,将PCM音频数据的波形还原为特定格式的音频进行存储。
进一步地,所述步骤S102中的冗余信息为音强小于10分贝的PCM音频数据。
进一步地,所述步骤S103中的拐点统计的步骤包括:
S10301,在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1, y1)、A2(x2,y2)、A3(x3,y3)和A4(x4,y4),取A1(x1,y1)和A2(x2,y2),得到正向直线方程L12(x,y)=(x2-x1)(y-y1)+(y1-y2)(x-x1);
S10302,计算函数值L12(x3,y3),如果L12(x3,y3)小于0,则确定A3(x3, y3)位于正向直线L12的内侧,如果L12(x3,y3)大于0,则确定A3(x3,y3)位于正向直线L12的外侧,从而确定点A3(x3,y3)位于得到正向直线方程L1的哪一侧,
然后再取点A2(x2,y2),A3(x3,y3)得到另一正向直线方程L23(x, y)=(x3-x2)(y-y2)+(y2-y3)(x-x2),
计算函数值L23(x4,y4),可以确定点A4(x4,y4)位于得到正向直线方程L2 的哪一侧,如果L12(x3,y3)*L23(x4,y4)<0,可以得出点A3(x3,y3)是一个拐点,否则A3(x3,y3)不是拐点;
S10303,重复上述计算步骤,即可判断A3,A4,A5,......,An-1是否为拐点。
本发明还提供一种音频的检索方法,其特征在于:包括步骤:
步骤S201,判断音频样本为模拟音频还是数字音频,并进行对应的拐点统计;
步骤S20101,如果音频样本为模拟音频,对音频样本进行模数转换,同时按照采样率f将音频进行PCM编码,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和 S1(Δyi);
步骤S20102,如果音频样本为数字音频,直接获取并还原音频样本的波形,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和S1(Δyi);
步骤S202,先将S1(Δxi)中的相邻的至少2个数据S1(Δx1,Δx2...Δxn),代入至S(Δxn)中,当存储的音频数据中有一段或者多段同时满足:S1(Δx1,Δx2...Δxn)=α *S(Δx1,Δx2...Δxn),S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数,则将S1(Δxi)中其他所有的数据带入至S(Δxn)中进行验证,
步骤S20201,如果完全符合S1(Δyi)=α*S(Δyn),α和β为任意倍数,则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比,如果判断音频样本全部数据PCM1(x),PCM1(y)与存储的音频数据对应位置PCM2 (x),PCM2(y)有超过阈值的符合PCM1(x)=α*PCM2(x),PCM1(y)=β*PCM2 (y)则判断音频样本与存储的音频数据符合;
步骤S20202,如果验证不完全满足S2(Δyi)=α*S(Δyn),α和β为任意倍数,则带入到该音频数据中的其他满足S1(Δx1,Δx2...Δxn)=α*S(Δx1,Δx2...Δxn), S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数的数据段中进行验证,直至将该音频数据验证完,如果均不符合,则为不符合。
进一步地,所述步骤S20201中的阈值为80%。
本发明的有益效果是:本发明的一种音频的储存和检索方法,在存储音频数据时,将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录,同时将相邻拐点横向距离和纵向距离进行计算并记录,从而得出一个可以大致反应音频数据PCM波形的数据列,将冗余信息剔除,节省存储空间;检索时,按照同样的步骤获得音频样本的数据列,再通过分步检索,首先将音频样本中的部分数据列带入至存储音频中的数据列中,如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中,如果符合再将音频样本的PCM波形带入至存储音频中的PCM波形中,分段检索,实现先粗略再精细的检索方式,避免浪费大量的运算力进行逐一对比,从而提高检索效率,最后通过PCM波形对比还可以提高准确率,同时本发明还可以对压缩后的音频数据进行精确快速地检索。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的存储过程的流程图;
图2为本发明的拐点统计流程图;
图3为本发明的检索流程图。
具体实施方式
如图1-3所示:本实施例的一种音频的储存和检索方法,包括步骤:
步骤S101,将音频数据进行模数转换,数字格式通常有CD、WAV、MP3等,本实施例中的数字音频指离散化处理后未经过进一步压缩的数字音频格式,转换后按照的采样率f将音频进行PCM编码,采样率f≥21KHz,从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的离散波形;
步骤S102,将获得的PCM音频数据中的冗余信息进行剔除,冗余信息为音强小于10分贝的PCM音频数据,人耳对于声音信息的接收范围是10-120分贝,因此直接将小于10分贝的PCM波形直接剔除,同时可以根据时域掩蔽效应,将部分PCM数据进行剔除,具体原理为现有技术故不赘述;
步骤S103,将剔除冗余信息后的PCM音频编码进行拐点统计,并对拐点进行标记,标记出拐点An处的坐标值(xn,yn),其中xn为时间参数,yn为音强参数,表示各个时间点上的音强;
步骤S104,计算出所有的相邻拐点An之间的横坐标和纵坐标的差值 (Δx,Δy),Δx表示PCM波形的频率,可以用来表示声音的音调,而波形中的谐波部分则为音色,Δy表示波峰与波谷之间的距离,用来体现声音的强度,将其记录在前一个或者后一个的拐点信息内,从而获得音调和音强的两个的拐点数据列S(Δxn)和S(Δyn);
步骤S105,将PCM音频数据的波形还原为对应格式的音频进行存储,由于剔除了冗余信息,但是在拐点处添加了拐点的数据列,音频数据的大小总体上会小于原文件的大小,从而节省了存储空间,添加的拐点的数据列则可以便于对音频样本的检索。
本实施例中,所述步骤S103中的拐点统计的步骤包括:
S10301,在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1, y1)、A2(x2,y2)、A3(x3,y3)和A4(x4,y4),取A1(x1,y1)和A2(x2,y2),得到正向直线方程L12(x,y)=(x2-x1)(y-y1)+(y1-y2)(x-x1),正直线L12即为A1和A2的正直连线;
S10302,将A3(x3,y3)点的坐标值代入至正向直线方程L12(x,y)中,计算函数值L12(x3,y3),如果L12(x3,y3)小于0,则确定A3(x3,y3)位于正向直线L12的内侧(下方),如果L12(x3,y3)大于0,则确定A3(x3,y3)位于正向直线L12的外侧(上方),依照上述原理从而确定点A3(x3,y3)位于得到正向直线方程L1的哪一侧;
同理,然后再取点A2(x2,y2),A3(x3,y3)得到另一正向直线方程L23(x, y)=(x3-x2)(y-y2)+(y2-y3)(x-x2),同时将A4(x4,y4)代入到正向直线方程 L23(x,y)中,判断A4位于直线L23的哪一侧;由于A1(x1,y1)、A2(x2,y2)和 A3(x3,y3)为相邻点,因此L12和L23为连接关系,如果A3(x3,y3)位于L12的外侧,A4(x4,y4)位于L23的外侧,则L12(x3,y3)*L23(x4,y4)>0,无法判断是否存在拐点,当A3(x3,y3)和A4(x4,y4)分别位于L12和L23的不同侧,则L12(x3, y3)*L23(x4,y4)<0,可以得出点A3(x3,y3)是一个拐点;
S10303,按照上述原理和计算过程,重复上述计算步骤,即可判断 A3,A4,A5,......,An-1是否为拐点,从而完成全部拐点的统计过程,值得注意的是,统计的拐点并不是PCM波形中的全部拐点,由于在步骤S102中已经剔除了冗余信息,因此冗余信息中音强小于10分贝的拐点被剔除,因此获得的拐点的平滑连线并不能还原原有的PCM波形,只用于波形特性的检索。
本发明还提供一种音频的检索方法,其特征在于:包括步骤:
步骤S201,判断音频样本为模拟音频还是数字音频,并进行对应的拐点统计;
步骤S20101,如果音频样本为模拟音频,对音频样本进行模数转换,同时按照采样率f将音频进行PCM编码,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和 S1(Δyi),S1(Δxi)和S1(Δyi)分别体现音频样本的频率信息和音强信息;
步骤S20102,如果音频样本为数字音频,直接获取并还原音频样本的波形,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和S1(Δyi),S1(Δxi)和S1(Δyi)分别体现音频样本的频率信息和音强信息;
经过步骤S20101和S20202将模拟音频和数字音频中的拐点数据列作为检索数据列提取出来;
步骤S202,先将S1(Δxi)中的相邻的至少2个数据S1(Δx1,Δx2...Δxn),代入至S(Δxn)中,当存储的音频数据中有一段或者多段同时满足:S1(Δx1,Δx2...Δxn)=α *S(Δx1,Δx2...Δxn),S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数,则将S1(Δxi)中其他所有的数据带入至S(Δxn)中进行验证,音频样本不一定与存储的音频数据一模一样,但是只要符合倍数关系,便可以看做是相同的音频数据段经过了特殊处理,从而可以将改变了音强和音调的音频样本检索出来,本步骤中的检索为粗略检索,一端音频数据中很容易存在多段符合的数据段,此步骤的目的便是找出多段符合的数据段,后续精细化检索时可以避开大部分的无效区域,从而避免进行全域检索,节省检索运算力;
步骤S20201,如果完全符合S1(Δyi)=α*S(Δyn),α和β为任意倍数,则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比,如果判断音频样本全部数据PCM1(x),PCM1(y)与存储的音频数据对应位置PCM2 (x),PCM2(y)有超过阈值的符合PCM1(x)=α*PCM2(x),PCM1(y)=β*PCM2 (y)则判断音频样本与存储的音频数据符合,此步骤通过拐点进行PCM波形的判断,由于拐点的数据列并不能还原原本的PCM波形,因此也容易出现多个符合检索情况的数据段,数量的多少取决于音频样本的长度,音频样本越长误差率越小,获得的符合检索情况的数据段也就越少,反之则越多;
步骤S20202,如果验证不完全满足S2(Δyi)=α*S(Δyn),α和β为任意倍数,则带入到该音频数据中的其他满足S1(Δx1,Δx2...Δxn)=α*S(Δx1,Δx2...Δxn), S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数的数据段中进行验证,直至将该音频数据验证完,如果均不符合,则为不符合,最后一步基于步骤 S20201的定位进行精确匹配,从而避免检索的误差;
本实施例中,所述步骤S20201中的阈值为80%,音频样本很容易在录音时发生稍微失真的情况,因此很难完全获得与存储音频数据匹配度为100%的音频样本,因此设置一个阈值用于容错,当录音条件合适的情况下很容易达到80%的匹配度。
本发明的一种音频的储存和检索方法,在存储音频数据时,将音频数据对应的PCM波形中的拐点进行统计和拐点的坐标进行记录,同时将相邻拐点横向距离和纵向距离进行计算并记录,从而得出一个可以大致反应音频数据PCM波形的数据列,将冗余信息剔除,节省存储空间;检索时,按照同样的步骤获得音频样本的数据列,再通过分步检索,首先将音频样本中的部分数据列带入至存储音频中的数据列中,如果符合再将音频样本中的全部的数据列带入至存储音频中的数据列中,如果符合再将音频样本的PCM波形带入至存储音频中的PCM 波形中,分段检索,实现先粗略再精细的检索方式,避免浪费大量的运算力进行逐一对比,从而提高检索效率,最后通过PCM波形对比还可以提高准确率,同时本发明还可以对压缩后的音频数据进行精确快速地检索。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种音频的储存方法,其特征在于:包括步骤:
步骤S101,将音频数据进行模数转换,同时按照特定的采样率f将音频进行PCM编码,从而数字音频转换为在横轴为时间纵轴为音强的坐标轴上的波形;
步骤S102,将获得的PCM音频数据中的冗余信息进行剔除;
步骤S103,将剔除冗余信息后的PCM音频编码进行拐点统计,并对拐点进行标记,标记出拐点An处的坐标值(xn,yn);
步骤S104,计算出所有的相邻拐点An之间的横坐标和纵坐标的差值(Δx,Δy),将其记录在前一个或者后一个的拐点信息内,从而获得音调和音强的两个的拐点数据列S(Δxn)和S(Δyn);
步骤S105,将PCM音频数据的波形还原为特定格式的音频进行存储。
2.根据权利要求1所述的一种音频的储存和检索方法,其特征在于:所述步骤S102中的冗余信息为音强小于10分贝的PCM音频数据。
3.根据权利要求1所述的一种音频的储存和检索方法,其特征在于:所述步骤S103中的拐点统计的步骤包括:
S10301,在PCM坐标轴上的PCM音频数据的波形上任意取4个相邻的点A1(x1,y1)、A2(x2,y2)、A3(x3,y3)和A4(x4,y4),取A1(x1,y1)和A2(x2,y2),得到正向直线方程L12(x,y)=(x2-x1)(y-y1)+(y1-y2)(x-x1);
S10302,计算函数值L12(x3,y3),如果L12(x3,y3)小于0,则确定A3(x3,y3)位于正向直线L12的内侧,如果L12(x3,y3)大于0,则确定A3(x3,y3)位于正向直线L12的外侧,从而确定点A3(x3,y3)位于得到正向直线方程L1的哪一侧,
然后再取点A2(x2,y2),A3(x3,y3)得到另一正向直线方程L23(x,y)=(x3-x2)(y-y2)+(y2-y3)(x-x2),
计算函数值L23(x4,y4),可以确定点A4(x4,y4)位于得到正向直线方程L2的哪一侧,如果L12(x3,y3)*L23(x4,y4)<0,可以得出点A3(x3,y3)是一个拐点,否则A3(x3,y3)不是拐点;
S10303,重复上述计算步骤,即可判断A3,A4,A5,......,An-1是否为拐点。
4.一种音频的检索方法,其特征在于:包括步骤:
步骤S201,判断音频样本为模拟音频还是数字音频,并进行对应的拐点统计;
步骤S20101,如果音频样本为模拟音频,对音频样本进行模数转换,同时按照采样率f将音频进行PCM编码,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和S1(Δyi);
步骤S20102,如果音频样本为数字音频,直接获取并还原音频样本的波形,同时按照所述步骤S103和步骤S104对音频样本进行拐点信息标记,从而获得两个时间轴和音强轴上的检索数据列S1(Δxi)和S1(Δyi);
步骤S202,先将S1(Δxi)中的相邻的至少2个数据S1(Δx1,Δx2...Δxn),代入至S(Δxn)中,当存储的音频数据中有一段或者多段同时满足:S1(Δx1,Δx2...Δxn)=αS(Δx1,Δx2...Δxn),S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数,则将S1(Δxi)中其他所有的数据带入至S(Δxn)中进行验证,
步骤S20201,如果完全符合S1(Δyi)=α*S(Δyn),α和β为任意倍数,则将音频样本的PCM波形与存储的音频数据的的PCM波形的对应位置进行对比,如果判断音频样本全部数据PCM1(x),PCM1(y)与存储的音频数据对应位置PCM2(x),PCM2(y)有超过阈值的符合PCM1(x)=α*PCM2(x),PCM1(y)=β*PCM2(y)则判断音频样本与存储的音频数据符合;
步骤S20202,如果验证不完全满足S2(Δyi)=α*S(Δyn),α和β为任意倍数,则带入到该音频数据中的其他满足S1(Δx1,Δx2...Δxn)=αS(Δx1,Δx2...Δxn),S1(Δy1,Δy2...Δyn)=β*S(Δy1,Δy2...Δyn),α和β为任意倍数的数据段中进行验证,直至将该音频数据验证完,如果均不符合,则为不符合。
5.根据权利要求4所述的一种音频的储存和检索方法,其特征在于:所述步骤S20201中的阈值为80%。
CN202010529367.8A 2020-06-11 2020-06-11 一种音频的储存和检索方法 Active CN111724824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010529367.8A CN111724824B (zh) 2020-06-11 2020-06-11 一种音频的储存和检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010529367.8A CN111724824B (zh) 2020-06-11 2020-06-11 一种音频的储存和检索方法

Publications (2)

Publication Number Publication Date
CN111724824A true CN111724824A (zh) 2020-09-29
CN111724824B CN111724824B (zh) 2021-12-03

Family

ID=72566460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010529367.8A Active CN111724824B (zh) 2020-06-11 2020-06-11 一种音频的储存和检索方法

Country Status (1)

Country Link
CN (1) CN111724824B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948331A (zh) * 2021-03-01 2021-06-11 湖南快乐阳光互动娱乐传媒有限公司 音频文件的生成方法、解析方法、生成器及解析器
CN113257288A (zh) * 2021-04-29 2021-08-13 北京凯视达信息技术有限公司 一种pcm音频采样率的转换方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623289A (zh) * 2002-04-05 2005-06-01 国际商业机器公司 基于特征的音频内容识别
US20070096961A1 (en) * 2003-11-26 2007-05-03 Shiro Sakiyama Signal processing device
CN101762320A (zh) * 2009-12-18 2010-06-30 深圳市万兴软件有限公司 一种在mac平台下绘制音频波形图的方法及系统
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法
US20160086611A1 (en) * 2014-09-20 2016-03-24 Onkyo Corporation Music reproducing apparatus
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置
CN106776663A (zh) * 2015-11-25 2017-05-31 腾讯科技(深圳)有限公司 音频文件的压缩方法和装置
CN106935248A (zh) * 2017-02-14 2017-07-07 广州孩教圈信息科技股份有限公司 一种语音相似度检测方法及装置
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109785849A (zh) * 2019-01-17 2019-05-21 福建歌航电子信息科技有限公司 基于iis传输的pcm音频流插入单向控制信息的方法
CN111261194A (zh) * 2020-04-29 2020-06-09 浙江百应科技有限公司 一种基于pcm技术的音量分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623289A (zh) * 2002-04-05 2005-06-01 国际商业机器公司 基于特征的音频内容识别
US20070096961A1 (en) * 2003-11-26 2007-05-03 Shiro Sakiyama Signal processing device
CN101762320A (zh) * 2009-12-18 2010-06-30 深圳市万兴软件有限公司 一种在mac平台下绘制音频波形图的方法及系统
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法
US20160086611A1 (en) * 2014-09-20 2016-03-24 Onkyo Corporation Music reproducing apparatus
CN106776663A (zh) * 2015-11-25 2017-05-31 腾讯科技(深圳)有限公司 音频文件的压缩方法和装置
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置
CN106935248A (zh) * 2017-02-14 2017-07-07 广州孩教圈信息科技股份有限公司 一种语音相似度检测方法及装置
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN109785849A (zh) * 2019-01-17 2019-05-21 福建歌航电子信息科技有限公司 基于iis传输的pcm音频流插入单向控制信息的方法
CN111261194A (zh) * 2020-04-29 2020-06-09 浙江百应科技有限公司 一种基于pcm技术的音量分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘鑫等: "一种基于阶乘脉冲编码的嵌入式语音频编码器", 《第十四届全国信号处理学术年会》 *
彭谊: "PCM语音编解码系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨云升等: "一种基于BP神经网络的语音相空间客观干扰效果评估模型", 《声学技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948331A (zh) * 2021-03-01 2021-06-11 湖南快乐阳光互动娱乐传媒有限公司 音频文件的生成方法、解析方法、生成器及解析器
CN112948331B (zh) * 2021-03-01 2023-02-03 湖南快乐阳光互动娱乐传媒有限公司 音频文件的生成方法、解析方法、生成器及解析器
CN113257288A (zh) * 2021-04-29 2021-08-13 北京凯视达信息技术有限公司 一种pcm音频采样率的转换方法
CN113257288B (zh) * 2021-04-29 2022-12-16 北京凯视达信息技术有限公司 一种pcm音频采样率的转换方法

Also Published As

Publication number Publication date
CN111724824B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN109065031A (zh) 语音标注方法、装置及设备
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
US8586847B2 (en) Musical fingerprinting based on onset intervals
US6718309B1 (en) Continuously variable time scale modification of digital audio signals
CN111724824B (zh) 一种音频的储存和检索方法
US8492633B2 (en) Musical fingerprinting
US4720863A (en) Method and apparatus for text-independent speaker recognition
EP3255633B1 (en) Audio content recognition method and device
CN100530354C (zh) 信息检测装置、方法和程序
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
WO2005122141A1 (en) Effective audio segmentation and classification
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
US6587984B1 (en) Distortion detecting device, distortion correcting device, and distortion correcting method for digital audio signal
US7571093B1 (en) Method of identifying duplicate voice recording
CN109543511B (zh) 基于图纹突变帧和特征计算的视频识别方法、系统及装置
CN111292754A (zh) 语音信号处理方法、装置及设备
CN113420178A (zh) 一种数据处理方法以及设备
CN109558509B (zh) 一种广播音频中广告检索的方法和装置
US6339804B1 (en) Fast-forward/fast-backward intermittent reproduction of compressed digital data frame using compression parameter value calculated from parameter-calculation-target frame not previously reproduced
CN111785296B (zh) 基于重复旋律的音乐分段边界识别方法
Kameoka et al. Audio stream segregation of multi-pitch music signal based on time-space clustering using Gaussian Kernel 2-dimensional model
CN1365566A (zh) 视频信号分析与存储
CN115910042B (zh) 识别格式化音频文件的信息种类的方法和装置
CN112948331B (zh) 音频文件的生成方法、解析方法、生成器及解析器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant