CN111883169A - 一种音频文件切割位置处理方法及装置 - Google Patents

一种音频文件切割位置处理方法及装置 Download PDF

Info

Publication number
CN111883169A
CN111883169A CN201911272719.XA CN201911272719A CN111883169A CN 111883169 A CN111883169 A CN 111883169A CN 201911272719 A CN201911272719 A CN 201911272719A CN 111883169 A CN111883169 A CN 111883169A
Authority
CN
China
Prior art keywords
audio file
cutting position
audio
change
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911272719.XA
Other languages
English (en)
Other versions
CN111883169B (zh
Inventor
黄磊
杨春勇
靳丁南
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN201911272719.XA priority Critical patent/CN111883169B/zh
Publication of CN111883169A publication Critical patent/CN111883169A/zh
Application granted granted Critical
Publication of CN111883169B publication Critical patent/CN111883169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明提供一种音频文件切割位置处理方法及装置,该方法包括:预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。通过本发明提供的音频文件切割位置处理方法,可以提高音频文件的切割位置标注的准确性。

Description

一种音频文件切割位置处理方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种音频文件切割位置处理方法及装置。
背景技术
目前,在人工智能中语音的应用越来越多,语音作为人机交互的重要一环,已经出现了很多技术,其中包括语音识别、语音合成这两个关键的技术。目前在深度学习领域,通常需要标注足够多的音频数据,以训练语音识别、语音合成等的模型。然而,目前标注音频文件的主要方法是人工听取音频文件,根据音频文件的文本,对每个文本所对应的音频时间点进行标注,这种标注方式不仅人工成本较大,由于人是通过听来进行音频文件标注,有时字与字之间的切割位置难以明确区分,容易出现上一个字带了下一个字的音频,或者下一个字带了上一个字的音频,音频文件的切割位置标注不够准确,进而导致基于该标注的音频文件训练得到的模型准确性较差。
可见,现有技术中存在音频文件的切割位置标注准确性较低的问题。
发明内容
本发明实施例提供一种音频文件切割位置处理方法及装置,以解决现有技术中存在音频文件的切割位置标注准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种音频文件切割位置处理方法。该方法包括:
预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
第二方面,本发明实施例还提供一种音频文件切割位置处理装置。该音频文件切割位置处理装置包括:
预处理模块,用于预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
第一调整模块,用于根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
第三方面,本发明实施例还提供一种音频文件切割位置处理装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的音频文件切割位置处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的音频文件切割位置处理方法的步骤。
本发明实施例中,通过预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。由于根据音频文件的短时过零率的变化特征对预标注的音频文件的切割位置进行了调整,可以提高音频文件的切割位置标注的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的音频文件切割位置处理方法的流程图;
图2是本发明实施例提供的音频波形图的示意图之一;
图3是本发明实施例提供的音频波形图的示意图之二;
图4是本发明又一实施例提供的音频文件切割位置处理装置的结构图;
图5是本发明实施例提供的音频文件切割位置处理装置的结构图;
图6是本发明又一实施例提供的音频文件切割位置处理装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种音频文件切割位置处理方法。参见图1,图1是本发明实施例提供的音频文件切割位置处理方法的流程图,如图1所示,包括以下步骤:
步骤101、预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件。
本实施例中,上述音频文件集可以包括收集的N个音频文件,其中,上述N的值可以根据实际需求进行合理设置,例如,N的取值可以为2000、8000、10000、20000或100000等。
在该步骤中,可以自动预标注音频文件集中的各个音频文件的切割位置。例如,可以根据音频文件对应的文本进行切割位置的预标注;也可以通过人工预标注音频文件集中的各个音频文件的切割位置;也可以结合自动预标注音频文件集中的各个音频文件的切割位置和人工预标注音频文件集中的各个音频文件的切割位置,例如,先根据音频文件对应的文本进行切割位置的预标注,再通过人工对未被自动预标注的音频文件进行切割位置的预标注,本实施例对此不做限定。
步骤102、根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
本实施例中,上述短时过零率,也可称为短时平均过零率,是语音信号时域分析中的一种特征参数,表示每个音频帧内信号通过零值的次数。上述音频文件的短时过零率的变化特征可以反映音频文件的短时过零率的变化情况。
实际情况中,存在一些属于不同词组的文字对应的音频文件的短时过零率会呈现由疏到密或由密到疏等的变化特征,例如,如图2所示的对应于“四千四百”的音频波形图,其中,“千”与“四”的音频波形图的短时过零率呈现由密到疏的变化。因此,可以基于音频文件的短时过零率的变化特征较为准确的对预标注的音频文件的切割位置进行调整,例如,对于图2所示的音频波形图,可以将音频文件中“千”与“四”之间的切割位置调整至“千”与“四”的音频波形图的短时过零率的变化位置。
本实施例提供的音频文件切割位置处理方法,通过预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。由于根据音频文件的短时过零率的变化特征对预标注的音频文件的切割位置进行了调整,可以提高音频文件的切割位置标注的准确性。
可选的,上述步骤102,也即所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整,可以包括:
若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置;
其中,所述第一音频文件为所述音频文件集中的任一音频文件,所述第一切割位置为所述第一音频文件中预标注的任一切割位置,所述第一子音频文件为所述第一音频文件中包括所述第一切割位置两侧音频的音频文件。
以图2所示的音频波形图为例,第一子音频文件为对应于‘千’与‘四’的子音频文件,其短时过零率包括:1.423秒:0.79;1.424秒:0.81;1.425秒:0.82;1.426秒:2.3;1.427秒:2.4;1.428秒:2.6。由此可知,对应于‘千’与‘四’的子音频文件的短时过零率由小到大变化,且其短时过零率变化的过渡位置为1.425秒至1.426秒之间,因此,可以将对应于‘千’与‘四’的子音频文件的切割位置调整至1.425秒至1.426秒之间。
可选的,为了避免短时过零率的正常波动对标注结果的影响,上述短时过零率的变化特征可以理解为除短时过零率的正常波动之外的变化,例如,在短时过零率的变化值超过预设值才认为短时过零率发生变化,其中,上述预设值可以基于短时过零率的正常波动情况进行合理设置,例如,上述预设值可以设置为0.1、0.2或1等。
实际情况中,由于字与字之间音频信号间隔往往较近,人工或是基于文本的切割位置标注方式往往难以较为准确的找到切割位置,本实施例通过调整预标注的切割位置为短时过零率变化的过渡位置,可以提高音频文件的切割位置标注的准确性。
可选的,所述若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置之前,所述方法还包括:
判断所述第一切割位置对应的声母韵母组合是否属于预设的声母韵母组合集合,其中,所述第一切割位置对应的声母韵母组合为所述第一切割位置两侧音频对应的文字的声母和韵母的组合,且所述第一切割位置两侧音频均对应一个文字;
若所述第一切割位置对应的声母韵母组合属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化;
若所述第一切割位置对应的声母韵母组合不属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化。
本实施例中,上述第一切割位置对应的声母韵母组合可以理解为第一切割位置前侧音频对应的文字的韵母和第一切割位置后侧音频对应的文字的声母的组合。例如,位于“千”与“四”之间的切割位置对应的声母韵母组合为“an”与“s”,位于“九”与“千”之间的切割位置对应的声母韵母组合为“iu”与“q”。
实际应用中,可以预先统计短时过零率的变化特征满足由大到小变化或者由小到大变化的音频文件对应的文字的声母韵母组合,得到声母韵母组合集合。这样可以在切割位置调整过程中,无需分析音频文件的短时过零率的变化特征,直接根据切割位置对应的声母韵母组合判断该切割位置是否适用于基于短时过零率的变化特征进行调整,可以提高音频文件的切割位置调整的效率。具体的,可以在第一切割位置对应的声母韵母组合属于预设的声母韵母组合集合的情况下,调整第一切割位置为第一子音频文件的短时过零率变化的过渡位置,否则可以结束流程,或者通过其他方式对第一切割位置进行调整,例如,通过人工对第一切割位置进行调整。
可选的,所述调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置,可以包括:
调整第一切割位置为所述第一子音频文件的短时过零率变化的第一过渡位置,其中,所述第一过渡位置的能量值为零。
本实施例中,可以调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置中能量值为零的位置,这样可以减少切割后的音频文件出现噪音的情况。
例如,对于图2所示的音频波形图,可以将对应于‘千’与‘四’的子音频文件的切割位置调整至1.425秒至1.426秒之间能量值为零的位置,例如,1.4251秒的能量值为5,1.4252秒的能量值4,1.4253秒的能量值为3,1.4254秒的能力值为1,1.4255秒的能量值为0,则可以将对应于‘千’与‘四’的子音频文件的切割位置调整至1.4255秒。
可选的,所述方法还可以包括:
若所述第一音频文件的所述第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化,则接收用户对所述第一切割位置的调整操作;
根据所述调整操作调整所述第一切割位置。
本实施例中,在第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化的情况下,可以基于用户操作对第一切割位置进行调整。例如,用户可以通过分析观察放大的第一子音频文件的音频波形图以确定一较为合适的切割位置,并调整第一切割位置为其确定的较为合适的切割位置。
可选的,在根据用户对所述第一切割位置的调整操作调整所述第一切割位置之后,还可以对调整后的第一切割位置进行进一步的精调整,例如,在调整后的第一切割位置的能量值不为零的情况下,调整其为最接近的能量值为零的位置。
本实施例在子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化的情况下,可以基于用户操作对预标注的切割位置进行调整,可以使得音频文件集中每个音频文件的预标注的切割位置均可以得到调整,进而可以提高音频文件的切割位置标注的准确性。
可选的,上述步骤101,也即所述预标注音频文件集中的各个音频文件的切割位置,可以包括:
分别对所述音频文件集中每个音频文件进行语音识别,以将所述音频文件集中每个音频文件转换为文本,并分别根据所述每个音频文件转换得到的文本,预标注所述每个音频文件的切割位置;
或者
接收用户对所述音频文件集中的音频文件的切割位置的预标注。
在一实施方式中,可以通过对音频文件集中每个音频文件进行语音识别,得到音频文件集中每个音频文件对应的文本,并基于每个音频文件对应的文本预标注每个音频文件的切割位置。例如,可以先对每个音频文件对应的文本进行分词,在基于文本的分词位置预标注该文本对应的音频文件的切割位置。
本实施方式根据每个音频文件转换得到的文本预标注所述每个音频文件的切割位置,不仅速度较快,还可以节省人工成本。
在另一实施方式中,可以通过用户对音频文件集中的音频文件的切割位置进行预标注,这样可以保证较为完整、全面地对音频文件集中的各个音频文件的分割位置进行标注。
可选的,所述预标注音频文件集中的各个音频文件的切割位置之后,所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整之前,所述方法还可以包括:
根据所述音频文件集中的音频文件的能量值,对所述音频文件集中的音频文件的切割位置进行调整,以使调整后的切割位置的能量值为零。
实际情况中,由于字与字之间语音信号间隔往往较近,难以保证预标注的切割位置处的能量值为零,例如,参见图3,音频文件的分割位置(也即图中虚线处)处于音频波形图的峰值点,而不是过零点,这样会导致音频被切割后存在噪音。
本实施例可以分析预标注的各个切割位置处的能量值,并在预标注的分割位置的能量值不为零的情况下,调整该分割位置,以使调整后的切割位置的能量值为零。例如,可以调整参见图3所示的分割位置至与其最接近的能量值为零的位置,如其右侧第一个过零点的位置。这样可以保证减少音频文件切割后出现噪音的情况。
以下结合示例对本实施例进行说明:
参见图4,本实施例提供的音频文件切割位置处理方法可以包括如下步骤:
步骤401、预标注音频文件集中的各个音频文件的切割位置。
该步骤中,可以通过人工预标注音频文件集中的各个音频文件的切割位置,也可以基于音频文件对应的文本预标注各个音频文件的切割位置。
步骤402、获取音频文件集中的各个音频文件的切割位置对应的声母韵母组合。
该步骤中,切割位置对应的声母韵母组合可以是指切割位置前侧音频对应的文字的韵母和其后侧音频对应的文字的声母的组合。
步骤403、自动调整声母韵母组合对应的短时过零率满足由大到小或是由小到大变化的切割位置。
该步骤中,若某一切割位置对应的声母韵母组合对应的短时过零率满足由大到小或是由小到大变化,则可以根据其对应的声母韵母组合对应的短时过零率自动调整该切割位置。可选的,可以通过判断某一切割位置对应的声母韵母组合是否属于预设的声母韵母组合集合判断其对应的短时过零率满足由大到小或是由小到大变化,其中,上述声母韵母组合集合中的每个声母韵母组合对应的短时过零率均满足由大到小或是由小到大变化。
实际应用中,声母韵母组合总共有2300多种,符合短时过零率变化由大到小或者由小到大的有1400多种,也即60%左右的文本对应的音频的切割位置都能进行自动调整,可以有效节约切割位置调整的时间。
步骤404、统计已自动调整的切割位置,并对剩下的切割位置进行人工调整。
该步骤中,可以统计上述基于短时过零率的变化特征已调整的切割位置,而对于尚未被调整的切割位置,可以基于人工进行调整。
可选的,在步骤404之后,还可以根据切割位置附近能量值大小来自动寻找能量值为零的位置,来进行精度修复和效果修复。
综上,本实施例提供的音频文件切割位置处理方法,不仅可以提高音频文件切割位置标注的准确性,还可以节省人工成本。
参见图5,图5是本发明实施例提供的音频文件切割位置处理装置的结构图。如图5所示,音频文件切割位置处理装置500包括:
预处理模块501,用于预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
第一调整模块502,用于根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
可选的,所述第一调整模块具体用于:
若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置;
其中,所述第一音频文件为所述音频文件集中的任一音频文件,所述第一切割位置为所述第一音频文件中预标注的任一切割位置,所述第一子音频文件为所述第一音频文件中包括所述第一切割位置两侧音频的音频文件。
可选的,所述装置还包括:
判断模块,用于所述若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置之前,判断所述第一切割位置对应的声母韵母组合是否属于预设的声母韵母组合集合,其中,所述第一切割位置对应的声母韵母组合为所述第一切割位置两侧音频对应的文字的声母和韵母的组合,且所述第一切割位置两侧音频均对应一个文字;
第一确定模块,用于若所述第一切割位置对应的声母韵母组合属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化;
第二确定模块,用于若所述第一切割位置对应的声母韵母组合不属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化。
可选的,所述第一调整模块具体用于:
调整第一切割位置为所述第一子音频文件的短时过零率变化的第一过渡位置,其中,所述第一过渡位置的能量值为零。
可选的,所述装置还包括:
接收模块,用于若所述第一音频文件的所述第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化,则接收用户对所述第一切割位置的调整操作;
第二调整模块,用于根据所述调整操作调整所述第一切割位置。
可选的,所述预处理模块具体用于:
分别对所述音频文件集中每个音频文件进行语音识别,以将所述音频文件集中每个音频文件转换为文本,并分别根据所述每个音频文件转换得到的文本,预标注所述每个音频文件的切割位置;
或者
接收用户对所述音频文件集中的音频文件的切割位置的预标注。
可选的,所述装置还包括:
第三调整模块,用于所述预标注音频文件集中的各个音频文件的切割位置之后,所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整之前,根据所述音频文件集中的音频文件的能量值,对所述音频文件集中的音频文件的切割位置进行调整,以使调整后的切割位置的能量值为零。
本发明实施例提供的音频文件切割位置处理装置500能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的音频文件切割位置处理装置500,预处理模块501,用于预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;第一调整模块502,用于根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。由于根据音频文件的短时过零率的变化特征对预标注的音频文件的切割位置进行了调整,可以提高音频文件的切割位置标注的准确性。
参见图6,图6是本发明又一实施提供的音频文件切割位置处理装置的结构图,如图6所示,音频文件切割位置处理装置600包括:处理器601、存储器602及存储在所述存储器602上并可在所述处理器上运行的计算机程序,音频文件切割位置处理装置600中的各个组件通过总线接口603耦合在一起,所述计算机程序被所述处理器601执行时实现如下步骤:
预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
可选的,所述计算机程序被所述处理器601执行时还用于:
若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置;
其中,所述第一音频文件为所述音频文件集中的任一音频文件,所述第一切割位置为所述第一音频文件中预标注的任一切割位置,所述第一子音频文件为所述第一音频文件中包括所述第一切割位置两侧音频的音频文件。
可选的,所述计算机程序被所述处理器601执行时还用于:
所述若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置之前,判断所述第一切割位置对应的声母韵母组合是否属于预设的声母韵母组合集合,其中,所述第一切割位置对应的声母韵母组合为所述第一切割位置两侧音频对应的文字的声母和韵母的组合,且所述第一切割位置两侧音频均对应一个文字;
若所述第一切割位置对应的声母韵母组合属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化;
若所述第一切割位置对应的声母韵母组合不属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化。
可选的,所述计算机程序被所述处理器601执行时还用于:
调整第一切割位置为所述第一子音频文件的短时过零率变化的第一过渡位置,其中,所述第一过渡位置的能量值为零。
可选的,所述计算机程序被所述处理器601执行时还用于:
若所述第一音频文件的所述第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化,则接收用户对所述第一切割位置的调整操作;
根据所述调整操作调整所述第一切割位置。
可选的,所述计算机程序被所述处理器601执行时还用于:
分别对所述音频文件集中每个音频文件进行语音识别,以将所述音频文件集中每个音频文件转换为文本,并分别根据所述每个音频文件转换得到的文本,预标注所述每个音频文件的切割位置;
或者
接收用户对所述音频文件集中的音频文件的切割位置的预标注。
可选的,所述计算机程序被所述处理器601执行时还用于:
所述预标注音频文件集中的各个音频文件的切割位置之后,所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整之前,根据所述音频文件集中的音频文件的能量值,对所述音频文件集中的音频文件的切割位置进行调整,以使调整后的切割位置的能量值为零。
本发明实施例还提供一种音频文件切割位置处理装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述音频文件切割位置处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音频文件切割位置处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种音频文件切割位置处理方法,其特征在于,包括:
预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
2.根据权利要求1所述的方法,其特征在于,所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整,包括:
若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置;
其中,所述第一音频文件为所述音频文件集中的任一音频文件,所述第一切割位置为所述第一音频文件中预标注的任一切割位置,所述第一子音频文件为所述第一音频文件中包括所述第一切割位置两侧音频的音频文件。
3.根据权利要求2所述的方法,其特征在于,所述若第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化,则调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置之前,所述方法还包括:
判断所述第一切割位置对应的声母韵母组合是否属于预设的声母韵母组合集合,其中,所述第一切割位置对应的声母韵母组合为所述第一切割位置两侧音频对应的文字的声母和韵母的组合,且所述第一切割位置两侧音频均对应一个文字;
若所述第一切割位置对应的声母韵母组合属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征满足由大到小变化或者由小到大变化;
若所述第一切割位置对应的声母韵母组合不属于预设的声母韵母组合集合,则确定第一音频文件的第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化。
4.根据权利要求2所述的方法,其特征在于,所述调整第一切割位置为所述第一子音频文件的短时过零率变化的过渡位置,包括:
调整第一切割位置为所述第一子音频文件的短时过零率变化的第一过渡位置,其中,所述第一过渡位置的能量值为零。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第一音频文件的所述第一子音频文件的短时过零率的变化特征不满足由大到小变化且不满足由小到大变化,则接收用户对所述第一切割位置的调整操作;
根据所述调整操作调整所述第一切割位置。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述预标注音频文件集中的各个音频文件的切割位置,包括:
分别对所述音频文件集中每个音频文件进行语音识别,以将所述音频文件集中每个音频文件转换为文本,并分别根据所述每个音频文件转换得到的文本,预标注所述每个音频文件的切割位置;
或者
接收用户对所述音频文件集中的音频文件的切割位置的预标注。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述预标注音频文件集中的各个音频文件的切割位置之后,所述根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整之前,所述方法还包括:
根据所述音频文件集中的音频文件的能量值,对所述音频文件集中的音频文件的切割位置进行调整,以使调整后的切割位置的能量值为零。
8.一种音频文件切割位置处理装置,其特征在于,包括:
预处理模块,用于预标注音频文件集中的各个音频文件的切割位置,其中,所述音频文件集包括至少两个音频文件;
第一调整模块,用于根据所述音频文件集中的音频文件的短时过零率的变化特征,对所述音频文件集中的音频文件的切割位置进行调整。
9.一种音频文件切割位置处理装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现包括如权利要求1至7中任一项所述的音频文件切割位置处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现包括如权利要求1至7中任一项所述的音频文件切割位置处理方法的步骤。
CN201911272719.XA 2019-12-12 2019-12-12 一种音频文件切割位置处理方法及装置 Active CN111883169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272719.XA CN111883169B (zh) 2019-12-12 2019-12-12 一种音频文件切割位置处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272719.XA CN111883169B (zh) 2019-12-12 2019-12-12 一种音频文件切割位置处理方法及装置

Publications (2)

Publication Number Publication Date
CN111883169A true CN111883169A (zh) 2020-11-03
CN111883169B CN111883169B (zh) 2021-11-23

Family

ID=73153897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272719.XA Active CN111883169B (zh) 2019-12-12 2019-12-12 一种音频文件切割位置处理方法及装置

Country Status (1)

Country Link
CN (1) CN111883169B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW497092B (en) * 2000-10-30 2002-08-01 Ind Tech Res Inst Syncopation method for Chinese speech synthesis
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
KR20070049831A (ko) * 2005-11-09 2007-05-14 엘지전자 주식회사 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기
CN101290766A (zh) * 2007-04-20 2008-10-22 西北民族大学 安多藏语语音音节切分的方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US20110225196A1 (en) * 2008-03-19 2011-09-15 National University Corporation Hokkaido University Moving image search device and moving image search program
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN103054586A (zh) * 2012-12-17 2013-04-24 清华大学 一种基于汉语言语测听动态词表的汉语言语自动测听方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105679332A (zh) * 2016-03-09 2016-06-15 四川大学 一种腭裂语音声韵母自动切分方法及系统
US20160261749A1 (en) * 2015-03-05 2016-09-08 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN110322870A (zh) * 2019-06-19 2019-10-11 北京信息职业技术学院 一种汉语语音信号切分方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW497092B (en) * 2000-10-30 2002-08-01 Ind Tech Res Inst Syncopation method for Chinese speech synthesis
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
KR20070049831A (ko) * 2005-11-09 2007-05-14 엘지전자 주식회사 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기
CN101290766A (zh) * 2007-04-20 2008-10-22 西北民族大学 安多藏语语音音节切分的方法
US20110225196A1 (en) * 2008-03-19 2011-09-15 National University Corporation Hokkaido University Moving image search device and moving image search program
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN103054586A (zh) * 2012-12-17 2013-04-24 清华大学 一种基于汉语言语测听动态词表的汉语言语自动测听方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
US20160261749A1 (en) * 2015-03-05 2016-09-08 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105679332A (zh) * 2016-03-09 2016-06-15 四川大学 一种腭裂语音声韵母自动切分方法及系统
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN110322870A (zh) * 2019-06-19 2019-10-11 北京信息职业技术学院 一种汉语语音信号切分方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王波 等: "基于声母和韵母的单字和单词识别研究", 《苏州大学学报(自然科学版)》 *
王熙月 等: "基于声学特征的腭裂语音声韵母切分", 《计算机工程与应用》 *
赵力: "《语音信号处理》", 30 June 2009, 机械工业出版社 *

Also Published As

Publication number Publication date
CN111883169B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US9368116B2 (en) Speaker separation in diarization
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US10410615B2 (en) Audio information processing method and apparatus
CN105244026A (zh) 一种语音处理方法及装置
CN107680584B (zh) 用于切分音频的方法和装置
CN106611604A (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN105810205A (zh) 一种语音处理方法及装置
JP2015219480A (ja) 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
CN106782517A (zh) 一种语音音频关键词过滤方法及装置
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN105654955A (zh) 语音识别方法及装置
CN114666618B (zh) 音频审核方法、装置、设备及可读存储介质
CN103559289A (zh) 语种无关的关键词检索方法及系统
CN111427996B (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN111883169B (zh) 一种音频文件切割位置处理方法及装置
CN112885379A (zh) 客服语音评估方法、系统、设备及存储介质
CN104882146A (zh) 音频推广信息的处理方法及装置
WO2023108459A1 (en) Training and using a deep learning model for transcript topic segmentation
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
CN113887239A (zh) 基于人工智能的语句分析方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant