CN104867494B

CN104867494B - 一种录音文件的命名分类方法及系统

Info

Publication number: CN104867494B
Application number: CN201510228698.7A
Authority: CN
Inventors: 曾元清
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2017-10-24
Anticipated expiration: 2035-05-07
Also published as: CN104867494A

Abstract

本发明公开了一种录音文件的命名分类方法及系统，其通过音色数据识别，能对录音文件中的各人物的音色数据进行识别，在对录音文件进行命名时可根据各人物的音色数据对应的身份标识信息来进行命名；此外，若录音文件中没有人物参与录音，其还可根据录音文件中出现频率最高的音色数据去进行分类命名，或者根据该录音文件中的语音数据的音量信息及音调信息是否超过预设的阈值来将该录音文件定义为垃圾录音文件。利用本发明，用户在查找录音文件时可根据文件名快速地找到所需的录音文件，其有效地解决了现有技术中在查找录音文件时存在的费时麻烦，用户体验差等问题。

Description

一种录音文件的命名分类方法及系统

技术领域

本发明涉及录音文件命名领域，尤其涉及一种录音文件的命名分类方法及系统。

背景技术

现有手机的功能越来越强大，用户进行手机录音的应用也越来越多，如通话时的录音，听讲座时作为笔记的录音，还有平常用来记录生活的一些对话的录音（如朋友之间搞笑的对话的录音）。当然，录音也存在另一种功能，即用于作为一种证据或凭证存在。

现在手机录音文件基本上为以包括录音时的日期时间等相关信息的一连串数字进行命名，并自动按照录音时间的顺序进行分类排列，由于录音不像图片那样有着直观的表现，辨别查找出关于某一特定人（如张三）的录音文件时必须要将其播放出来听才能确定是否所需查找的录音文件。对用户来说，若查找关于张三的一段录音文件，其很可能需要听完手机上的全部的录音文件，其不仅费时而且麻烦，从而导致用户体验非常差。

发明内容

为了克服现有技术中的不足，本发明提供一种录音文件的命名分类方法及系统，以方便用户根据录音文件的文件名快速方便地找到所需的录音文件。

本发明是通过以下技术方案实现的：一种录音文件的命名分类方法，应用于具有音色识别功能的录音终端中，所述方法包括：

S1、在录音终端中预先建立人物音色ID数据库，所述人物音色ID数据库保存有人物音色数据，且各人物音色数据对应着相应的身份标识信息，本发明中的身份标识信息优选为姓名；

S2、当完成录音后，对录音文件中的语音数据进行人声识别，提取录音文件中属于人类声音范围内的人声语音数据；

S3、对所述的人声语音数据进行音色识别，识别出所述人声语音数据中每一说话者的音色数据；

S4、依次提取所述人声语音数据中每一说话者的音色数据，将其与所述人物音色ID数据库中的人物音色数据进行匹配对比；若匹配成功，则提取相应的人物音色数据对应的身份标识信息；若匹配不成功，则播放一段与该音色数据相应的人声语音数据，并弹出相应的操作窗口以供用户对该音色数据进行标注相应的身份标识信息；

S5、对所述提取的身份标识信息和/或标注的身份标识信息进行整合处理，并将整合处理后的身份标识信息中的全部或部分信息作为所述录音文件的文件名；

S6、根据文件名中的全部或部分身份标识信息对命名后的录音文件进行自动分类，或提供一操作选项供用户根据文件名中的全部或部分身份标识信息对命名后的录音文件进行分类。

较佳地，所述步骤S2还包括：

当对录音文件中的语音数据进行人声识别后，若无法识别出人声语音数据，则提取录音文件中语音数据中出现频率最高的音色数据，将其与用于保存非人类声音范围内的音色数据的网络数据库中的非人声音色数据进行匹配对比，若匹配成功，则根据匹配结果对录音文件进行分类并命名；若匹配失败，则提取录音文件的语音数据中的音量信息及音调信息进行识别判断，当判断音量和/或音调超过预设的阈值时，则将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名。

较佳地，所述步骤S4还包括，当用户将未能与人物音色ID数据库中的人物音色数据匹配成功的音色数据进行标注相应的身份标识信息后，将该音色数据及其对应的身份标识信息保存于所述人物音色ID数据库中。

优选地，所述录音终端为具有录音功能的手机。

基于上述发明构思，本发明还提供了一种录音文件的命名分类系统，其应用于具有音色识别功能的录音终端中，所述系统包括：

人物音色ID数据库单元，用于在录音终端中预先建立人物音色ID数据库，所述人物音色ID数据库保存有人物音色数据，且各人物音色数据对应着相应的身份标识信息；

人声识别单元，当完成录音后，对录音文件中的语音数据进行人声识别，提取录音文件中属于人类声音范围内的人声语音数据；

音色识别及匹配处理单元，用于对所述的人声语音数据进行音色识别，识别出所述人声语音数据中每一说话者的音色数据；依次提取所述人声语音数据中每一说话者的音色数据，将其与所述人物音色ID数据库中的人物音色数据进行匹配对比；若匹配成功，则提取相应的人物音色数据对应的身份标识信息；若匹配不成功，则播放一段与该音色数据相应的人声语音数据，并弹出相应的操作窗口以供用户对该音色数据进行标注相应的身份标识信息；

录音文件命名单元，用于对所述提取的身份标识信息和/或标注的身份标识信息进行整合处理，并将整合处理后的身份标识信息中的全部或部分信息作为所述录音文件的文件名；

录音文件分类单元，根据文件名中的全部或部分身份标识信息对命名后的录音文件进行自动分类，或提供一操作选项供用户根据文件名中的全部或部分身份标识信息对命名后的录音文件进行分类。

进一步地，所述系统还包括：

非人声录音文件处理单元，用于当对录音文件中的语音数据进行人声识别后，若无法识别出人声语音数据，则提取录音文件中语音数据中出现频率最高的音色数据，将其与用于保存非人类声音范围内的音色数据的网络数据库中的非人声音色数据进行匹配对比，若匹配成功，则根据匹配结果对录音文件进行分类并命名；若匹配失败，则提取录音文件的语音数据中的音量信息及音调信息进行识别判断，当判断音量和/或音调超过预设的阈值时，则将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名；在所述网络数据库中，其用于保存常见的机动车声、动物叫声、风声、雨声等声音的非人声音音色数据及其对应名称的信息。

优选地，所述录音终端为具有录音功能的手机。

本发明提供的录音文件的命名分类方法及系统，其通过音色数据识别，能对录音文件中的各人物的音色数据进行识别，在对录音文件进行命名时可根据各人物的音色数据对应的身份标识信息（如人物的姓名）来进行命名，此外，若录音文件中没有人物参与录音，其还可根据录音文件中出现频率最高的音色数据去进行分类命名，或者根据该录音文件中的语音数据的音量信息及音调信息是否超过预设的阈值来将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名；在保存录音文件时，还根据录音文件的文件名进行分类保存，如此用户在查找录音文件时即可根据文件名快速地找到所需的录音文件，其有效地解决了现有技术中在查找录音文件时存在的费时麻烦，用户体验差等问题。

附图说明

附图1为本发明实施例中录音文件的命名分类方法的方法流程示意图；

附图2为本发明实施例中录音文件的命名分类系统的模块框图。

具体实施方式

为了便于本领域技术人员的理解，下面结合附图对本发明作进一步的描述。

在进行具体的实施例说明前，先对本发明实施例中涉及的音色，人声的频率等作简要说明：音色（musical quality）是指声音的感觉特性。音调的高低决定于发声体振动的频率，响度的大小决定于发声体振动的振幅,但不同的发声体由于材料、结构不同，发出声音的音色也就不同，这样我们就可以通过音色的不同去分辨不同的发声体音色是声音的特色，根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人发出的。音色又名音品。音色的不同取决于不同的泛音，每一种乐器、不同的人以及所有能发声的物体发出的声音，除了一个基音外，还有许多不同频率（振动的速度）的泛音伴随，正是这些泛音决定了其不同的音色。因此，每一个人即使说相同的话也有不同的音色，也可以根据其音色辨别出是不同的人。在本发明实施例中，正是通过对录音文件中的音色数据进行识别，进而识别出录音文件中存在音色数据的数量及每一音色数据对应的身份信息。关于人类声音（即人声）与非人类声音的区别，则可首先通过对声音的频率进行识别，再结合音色来进行区分；人类声音的实际频率的范围为：

男低音:82～392Hz，男中音:123～493Hz，男高音:164～698Hz，基准音区:64～523Hz；

女低音:82～392Hz，女低音:123～493Hz，女高音:220～1100Hz；基准音区:160～1200Hz 。

如附图1所示，一种录音文件的命名分类方法，应用于具有音色识别功能的录音终端中，所述方法包括：

S1、在录音终端中预先建立人物音色ID数据库，所述人物音色ID数据库保存有人物音色数据，且各人物音色数据对应着相应的身份标识信息，本实施例中所述身份标识信息为姓名，

本实施例中的录音终端优选为具有录音功能的手机，用户可通过在手机上预先提取一段或多段录音文件作为建立人物音色ID数据库的材料，如需要将甲乙丙丁等四人的人物音色数据添加到人物音色ID数据库中，则将具有甲乙丙丁等说话者的录音文件进行音色识别处理，当识别出甲的语音数据时，用户将甲的姓名（例如张某）标注作为该音色数据对应的身份标识信息，当识别出乙丙丁等人的音色数据时，也分别将其姓名标注作为对应的身份标识信息。在建立好人物音色ID数据库后，用户利用所述手机在进行录音时，若该录音文件为针对张三的录音，则当完成录音后，该录音文件在自动命名时将包含有“张某”的信息，如文件名为“张某20150101” （表示为在2015年1月1日关于张某的录音），或者也可以直接命名为“张某”；若该录音文件为用户本人与王某的通话录音，则在通话录音完成后，当识别出用户本人与王某的音色数据后，则将用户本人的姓名（如赵某）与王某等身份标识信息进行整合处理，将该通话录音的文件名为“赵某与王某20150101”，并且由于该录音文件属于通话录音文件，保存时将其分类到通话录音文件类型中；若录音文件中涉及多个（多于三个时）人物的音色数据时，则在命名时选取其中出现频率最高的三个人的姓名信息来进行整合处理，即只是将多个身份标识信息中的部分信息进行整合处理，其余的命名及分类与上述的相同或类似；若录音文件中涉及的人物的音色数据未能与所述人物音色ID数据库中的人物音色数据进行匹配，则播放一段与该人物的音色数据相关的语音数据（如录音文件中关于该人物的五秒左右的音频），并弹出相应的操作窗口以供用户对该音色数据进行标注相应的身份标识信息，在标注成功后，将该音色数据及其对应的身份标识信息保存于所述人物音色ID数据库中，以供下次录音时进行匹配对比。

需要说明的是，上述关于录音文件的文件名并没有涉及文件格式，实际上录音文件的文件格式可以MP3，WMA等格式；另外，在对录音文件进行自动命名时，可预先设置相应的文字格式，再将整合处理后的身份标识信息进行填充即可；如对录音文件预先设置的格式可为“XX+时间”或“XX与XXX的通话录音+时间”，因此在命名时获取对应的人物标注信息与相应的时间信息即可。

上述的录音文件为涉及有人物参与录音的录音文件，即录音文件为具有人声语音数据的录音文件，当录音文件没有涉及人声语音数据时，也对其进行相应的命名分类处理，其具体处理方式为，在所述步骤S2增加相应的处理选项，即所述步骤S2还包括：

当对录音文件中的语音数据进行人声识别后，若无法识别出人声语音数据，则提取录音文件中语音数据中出现频率最高的音色数据，将其与用于保存非人类声音范围内的音色数据的网络数据库中的非人声音色数据进行匹配对比，若匹配成功，则根据匹配结果对录音文件进行分类并命名；若匹配失败，则提取录音文件的语音数据中的音量信息及音调信息进行识别判断，当判断音量和/或音调超过预设的阈值时，则将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名，所述的特殊符号，包括但不限于“*”、“#”等，用户通过查看录音文件的文件名即可判定该录音文件是否为垃圾录音文件。

所述的网络数据库与所述人物音色ID数据库类似，其用于保存相应的音色数据及其对应的身份标识信息，其不同在于：（1）网络数据库用于保存非人类声音范围内的音色数据及其对应的身份标识信息，比如常见的机动车声音，自然界的风声、雨声、动物叫声等非人声音色数据；（2）网络数据库中的数据保存于网络中，而人物音色ID数据库中的数据库则均保存于录音终端中。当然，实际应用时也可以在录音终端中建立相应的非人声音色数据库，将非人类声音范围内的音色数据及其对应的身份标识信息保存于其中。对于没有涉及人声语音数据的录音文件，其命名分类的方式如上述涉及人声语音数据的录音文件的处理方式类似，在此不再赘述。

本发明实施例中还提供了一种录音文件的命名分类系统，其应用于具有音色识别功能的录音终端中，所述录音终端优选为具有录音功能的手机，所述系统包括：

进一步地，所述系统还包括：

本实施例提供的录音文件的命名分类系统，其发明构思基于上一实施例的录音文件的命名分类方法，因此其工作原理及过程与上一实施例所描述的相同或相似，在此不再赘述。

本发明实施例提供的录音文件的命名分类方法及系统，能使用户根据录音文件的文件名即可快速方便地找到所需的录音文件，其通过音色数据识别，能对录音文件中的各人物的音色数据进行识别，在对录音文件进行命名时可根据各人物的音色数据对应的身份标识信息来进行命名；此外，若录音文件中没有人物参与录音，其还可根据录音文件中出现频率最高的音色数据去进行分类命名，或者根据该录音文件中的语音数据的音量信息及音调信息是否超过预设的阈值来将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名，使用户通过该文件名即可快速清楚地知道该录音文件是否为垃圾文件；在保存录音文件时，还根据录音文件的文件名进行分类保存，如此用户在查找录音文件时即可根据文件名快速地找到所需的录音文件，其有效地解决了现有技术中在查找录音文件时存在的费时麻烦，用户体验差等问题。

上述实施例中提到的内容为本发明较佳的实施方式，并非是对本发明的限定，在不脱离本发明构思的前提下，任何显而易见的替换均在本发明的保护范围之内。

Claims

1.一种录音文件的命名分类方法，应用于具有音色识别功能的录音终端中，所述方法包括：

S1、在录音终端中预先建立人物音色ID数据库，并建立网络数据库，所述人物音色ID数据库保存有人物音色数据，且各人物音色数据对应着相应的身份标识信息，所述网络数据库用于保存非人类声音范围内的音色数据及其对应的身份标识信息；

S2、当完成录音后，对录音文件中的语音数据进行人声识别，提取录音文件中属于人类声音范围内的人声语音数据；当对录音文件中的语音数据进行人声识别后，若无法识别出人声语音数据，则提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比，若匹配成功，则根据匹配结果对录音文件进行分类并命名；

S5、对所述提取的身份标识信息和/或标注的身份标识信息进行整合处理，并将整合处理后的身份标识信息中的全部或部分信息作为所述录音文件的文件名，其中，当从所述人声语音数据中提取出一位说话者的音色数据时，将所述一位说话者的音色数据对应的身份标识信息作为所述录音文件的文件名；当从所述人声语音数据中提取出二位说话者的音色数据时，对所述二位说话者的音色数据对应的身份标识信息进行整合处理，将整合后的身份标识信息作为所述录音文件的文件名；当从所述人声语音数据中提取出至少三位说话者的音色数据时，获取所述至少三位说话者的音色数据对应的身份标识信息，并选取出现频率最高的三个说话者的身份标识信息进行整合处理，将整合处理后的身份标识信息作为所述录音文件的文件名；

2.根据权利要求1所述的录音文件的命名分类方法，其特征在于，提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比，包括：

提取录音文件中语音数据中出现频率最高的音色数据，将其与用于保存非人类声音范围内的音色数据的网络数据库中的非人声音色数据进行匹配对比；

在提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比之后，所述步骤S2还包括：

若匹配失败，则提取录音文件的语音数据中的音量信息及音调信息进行识别判断，当判断音量和/或音调超过预设的阈值时，则将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名。

3.根据权利要求1所述的录音文件的命名分类方法，其特征在于，所述步骤S4还包括，当用户将未能与人物音色ID数据库中的人物音色数据匹配成功的音色数据进行标注相应的身份标识信息后，将该音色数据及其对应的身份标识信息保存于所述人物音色ID数据库中。

4.根据权利要求1～3中任一项所述的录音文件的命名分类方法，其特征在于：所述录音终端为具有录音功能的手机。

5.一种录音文件的命名分类系统，应用于具有音色识别功能的录音终端中，所述系统包括：

人物音色ID数据库单元，用于在录音终端中预先建立人物音色ID数据库，，并建立网络数据库所述人物音色ID数据库保存有人物音色数据，且各人物音色数据对应着相应的身份标识信息，所述网络数据库用于保存非人类声音范围内的音色数据及其对应的身份标识信息；

非人声录音文件处理单元，用于当对录音文件中的语音数据进行人声识别后，若无法识别出人声语音数据，则提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比，若匹配成功，则根据匹配结果对录音文件进行分类并命名；

录音文件命名单元，用于对所述提取的身份标识信息和/或标注的身份标识信息进行整合处理，并将整合处理后的身份标识信息中的全部或部分信息作为所述录音文件的文件名，其中，当从所述人声语音数据中提取出一位说话者的音色数据时，将所述一位说话者的音色数据对应的身份标识信息作为所述录音文件的文件名；当从所述人声语音数据中提取出二位说话者的音色数据时，对所述二位说话者的音色数据对应的身份标识信息进行整合处理，将整合后的身份标识信息作为所述录音文件的文件名；当从所述人声语音数据中提取出至少三位说话者的音色数据时，获取所述至少三位说话者的音色数据对应的身份标识信息，并选取出现频率最高的三个说话者的身份标识信息进行整合处理，将整合处理后的身份标识信息作为所述录音文件的文件名；

6.根据权利要求5所述的录音文件的命名分类系统，其特征在于，所述非人声录音文件处理单元，具体用于：提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比：

在所述非人声录音文件处理单元提取录音文件中的音色数据，将其与所述网络数据库中的非人声音色数据进行匹配对比之后，所述非人声录音文件处理单元还用于若匹配失败，则提取录音文件的语音数据中的音量信息及音调信息进行识别判断，当判断音量和/或音调超过预设的阈值时，则将该录音文件定义为垃圾录音文件，并以预设的特殊符号作为该录音文件的文件名。

7.根据权利要求5所述的录音文件的命名分类系统，其特征在于，所述音色识别及匹配处理单元还用于，当用户将未能与人物音色ID数据库中的人物音色数据匹配成功的音色数据进行标注相应的身份标识信息后，将该音色数据及其对应的身份标识信息保存于所述人物音色ID数据库中。

8.根据权利要求5～7中任一项所述的录音文件的命名分类系统，其特征在于：所述录音终端为具有录音功能的手机。