CN106157979B - 一种获取人声音高数据的方法和装置 - Google Patents

一种获取人声音高数据的方法和装置 Download PDF

Info

Publication number
CN106157979B
CN106157979B CN201610487502.0A CN201610487502A CN106157979B CN 106157979 B CN106157979 B CN 106157979B CN 201610487502 A CN201610487502 A CN 201610487502A CN 106157979 B CN106157979 B CN 106157979B
Authority
CN
China
Prior art keywords
data
voice
song
audio
pitch data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610487502.0A
Other languages
English (en)
Other versions
CN106157979A (zh
Inventor
张超钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu kugou business incubator management Co.,Ltd.
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201610487502.0A priority Critical patent/CN106157979B/zh
Publication of CN106157979A publication Critical patent/CN106157979A/zh
Application granted granted Critical
Publication of CN106157979B publication Critical patent/CN106157979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取人声音高数据的方法和装置,属于计算机技术领域。所述方法包括:提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据;基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据。采用本发明,可以提高获取的人声音高数据的准确度。

Description

一种获取人声音高数据的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种获取人声音高数据的方法和装置。
背景技术
随着计算机技术的发展,歌唱类应用程序得到了广泛的应用。很多歌唱类应用程序为用户提供了歌唱打分功能。
歌唱类应用程序进行歌唱打分的过程是:在原唱歌曲音频(由原唱人声音频和伴奏音频组成)中提取人声音高数据,并在用户歌唱的人声音频中提取人声音高数据,将分别提取的人声音高数据进行对比,基于它们之间的匹配度,确定打分的分值。其中,人声音高数据是音频中不同时间点处的人声音高,一般可以用频率来表示,即音频中提取出来的人声音高数据可以是一组频率数据。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
原唱歌曲音频由原唱人声音频和伴奏音频两部分组成,由于唱片公司提供的原唱歌曲音频中这两部分一般是混合好的,无法分离,所以,无法单独在原唱人声音频中提取人声音高数据,只能在混合好的原唱歌曲音频中提取人声音高数据,而由于原唱歌曲音频中混有伴奏音频,这就会影响人声音高数据的提取准确度,人声音高数据准确度受影响最突出的一种表现形式是音高丢失,即原唱歌曲音频中某个时间点实际存在人声歌唱,可是提取出来的人声音高数据在此时间点的音高值为0。在原唱歌曲音频中提取的人声音高数据的音高丢失率比较高,其中,缺少很多音高值,从而,在原唱歌曲音频中提取的人声音高数据的准确度较差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种获取人声音高数据的方法和装置。所述技术方案如下:
第一方面,提供了一种获取人声音高数据的方法,所述方法包括:
提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据;
基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,包括:
确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
这样,通过数据距离确定人声音高数据之间的匹配度,可以使匹配度计算更精确。
可选的,所述在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据,包括:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
这样,可以保证选取的目标人声音高数据与原唱歌曲音频的人声音高数据,具有足够的匹配度,可以提高修正后的人声音高数据的准确性。
可选的,所述数据距离为范数距离、欧式距离或余弦距离。
可选的,所述基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据,包括:
在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
这样,可以更准确的确定原唱歌曲音频的人声音高数据中丢失音高值的时间点。
可选的,所述提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据,包括:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
可选的,所述方法还包括:
接收多个终端分别上传的所述目标歌曲的多个人声音频。
这样,可以获取到更多人声音频,有助于提高选取的目标人声音高数据与原唱歌曲音频的人声音高数据的匹配度。
第二方面,提供了一种获取人声音高数据的装置,所述装置包括:
提取模块,用于提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
选取模块,用于在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据;
修正模块,用于基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述选取模块,用于:
确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述选取模块,用于:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述数据距离为范数距离、欧式距离或余弦距离。
可选的,所述修正模块,用于:
在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述提取模块,用于:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
可选的,所述装置还包括:
接收模块,用于接收多个终端分别上传的所述目标歌曲的多个人声音频。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取目标歌曲的多个人声音频的人声音高数据,在多个人声音频的人声音高数据中,选取与原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,基于目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。这样,可以通过人声音频的人声音高数据,对原唱歌曲音频的人声音高数据进行丢失音高值的补偿,从而,可以提高获取的人声音高数据的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种获取人声音高数据的方法的流程示意图;
图2A是本发明实施例提供的原唱歌曲音频的人声音高数据的示意图;
图2B是本发明实施例提供的目标人声音高数据的示意图;
图2C是本发明实施例提供的修正后的人声音高数据的示意图;
图3是本发明实施例提供的一种获取人声音高数据的装置的结构示意图;
图4是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种获取人声音高数据的方法,该方法可以由服务器或终端设备实现,本发明实施例以服务器作为执行主体为例进行方案的说明。其中,服务器可以是某歌唱类应用程序的后台服务器,服务器可以包括处理器、存储器。处理器,可以用于提取人声音高数据的处理,可以用于比较用户的人声音频的人声音高数据与原唱歌曲音频的人声音高数据的匹配度的处理,可以用于对原唱歌曲音频的人声音高数据中丢失的音高值进行补充,存储器,可以用于对原唱歌曲音频和人声音频进行存储。服务器还可以包括收发器,收发器可以包括天线、匹配电路、调制解调器等组成部件,可以用于向各终端获取不同歌曲的人声音频。
本发明实施例提供的获取人声音高数据的方法,可以如图1所示,包括如下步骤:
步骤101,提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据。
其中,目标歌曲可以是任意歌曲。原唱歌曲音频可以是目标歌曲由原唱歌手演唱并结合有伴奏的音频。原唱歌曲音频是由原唱人声音频(歌曲原歌手的清唱音频)和伴奏音频两部分组成多音部音频。人声音频是目标歌曲的清唱音频,属于单音部音频,可以是用户在使用上述歌唱类应用程序时录制并上传服务器的清唱音频。
在实施中,歌唱类应用程序的提供商可以从唱片公司获取不同歌曲的原唱歌曲音频。另外,用户在使用歌唱类应用程序的过程中,可以通过歌唱类应用程序进行某歌曲的歌唱,终端会播放该歌曲的伴奏音频,用户则可以随着伴奏音频进行歌唱,此时终端还可以对用户唱的人声音频进行录制,并可以将录制的人声音频上传至服务器进行保存。服务器对于每一首歌曲,都可以存储大量的用户上传的人声音频。也就是说,在执行步骤101之前,对于任一目标歌曲,服务器可以存储有终端上传的大量人声音频。
在执行本实施例的方法时,服务器可以分别对其存储的每首歌曲,进行本流程的处理。在一首歌曲在此歌唱类应用程序中上线以后,当用户上传的人声音频的数量达到预设阈值(如500)的时候,服务器可以对该歌曲进行本流程的处理,此时该歌曲即为目标歌曲,此后,还可以每达到一定的周期时长,对该歌曲进行一次本流程的处理。或者,服务器也可以设置一个总周期,每达到总周期的时长时,对服务器存储的每一首歌曲都分别进行一次本流程的处理。
可选的,对于原唱歌曲音频和人声音频,可以采用不同的音高提取算法,进行人声音高数据的提取,相应的,步骤101的处理可以如下:通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取目标歌曲的多个人声音频的人声音高数据。
在实施中,可以获取目标歌曲的原唱歌曲音频,基于polyphonic music(多音部)音高提取算法,提取原唱歌曲音频的人声音高数据,多音部音高提取算法可以是melodia(一种算法名称)算法等。获取的原唱歌曲音频的人声音高数据可以记做X=[x(1),x(2)…x(N)],其中,N为正整数,x(n)为目标歌曲的原唱歌曲音频中不同时间点的音高值。
同时,可以获取上述存储的目标歌曲的多个人声音频,基于monophnic music(单音部)音高提取算法,分别提取每个人声音频的人声音高数据,单音部音高提取算法可以是pYIN(一种算法名称)算法等。获取的人声音频的人声音高数据可以记做Yk=[yk(1),yk(2)…yk(N)],其中,N为正整数,k=1、2、…k,yk(n)为目标歌曲的任一人声音频中不同时间点的音高值。
步骤102,在多个人声音频的人声音高数据中,选取与原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据。
在实施中,在提取原唱歌曲音频的人声音高数据以及多个人声音频的人声音高数据后,可以将每个人声音频的人声音高数据,分别与原唱歌曲音频的人声音高数据进行对比,确定匹配度。具体可以将人声音频的人声音高数据与原唱歌曲音频的人声音高数据中相同时间点对应的音高值进行对比,确定接近程度。
可选的,该匹配度可以采用各种能够反应数据接近度的参数,当匹配度采用数据距离时,步骤102的处理可以如下:确定多个人声音频的人声音高数据中每个人声音高数据,与原唱歌曲音频的人声音高数据之间的数据距离;在多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
在实施中,可以计算原唱歌曲音频的人声音高数据X与每个人声音频的人声音高数据Yk之间的数据距离ek,ek=distance(X,Yk),distance(x,y)为数据距离公式,可以选择任意数据距离公式,如范数距离、欧式距离、余弦距离等。数据距离可以反应出两个数据之间的近似程度,即上述匹配度。经过以上计算,则可以对应每个人声音频的人声音高数据得到一个数据距离,进而,可以在这些数据距离中选取最小的数据距离,进而,选取此最小的数据距离对应的人声音高数据(即目标人声音高数据)。
可选的,在上述选取目标人声音高数据时,如果各个人声音频的人声音高数据与原唱歌曲音频的人声音高数据的匹配度都比较低,可以不在这些人声音频的人声音高数据中,选取目标人声音高数据,相应的处理可以如下:如果确定出的数据距离中存在小于预设阈值的数据距离,则在多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
在实施中,技术人员可以预先设置一个数据距离的阈值,用于判断两个人声音高数据是否足够接近。在上述处理过程中,经过计算得出每个人声音频的人声音高数据对应的数据距离之后,如果计算得到的各数据距离中,存在小于预设阈值的数据距离,则可以在这些数据距离中选取最小的数据距离,进而,选取此最小的数据距离对应的人声音高数据(即目标人声音高数据)。如果计算得到的各数据距离中,不存在小于预设阈值的数据距离,则说明上述多个人声音频中,没有人声音高数据与原唱歌曲音频足够接近的人声音频,这时,可以在另外获取多个人声音频,重新执行本方法流程的处理。
步骤103,基于目标人声音高数据,对原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。
在实施中,在原唱歌曲音频的人声音高数据中,音高值为0的时间点即为没有检测到人声的时间点,这些音高值为0的时间点中,有一部分是确实没有人声的时间点,如间奏过程中的某时间点,而这些音高值为0的时间点中,还有一部分则是丢失音高值的时间点,这些时间点实际有人声,可以由于伴奏干扰等原因,导致没有检测到人声的音高值,导致其音高值为0。可以先确定原唱歌曲音频的人声音高数据中丢失音高值的时间点。然后,可以基于目标人声音高数据中相应时间点的音高值,对原唱歌曲音频的人声音高数据中丢失的音高值进行补充。
可选的,可以基于目标歌曲的歌词时间段,来确定原唱歌曲音频的人声音高数据中丢失的音高值,相应的步骤103的处理可以如下:
步骤一,在原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于目标歌曲的歌词时间段内、且在原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点。
歌词时间段是指歌词中记录的目标歌曲中人声歌唱的时间段,可以包括目标歌曲中的多个时间段,每个时间段可以对应歌词中的一个字或多个字,歌词时间段能反映目标歌曲的原唱歌曲音频的人声音高数据中哪些时间点是应该具有音高值的。所以,在原唱歌曲音频的人声音高数据所对应的各时间点中,包含于目标歌曲的歌词时间段内的时间点,应该都是音高值非零的时间点,那么,在这些时间点中音高值为0的时间点即为丢失音高值的时间点。可见,按照步骤一的方式,可以在原唱歌曲音频的人声音高数据中,确定丢失音高值的时间点(即目标时间点)。如图2A所示,为原唱歌曲音频的人声音高数据存在音高值丢失的示意图(图中时间点的密度比实际情况低很多,仅作为示意图使用)。
步骤二,将原唱歌曲音频的人声音高数据中目标时间点对应的音高值,替换为目标人声音高数据中目标时间点对应的音高值,得到原唱歌曲音频的修正后的人声音高数据。
在实施中,在确定丢失音高值的时间点(即目标时间点)后,可以在目标人声音高数据中,获取目标时间点对应的音高值,用获取的音高值,替换原唱歌曲音频的人声音高数据中目标时间点对应的音高值,从而对原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。如图2B所示,为目标人声音高数据的示意图,如图2C所示,为原唱歌曲音频的修正后的人声音高数据的示意图(两图中时间点的密度比实际情况低很多,仅作为示意图使用)。
在获取原唱歌曲音频的修正后的人声音高数据之后,可以基于修正后的人声音高数据,对后续用户录制的目标歌曲的人声音频进行打分。具体的,服务器可以获取用户录制并上传的目标歌曲的人声音频,提取该人声音频的人声音高数据(称作第一人声音高数据),计算第一人声音高数据与修正后的人声音高数据的匹配度(可以采用数据距离作为匹配度),根据匹配度确定用户上传的人声音频的得分,匹配度越高,得分越高,匹配度月底,得分越低。或者,服务器也可以将修正后的人声音高数据发送给每个终端,由终端进行上述计算匹配度并确定得分的处理,处理过程不再累述。
本发明实施例中,提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取目标歌曲的多个人声音频的人声音高数据,在多个人声音频的人声音高数据中,选取与原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,基于目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。这样,可以通过人声音频的人声音高数据,对原唱歌曲音频的人声音高数据进行丢失音高值的补偿,从而,可以提高获取的人声音高数据的准确度。
基于相同的技术构思,本发明实施例还提供了一种获取人声音高数据的装置,如图3所示,该装置包括:
提取模块310,用于提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
选取模块320,用于在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据;
修正模块330,用于基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述选取模块320,用于:
确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述选取模块320,用于:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述数据距离为范数距离、欧式距离或余弦距离。
可选的,所述修正模块330,用于:
在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述提取模块310,用于:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
可选的,所述装置还包括:
接收模块,用于接收多个终端分别上传的所述目标歌曲的多个人声音频。
本发明实施例中,提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取目标歌曲的多个人声音频的人声音高数据,在多个人声音频的人声音高数据中,选取与原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,基于目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。这样,可以通过人声音频的人声音高数据,对原唱歌曲音频的人声音高数据进行丢失音高值的补偿,从而,可以提高获取的人声音高数据的准确度。
需要说明的是:上述实施例提供的获取歌曲信息的装置在获取歌曲信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取歌曲信息的装置与获取歌曲信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器1900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据;
基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述在所述多个人声音频的人声音高数据中,选取与所述原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,包括:
确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据,包括:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
可选的,所述数据距离为范数距离、欧式距离或余弦距离。
可选的,所述基于所述目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到所述原唱歌曲音频的修正后的人声音高数据,包括:
在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
可选的,所述提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据,包括:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
可选的,还包括:
接收多个终端分别上传的所述目标歌曲的多个人声音频。
本发明实施例中,提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取目标歌曲的多个人声音频的人声音高数据,在多个人声音频的人声音高数据中,选取与原唱歌曲音频的人声音高数据匹配度最高的目标人声音高数据,基于目标人声音高数据,对所述原唱歌曲音频的人声音高数据中丢失的音高值进行补充,得到原唱歌曲音频的修正后的人声音高数据。这样,可以通过人声音频的人声音高数据,对原唱歌曲音频的人声音高数据进行丢失音高值的补偿,从而,可以提高获取的人声音高数据的准确度。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取人声音高数据的方法,其特征在于,所述方法包括:
提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据;
在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
2.根据权利要求1所述的方法,其特征在于,所述在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据,包括:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
3.根据权利要求1所述的方法,其特征在于,所述数据距离为范数距离、欧式距离或余弦距离。
4.根据权利要求1所述的方法,其特征在于,所述提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据,包括:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收多个终端分别上传的所述目标歌曲的多个人声音频。
6.一种获取人声音高数据的装置,其特征在于,所述装置包括:
提取模块,用于提取目标歌曲的原唱歌曲音频的人声音高数据,并分别提取所述目标歌曲的多个人声音频的人声音高数据;
选取模块,用于确定所述多个人声音频的人声音高数据中每个人声音高数据,与所述原唱歌曲音频的人声音高数据之间的数据距离;
在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据;
修正模块,用于在所述原唱歌曲音频的人声音高数据所对应的各时间点中,确定包含于所述目标歌曲的歌词时间段内、且在所述原唱歌曲音频的人声音高数据中对应的音高值为0的目标时间点;
将所述原唱歌曲音频的人声音高数据中所述目标时间点对应的音高值,替换为所述目标人声音高数据中所述目标时间点对应的音高值,得到所述原唱歌曲音频的修正后的人声音高数据。
7.根据权利要求6所述的装置,其特征在于,所述选取模块,用于:
如果确定出的数据距离中存在小于预设阈值的数据距离,则在所述多个人声音频的人声音高数据中,选取对应数据距离最小的目标人声音高数据。
8.根据权利要求6所述的装置,其特征在于,所述数据距离为范数距离、欧式距离或余弦距离。
9.根据权利要求6所述的装置,其特征在于,所述提取模块,用于:
通过多音部音高提取算法,提取目标歌曲的原唱歌曲音频的人声音高数据,并通过单音部音高提取算法,分别提取所述目标歌曲的多个人声音频的人声音高数据。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收多个终端分别上传的所述目标歌曲的多个人声音频。
CN201610487502.0A 2016-06-24 2016-06-24 一种获取人声音高数据的方法和装置 Active CN106157979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610487502.0A CN106157979B (zh) 2016-06-24 2016-06-24 一种获取人声音高数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610487502.0A CN106157979B (zh) 2016-06-24 2016-06-24 一种获取人声音高数据的方法和装置

Publications (2)

Publication Number Publication Date
CN106157979A CN106157979A (zh) 2016-11-23
CN106157979B true CN106157979B (zh) 2019-10-08

Family

ID=57349188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610487502.0A Active CN106157979B (zh) 2016-06-24 2016-06-24 一种获取人声音高数据的方法和装置

Country Status (1)

Country Link
CN (1) CN106157979B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6809608B2 (ja) * 2017-06-28 2021-01-06 ヤマハ株式会社 歌唱音生成装置及び方法、プログラム
CN108109634B (zh) * 2017-12-15 2020-12-04 广州酷狗计算机科技有限公司 歌曲音高的生成方法、装置及设备
CN108172206B (zh) * 2017-12-27 2021-05-07 广州酷狗计算机科技有限公司 音频处理方法、装置及系统
CN111046226B (zh) * 2018-10-15 2023-05-05 阿里巴巴集团控股有限公司 一种音乐的调音方法及装置
CN109981893B (zh) * 2019-02-28 2021-05-14 广州酷狗计算机科技有限公司 歌词显示方法及装置
CN110033791B (zh) * 2019-03-26 2021-04-09 北京雷石天地电子技术有限公司 一种歌曲基频提取方法及装置
CN112489608A (zh) * 2019-08-22 2021-03-12 北京峰趣互联网信息服务有限公司 生成歌曲的方法、装置、电子设备及存储介质
CN113140230B (zh) * 2021-04-23 2023-07-04 广州酷狗计算机科技有限公司 音符音高值的确定方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559875A (zh) * 2013-10-21 2014-02-05 福建星网视易信息系统有限公司 音准抖动修正方法、装置、系统及音视频设备和移动终端
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息系统有限公司 一种歌曲去伴奏的方法和装置
CN104282316A (zh) * 2013-07-01 2015-01-14 亿览在线网络技术(北京)有限公司 一种基于语音匹配的k歌计分方法和装置
CN104885153A (zh) * 2012-12-20 2015-09-02 三星电子株式会社 音频校正设备及其音频校正方法
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和系统
JP2016075753A (ja) * 2014-10-03 2016-05-12 株式会社第一興商 リファレンスの音高差と歌唱音声の音高差を比較して採点を行うカラオケ採点装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104885153A (zh) * 2012-12-20 2015-09-02 三星电子株式会社 音频校正设备及其音频校正方法
CN104282316A (zh) * 2013-07-01 2015-01-14 亿览在线网络技术(北京)有限公司 一种基于语音匹配的k歌计分方法和装置
CN103559875A (zh) * 2013-10-21 2014-02-05 福建星网视易信息系统有限公司 音准抖动修正方法、装置、系统及音视频设备和移动终端
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息系统有限公司 一种歌曲去伴奏的方法和装置
JP2016075753A (ja) * 2014-10-03 2016-05-12 株式会社第一興商 リファレンスの音高差と歌唱音声の音高差を比較して採点を行うカラオケ採点装置
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和系统

Also Published As

Publication number Publication date
CN106157979A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106157979B (zh) 一种获取人声音高数据的方法和装置
CN104395953B (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
CN103824565B (zh) 一种基于音符和时值建模的哼唱识谱方法及系统
CN109166564A (zh) 为歌词文本生成乐曲的方法、装置及计算机可读存储介质
CN104978962B (zh) 哼唱检索方法及系统
CN105161116B (zh) 多媒体文件高潮片段的确定方法及装置
CN104715760B (zh) 一种k歌匹配分析方法及系统
CN104464726B (zh) 一种相似音频的确定方法及装置
CN103823867A (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN108206027A (zh) 一种音频质量评价方法及系统
CN111680187A (zh) 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN109326270A (zh) 音频文件的生成方法、终端设备及介质
CN109190879B (zh) 一种训练改编水平评价模型、评价改编水平的方法及装置
CN108711415B (zh) 纠正伴奏和干音之间的时延的方法、装置及存储介质
CN109410972B (zh) 生成音效参数的方法、装置及存储介质
CN112037739B (zh) 一种数据处理方法、装置、电子设备
CN106503181B (zh) 一种音频数据处理方法及装置
CN106095943B (zh) 演唱歌曲熟识广度检测方法和装置
CN108962286A (zh) 音频识别方法、装置及存储介质
CN107133344B (zh) 一种数据处理方法及装置
CN106782612A (zh) 一种逆向爆音检测方法及其装置
CN107025902B (zh) 数据处理方法及装置
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
CN106649643B (zh) 一种音频数据处理方法及其装置
CN109710798B (zh) 曲目演奏考评方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F

Applicant before: Guangzhou KuGou Networks Co., Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220401

Address after: 4119, 41st floor, building 1, No.500, middle section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan 610000

Patentee after: Chengdu kugou business incubator management Co.,Ltd.

Address before: No. 315, Huangpu Avenue middle, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.