CN110010159B - 声音相似度确定方法及装置 - Google Patents
声音相似度确定方法及装置 Download PDFInfo
- Publication number
- CN110010159B CN110010159B CN201910262559.4A CN201910262559A CN110010159B CN 110010159 B CN110010159 B CN 110010159B CN 201910262559 A CN201910262559 A CN 201910262559A CN 110010159 B CN110010159 B CN 110010159B
- Authority
- CN
- China
- Prior art keywords
- sound
- file
- voice
- user
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 12
- 230000033764 rhythmic process Effects 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 7
- 230000001960 triggered effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种声音相似度确定方法及装置,属于音频处理领域。方法包括:接收声音对比请求,声音对比请求携带用户的第一声音文件、用户选择的目标歌手的歌手名称和目标歌手的目标歌曲的歌曲名称;根据歌手名称和歌曲名称,获取目标歌手演唱目标歌曲的第二声音文件;分别对第一声音文件和第二声音文件进行多个维度的声音特征提取,得到第一声音文件的第一声音特征和第二声音文件的第二声音特征,第一声音特征和第二声音特征包含多个维度的声音特征;按照多个维度,对第一声音特征和第二声音特征进行对比,得到多个维度的声音相似度。本发明可以满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种声音相似度确定方法及装置。
背景技术
声音相似度是指两个用户的声音的相似程度,对于演唱者演唱歌曲的场景,声音相似度指的是演唱者的演唱声音与歌手的原唱声音之间的相似度。
目前,相关技术一般是将用户的声音样本与所有歌手的声音模型进行匹配,分别确定演唱者与所有歌手的音色相似度,从所有歌手中找到与用户的音色最相近的几个歌手推荐给用户,无法满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
发明内容
本发明实施例提供了一种声音相似度确定方法及装置,可以解决相关技术无法满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求的问题。所述技术方案如下:
第一方面,提供一种声音相似度确定方法,包括:
接收声音对比请求,所述声音对比请求携带用户的第一声音文件、所述用户选择的目标歌手的歌手名称和所述目标歌手的目标歌曲的歌曲名称;
根据所述歌手名称和所述歌曲名称,获取所述目标歌手演唱所述目标歌曲的第二声音文件;
分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,所述第一声音特征和所述第二声音特征包含所述多个维度的声音特征;
按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度。
在一种可能实现方式中,所述分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,包括:
分别对所述第一声音文件和所述第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对所述第一人声文件和所述第二人声文件进行多个维度的声音特征提取,得到所述第一声音特征和所述第二声音特征。
在一种可能实现方式中,所述按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度之后,所述方法还包括:
根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度,包括:
将所述多个维度的声音相似度的平均值作为所述用户与所述目标歌手的声音相似度;或,
根据所述多个维度的权重,对所述多个维度的声音相似度进行加权求和,得到所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度之后,所述方法还包括:
根据所述多个维度的声音相似度,生成声音相似度示意图,所述声音相似度示意图用于从多个维度展示所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述多个维度包括音色、节奏、音准、情感和气息。
在一种可能实现方式中,所述第一声音文件为所述用户演唱所述目标歌曲的声音文件,或者,所述第一声音文件为所述用户录制除所述目标歌曲以外的任一音频的声音文件。
第二方面,提供一种声音相似度确定装置,包括:
接收模块,用于接收声音对比请求,所述声音对比请求携带用户的第一声音文件、所述用户选择的目标歌手的歌手名称和所述目标歌手的目标歌曲的歌曲名称;
获取模块,用于根据所述歌手名称和所述歌曲名称,获取所述目标歌手演唱所述目标歌曲的第二声音文件;
提取模块,用于分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,所述第一声音特征和所述第二声音特征包含所述多个维度的声音特征;
对比模块,用于按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度。
在一种可能实现方式中,所述提取模块用于:
分别对所述第一声音文件和所述第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对所述第一人声文件和所述第二人声文件进行多个维度的声音特征提取,得到所述第一声音特征和所述第二声音特征。
在一种可能实现方式中,所述获取模块还用于根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述获取模块用于:
将所述多个维度的声音相似度的平均值作为所述用户与所述目标歌手的声音相似度;或,
根据所述多个维度的权重,对所述多个维度的声音相似度进行加权求和,得到所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述装置还包括:
生成模块,用于根据所述多个维度的声音相似度,生成声音相似度示意图,所述声音相似度示意图用于从多个维度展示所述用户与所述目标歌手的声音相似度。
在一种可能实现方式中,所述多个维度包括音色、节奏、音准、情感和气息。
在一种可能实现方式中,所述第一声音文件为所述用户演唱所述目标歌曲的声音文件,或者,所述第一声音文件为所述用户录制除所述目标歌曲以外的任一音频的声音文件。
第三方面,提供了一种服务器,包括一个或多个处理器和一个或多个存储器;所述一个或多个存储器,用于存放计算机程序;所述一个或多个处理器,用于执行所述一个或多个存储器上所存放的计算机程序,实现第一方面或第一方面的任一种可能实现方式所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面的任一种可能实现方式所述的方法步骤。
本发明实施例提供的技术方案带来的有益效果至少包括:
通过在接收到用户的声音对比请求时,根据声音对比请求中所指示的目标歌手和目标歌曲,获取目标歌手演唱该目标歌曲的第二声音文件,分别对声音对比请求中携带的第一声音文件和该第二声音文件进行多个维度的声音特征提取,然后按照多个维度进行声音特征的对比,得到用户与目标歌手在多个维度的声音相似度。上述方案用户可以直接选择歌手和歌曲进行定向声音特征对比,获取多个维度的声音相似度,使得用户可以通过多个维度观察到其与目标歌手的声音相似度,可以满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种声音相似度确定方法的流程图;
图2是本发明实施例提供的一种声音相似度确定方法的流程图;
图3是本发明实施例提供的一种声音相似度确定装置的结构示意图;
图4是本发明实施例提供的一种声音相似度确定装置的结构示意图;
图5是本发明实施例提供的一种服务器500的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种声音相似度确定方法的流程图。参见图1,该方法包括:
101、接收声音对比请求,该声音对比请求携带用户的第一声音文件、该用户选择的目标歌手的歌手名称和该目标歌手的目标歌曲的歌曲名称。
102、根据该歌手名称和该歌曲名称,获取该目标歌手演唱该目标歌曲的第二声音文件。
103、分别对该第一声音文件和该第二声音文件进行多个维度的声音特征提取,得到该第一声音文件的第一声音特征和该第二声音文件的第二声音特征,该第一声音特征和该第二声音特征包含该多个维度的声音特征。
104、按照该多个维度,对该第一声音特征和该第二声音特征进行对比,得到该多个维度的声音相似度。
本发明实施例提供的方法,通过在接收到用户的声音对比请求时,根据声音对比请求中所指示的目标歌手和目标歌曲,获取目标歌手演唱该目标歌曲的第二声音文件,分别对声音对比请求中携带的第一声音文件和该第二声音文件进行多个维度的声音特征提取,然后按照多个维度进行声音特征的对比,得到用户与目标歌手在多个维度的声音相似度。上述方案用户可以直接选择歌手和歌曲进行定向声音特征对比,获取多个维度的声音相似度,使得用户可以通过多个维度观察到其与目标歌手的声音相似度,可以满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
在一种可能实现方式中,该分别对该第一声音文件和该第二声音文件进行多个维度的声音特征提取,得到该第一声音文件的第一声音特征和该第二声音文件的第二声音特征,包括:
分别对该第一声音文件和该第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对该第一人声文件和该第二人声文件进行多个维度的声音特征提取,得到该第一声音特征和该第二声音特征。
在一种可能实现方式中,该按照该多个维度,对该第一声音特征和该第二声音特征进行对比,得到该多个维度的声音相似度之后,该方法还包括:
根据该多个维度的声音相似度,获取该用户与该目标歌手的声音相似度。
在一种可能实现方式中,该根据该多个维度的声音相似度,获取该用户与该目标歌手的声音相似度,包括:
将该多个维度的声音相似度的平均值作为该用户与该目标歌手的声音相似度;或,
根据该多个维度的权重,对该多个维度的声音相似度进行加权求和,得到该用户与该目标歌手的声音相似度。
在一种可能实现方式中,该按照该多个维度,对该第一声音特征和该第二声音特征进行对比,得到该多个维度的声音相似度之后,该方法还包括:
根据该多个维度的声音相似度,生成声音相似度示意图,该声音相似度示意图用于从多个维度展示该用户与该目标歌手的声音相似度。
在一种可能实现方式中,该多个维度包括音色、节奏、音准、情感和气息。
在一种可能实现方式中,该第一声音文件为该用户演唱该目标歌曲的声音文件,或者,该第一声音文件为该用户录制除该目标歌曲以外的任一音频的声音文件。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种声音相似度确定方法的流程图。该方法由服务器执行,参见图2,该方法包括:
201、接收声音对比请求,该声音对比请求携带用户的第一声音文件、该用户选择的目标歌手的歌手名称和该目标歌手的目标歌曲的歌曲名称。
其中,该用户为发起该声音对比请求的用户,目标歌手和目标歌曲为用户选择的想要进行声音对比的歌手和歌曲,第一声音文件通过对用户的声音进行录制得到。
本发明实施例中,该声音对比请求可以由用户所在终端发送给服务器,当服务器接收到该声音对比请求时,可以得知该用户想要将自己的声音与目标歌手演唱目标歌曲的声音进行对比。在一种可能实现方式中,该第一声音文件为该用户演唱该目标歌曲的声音文件,或者,该第一声音文件为该用户录制除该目标歌曲以外的任一音频的声音文件。
例如,用户在终端触发该声音对比请求的过程可以包括:用户在终端上选择某位歌手,当终端检测到对该歌手的选择操作时,终端可以显示该歌手的多首歌曲,用户可以从中选择某一首歌曲,当检测到对该歌曲的选择操作时,终端可以显示录制选项。用户可以点击该录制选项开始进行声音录制,如演唱该歌曲(不局限于演唱该歌曲的片段或演唱整首歌曲,也不局限于是带伴奏演唱还是不带伴奏演唱),或录制任一音频(不局限于用户随便说一段话,或朗读一篇文章)。当检测到对该录制选项的点击操作时,终端可以开始采集用户的声音数据。当用户录制完毕时,可以再次点击该录制选项停止进行声音录制,当终端再次检测到对该录制选项的点击操作时,可以停止采集用户的声音数据,并基于该录制时间段内采集的声音数据生成声音文件,将该声音文件作为用户的第一声音文件,将该第一声音文件、目标歌手(用户选择的歌手)的歌手名称和目标歌曲(用户选择的歌曲)的歌曲名称携带在声音对比请求中发送给服务器。
可以理解的是,用户也可以在终端上直接选择歌曲,当检测到对该歌曲的选择操作时,终端可以将该歌曲作为目标歌曲,将演唱该歌曲的歌手作为目标歌手,执行后续声音录制过程。
202、根据该歌手名称和该歌曲名称,获取该目标歌手演唱该目标歌曲的第二声音文件。
本发明实施例中,服务器可以根据该歌手名称和该歌曲名称,从本地存储中获取该第二声音文件。例如,服务器可以维护一个数据库,该数据库可以采用歌手名称和歌曲名称作为索引,对各个歌手演唱各首歌曲的声音文件进行存储当服务器接收到终端发送的声音对比请求时,可以从该声音对比请求中获取目标歌手的歌手名称和目标歌曲的歌曲名称,然后服务器可以根据目标歌手的歌手名称和目标歌曲的歌曲名称,从数据库中查询到该目标歌手演唱该目标歌曲的歌词文件。
可以理解的是,该多个声音文件也可以存储在该服务器以外的其他设备,服务器可以根据该歌手名称和该歌曲名称,向该设备发送声音文件获取请求,由该设备向服务器返回该第二声音文件。
203、分别对该第一声音文件和该第二声音文件进行多个维度的声音特征提取,得到该第一声音文件的第一声音特征和该第二声音文件的第二声音特征,该第一声音特征和该第二声音特征包含多个维度的声音特征。
本发明实施例中,服务器可以采用声音特征提取算法,从多个维度,对第一声音文件进行声音特征提取,得到第一声音特征,对第二声音文件进行声音特征提取,得到第二声音特征。可以理解的是,服务器也可以采用多种声音特征提取算法,每种声音特征提取算法用于从至少一个维度,对声音文件进行声音特征提取,得到该维度的声音特征。
在一种可能实现方式中,该多个维度包括音色、节奏、音准、情感和气息。其中,音色是指声音在听觉上产生的某种属性,听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同。节奏是一种与韵律结伴而行的有规律的突变,音准是指歌唱和乐器演奏中所发的音高能与一定律制的音高相符。
在一种可能实现方式中,该步骤203可以包括:分别对该第一声音文件和该第二声音文件进行人声分离,得到第一人声文件和第二人声文件;分别对该第一人声文件和该第二人声文件进行多个维度的声音特征提取,得到该第一声音特征和该第二声音特征。
考虑到在用户的第一声音文件的录制过程中,可能会有背景音,如伴奏或环境中的其他杂音等,而在歌手的第二人声文件的录制过程中,往往会有伴奏,为了保证声音对比的准确性,服务器可以对第一声音文件和第二声音文件进行人声分离,得到第一人声文件和第二人声文件。然后,服务器可以对第一人声文件和第二人声文件进行多个维度的声音特征提取,得到用户的第一声音特征和目标歌手的第二声音特征,由于第一声音特征和第二声音特征是针对人声提取得到的,因而第一声音特征和第二声音特征可以分别表示用户和目标歌手的真实声音。
通过从声音中分离出人声,针对人声进行特征提取,从而可以进行人声比对,得到用户与目标歌手的声音相似度,由于人声才是用户和目标歌手的真实声音,这种人声比对的方式可以提高声音相似度结果的准确性和可靠性。
204、按照该多个维度,对该第一声音特征和该第二声音特征进行对比,得到该多个维度的声音相似度。
其中,声音相似度可以用一个数值来表示,该数值可以是一个百分数,如20%、80%、100%等,数值越大表示相似度越大,或者,该数值也可以是一个自然数,本发明实施例对相似度的具体表示形式不做限定。
本发明实施例中,第一声音特征和第二声音特征包含多个维度的声音特征,服务器可以分别从每个维度,对第一声音特征和第二声音特征进行对比,得到每个维度的声音相似度。具体地,服务器可以采用相似度算法,从每个维度,对第一声音特征和第二声音特征中该维度的声音特征进行相似度计算,得到用户与目标歌手在该维度的声音相似度,以此可以得到多个维度的声音相似度。
针对多个维度包括音色、节奏、音准、情感和气息的情况,服务器通过该步骤204可以得到用户与目标歌手的音色相似度、节奏相似度、音准相似度、情感相似度和气息相似度。
如果第一声音文件为用户演唱目标歌曲的声音文件,第二声音文件为目标歌手演唱目标歌曲的声音文件,则用户与目标歌手的音色相似度、节奏相似度、音准相似度、情感相似度和气息相似度可能是0到100%之间的任一数值。如果第一声音文件为用户录制除该目标歌曲以外的任一音频的声音文件,则用户与目标歌手的音色相似度可能是0到100%之间的任一数值,而节奏相似度、音准相似度、情感相似度和气息相似度则可能是0。
服务器还可以将该多个维度的声音相似度发送给用户所在终端,使得用户可以得知其与目标歌手在多个维度的声音相似度。
205、根据该多个维度的声音相似度,获取该用户与该目标歌手的声音相似度。
本发明实施例中,服务器在获取到多个维度的声音相似度后,可以根据该多个维度的声音相似度,计算一个综合的声音相似度。服务器还可以将该声音相似度发送给用户所在终端,使得用户可以得知其与目标歌手的声音相似度。
在一种可能实现方式中,该步骤205可以包括:将该多个维度的声音相似度的平均值作为该用户与该目标歌手的声音相似度;或,根据该多个维度的权重,对该多个维度的声音相似度进行加权求和,得到该用户与该目标歌手的声音相似度。
服务器可以直接对多个维度的声音相似度计算平均值,将计算结果作为用户与目标歌手综合的声音相似度。服务器也可以预先为多个维度设置对应的权重,按照权重对多个维度的声音相似度进行加权求和,将加权求和结果作为用户与目标歌手综合的声音相似度。其中,权重可以由服务器可以根据各个维度对声音影响的程度进行设置,如音色的权重可以大于其他维度的权重,本发明实施例对各个维度的权重大小不做限定。
通过在获取到用户与目标歌手的多个维度的声音相似度后,计算一个综合的声音相似度作为用户与目标歌手的声音相似度,由于考虑了多个维度,融合了多个维度的声音相似度,相比于单纯的音色对比得到的声音相似度,准确度更高。
206、根据该多个维度的声音相似度,生成声音相似度示意图,该声音相似度示意图用于从多个维度展示该用户与该目标歌手的声音相似度。
本发明实施例中,服务器在获取到多个维度的声音相似度后,可以生成便于用户直观观察的声音相似度示意图,例如,该声音相似度示意图的形式可以是雷达图,如多个维度为五个维度,则可以生成五维雷达图。服务器可以将该声音相似度示意图发送给用户所在终端,使得用户可以从多个维度观察其与目标歌手的声音相似度。
需要说明的是,步骤205和步骤206并不代表明确的先后顺序,也即是,服务器可以先执行步骤205,再执行步骤206,也可以先执行步骤206,再执行步骤205,本发明实施例对比不做限定。步骤205和步骤206为可选步骤,也即是,服务器也可以不执行该步骤205和步骤206。
本发明实施例提供的方法,通过在接收到用户的声音对比请求时,根据声音对比请求中所指示的目标歌手和目标歌曲,获取目标歌手演唱该目标歌曲的第二声音文件,分别对声音对比请求中携带的第一声音文件和该第二声音文件进行多个维度的声音特征提取,然后按照多个维度进行声音特征的对比,得到用户与目标歌手在多个维度的声音相似度。上述方案用户可以直接选择歌手和歌曲进行定向声音特征对比,获取多个维度的声音相似度,使得用户可以通过多个维度观察到其与目标歌手的声音相似度,可以满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
图3是本发明实施例提供的一种声音相似度确定装置的结构示意图。参照图3,该装置包括:
接收模块301,用于接收声音对比请求,该声音对比请求携带用户的第一声音文件、该用户选择的目标歌手的歌手名称和该目标歌手的目标歌曲的歌曲名称;
获取模块302,用于根据该歌手名称和该歌曲名称,获取该目标歌手演唱该目标歌曲的第二声音文件;
提取模块303,用于分别对该第一声音文件和该第二声音文件进行多个维度的声音特征提取,得到该第一声音文件的第一声音特征和该第二声音文件的第二声音特征,该第一声音特征和该第二声音特征包含该多个维度的声音特征;
对比模块304,用于按照该多个维度,对该第一声音特征和该第二声音特征进行对比,得到该多个维度的声音相似度。
在一种可能实现方式中,该提取模块303用于:
分别对该第一声音文件和该第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对该第一人声文件和该第二人声文件进行多个维度的声音特征提取,得到该第一声音特征和该第二声音特征。
在一种可能实现方式中,该获取模块还用于根据该多个维度的声音相似度,获取该用户与该目标歌手的声音相似度。
在一种可能实现方式中,该获取模块302用于:
将该多个维度的声音相似度的平均值作为该用户与该目标歌手的声音相似度;或,
根据该多个维度的权重,对该多个维度的声音相似度进行加权求和,得到该用户与该目标歌手的声音相似度。
在一种可能实现方式中,参见图4,该装置还包括:
生成模块305,用于根据该多个维度的声音相似度,生成声音相似度示意图,该声音相似度示意图用于从多个维度展示该用户与该目标歌手的声音相似度。
在一种可能实现方式中,该多个维度包括音色、节奏、音准、情感和气息。
在一种可能实现方式中,该第一声音文件为该用户演唱该目标歌曲的声音文件,或者,该第一声音文件为该用户录制除该目标歌曲以外的任一音频的声音文件。
本发明实施例中,通过在接收到用户的声音对比请求时,根据声音对比请求中所指示的目标歌手和目标歌曲,获取目标歌手演唱该目标歌曲的第二声音文件,分别对声音对比请求中携带的第一声音文件和该第二声音文件进行多个维度的声音特征提取,然后按照多个维度进行声音特征的对比,得到用户与目标歌手在多个维度的声音相似度。上述方案用户可以直接选择歌手和歌曲进行定向声音特征对比,获取多个维度的声音相似度,使得用户可以通过多个维度观察到其与目标歌手的声音相似度,可以满足用户想要准确确定自己的声音与某个歌手演唱某首歌曲的声音的相似度的需求。
需要说明的是:上述实施例提供的声音相似度确定装置在确定声音相似度时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的声音相似度确定装置与声音相似度确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本发明实施例提供的一种服务器500的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)501和一个或一个以上的存储器502,其中,该存储器502中存储有至少一条指令,该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,例如存储有计算机程序的存储器,上述计算机程序被处理器执行时实现上述实施例中的声音相似度确定方法。例如,该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种声音相似度确定方法,其特征在于,应用于服务器,所述方法包括:
接收声音对比请求,所述声音对比请求携带用户的第一声音文件、所述用户选择的目标歌手的歌手名称和所述目标歌手的目标歌曲的歌曲名称;
根据所述歌手名称和所述歌曲名称,获取所述目标歌手演唱所述目标歌曲的第二声音文件;
分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,所述第一声音特征和所述第二声音特征包含所述多个维度的声音特征;
按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度,并根据所述多个维度的声音相似度,生成声音相似度示意图,并将所述声音相似度示意图发送给用户的终端,所述声音相似度示意图用于从所述多个维度展示所述用户与所述目标歌手的声音相似度;
其中,所述声音对比请求通过所述终端执行以下步骤触发:
检测到对所述目标歌手的目标歌曲的选择操作后,显示录制选项;
当检测到对所述录制选项的点击操作时,采集用户的声音数据,当再次检测到对所述录制选项的点击操作时,停止采集用户的声音数据,并基于录制时间段内采集的声音数据生成所述第一声音文件;
将所述第一声音文件、所述目标歌手的歌手名称和所述目标歌曲的歌曲名称携带在所述声音对比请求中发送给所述服务器。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,包括:
分别对所述第一声音文件和所述第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对所述第一人声文件和所述第二人声文件进行多个维度的声音特征提取,得到所述第一声音特征和所述第二声音特征。
3.根据权利要求1所述的方法,其特征在于,所述按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度之后,所述方法还包括:
根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度,包括:
将所述多个维度的声音相似度的平均值作为所述用户与所述目标歌手的声音相似度;或,
根据所述多个维度的权重,对所述多个维度的声音相似度进行加权求和,得到所述用户与所述目标歌手的声音相似度。
5.根据权利要求1所述的方法,其特征在于,所述多个维度包括音色、节奏、音准、情感和气息。
6.根据权利要求1所述的方法,其特征在于,所述第一声音文件为所述用户演唱所述目标歌曲的声音文件,或者,所述第一声音文件为所述用户录制除所述目标歌曲以外的任一音频的声音文件。
7.一种声音相似度确定装置,其特征在于,所述装置包括:
接收模块,用于接收声音对比请求,所述声音对比请求携带用户的第一声音文件、所述用户选择的目标歌手的歌手名称和所述目标歌手的目标歌曲的歌曲名称;
获取模块,用于根据所述歌手名称和所述歌曲名称,获取所述目标歌手演唱所述目标歌曲的第二声音文件;
提取模块,用于分别对所述第一声音文件和所述第二声音文件进行多个维度的声音特征提取,得到所述第一声音文件的第一声音特征和所述第二声音文件的第二声音特征,所述第一声音特征和所述第二声音特征包含所述多个维度的声音特征;
对比模块,用于按照所述多个维度,对所述第一声音特征和所述第二声音特征进行对比,得到所述多个维度的声音相似度;
生成模块,用于根据所述多个维度的声音相似度,生成声音相似度示意图,所述声音相似度示意图用于从所述多个维度展示所述用户与所述目标歌手的声音相似度,并将所述声音相似度示意图发送给用户的终端;
其中,所述声音对比请求通过所述终端执行以下步骤触发:
检测到对所述目标歌手的目标歌曲的选择操作后,显示录制选项;
当检测到对所述录制选项的点击操作时,采集用户的声音数据,当再次检测到对所述录制选项的点击操作时,停止采集用户的声音数据,并基于录制时间段内采集的声音数据生成所述第一声音文件;
将所述第一声音文件、所述目标歌手的歌手名称和所述目标歌曲的歌曲名称携带在所述声音对比请求中发送给服务器。
8.根据权利要求7所述的装置,其特征在于,所述提取模块用于:
分别对所述第一声音文件和所述第二声音文件进行人声分离,得到第一人声文件和第二人声文件;
分别对所述第一人声文件和所述第二人声文件进行多个维度的声音特征提取,得到所述第一声音特征和所述第二声音特征。
9.根据权利要求7所述的装置,其特征在于,所述获取模块还用于根据所述多个维度的声音相似度,获取所述用户与所述目标歌手的声音相似度。
10.根据权利要求9所述的装置,其特征在于,所述获取模块用于:
将所述多个维度的声音相似度的平均值作为所述用户与所述目标歌手的声音相似度;或,
根据所述多个维度的权重,对所述多个维度的声音相似度进行加权求和,得到所述用户与所述目标歌手的声音相似度。
11.根据权利要求7所述的装置,其特征在于,所述多个维度包括音色、节奏、音准、情感和气息。
12.根据权利要求7所述的装置,其特征在于,所述第一声音文件为所述用户演唱所述目标歌曲的声音文件,或者,所述第一声音文件为所述用户录制除所述目标歌曲以外的任一音频的声音文件。
13.一种服务器,其特征在于,包括一个或多个处理器和一个或多个存储器;所述一个或多个存储器,用于存放计算机程序;所述一个或多个处理器,用于执行所述一个或多个存储器上所存放的计算机程序,实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910262559.4A CN110010159B (zh) | 2019-04-02 | 2019-04-02 | 声音相似度确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910262559.4A CN110010159B (zh) | 2019-04-02 | 2019-04-02 | 声音相似度确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110010159A CN110010159A (zh) | 2019-07-12 |
CN110010159B true CN110010159B (zh) | 2021-12-10 |
Family
ID=67169854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910262559.4A Active CN110010159B (zh) | 2019-04-02 | 2019-04-02 | 声音相似度确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010159B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503961B (zh) * | 2019-09-03 | 2023-03-14 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN110782875B (zh) * | 2019-10-16 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律处理方法及装置 |
WO2022236453A1 (zh) * | 2021-05-08 | 2022-11-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声纹识别方法、歌手认证方法、电子设备及存储介质 |
CN114120943B (zh) * | 2021-11-22 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 虚拟演唱会的处理方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN104882147A (zh) * | 2015-06-05 | 2015-09-02 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
CN105989842A (zh) * | 2015-01-30 | 2016-10-05 | 福建星网视易信息系统有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用 |
JP2017161572A (ja) * | 2016-03-07 | 2017-09-14 | ヤマハ株式会社 | 音信号処理方法および音信号処理装置 |
WO2017168644A1 (ja) * | 2016-03-30 | 2017-10-05 | Pioneer DJ株式会社 | 楽曲展開解析装置、楽曲展開解析方法および楽曲展開解析プログラム |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030205124A1 (en) * | 2002-05-01 | 2003-11-06 | Foote Jonathan T. | Method and system for retrieving and sequencing music by rhythmic similarity |
JP5147389B2 (ja) * | 2007-12-28 | 2013-02-20 | 任天堂株式会社 | 楽曲提示装置、楽曲提示プログラム、楽曲提示システム、楽曲提示方法 |
CN102110435A (zh) * | 2009-12-23 | 2011-06-29 | 康佳集团股份有限公司 | 卡拉ok评分方法及系统 |
CN201611570U (zh) * | 2009-12-24 | 2010-10-20 | 盛大计算机(上海)有限公司 | 音频评测装置 |
GB2515479A (en) * | 2013-06-24 | 2014-12-31 | Nokia Corp | Acoustic music similarity determiner |
CN105243093A (zh) * | 2015-09-11 | 2016-01-13 | 福建星网视易信息系统有限公司 | 一种演唱者推荐方法及装置 |
CN108334623B (zh) * | 2018-02-09 | 2021-02-12 | 广州酷狗计算机科技有限公司 | 歌曲的显示方法、装置和系统 |
CN109087669B (zh) * | 2018-10-23 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
-
2019
- 2019-04-02 CN CN201910262559.4A patent/CN110010159B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN105989842A (zh) * | 2015-01-30 | 2016-10-05 | 福建星网视易信息系统有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用 |
CN104882147A (zh) * | 2015-06-05 | 2015-09-02 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
JP2017161572A (ja) * | 2016-03-07 | 2017-09-14 | ヤマハ株式会社 | 音信号処理方法および音信号処理装置 |
WO2017168644A1 (ja) * | 2016-03-30 | 2017-10-05 | Pioneer DJ株式会社 | 楽曲展開解析装置、楽曲展開解析方法および楽曲展開解析プログラム |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分系统 |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110010159A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110010159B (zh) | 声音相似度确定方法及装置 | |
JP5115966B2 (ja) | 楽曲検索システム及び方法並びにそのプログラム | |
Salamon et al. | Tonal representations for music retrieval: from version identification to query-by-humming | |
Yang | Music database retrieval based on spectral similarity | |
Mion et al. | Score-independent audio features for description of music expression | |
Marolt | A mid-level representation for melody-based retrieval in audio collections | |
JP2004534274A (ja) | 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム | |
US11521585B2 (en) | Method of combining audio signals | |
US7227072B1 (en) | System and method for determining the similarity of musical recordings | |
CN112185321B (zh) | 歌曲生成 | |
CN1953046B (zh) | 一种基于哼唱的乐曲自动选择装置和方法 | |
Hargreaves et al. | Structural segmentation of multitrack audio | |
KR20080002348A (ko) | 음악추천 시스템 및 그 방법 | |
CN108257588B (zh) | 一种谱曲方法及装置 | |
Norowi et al. | Factors affecting automatic genre classification: an investigation incorporating non-western musical forms | |
Rocha et al. | Segmentation and timbre-and rhythm-similarity in Electronic Dance Music | |
Tzanetakis et al. | A framework for audio analysis based on classification and temporal segmentation | |
Paiva et al. | On the Detection of Melody Notes in Polyphonic Audio. | |
Murthy et al. | Singer identification from smaller snippets of audio clips using acoustic features and DNNs | |
JP6288197B2 (ja) | 評価装置及びプログラム | |
JP6102076B2 (ja) | 評価装置 | |
KR100702059B1 (ko) | 고객 특성이 피드백 반영되는 질의 풀 기반의 유비쿼터스음악 정보 검색 시스템 및 방법 | |
JP2003131674A (ja) | 楽曲検索システム | |
Eronen | Signal processing methods for audio classification and music content analysis | |
JP3934556B2 (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |