CN107679196A

CN107679196A - 一种多媒体识别方法、电子设备及存储介质

Info

Publication number: CN107679196A
Application number: CN201710933504.2A
Authority: CN
Inventors: 陈珊; 王国华; 周康; 高武阳; 卜世俊
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2018-02-09

Abstract

本发明公开了一种多媒体识别方法、电子设备及存储介质，所述方法包括：获得语音信息的内容的类型；基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值；将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值；将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，其中，所述匹配条件基于所述匹配阈值来确定。通过本发明的技术方案，能有效地提高识别多媒体的准确率。

Description

一种多媒体识别方法、电子设备及存储介质

技术领域

本发明涉及多媒体技术，尤其涉及一种多媒体识别方法、电子设备及存储介质。

背景技术

随着智能电子设备和网络科技的不断发展，市面上涌现除了各种类型、各种领域的应用程序(APP，Application)，如摄影APP、社交APP和音乐APP等，用户打开相应的APP便可享受相应的服务。

以使用频率极高的多媒体APP，如音乐APP为例，用户通过音乐APP可以很方便的享受音乐服务。例如，在实际生活中，可能发生这样一种情景，用户在收听到外界播放的某首歌曲，或用户自己哼唱某首歌曲的时候，可能不知道这首歌曲的名称，但也非常想收藏起来，这时，可以通过音乐APP的歌曲识别功能进行识别，从而查找到并收藏该歌曲。由于音乐APP接收到的语音，语音内容的类型可能不同，如只包含旋律、或只包含词、或词与旋律的组合，识别的难易程度存在差异，在识别的过程中，常出现无法识别或识别准确率的问题，而目前尚无相应的解决方案。

发明内容

针对上述的技术问题，本发明实施例期望提供一种多媒体识别方法、电子设备及存储介质，可以有效地提高识别多媒体的准确率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种多媒体识别方法，包括：

确定语音信息的内容的类型；

基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值；

将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值；

将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，其中，所述匹配条件基于所述匹配阈值来确定。

上述方案中，所述确定语音信息的内容的类型，包括：

基于频谱信息确定语音信息的内容的类型，所述频谱信息为所述语音信息对应的波段；

或者，基于语音音素确定语音信息的内容的类型，所述语音音素为语音信息对应的音素。

上述方案中，所述基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值，包括：

基于预设的类型与匹配阈值的对应关系，确定与所述类型对应的第一匹配阈值以及第二匹配阈值，其中，同一所述类型的第一匹配阈值大于对应的第二匹配阈值；所述预设的类型与匹配阈值的对应关系中，不同类型对应的第一匹配阈值以及第二匹配阈值不相同。

上述方案中，所述将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，包括：

当所述第一匹配程度值大于或等于所述第一匹配阈值时，确定所述候选多媒体文件为与所述语音信息对应的多媒体文件。

当所述第一匹配程度值位于所述第一匹配阈值与第二匹配阈值之间时，将所述候选多媒体文件与已播放的历史多媒体文件进行匹配，得到至少一个第二匹配程度值；

将所述第二匹配程度值大于或等于预设的第三匹配阈值的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，其中，第三匹配阈值基于历史播放数据来确定。

上述方案中，还包括：

将所述第一匹配程度值满足匹配条件的候选多媒体文件，根据匹配程度值排序展示；

将被选定的候选多媒体文件，确定为与所述语音信息对应的多媒体文件。

上述方案中，还包括：当所述第一匹配程度值小于或等于所述第二匹配阈值，且所述候选多媒体文件被设定为与所述语音信息对应时；

根据所述候选多媒体文件与所述语音信息的对应关系，更新所述第一匹配阈值和/或第二匹配阈值。

上述方案中，所述将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值，包括：

将所述语音信息与本地多媒体库中的候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值；

或者，

将所述语音信息发送至服务器，指示所述服务器将所述语音信息与服务器多媒体库中的候选多媒体文件进行基于所述类型的匹配；

接收所述服务器匹配所得的至少一个第一匹配程度值。

第二方面，本发明实施例还提供了另一种电子设备，包括：

获取模块，用于获得语音信息的内容的类型；

第一确定模块，用于基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值；

匹配模块，用于将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值；

第二确定模块，用于将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，其中，所述匹配条件基于所述匹配阈值来确定。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器，用于运行所述计算机程序时，实现上述的多媒体识别方法。

第四方面，本发明实施例还提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现上述的多媒体识别方法。

通过实施本发明实施例的方案，可以具有以下有益效果：

1)在匹配阶段，先获得语音信息的内容的类型，基于类型对语音信息与候选多媒体进行匹配，有效地提高了歌曲的匹配效率；

2)在识别阶段，将匹配结果与相应类型的预设匹配阈值进行对比，可以有效解决了传统方法中因使用统一的匹配阈值识别多媒体，而导致的识别准确率不高的问题，提高识别多媒体的准确率。

附图说明

图1为本发明实施例提供的一种识别多媒体的系统结构示意图；

图2为本发明实施例提供的一种电子设备的结构示意图；

图3为本发明实施例提供的一种多媒体识别方法的实现流程示意图；

图4为本发明实施例提供的另一种电子设备的结构示意图；

图5为本发明实施例提供的另一种多媒体识别方法的实现流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作在本发明可选实施例中详细描述，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，图1为本发明实施例提供的一种识别多媒体的系统结构示意图，该系统包括：电子设备101和服务器102；其中，

电子设备101，可以包括台式机电脑、笔记本电脑、平板电脑、智能手机和能识别语音的智能遥控器等各种类型的设备。

服务器102，可以是音乐匹配的服务器，也可以是专门的语音识别服务器。

首先，电子设备101采集外界发出的语音，该语音可以是普通说话的语音，也可以是唱歌的语音；其次，电子设备101根据所采集的语音确定所包含的内容以及内容的类型，根据类型确定相应的匹配阈值；第三，电子设备101将语音内容与本地存储的多媒体进行匹配，获得多个匹配值；第四，电子设备101将多个匹配值与相应的匹配阈值进行对比，获得对比结果；第五，电子设备101判断对比结果是否满足设定的条件，将满足条件的多媒体作为所有识别的目标多媒体。

此外，电子设备101也可以将语音内容发送至服务器102，服务器102根据接收到的语音内容与服务器102自身存储的多媒体进行匹配，获得多个匹配值，然后将所获得的匹配值与对应的匹配阈值进行对比，获得对比结果；此时，服务器102判断对比结果是否满足设定的条件，将满足条件的多媒体作为所有识别的目标多媒体，将该目标多媒体发送至电子设备101进行展示；也可以直接将对比结果发送至电子设备101，电子设备101进行后续的操作。这里，服务器存储有对应的匹配阈值。

参见图2，图2为本发明实施例提供的一种电子设备的结构示意图，实际应用中可以实施为前述的各种设备，图2所示的电子设备200包括：至少一个处理器210、存储器220、至少一个网络接口230和用户接口240。电子设备200中的各个组件通过总线系统250耦合在一起。可理解，总线系统250用于实现这些组件之间的连接通信总线系统250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统250。

其中，用户接口240根据需要可以实施为显示器、键盘触感板或者触摸屏等。

可以理解，存储器220可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者，本发明实施例描述的存储器220旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器220用于存储各种类型的数据以支持电子设备200的操作。这些数据的示例包括：用于在电子设备200上操作的任何计算机程序，如操作系统221和应用程序222。

其中，操作系统221包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序222可以包含各种应用程序，实现本发明实施例提供的多媒体识别方法的程序可以包含在应用程序222中作为一个功能模块，当然也可以提供为专门用于多媒体识别方法的应用程序。

本发明实施例提供的多媒体识别方法可以应用于处理器210中，或者由处理器210实现，基于纯硬件的方式实施，或者基于软件和硬件结合的方式实施。

就纯硬件的实施方式来说，处理器210可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，本发明实施例提供的多媒体识别方法的各步骤可以通过处理器210中的硬件的集成逻辑电路完成，例如在示例性实施例中，电子设备200可以内建有用于实现本发明实施例提供的多媒体识别方法的硬件译码处理器实施，例如，专用集成电路(ASIC，Application Specific Integrated Circuit)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)等实现。

就软硬件结合的实施方式来说，上述的处理器210可以是通用处理器及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器220，其中，存储介质存储能够在处理器210上运行的计算机程序，处理器210读取存并运行储器220中的计算机程序时，执行：

获得语音信息的内容的类型；

这里，处理器210读取存并运行所述计算机程序时，执行：

当所述第一匹配程度值小于或等于所述第二匹配阈值，且所述候选多媒体文件被设定为与所述语音信息对应时；

这里，处理器210读取存并运行所述计算机程序时，执行：

或者，

接收所述服务器匹配所得的至少一个第一匹配程度值。

对于多媒体的识别，传统的方法为：当获取到外界发出的语音时，多媒体APP将该语音的内容与本地存储或服务器存储的多媒体进行逐一匹配，得到多个匹配值，将所得到的匹配值与单个预设匹配阈值进行比较，当大于预设匹配阈值时，则识别成功，该匹配值所对应的多媒体即为所查找的多媒体。一般而言，携带有词的多媒体识别度高，即对应的匹配值大；而只携带旋律的多媒体识别度低，即对应的匹配值小，因此，采用上述识别方法，将会造成多媒体的误识别问题。为了解决上述问题，本申请提出了一种有效的解决方案。

参见图3，图3为本发明实施例提供的一种多媒体识别方法的实现流程示意图，所述多媒体识别方法的步骤可以包括：

步骤301：获取语音信息，确定语音信息的内容的类型。

这里，上述的语音信息可以是用户本人或他人发出的语音信息，也可以是各种电子设备发出的语音信息，其中，电子设备可以是智能手机、电脑以及其它类型的音响设备。需要说明的是，上述的语音信息可以是以歌唱的形式发出的，也可以是以平常说话的形式发出的，本发明实施例中不做具体限定。

在实际应用过程中，语音信息的采集方式，可以通过电子设备的应用程序采集，例如，用户开启智能手机中的音乐APP，在该APP中开启语音识别或多媒体识别功能(如歌曲识别功能)，那么，当外界发出语音信息时，将采集这些语音信息。

在实际应用过程中，通过语音识别技术对采集到的语音信息进行识别，从而获取语音信息中的内容，根据内容进一步确定其所归属的类型。例如，当用户听到一首好听的歌，或者哼唱一首自己感兴趣的歌，但不知道歌曲名称，那么，可以开启电子设备(如智能手机)中的相应APP，打开语音识别或多媒体识别的功能，此时，采集到关于多媒体的语音信息；然后，将语音信息中的内容识别出来。需要指出的是，这里的多媒体可以是包含音乐短片(MV，Music Video)的歌曲，也可以是不包含MV的歌曲。

这里，语音信息的内容的类型包括至少以下三种：字词类、旋律类以及字词与旋律的组合类。其中，字词类可以是歌词，旋律类可以指任何有音高与节奏的乐音序列。

需要说明的是，语音信息的内容可以是用户说话的语音内容，或者是唱歌的歌曲内容，又或者是其它多媒体内容，在本发明实施例及后续的实施例中，若无特别说明，出现语音内容、歌曲内容和多媒体内容，均统称为语音信息的内容。此外，若无特别说明，在后续的实施例中出现歌词类，指的均为字词类。

在实际应用过程中，对于语音信息的内容的类型的确定，根据包含歌词和旋律的情况，划分以下三种场景：

场景1：类型为旋律类

在可选的实施例中，所述确定语音信息的内容的类型，包括：基于频谱信息确定语音信息的内容的类型，所述频谱信息为所述语音信息对应的波段。详细来说，首先，采集语音信息，将所采集的语音信息划分多个片段；其次，基于所述多个片段生成多个频谱信息；再次，将所述片段的频谱信息进行对比，获得所述片段之间的相似值；最后，当所述相似值大于或等于预设相似值阈值时，确定所述语音信息的内容的类型为旋律类。

例如，通过电子设备中的音乐APP采集外界的语音信息，将该语音信息截取为若干片段，分别提取每个片段语音信息的频率，根据提取的频率生成相应的频谱；然后，将生成的频谱之间进行比对，获得对应的多个相似值，若所获得的多个相似值较大，如大于或等于预设的相似阈值，则可以确定用户未输入旋律；若所获得的多个相似值较小，如小于所述相似阈值，则可以确定用户输入了旋律。

场景2：类型为纯歌词

在可选的实施例中，所述确定语音信息的内容的类型，包括：基于语音音素确定语音信息的内容的类型，所述语音音素为语音信息对应的音素。详细来说，首先，采集语音信息，将所采集的语音信息划分多个片段；其次，基于所述多个片段的语音信息合成语音音素；再次，根据所述语音音素合成目标词；最后，当所合成的目标词满足预设识别条件时，确定所述语音信息的内容的类型为歌词。

例如，通过音乐APP采集外界的语音信息，第一步：将采集的语音信息的首尾端的静音切除，以降低静音对识别造成的干扰；第二步：根据移动窗函数将用户输入的语音切分为若干个帧，并对每一帧的语音提取相应的声学特征，如音色、音强、音高和音长等，转换成M行N列的矩阵，该矩阵称之为观察序列，其中，M和N均为正整数，且M表征声学特征的维数；第三步：将该观察序列识别成语音状态，并将语音状态组合成语音音素，然后，将语音音素组合成词；第四步：将此语音音素组成的词转换成文本，在转换成文本后，如果该文本为单一词或无法识别的词，则可以确定所采集的语音信息不包括歌词；若该文本为可以识别的词，则可以确定所采集的语音信息包括歌词；此外，如果无法转换成文本，则也可以确定所采集的语音信息不包括歌词。

这里，对上述的窗函数进行进一步介绍，窗函数的目的是截取一个时间片段的有效信号，为了减少频谱能量泄漏，可采用不同的窗函数对信号进行截断，如矩形窗函数、三角窗函数、汉宁窗函数、海明窗函数和高斯窗函数等。

场景3：类型为歌词和旋律的组合

这里，场景3可以视为场景1和场景2的组合，判断是否包含歌词和旋律的方法，可参考上述两种场景的判断方法，这里，不再进行赘述。

步骤302：基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值。

在可选的实施例中，基于预设的类型与匹配阈值的对应关系，确定与所述类型对应的第一匹配阈值以及第二匹配阈值，其中，同一所述类型的第一匹配阈值大于对应的第二匹配阈值；所述类型包括：旋律类；旋律和字词的组合类；字词类；所述预设的类型与匹配阈值的对应关系中，不同类型对应的第一匹配阈值以及第二匹配阈值不相同。其中，旋律类、旋律和字词的组合类、字词类的识别难度依次降低，如旋律类的识别难度大于歌词与旋律的组合类。这里的第一匹配阈值为上限匹配阈值，第二匹配阈值为下限匹配阈值。

例如，为了提高歌曲的识别率，以及提高识别歌曲的准确率，先对所采集到的歌曲进行类型的划分，如纯歌词、纯旋律、歌词与旋律的组合等类型，其中，纯歌词的识别难度低，纯旋律的是识别难度高，而歌词与旋律的组合的识别难度适中，然后根据划分的类型确定相对应的上限匹配阈值，以便后续对比过程中，采用对应类型的匹配阈值进行比较；在实际应用的过程中，为了进一步提高歌曲的识别率，还会根据划分的类型确定相对应的下限匹配阈值。

步骤303：将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值。

在实际应用过程中，根据所采集到的语音信息的内容与数据库中的候选多媒体文件进行匹配，由于候选多媒体文件可以是存储于电子设备的本地音乐库中，也可以是存储于网络侧的服务器中的音乐库，因此，步骤203可以分为以下两种场景：

场景1：在本地匹配

在可选的实施例中，为了能快速识别出多媒体，首先，将所采集到的语音信息的内容与本地音乐库中的候选多媒体文件进行匹配，得到至少一个第一匹配程度值。

例如，电子设备采集到用户哼唱的歌曲后，提取相应的语音信息的内容，如“啊…，五环，你比四环多一环…”、“你是我的小呀小苹果，怎么爱你都不嫌多…”等，此时，首先将提取到的歌曲内容与本地音乐库中存储的候选多媒体文件进行匹配，获得相应的匹配值。一般地，与多少首歌进行了匹配，就有多少个匹配值。

场景2：通过服务器匹配

在可选的实施例中，电子设备在查找完本地音乐库中的匹配文件后，未匹配到相应的多媒体时，将所述语音信息发送至服务器，指示所述服务器将所述语音信息与服务器多媒体库中的候选多媒体文件进行基于所述类型的匹配；接收所述服务器匹配所得的至少一个第一匹配程度值；或者，由于本地音乐库存储的多媒体文件较少，而且多为用户已知的多媒体文件，因此，电子设备可以不需要匹配本地音乐库，可以直接将所述语音信息发送至服务器，然后接收所述服务器匹配所得的至少一个第一匹配程度值。

例如，电子设备采集到用户哼唱的歌曲后，提取相应的歌曲内容，如“啊…，五环，你比四环多一环…”、“你是我的小呀小苹果，怎么爱你都不嫌多…”等，此时，电子设备将所述语音信息发送至服务器，指示服务器将语音信息与服务器多媒体库中的候选多媒体文件进行基于类型的匹配，当匹配完成后得到至少一个第一匹配程度值，服务器将该第一匹配程度值发送至电子设备；电子设备接收所述服务器匹配所得的至少一个第一匹配程度值。

在实际应用过程中，不同的类型，识别难易程度不尽相同，因此，根据语音信息的内容的类型对匹配阈值进行相应的设置。在设置匹配阈值的过程中，每一种类型对应的匹配阈值有两种：第一匹配阈值和第二匹配阈值，其中，第一匹配阈值为上限匹配阈值，第二匹配阈值为下限匹配阈值。

基于上述原因，匹配阈值可以包括以下几种情况：

1)当语音信息的内容只包含歌词时

那么，匹配阈值包括：歌词对应的第一上限匹配阈值和第一下限匹配阈值，由于具有歌词的歌曲，识别起来相对容易，每次能进行精确匹配，第一上限匹配阈值和第一下限匹配阈值设置的值可以尽量大一些，如表1中的第二行所示。需要说明的是，第一上限匹配阈值和第一下限匹配阈值的设置，可以根据实际情况进行设置，包括但不仅限于上述数值。

2)当语音信息的内容只包含旋律时

那么，匹配阈值包括：旋律对应的第二上限匹配阈值和第二下限匹配阈值，由于歌曲内容只包含旋律时，识别起来相对困难，每次能提高匹配的成功率，第二上限匹配阈值和第二下限匹配阈值设置的值可以尽量小一些，如表1中的第三行所示。需要说明的是，第二上限匹配阈值和第二下限匹配阈值的设置，可以根据实际情况进行设置，包括但不仅限于上述数值。

3)当语音信息的内容既包含歌词，又包含旋律时

那么，匹配阈值包括：歌词与旋律两者的组合所对应的第三上限匹配阈值和第三下限匹配阈值。由于歌曲内容既包含歌词，又包含旋律时，识别难度相对适中，因此，对于第三上限匹配阈值和第三下限匹配阈值的设置，可以选择适中的值，如表1中的第四行所示。需要说明的是，第三上限匹配阈值和第三下限匹配阈值的设置，可以根据实际情况进行设置，包括但不仅限于上述数值。

需要指出的是，上述的语音信息的内容(包括歌曲内容)指的是电子设备所采集到的部分歌曲内容，并非指的是整首歌所有的内容，若无特别说明，后续实施例中的语音信息的内容指的均为所采集到的部分歌曲内容。

表1

歌曲内容的类型	上限匹配阈值	下限匹配阈值
			只有歌词	90％	60％
只有旋律	70％	30％
			既有歌词，又有旋律	80％	50％

这里，表1只是本发明实施例所示出的一个对应关系，并包括上述数据，但不仅限于上述数据。

此外，在可选的实施例中，表1中的数值可以由电子设备默认设置，也可以由用户自定义设置。

在实际的匹配过程中，由于不同歌曲内容的类型有多种，匹配阈值也有多种，为了能够有效地进行对比，需将所获得的匹配程度值与歌曲内容的类型对应的匹配阈值进行对比，这样，能有效地提高识别歌曲的准确率。

在匹配的过程中，根据歌曲内容的类型可以划分一下三种情况：

1)按照歌词的匹配阈值进行对比

在可选的实施例中，当语音信息的内容的类型为所述歌词类，将所获得的匹配程度值与所述第一上限匹配阈值和所述第一下限匹配阈值进行对比。

例如，电子设备接收到只包含歌词的歌曲信号时，首先，基于该歌词与本地音乐库，或服务器端的音乐库中的歌曲信息进行匹配，该歌曲信息包括歌词信息，从而获得匹配程度值t；其次，将该匹配程度值与第一上限匹配阈值和第一下限匹配阈值进行对比，获得对比结果T。

其中，对比结果T包括：a)匹配程度值t大于或等于第一上限匹配阈值；b)匹配程度值t小于或等于第一下限匹配阈值；c)匹配程度值t小于第一上限匹配阈值、且大于第一下限匹配阈值。

2)按照旋律的匹配阈值进行对比

在可选的实施例中，当所述语音信息的内容的类型为所述旋律类，将所获得的匹配程度值与所述第二上限匹配阈值和所述第二下限匹配阈值进行对比。

例如，电子设备接收到只包含旋律的歌曲信号时，首先，基于该歌词与本地音乐库，或服务器端的音乐库中的歌曲信息进行匹配，该旋律信息包括旋律信息，从而获得匹配程度值m；其次，将该匹配程度值m与第二上限匹配阈值和第二下限匹配阈值进行对比，获得对比结果M。

其中，对比结果M包括：d)匹配程度值m大于或等于第二上限匹配阈值；e)匹配程度值m小于或等于第二下限匹配阈值；f)匹配程度值m小于第二上限匹配阈值、且大于第二下限匹配阈值。

3)按照歌词和旋律两者组合的匹配阈值进行对比

在可选的实施例中，当所述语音信息的内容的类型为所述歌词和所述旋律的组合类，将所获得的匹配程度值与所述第三上限匹配阈值和所述第三下限匹配阈值进行对比。

例如，电子设备接收到既包含歌词，又包含旋律的歌曲信号时，首先，基于该歌词与本地音乐库，或服务器端的音乐库的歌词信息进行匹配，获得第一子匹配值；其次，基于该旋律与本地音乐库，或服务器端的音乐库的旋律信息进行匹配，获得第二子匹配值；再次，将获得的第一子匹配值和第二子匹配值进行加权求和，得到匹配程度值n；最后，将该匹配程度值n与第二上限匹配阈值和第二下限匹配阈值进行对比，获得对比结果N。

这里，第一子匹配值的权重为可以是0.3至0.7中的某个值，第二子匹配值的权重可以是0.3至0.7中的某个值，其中，两个权重之和为1。

其中，上述的对比结果N包括：g)匹配程度值n大于或等于第三上限匹配阈值；h)匹配程度值n小于或等于第三下限匹配阈值；i)匹配程度值n小于第三上限匹配阈值、且大于第三下限匹配阈值。

综上所述，上述的三种对比结果T、对比结果M和对比结果N中，1)满足匹配阈值的匹配条件包括以下六种情况：①匹配程度值t大于或等于第一上限匹配阈值，②匹配程度值m大于或等于第二上限匹配阈值，③匹配程度值n大于或等于第三上限匹配阈值，④匹配程度值t小于第一上限匹配阈值、且大于第一下限匹配阈值，⑤匹配程度值m小于第二上限匹配阈值、且大于第二下限匹配阈值，⑥匹配程度值n小于第三上限匹配阈值、且大于第三下限匹配阈值；2)不满足匹配阈值的匹配条件包括以下三种情况：Ⅰ)匹配程度值t小于或等于第一下限匹配阈值，Ⅱ)匹配程度值m小于或等于第二下限匹配阈值，Ⅲ)匹配程度值n小于或等于第三下限匹配阈值。其中，①至③表示本次识别成功，④至⑥表示本次识别需要进行进一步的识别，而Ⅰ)至Ⅲ)表示本次识别失败。

步骤304：将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件。

在实际匹配过程中，可能会出现以下三种情况：

1)第一匹配程度值大于或等于上限匹配阈值，即上述①至③的情况

在可选的实施例中，当确定了语音信息的类型对应的第一匹配阈值时，将第一匹配程度值大于或等于所述第一匹配阈值的候选多媒体文件，确定为与所述语音信息对应的多媒体文件。

例如，假设歌曲内容为纯歌词，那么，当匹配程度值t大于或等于第一上限匹配阈值时，如匹配程度值t大于或等于大于90％，将匹配程度值t大于或等于第一上限匹配阈值对应的候选多媒体文件，确定为与所述语音信息对应的多媒体文件。举例来说，假设匹配程度值t对应的歌曲为《五环之歌》，那么，匹配程度值t大于或等于第一上限匹配阈值时，将《五环之歌》确定为用户所要识别的歌曲。

当语音信息的内容为纯旋律或旋律与歌词的组合时，匹配的方法与纯歌词的匹配方法一致，这里不再赘述。

2)第一匹配程度值低于下限匹配阈值，即上述Ⅰ)至Ⅲ)的情况

在可选的实施例中，当所述第一匹配程度值低于所述第二匹配阈值时，确定所述匹配程度值对应的候选多媒体文件与语音信息匹配不对应，即本次识别失败。

例如，假设歌曲内容为纯歌词，那么，当匹配程度值t小于或等于第一下限匹配阈值，匹配程度值t小于或等于60％时，本次识别失败。当歌曲内容为纯旋律或旋律与歌词的组合时，匹配的方法与纯歌词的匹配方法一致，这里不再赘述。

在可选的实施例中，当所述第一匹配程度值小于或等于所述第二匹配阈值时，表示本次识别失败，此时，电子设备将会提示用户输入歌曲信息，基于用户输入的信息，确定用户设定所述语音信息与多媒体文件之间的对应关系；根据所述对应关系修正相应类型的所述第一匹配阈值，和/或所述第二匹配阈值。

例如，在实际应用过程中，当确定识别失败时，可以提示用户未搜索到对应的歌曲，在提示用户未搜索到对应的歌曲后，可以提示用户输入对应的歌曲信息，如输入歌词或歌曲的演唱者等，并根据该歌曲信息找到对应的歌曲A。当根据歌曲信息找到该歌曲A后，电子设备可以记录所述语音信息的内容与该歌曲A的对应关系；其中，当所述语音信息的内容与该歌曲A的对应关系的次数超过某一阈值，如多个用户通过电子设备，确定了所述语音信息的内容与该歌曲A的对应关系时，可以基于该对应关系来优化上述对用户语音输入内容的识别过程，以提高识别的准确率，例如，确定对应关系后，用户接收到类似的语音信息时，将采样修正后的匹配阈值进行匹配；识别失败后，若用户未输入对应的歌曲信息，则可以对所述语音信息的内容进行记录，以丰富音乐库。

3)第一匹配程度值介于上限匹配阈值和下限匹配阈值之间，即上述④至⑥的情况

在可选的实施例中，当匹配程度值位于所述第一匹配阈值与第二匹配阈值之间时，如匹配程度值大于60％，且小于90％时，获取匹配程度值位于相应类型的第一匹配阈值与第二匹配阈值之间的候选多媒体文件；从所获取的候选多媒体文件中提取特征信息；将所述候选多媒体文件的特征信息，与已播放的历史多媒体文件进行匹配；将匹配程度值大于或等于第三匹配阈值的候选多媒体文件，确定为所述特征信息对应的多媒体文件。

在可选的实施例中，对用户在每一时间段的听歌数据进行记录和统计，从而获得用户已播放的历史多媒体文件的信息，其中，听歌数据可以包括演唱者信息、歌曲风格、作词者信息、作曲者信息等；或者，也可以包括针对某一演唱者、某一风格的歌曲等的播放次数以及播放时长等。此外，也可以对用户在地理位置信息，如家、公司等的听歌数据进行记录和统计，然后，根据统计出的该些数据来确定用户在某些地理位置的听歌习惯。此外，还可以将时间段以及地理位置进行结合，来更精确的确定用户听歌习惯。

在实际应用过程中，当第一匹配程度值位于相应类型的第一匹配阈值与第二匹配阈值之间时，进行二次匹配，匹配的方式为：获取第一匹配程度值位于第一匹配阈值与第二匹配阈值(如匹配程度值大于60％，且小于90％)之间的候选多媒体文件，从所获取的候选多媒体文件中提取特征信息，该特征信息包括歌手信息、歌曲风格、作词者信息、作曲者信息等，与已播放的历史多媒体文件的相应信息进行匹配，得到至少一个第二匹配程度值，然后，将得到的第二匹配程度值与预设的第三匹配阈值进行大小比较，若第二匹配程度值大于第三匹配阈值，则可以确定识别成功；若第二匹配程度值小于第三匹配阈值，则可以确定识别失败。这里，第三匹配阈值与第一匹配阈值、第二匹配阈值没有对应关系，可以根据实际情况设定，本发明实施例不做具体限定。

在可选的实施例中，识别歌曲的过程中，可能会出现这样的情况，音乐APP截取到关于歌曲的语音信息，根据该语音信息的内容匹配到多个候选多媒体文件，且多个候选多媒体文件中有至少一个候选多媒体文件的第一匹配程度值满足匹配条件，那么，根据第一匹配程度值的大小顺序，对满足匹配条件的候选多媒体文件进行排序展示，以便用户根据展示的歌曲进行相应的选择；电子设备根据用户的选择指令获得对应语音信息的多媒体文件。

参见图4，图4为本发明实施例提供的另一种电子设备的结构示意图，包括：

获取模块401，用于获得语音信息的内容的类型；

第一确定模块402，用于基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值；

匹配模块403，用于将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值；

第二确定模块404，用于将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，其中，所述匹配条件基于所述匹配阈值来确定。

这里，获取模块401，具体用于：

这里，第一确定模块402，具体用于：

这里，第二确定模块404，具体用于：

这里，第二确定模块404，还用于：

当所述候选多媒体文件与所述语音信息的匹配程度值，位于所述第一匹配阈值与第二匹配阈值之间时，

这里，第二确定模块404，还用于：

这里，所述电子设备还包括：展示模块405；其中，

展示模块405，用于将所述第一匹配程度值满足匹配条件的候选多媒体文件，根据匹配程度值排序展示；

第二确定404，还用于将被选定的候选多媒体文件，确定为与所述语音信息对应的多媒体文件。

这里，所述电子设备还包括更新模块406；其中，

更新模块406，用于当所述第一匹配程度值小于或等于所述第二匹配阈值，且所述候选多媒体文件被设定为与所述语音信息对应时；根据所述候选多媒体文件与所述语音信息的对应关系，更新所述第一匹配阈值和/或第二匹配阈值。

这里，匹配模块403，具体用于：

或者，

接收所述服务器匹配所得的至少一个第一匹配程度值。

对于传统的多媒体识别方案中，使用统一的匹配阈值来从存储的歌曲中识别与用户语音输入的内容对应的歌曲。但是，由于用户语音输入内容的类型(包括有旋律无歌词、有歌词无旋律等)不同的时候，对应的识别难度不同，因此，当使用统一的匹配阈值来识别与用户语音输入的内容对应的歌曲时，识别的准确率不高。

对于只输入旋律而不输入歌词的情况，在预设了统一的匹配阈值后，如为80％，由于旋律的识别难度较高，因此，当将歌曲与用户输入的旋律进行匹配时，得到的匹配值较小，此时，很有可能出现歌曲实际上与用户输入的旋律相匹配，但是对应的匹配值却小于预设的匹配阈值的情况，因此，传统方案中不会将该歌曲识别为与用户输入的旋律对应的歌曲。

对于只输入歌词而不输入旋律的情况，在预设了统一的匹配阈值后，由于歌词的识别难度低，因此，当将歌曲与用户输入的歌词进行匹配时，得到的匹配值较高，且大于预设的匹配阈值，但仅仅只是歌词的重叠率较大的情况，因此，传统方案中会将该歌曲识别为与用户输入的歌词对应的歌曲。

因此，上述的方案中可能会出现歌曲识别的准确率不高的问题，为了解决上述问题，本发明实施例提出了一种解决方案，如图5所示，所述多媒体识别方法的步骤可以包括：

步骤501：开启语音识别或歌曲识别的功能。

在实际应用过程中，通过电子设备上的按键(包括实体的按键以及虚拟的按键)、预设的声音、预设的手势等，触发电子设备进行语音识别。如果电子设备有屏幕，则可以在被触发后，显示语音识别的界面；如果电子设备没有屏幕，则可以在被触发后，进行语音提示。

在可选的实施例中，电子设备可以设置某个实体键或虚拟键为开启语音识别的快捷键，在按下或点击该键后，可以开启语音识别功能，此时，电子设备可以打开话筒，并监测用户是否输入语音。

在另一可选的实施例中，电子设备也可以预先将特定的词汇设置为开启语音识别的标识。当用户打开电子设备上的音乐播放器时，电子设备上的话筒也可以同时打开，并进行监测。当监测到用户输入了特定的词汇时，电子设备可以开启语音识别功能。

在另一个实施例中，电子设备也可以预先将特定的操作，例如，预设轨迹的滑动操作等，设置为开启语音识别的标识。用户可以打开电子设备，然后，在电子设备的显示屏上执行特定的操作，当电子设备监控到用户输入了特定的操作后，可以开启语音识别功能，此时，电子设备可以打开话筒，并监测用户是否输入语音。

在本申请中，当电子设备开启语音识别功能时，可以显示语音识别的界面或发出提示语音，以提示用户语音识别功能已打开。

需要说明的是，在本申请中，如果是在未打开音乐播放器的情况下开启了语音识别功能，则电子设备后续可以调用默认的音乐播放器或用户点选的音乐播放器进行歌曲识别。

步骤502：获取外界发出的语音，并根据语音内容的类型确定对应的匹配阈值。

这里，语音可以是用户发出的，也可以是音响设备发出的语音。其中，该语音包括用户说话的语音、唱歌的语音。

这里，电子设备在开启语音识别功能后，可以监测外界是否发出了语音，当监测到语音时，电子设备可以先确定语音内容的类型，然后，根据语音内容的类型，基于语音内容的类型与匹配阈值之间的对应关系，确定个类型对应的匹配阈值。

在可选的实施例中，电子设备在开启了语音识别功能后，可以监测外界是否发出了语音，当监测到语音时，电子设备可以确定语音内容的类型。其中，语音内容的类型可以包括：有旋律无歌词、有歌词无旋律以及有旋律有歌词。

在可选的实施例中，电子设备可以判断语音内容中是否包括旋律，判断的方法包括：电子设备将该语音信息截取为若干片段，分别提取每个片段语音信息的频率，根据提取的频率生成相应的频谱；然后，将生成的频谱之间进行比对，获得对应的多个相似值，若所获得的多个相似值较大，如大于或等于预设的相似阈值，则可以确定用户未输入旋律；若所获得的多个相似值较小，如小于所述相似阈值，则可以确定用户输入了旋律。

在可选的实施例中，电子设备可以判断语音内容中是否包括歌词，判断的方法包括：电子设备获取到语音信息后，将采集的语音信息的首尾端的静音切除，以降低静音对识别造成的干扰；第二步：根据移动窗函数将用户输入的语音切分为若干个帧，并对每一帧的语音提取相应的声学特征，如音色、音强、音高和音长等，转换成M行N列的矩阵，该矩阵称之为观察序列，其中，M和N均为正整数，且M表征声学特征的维数；第三步：将该观察序列识别成语音状态，并将语音状态组合成语音音素，然后，将语音音素组合成词；第四步：将此语音音素组成的词转换成文本，在转换成文本后，如果该文本为单一词或无法识别的词，则可以确定所采集的语音信息不包括歌词；若该文本为可以识别的词，则可以确定所采集的语音信息包括歌词；此外，如果无法转换成文本，则也可以确定所采集的语音信息不包括歌词。

在可选的实施例中，在根据上述过程确定用户输入的内容是否包括歌词以及旋律后，电子设备可以确定用户输入的内容的类型。在确定了用户输入的内容的类型后，电子设备可以根据用户输入的内容的类型，基于预设的语音输入内容的类型与匹配阈值的对应关系来确定对应的匹配阈值。

在可选的实施例中，电子设备可以针对用户语音输入的内容的类型，设置不同的第一匹配阈值以及第二匹配阈值，其中，第一匹配阈值可以大于第二匹配阈值，具体地：若用户只输入了旋律，没有输入歌词，由于识别难度较高，因此，可以设置较小的第一匹配阈值以及第二匹配阈值；若用户只输入了歌词，由于识别难度较低，因此，可以设置较大的第一匹配阈值以及第二匹配阈值；若用户同时输入了旋律以及歌词，则可以设置适中的第一匹配阈值以及第二匹配阈值。

在一个示例中，电子设备预设的第一匹配阈值、第二匹配阈值以及用户语音输入的内容的类型之间的对应关系可以如表1所示。

步骤503：将获取的语音的内容与音乐库中的歌曲进行匹配，获得第一匹配值。

这里，在确定了对应的匹配阈值后，电子设备可以将获取的语音内容与存储的每一歌曲进行匹配，得到至少一个第一匹配值，然后，判断得到的每一个第一匹配值与第一匹配阈值以及第二匹配阈值的大小关系。这里，第一匹配阈值为上限匹配阈值，第二匹配阈值为下限匹配阈值。

对于步骤503，可以在电子设备本地端实现，也可以通过服务器实现，因此，步骤503可以划分为以下两个子步骤：

步骤503a：将获取的语音的内容与本地音乐库中的歌曲进行匹配，获得第一匹配值。

在可选的实施例中，在确定了与用户输入的内容对应的匹配阈值后，电子设备可以检测本地是否存储有歌曲，若有，则将步骤502中确定的歌词和/或旋律与本地存储的每一歌曲进行匹配，得到至少一个第一匹配值；然后，可以判断得到的每一个第一匹配值是否大于第二匹配阈值，若得到的第一匹配值大于第一批评阈值，或大于第二匹配阈值，则可以确定匹配成功；若得到的第一匹配值都小于第二匹配阈值，则可以确定匹配失败。

步骤503b：将获取的语音的内容发送至服务器。

步骤503c：服务器将语音的内容与音乐库中的歌曲进行匹配，获得第一匹配值。

这里，电子设备可以将所获取的语音内容(如歌词和/或旋律)发送至对应的服务器，服务器接收到该语音内容后，基于自身存储的海量歌曲进行匹配，得到匹配结果。一方面，服务器可以将匹配结果发送至电子设备，电子设备接收到匹配结果后，执行步骤504，其中，该匹配结果可以包括大于第二匹配阈值的第一匹配值，以及与大于第二匹配阈值的第一匹配值对应的歌曲；另一方面，服务器得到匹配结果后，执行步骤504，当服务器执行完步骤504后，将执行得到的结果发送给电子设备，以使电子设备中的客户端可以执行步骤505。

在可选的实施例中，如果所获取的语音内容中只包括旋律或者歌词，则电子设备在将确定的歌词或旋律与本地存储的每一歌曲进行匹配时，可以直接得到对应的第一匹配值；如果用户语音输入的内容中同时包括旋律以及歌词，则电子设备在将确定的歌词以及旋律与本地存储的每一歌曲进行匹配时，可以先分别得到确定的歌词与每一歌曲的歌词文件对应的匹配值，以及确定的旋律与每一歌曲的旋律文件对应的匹配值，然后，可以将该两个匹配值进行加权求和，得到与该首歌对应的第一匹配值。其中，权重值可以由用户进行设置，本申请对此不做限制。

504：将第一匹配值与对应的匹配阈值进行对比，获得对比结果。

这里，对比结果包括三种情况：第一匹配值大于或等于第一匹配阈值，第一匹配值小于或等于第二匹配阈值，第一匹配阈值小于第一匹配阈值且大于第二匹配阈值。

步骤504可以划分为以下两种情况：

1)电子设备将第一匹配值与对应的匹配阈值进行对比，获得对比结果。

在实际应用过程中，1)如果得到的最大的第一匹配值大于或等于第一匹配阈值，则可以确定识别成功；2)如果得到的最大的第一匹配值小于或等于第二匹配阈值，则可以确定识别失败；3)如果得到的最大的第一匹配值小于第一匹配阈值且大于第二匹配阈值，则需要进行二次匹配，如：可以根据用户的听歌习惯，对该第一匹配值对应的歌曲进行二次匹配，得到第二匹配值，然后，判断第二匹配值以及预设的第三匹配阈值的大小关系，若第二匹配值大于预设的第三匹配阈值，则可以确定识别成功；若第二匹配值小于预设的第三匹配阈值，则可以确定识别失败。

这里，用户的听歌习惯可以根据用户的历史听歌数据来确定。

2)服务器将第一匹配值与对应的匹配阈值进行对比，获得对比结果，然后将对比结果发送至电子设备。

这里，服务器将第一匹配值与对应的匹配阈值进行对比的方法，与电子设备一致，可参考上述电子设备的匹配方法，这里不再进行赘述。

在可选的实施例中，当根据用户的历史听歌数据来确定用户的听歌习惯时，可以对用户在每一时间段的听歌数据进行记录和统计，其中，听歌数据可以包括演唱者信息、歌曲风格、作词者信息、作曲者信息等，也可以包括针对某一演唱者、某一风格的歌曲等的播放次数以及播放时长等，根据统计出的该些数据生成用户在每一时间段的听歌习惯。此外，也可以对用户在某些地理位置，例如，家、公司等的听歌数据进行记录和统计，然后，根据统计出的该些数据来确定用户在某些地理位置的听歌习惯。在本发明的实施例中，也可以将时间段以及地理位置进行结合，来更精确的确定用户听歌习惯。其中，上述的听歌习惯，可以存储于电子设备，也可以存储于服务器，或者，同时存储于上述两者，具体根据实际情况进行存储。

在可选的实施例中，在根据用户的历史听歌数据确定用户的听歌习惯后，获取小于第一匹配阈值且大于第二匹配阈值的第一匹配值对应的歌曲，可以根据用户的听歌习惯对该歌曲进行二次匹配，得到第二匹配值，其中，在进行二次匹配时，可以将该歌曲的歌手信息、歌曲风格、作词者信息、作曲者信息等与用户的听歌习惯进行匹配，得到对应的第二匹配值，然后，可以将得到的第二匹配值与预设的第三匹配阈值进行大小比较，若第二匹配值大于第三匹配阈值，则可以确定识别成功；若第二匹配值小于第三匹配阈值，则可以确定识别失败。

步骤505：根据对比结果确定歌曲识别是否成功后，对识别结果进行相应的操作。

当确定识别成功时，电子设备将大于第一匹配阈值的第一匹配值对应的歌曲，或者，将大于第三匹配阈值的第二匹配值对应的歌曲，按匹配度大小顺序进行排序，并将排序结果展示给用户，以供用户进行点选。

当确定识别失败时，电子设备提示用户未搜索到对应的歌曲，此外，电子设备还可以提示用户输入对应的歌曲信息，以根据该歌曲信息找到该歌曲。查找到歌曲之后，电子设备记录所获取到的语音内容与该歌曲的对应关系；其中，当电子设备记录的该语音内容与该歌曲的对应关系的次数超过某一阈值，例如，多个用户通过电子设备确定了该语音输入的内容与该歌曲的对应关系时，可以基于该对应关系来优化上述对获取到的语音内容的识别过程，以提高识别的准确率；若用户未输入对应的歌曲信息，则可以对所获取到的语音内容进行记录，以丰富音乐库。

在可选的实施例中，当确定识别失败时，电子设备可以提示用户未搜索到对应的歌曲，并提示用户输入该歌曲的信息，如歌名信息等，1)若用户未输入该歌曲的信息，则电子设备可以记录所获取到的语音内容，并对所获取到的语音内容进行存储，以丰富音乐库；2)若用户输入了该歌曲的信息，则电子设备可以搜索该歌曲，并为用户播放该歌曲，以及将用户语音输入的内容与该歌曲的对应关系进行记录和保存。当有多个用户通过电子设备确定了该语音内容与该歌曲的对应关系时，电子设备可以基于该对应关系优化上述识别过程，以提高识别的准确率。例如，若该语音内容包括旋律，如旋律A，则电子设备可以在匹配旋律时，将该旋律A与该歌曲的旋律看作为较为相似的旋律。

综上所述，通过实施本发明实施例的方案，可以具有以下有益效果：

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种多媒体识别方法，其特征在于，包括：

确定语音信息的内容的类型；

2.根据权利要求1所述的方法，其特征在于，所述确定语音信息的内容的类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述语音信息的内容的类型，确定与所述类型对应的匹配阈值，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述第一匹配程度值满足匹配条件的候选多媒体文件，确定为与所述语音信息对应的多媒体文件，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求3所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述语音信息与候选多媒体文件进行基于所述类型的匹配，得到至少一个第一匹配程度值，包括：

或者，

接收所述服务器匹配所得的至少一个第一匹配程度值。

9.一种电子设备，其特征在于，包括：

获取模块，用于获得语音信息的内容的类型；

10.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器，用于运行所述计算机程序时，实现权利要求1至8任一项所述的多媒体识别方法。

11.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，执行权利要求1至8任一项所述的多媒体识别方法。