CN105069146B - 声音搜索方法和装置 - Google Patents

声音搜索方法和装置 Download PDF

Info

Publication number
CN105069146B
CN105069146B CN201510515072.4A CN201510515072A CN105069146B CN 105069146 B CN105069146 B CN 105069146B CN 201510515072 A CN201510515072 A CN 201510515072A CN 105069146 B CN105069146 B CN 105069146B
Authority
CN
China
Prior art keywords
sound
user
result
search
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510515072.4A
Other languages
English (en)
Other versions
CN105069146A (zh
Inventor
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510515072.4A priority Critical patent/CN105069146B/zh
Publication of CN105069146A publication Critical patent/CN105069146A/zh
Application granted granted Critical
Publication of CN105069146B publication Critical patent/CN105069146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明提出一种声音搜索方法和装置,该声音搜索方法包括:根据用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音;对收集的声音进行识别,并对识别获得的识别结果进行搜索;将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现。本发明可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。

Description

声音搜索方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种声音搜索方法和装置。
背景技术
语音是语言的声音,是由人类的发音器官发出的,代表一定意义的声音。自然界及现代社会中,除语音外,还有很多类别的声音存在,例如:动物的声音、乐器的声音、自然的声音、工具撞击的声音、影视剧及歌曲的声音等。
现有技术中,搜索引擎只能对用户发出的语音进行搜索,具体地,当用户进行语音搜索时,开启一个对话界面,在界面中完成用户有搜索需求的语音的输入,搜索引擎对输入的语音进行语音识别并转换为文字,进行信息检索并返回搜索结果。
如上所述,当用户有非语言类的声音搜索需求时,例如:“正在播放的一首不知名称的歌曲片段”、“听到的窗外清脆的鸟叫声”和/或“突然且持续的嘈杂噪声”等,现有技术中,搜索引擎仍将其作为用户主动输入的语音数据,进行识别和检索,这种情形下,搜索引擎返回的搜索结果,并不能很好地满足用户的搜索需求,用户体验较差。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种声音搜索方法,该方法可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。
本发明的第二个目的在于提出一种声音搜索装置。
为了实现上述目的,本发明第一方面实施例的声音搜索方法,包括:根据用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音;对收集的声音进行识别,并对识别获得的识别结果进行搜索;将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现。
本发明实施例的声音搜索方法,通过对非语音频段的其他声音的搜索需求进行分类引导,根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音,然后对收集的声音进行识别,并对识别获得的识别结果进行搜索,将识别获得的识别结果和搜索获得的搜索结果按照选择的垂直类别的结果展现模板进行展现,从而可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。
为了实现上述目的,本发明第二方面实施例的声音搜索装置,包括:收集模块,用于根据用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音;识别模块,用于对所述收集模块收集的声音进行识别;搜索模块,用于对所述识别模块识别获得的识别结果进行搜索;展现模块,用于将所述识别模块识别获得的识别结果和所述搜索模块搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现。
本发明实施例的声音搜索装置,通过对非语音频段的其他声音的搜索需求进行分类引导,收集模块根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音,然后识别模块对收集的声音进行识别,搜索模块对识别获得的识别结果进行搜索,展现模块将识别获得的识别结果和搜索获得的搜索结果按照选择的垂直类别的结果展现模板进行展现,从而可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明声音搜索方法一个实施例的流程图;
图2为本发明声音搜索方法另一个实施例的流程图;
图3(a)~图3(d)为本发明垂直类别对应的交互界面一个实施例的示意图;
图4为本发明声音搜索方法再一个实施例的流程图;
图5为本发明识曲结果展现模板一个实施例的示意图;
图6为本发明多媒体播放类APP播放对应的歌曲一个实施例的示意图;
图7为本发明自然声音的结果展现模板一个实施例的示意图;
图8为本发明噪音结果展现模板一个实施例的示意图;
图9为本发明地图类APP显示噪声源的街景模式一个实施例的示意图;
图10为本发明声音搜索装置一个实施例的结构示意图;
图11为本发明声音搜索装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明声音搜索方法一个实施例的流程图,如图1所示,该声音搜索方法可以包括:
步骤101,根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音。
本实施例对语音之外的声音按照不同的垂直类别进行分类引导,可以根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音。
步骤102,对收集的声音进行识别,并对识别获得的识别结果进行搜索。
步骤103,将识别获得的识别结果和搜索获得的搜索结果按照上述选择的垂直类别的结果展现模板进行展现。
本实施例中,分别针对不同的垂直类别的声音搜索需求,提供有针对性的结果展现模板,在获得识别结果和搜索结果之后,可以将识别获得的识别结果和搜索获得的搜索结果按照上述选择的垂直类别的结果展现模板进行展现,从而可以提升用户对语音之外的其他声音的搜索需求的满足度,提升用户体验。
图2为本发明声音搜索方法另一个实施例的流程图,如图2所示,在步骤101之前,还可以包括:
步骤201,在声音搜索界面,接收用户对上述声音搜索界面上至少两个垂直类别的声音搜索图标的第一操作信息。
其中,上述第一操作信息可以为点击操作、长按操作或者滑动操作等;本实施例对上述第一操作信息的具体操作方式不作限定。
本实施例中,声音搜索界面上可以包括通用、识曲、自然、乐器、工具和/或噪音等至少两个垂直类别的声音搜索图标,用户可以通过点击上述声音搜索图标选择上述用户想要搜索的声音所属的垂直类别,也可以通过手指滑动操作对上述垂直类别进行类别切换,切换到上述用户想要搜索的声音所属的垂直类别。
步骤202,根据上述第一操作信息获得上述用户选择的垂直类别,并显示上述用户选择的垂直类别对应的交互界面。
具体地,接收到上述第一操作信息之后,上述用户使用的终端设备会将声音搜索界面切换为上述用户选择的垂直类别对应的交互界面。图3(a)~图3(d)为本发明垂直类别对应的交互界面一个实施例的示意图,其中,图3(a)为通用的交互界面,图3(b)为识曲的交互界面,图3(c)为自然的交互界面,图3(d)为噪音的交互界面。
其中,上述用户使用的终端设备可以为智能手机、平板电脑或者可穿戴式智能终端等智能终端设备,本实施例对上述用户使用的终端设备的具体形式不作限定。
图4为本发明声音搜索方法再一个实施例的流程图,如图4所示,步骤101可以包括:
步骤401,接收上述用户对上述用户选择的垂直类别对应的交互界面上识音图标的第二操作信息。
其中,第二操作信息可以为点击或长按操作等,本实施例对上述第二操作信息的具体操作方式不作限定,本实施例以第二操作信息为长按操作为例进行说明。
也就是说,当用户想要进行非语音的声音搜索时,用户可以在上述用户选择的垂直类别对应的交互界面上,长按该交互界面上的识音图标,等声音录制完毕后,再放开上述识别图标。
步骤402,根据上述第二操作信息,按照上述用户选择的垂直类别的声音频谱进行录音。
具体地,本实施例中,接收到上述第二操作信息之后,上述用户使用的终端设备就可以按照上述用户选择的垂直类别的声音频谱进行录音了。
本实施例的一种实现方式中,上述用户选择的垂直类别可以为多媒体声音;其中,上述多媒体声音可以包括歌曲、影视或相声等多媒体中的音频信息。这时,步骤402可以为:根据上述第二操作信息,按照上述多媒体声音的声音频谱进行录音,并自动去除非多媒体声音所在频段的噪声。
步骤102可以为:对录制的多媒体声音在多媒体库中进行检索,获得所述多媒体声音所属多媒体音频的信息,并对上述多媒体音频的信息进行全网搜索,获得相应的全网搜索结果;以上述多媒体声音为歌曲片段为例,上述多媒体声音所属多媒体音频的信息可以包括上述歌曲片段所属歌曲的名称,演唱上述歌曲的歌手的姓名,上述歌曲所属的专辑和发行时间等信息。
步骤103可以为:将上述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照上述多媒体声音的结果展现模板进行展现。
进一步地,将上述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照上述多媒体声音的结果展现模板进行展现之后,还可以接收上述用户对展现的结果中上述多媒体音频的信息的第三操作信息;根据上述第三操作信息,当上述用户使用的终端设备中已安装多媒体播放类应用(Application;以下简称:APP)时,调用上述多媒体播放类APP播放上述多媒体音频;当上述用户使用的终端设备中未安装多媒体播放类APP时,通过无线应用协议(Wireless Application Protocol;以下简称:WAP)页面播放上述多媒体音频。
其中,上述第三操作信息可以为点击操作、长按操作或滑动操作等,本实施例对上述第三操作信息的具体操作形式不做限定,本实施例以第三操作信息为点击操作为例进行说明。
也就是说,将上述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照上述多媒体声音的结果展现模板进行展现之后,用户可以点击展现的结果中多媒体音频的信息,然后,上述用户使用的终端设备可以接收到用户的点击操作,之后上述用户使用的终端设备可以判断该终端设备中是否安装了多媒体播放类APP,如果安装了多媒体播放类APP,则可以调用上述多媒体播放类APP播放上述多媒体音频,如果未安装,则上述用户使用的终端设备可以通过WAP页面播放上述多媒体音频。
举例来说,当用户使用声音搜索的识曲功能时,用户按住图3(b)中的识音图标,上述用户使用的终端设备开始录音,并自动去除非音乐和语音所在频段的其余噪声,然后将录制的歌曲片段在多媒体库(例如:歌曲或影视库)中进行检索,获得上述歌曲片段所属歌曲的信息,并对上述歌曲的信息进行全网搜索,获得相应的全网搜索结果,并将上述歌曲的信息和相应的全网搜索结果按识曲结果展现模板进行展现,如图5所示,图5为本发明识曲结果展现模板一个实施例的示意图。在用户点击展现结果中的第一张卡片(即点击展现的结果中上述歌曲的信息)之后,如果上述用户使用的终端设备检测到已安装多媒体播放类APP,例如:百度音乐,则调用上述多媒体播放类APP,直达至对应歌曲的播放界面,进行播放,如图6所示,图6为本发明多媒体播放类APP播放对应的歌曲一个实施例的示意图;如果上述用户使用的终端设备未安装多媒体播放类APP,则通过多媒体相应的WAP页面播放上述歌曲。
本实施例的另一种实现方式中,上述用户选择的垂直类别包括:自然声音;其中,上述自然声音可以包括自然界的风声、流水声、动物叫声或鸟叫声等声音。这时,步骤402可以为:根据上述第二操作信息,按照上述自然声音的声音频谱进行录音,并进行自动去噪处理。
步骤102可以为:对录制的自然声音在自然声音库中进行检索,获得上述录制的自然声音的识别结果,并对上述识别结果进行全网搜索,获得相应的全网搜索结果;其中,上述录制的自然声音的识别结果可以为上述录制的自然声音为自然界的风声、流水声、动物叫声或鸟叫声等,更具体地,当上述录制的自然声音的识别结果为动物叫声或鸟叫声时,可以给出具体是哪种动物或哪种鸟类的叫声。
步骤103可以为:将上述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现。
举例来说,当用户使用声音搜索的自然功能时,用户按住图3(c)所示交互界面中的识音图标,上述用户使用的终端设备开始进行录音,并进行自动去噪处理,然后将录制的自然声音在自然声音库中进行检索,返回上述录制的自然声音的识别结果,并对上述识别结果进行全网搜索,返回相应的全网搜索结果,然后将上述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现,如图7所示,图7为本发明自然声音的结果展现模板一个实施例的示意图。
本实施例的再一种实现方式中,上述用户选择的垂直类别包括:噪音;这时,步骤402可以为:根据上述第二操作信息,按照噪音的声音频谱进行录音。
步骤102可以为:对录制的噪音进行噪音检测,获得上述录制的噪音的检测结果,并对上述用户当前所处的地理位置进行定位,搜索与上述用户当前所处的地理位置相距预定距离的噪声源的位置和信息;其中,上述录制的噪音的检测结果可以为上述录制的噪音的分贝,以及分贝的相关信息;上述预定距离可以在具体实现时,根据系统性能或实现需求等自行设定,本实施例对上述预定距离的大小不作限定,距离来说,上述预定距离可以为500米。
步骤103可以为:将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现。
进一步地,在将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现之后,还可以接收上述用户对展现的结果中噪声源的位置和信息的第四操作信息;根据上述第四操作信息,通过地图类APP或WAP页面定位到被操作的噪声源的位置,并开启街景模式。
其中,上述第四操作信息可以为点击操作、长按操作或滑动操作等,本实施例对上述第四操作信息的具体操作形式不做限定,本实施例以第四操作信息为点击操作为例进行说明。
也就是说,在将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现之后,用户可以点击展现的结果中的噪声源的位置和信息,接收到用户的上述点击操作信息之后,上述用户使用的终端设备可以根据上述点击操作信息,当上述终端设备中安装地图类APP时,通过地图类APP定位到被点击的噪声源的位置,并开启街景模式;当上述终端设备中未安装地图类APP时,通过WAP页面定位到被点击的噪声源的位置,并开启街景模式。
举例来说,当用户使用声音搜索的噪音搜索功能时,按住图3(d)所示的交互界面中的识音图标,上述用户使用的终端设备开始进行录音,然后可以对录制的噪音进行噪音检测,返回上述录制的噪音的分贝,以及分贝的相关信息;并对上述用户当前所处的地理位置进行定位,搜索与上述用户当前所处的地理位置相距预定距离的噪声源的位置和信息,然后将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现,如图8所示,图8为本发明噪音结果展现模板一个实施例的示意图。在用户点击展现的结果中的一个噪声源的位置和信息之后,当上述用户使用的终端设备中安装地图类APP时,上述用户使用的终端设备打开地图类APP,定位到被点击的噪声源的位置,并开启街景模式,如图9所示,图9为本发明地图类APP显示噪声源的街景模式一个实施例的示意图。而当上述终端设备中未安装地图类APP时,可以通过WAP页面定位到被点击的噪声源的位置,并开启街景模式。
上述声音搜索方法中,通过对非语音频段的其他声音的搜索需求进行分类引导,根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音,然后对收集的声音进行识别,并对识别获得的识别结果进行搜索,将识别获得的识别结果和搜索获得的搜索结果按照选择的垂直类别的结果展现模板进行展现,从而可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。
图10为本发明声音搜索装置一个实施例的结构示意图,本实施例中的声音搜索装置可以设置在终端设备中,实现本发明图1、图2和图4所示实施例的流程,其中,上述终端设备可以为智能手机、平板电脑或者可穿戴式智能终端等智能终端设备,本实施例对上述终端设备的具体形式不作限定。
如图10所示,上述声音搜索装置可以包括:收集模块1001、识别模块1002、搜索模块1003和展现模块1004;
其中,收集模块1001,用于根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音;本实施例对语音之外的声音按照不同的垂直类别进行分类引导,收集模块1001可以根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音。
识别模块1002,用于对收集模块1001收集的声音进行识别。
搜索模块1003,用于对识别模块1002识别获得的识别结果进行搜索。
展现模块1004,用于将识别模块1002识别获得的识别结果和搜索模块1003搜索获得的搜索结果按照上述选择的垂直类别的结果展现模板进行展现。
本实施例中,分别针对不同的垂直类别的声音搜索需求,提供有针对性的结果展现模板,在识别模块1002获得识别结果和搜索模块1003获得搜索结果之后,展现模块1004可以将识别模块1002识别获得的识别结果和搜索模块1003搜索获得的搜索结果按照上述选择的垂直类别的结果展现模板进行展现,从而可以提升用户对语音之外的其他声音的搜索需求的满足度,提升用户体验。
图11为本发明声音搜索装置另一个实施例的结构示意图,与图10所示的声音搜索装置相比,不同之处在于,图11所示的声音搜索装置还可以包括:接收模块1005、获得模块1006和显示模块1007;
接收模块1005,用于在收集模块1001收集上述选择的垂直类别的声音之前,在声音搜索界面,接收用户对上述声音搜索界面上至少两个垂直类别的声音搜索图标的第一操作信息;其中,上述第一操作信息可以为点击操作、长按操作或者滑动操作等;本实施例对上述第一操作信息的具体操作方式不作限定。
本实施例中,声音搜索界面上可以包括通用、识曲、自然、乐器、工具和/或噪音等至少两个垂直类别的声音搜索图标,用户可以通过点击上述声音搜索图标选择上述用户想要搜索的声音所属的垂直类别,也可以通过手指滑动操作对上述垂直类别进行类别切换,切换到上述用户想要搜索的声音所属的垂直类别。
获得模块1006,用于根据接收模块1005接收的第一操作信息获得上述用户选择的垂直类别;
显示模块1007,用于显示获得模块1006获得的用户选择的垂直类别对应的交互界面。
具体地,接收模块1005接收到上述第一操作信息之后,显示模块1007会将声音搜索界面切换为上述用户选择的垂直类别对应的交互界面。其中,图3(a)为通用的交互界面,图3(b)为识曲的交互界面,图3(c)为自然的交互界面,图3(d)为噪音的交互界面。
本实施例中,接收模块1005,还用于接收上述用户对上述用户选择的垂直类别对应的交互界面上识音图标的第二操作信息;其中,第二操作信息可以为点击或长按操作等,本实施例对上述第二操作信息的具体操作方式不作限定,本实施例以第二操作信息为长按操作为例进行说明。
也就是说,当用户想要进行非语音的声音搜索时,用户可以在上述用户选择的垂直类别对应的交互界面上,长按该交互界面上的识音图标,等声音录制完毕后,再放开上述识别图标。
收集模块1001,具体用于根据接收模块1005接收的第二操作信息,按照上述用户选择的垂直类别的声音频谱进行录音。
具体地,本实施例中,接收模块1005接收到上述第二操作信息之后,收集模块1001就可以按照上述用户选择的垂直类别的声音频谱进行录音了。
本实施例的一种实现方式中,上述用户选择的垂直类别可以为多媒体声音;其中,上述多媒体声音可以包括歌曲、影视或相声等多媒体中的音频信息。
这时,收集模块1001,具体用于根据接收模块1005接收的第二操作信息,按照上述多媒体声音的声音频谱进行录音,并自动去除非多媒体声音所在频段的噪声。
识别模块1002,具体用于对录制的多媒体声音在多媒体库中进行检索,获得上述多媒体声音所属多媒体音频的信息;搜索模块1003,具体用于对识别模块1002获得的上述多媒体音频的信息进行全网搜索,获得相应的全网搜索结果。
以上述多媒体声音为歌曲片段为例,上述多媒体声音所属多媒体音频的信息可以包括上述歌曲片段所属歌曲的名称,演唱上述歌曲的歌手的姓名,上述歌曲所属的专辑和发行时间等信息。
展现模块1004,具体用于将上述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照上述多媒体声音的结果展现模板进行展现。
进一步地,上述声音搜索装置还可以包括:播放模块1008;
接收模块1005,还用于接收上述用户对展现的结果中上述多媒体音频的信息的第三操作信息;
播放模块1008,用于根据接收模块1005接收的第三操作信息,当上述用户使用的终端设备中已安装多媒体播放类APP时,调用上述多媒体播放类APP播放上述多媒体音频;当上述用户使用的终端设备中未安装多媒体播放类APP时,通过WAP页面播放所述多媒体音频。
其中,上述第三操作信息可以为点击操作、长按操作或滑动操作等,本实施例对上述第三操作信息的具体操作形式不做限定,本实施例以第三操作信息为点击操作为例进行说明。
也就是说,展现模块1004将上述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照上述多媒体声音的结果展现模板进行展现之后,用户可以点击展现的结果中多媒体音频的信息,然后,接收模块1005可以接收到用户的点击操作,之后播放模块1008可以判断该终端设备中是否安装了多媒体播放类APP,如果安装了多媒体播放类APP,则播放模块1008可以调用上述多媒体播放类APP播放上述多媒体音频,如果未安装,则播放模块1008可以通过WAP页面播放上述多媒体音频。
举例来说,当用户使用声音搜索的识曲功能时,用户按住图3(b)中的识音图标,上述用户使用的终端设备开始录音,并自动去除非音乐和语音所在频段的其余噪声,然后识别模块1002将录制的歌曲片段在多媒体库(例如:歌曲或影视库)中进行检索,获得上述歌曲片段所属歌曲的信息,搜索模块1003对上述歌曲的信息进行全网搜索,获得相应的全网搜索结果,展现模块1004将上述歌曲的信息和相应的全网搜索结果按识曲结果展现模板进行展现,如图5所示。在用户点击展现结果中的第一张卡片(即点击展现的结果中上述歌曲的信息)之后,如果播放模块1008检测到已安装多媒体播放类APP,例如:百度音乐,则调用上述多媒体播放类APP,直达至对应歌曲的播放界面,进行播放,如图6所示;如果上述用户使用的终端设备未安装多媒体播放类APP,则播放模块1008通过多媒体相应的WAP页面播放上述歌曲。
本实施例的另一种实现方式中,上述用户选择的垂直类别包括:自然声音;其中,上述自然声音可以包括自然界的风声、流水声、动物叫声或鸟叫声等声音。这时,收集模块1001,具体用于根据接收模块1005接收的第二操作信息,按照上述自然声音的声音频谱进行录音。
识别模块1002,具体用于对录制的自然声音在自然声音库中进行检索,获得上述录制的自然声音的识别结果;其中,上述录制的自然声音的识别结果可以为上述录制的自然声音为自然界的风声、流水声、动物叫声或鸟叫声等,更具体地,当上述录制的自然声音的识别结果为动物叫声或鸟叫声时,可以给出具体是哪种动物或哪种鸟类的叫声。
搜索模块1003,具体用于对识别模块1002获得的识别结果进行全网搜索,获得相应的全网搜索结果;
展现模块1004,具体用于将上述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现。
举例来说,当用户使用声音搜索的自然功能时,用户按住图3(c)所示交互界面中的识音图标,上述用户使用的终端设备开始进行录音,并进行自动去噪处理,然后识别模块1002将录制的自然声音在自然声音库中进行检索,返回上述录制的自然声音的识别结果,搜索模块1003对上述识别结果进行全网搜索,返回相应的全网搜索结果,然后展现模块1004将上述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现,如图7所示。
本实施例的再一种实现方式中,上述用户选择的垂直类别包括:噪音;这时,收集模块1001,具体用于根据接收模块1005接收的第二操作信息,按照噪音的声音频谱进行录音。
识别模块1002,具体用于对录制的噪音进行噪音检测,获得上述录制的噪音的检测结果;搜索模块1003,具体用于对上述用户当前所处的地理位置进行定位,搜索与上述用户当前所处的地理位置相距预定距离的噪声源的位置和信息。
其中,上述录制的噪音的检测结果可以为上述录制的噪音的分贝,以及分贝的相关信息;上述预定距离可以在具体实现时,根据系统性能或实现需求等自行设定,本实施例对上述预定距离的大小不作限定,距离来说,上述预定距离可以为500米。
展现模块1004,具体用于将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现。
进一步地,上述声音搜索装置还可以包括:定位模块1009;
接收模块1005,还用于接收上述用户对展现的结果中噪声源的位置和信息的第四操作信息;其中,上述第四操作信息可以为点击操作、长按操作或滑动操作等,本实施例对上述第四操作信息的具体操作形式不做限定,本实施例以第四操作信息为点击操作为例进行说明。
定位模块1009,用于根据接收模块1005接收的第四操作信息,通过地图类APP或WAP页面定位到被操作的噪声源的位置,并开启街景模式。
也就是说,在展现模块1004将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现之后,用户可以点击展现的结果中的噪声源的位置和信息,接收模块1005接收到用户的上述点击操作信息之后,定位模块1009可以根据上述点击操作信息,当上述终端设备中安装地图类APP时,通过地图类APP定位到被点击的噪声源的位置,并开启街景模式;当上述终端设备中未安装地图类APP时,通过WAP页面定位到被点击的噪声源的位置,并开启街景模式。
举例来说,当用户使用声音搜索的噪音搜索功能时,按住图3(d)所示的交互界面中的识音图标,上述用户使用的终端设备开始进行录音,然后识别模块1002可以对录制的噪音进行噪音检测,获得上述录制的噪音的分贝,以及分贝的相关信息;搜索模块1003对上述用户当前所处的地理位置进行定位,搜索与上述用户当前所处的地理位置相距预定距离的噪声源的位置和信息,然后展现模块1004将上述录制的噪音的检测结果,以及上述噪声源的位置和信息按照上述噪音的结果展现模板进行展现,如图8所示。在用户点击展现的结果中的一个噪声源的位置和信息之后,当上述用户使用的终端设备中安装地图类APP时,定位模块1009打开地图类APP,定位到被点击的噪声源的位置,并开启街景模式,如图9所示。而当上述终端设备中未安装地图类APP时,定位模块1009可以通过WAP页面定位到被点击的噪声源的位置,并开启街景模式。
上述声音搜索装置中,通过对非语音频段的其他声音的搜索需求进行分类引导,收集模块1001根据用户选择的垂直类别的声音频谱收集上述选择的垂直类别的声音,然后识别模块1002对收集的声音进行识别,搜索模块1003对识别获得的识别结果进行搜索,展现模块1004将识别获得的识别结果和搜索获得的搜索结果按照选择的垂直类别的结果展现模板进行展现,从而可以提升用户对非语音的其他声音的搜索需求的满足度,进而可以提高用户体验度。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种声音搜索方法,其特征在于,包括:
根据用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音;其中,接收所述用户对所述用户选择的垂直类别对应的交互界面上识音图标的第二操作信息;根据所述第二操作信息,按照所述用户选择的垂直类别的声音频谱进行录音;
对收集的声音进行识别,并对识别获得的识别结果进行搜索;
将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现;
其中,当所述用户选择的垂直类别包括:自然声音时,所述根据所述第二操作信息,按照所述用户选择的垂直类别的声音频谱进行录音包括:
根据所述第二操作信息,按照所述自然声音的声音频谱进行录音;
所述对收集的声音进行识别,并对识别获得的识别结果进行搜索包括:
对录制的自然声音在自然声音库中进行检索,获得所述录制的自然声音的识别结果,并对所述识别结果进行全网搜索,获得相应的全网搜索结果;
所述将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现包括:
将所述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现。
2.根据权利要求1所述的方法,其特征在于,所述根据用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音之前,还包括:
在声音搜索界面,接收用户对所述声音搜索界面上至少两个垂直类别的声音搜索图标的第一操作信息;
根据所述第一操作信息获得所述用户选择的垂直类别,并显示所述用户选择的垂直类别对应的交互界面。
3.根据权利要求1所述的方法,其特征在于,所述用户选择的垂直类别包括:多媒体声音;
所述根据所述第二操作信息,按照所述用户选择的垂直类别的声音频谱进行录音包括:
根据所述第二操作信息,按照所述多媒体声音的声音频谱进行录音,并自动去除非多媒体声音所在频段的噪声。
4.根据权利要求3所述的方法,其特征在于,所述对收集的声音进行识别,并对识别获得的识别结果进行搜索包括:
对录制的多媒体声音在多媒体库中进行检索,获得所述多媒体声音所属多媒体音频的信息,并对所述多媒体音频的信息进行全网搜索,获得相应的全网搜索结果;
所述将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现包括:
将所述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照所述多媒体声音的结果展现模板进行展现。
5.根据权利要求4所述的方法,其特征在于,所述将所述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照所述多媒体声音的结果展现模板进行展现之后,还包括:
接收所述用户对展现的结果中所述多媒体音频的信息的第三操作信息;
根据所述第三操作信息,当所述用户使用的终端设备中已安装多媒体播放类应用时,调用所述多媒体播放类应用播放所述多媒体音频;当所述用户使用的终端设备中未安装多媒体播放类应用时,通过无线应用协议页面播放所述多媒体音频。
6.根据权利要求1所述的方法,其特征在于,当所述用户选择的垂直类别包括:噪音时,所述根据所述第二操作信息,按照所述用户选择的垂直类别的声音频谱进行录音包括:
根据所述第二操作信息,按照噪音的声音频谱进行录音。
7.根据权利要求6所述的方法,其特征在于,所述对收集的声音进行识别,并对识别获得的识别结果进行搜索包括:
对录制的噪音进行噪音检测,获得所述录制的噪音的检测结果,并对所述用户当前所处的地理位置进行定位,搜索与所述用户当前所处的地理位置相距预定距离的噪声源的位置和信息;
所述将识别获得的识别结果和搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现包括:
将所述录制的噪音的检测结果,以及所述噪声源的位置和信息按照所述噪音的结果展现模板进行展现。
8.根据权利要求7所述的方法,其特征在于,所述将所述录制的噪音的检测结果,以及所述噪声源的位置和信息按照所述噪音的结果展现模板进行展现之后,还包括:
接收所述用户对展现的结果中噪声源的位置和信息的第四操作信息;
根据所述第四操作信息,通过地图类应用或无线应用协议页面定位到被操作的噪声源的位置,并开启街景模式。
9.一种声音搜索装置,其特征在于,包括:
接收模块,用于接收用户对所述用户选择的垂直类别对应的交互界面上识音图标的第二操作信息;
收集模块,用于根据所述用户选择的垂直类别的声音频谱收集所述选择的垂直类别的声音;其中,收集模块,具体用于根据第二操作信息,按照所述用户选择的垂直类别的声音频谱进行录音;
识别模块,用于对所述收集模块收集的声音进行识别;
搜索模块,用于对所述识别模块识别获得的识别结果进行搜索;
展现模块,用于将所述识别模块识别获得的识别结果和所述搜索模块搜索获得的搜索结果按照所述选择的垂直类别的结果展现模板进行展现;
其中,当所述用户选择的垂直类别包括:自然声音时,所述收集模块,具体用于根据所述接收模块接收的第二操作信息,按照所述自然声音的声音频谱进行录音;
所述识别模块,具体用于对录制的自然声音在自然声音库中进行检索,获得所述录制的自然声音的识别结果;
所述搜索模块,具体用于对所述识别模块获得的识别结果进行全网搜索,获得相应的全网搜索结果;
所述展现模块,具体用于将所述录制的自然声音的识别结果和相应的全网搜索结果按照自然声音的结果展现模板进行展现。
10.根据权利要求9所述的装置,其特征在于,还包括:
所述接收模块,还用于在所述收集模块收集所述选择的垂直类别的声音之前,在声音搜索界面,接收用户对所述声音搜索界面上至少两个垂直类别的声音搜索图标的第一操作信息;
获得模块,用于根据所述接收模块接收的第一操作信息获得所述用户选择的垂直类别;
显示模块,用于显示所述获得模块获得的用户选择的垂直类别对应的交互界面。
11.根据权利要求9所述的装置,其特征在于,所述用户选择的垂直类别包括:多媒体声音;
所述收集模块,具体用于根据所述接收模块接收的第二操作信息,按照所述多媒体声音的声音频谱进行录音,并自动去除非多媒体声音所在频段的噪声。
12.根据权利要求11所述的装置,其特征在于,
所述识别模块,具体用于对录制的多媒体声音在多媒体库中进行检索,获得所述多媒体声音所属多媒体音频的信息;
所述搜索模块,具体用于对所述识别模块获得的所述多媒体音频的信息进行全网搜索,获得相应的全网搜索结果;
所述展现模块,具体用于将所述多媒体声音所属多媒体音频的信息和相应的全网搜索结果按照所述多媒体声音的结果展现模板进行展现。
13.根据权利要求12所述的装置,其特征在于,还包括:播放模块;
所述接收模块,还用于接收所述用户对展现的结果中所述多媒体音频的信息的第三操作信息;
所述播放模块,用于根据所述接收模块接收的第三操作信息,当所述用户使用的终端设备中已安装多媒体播放类应用时,调用所述多媒体播放类应用播放所述多媒体音频;当所述用户使用的终端设备中未安装多媒体播放类应用时,通过无线应用协议页面播放所述多媒体音频。
14.根据权利要求9所述的装置,其特征在于,当所述用户选择的垂直类别包括:噪音时,所述收集模块,具体用于根据所述接收模块接收的第二操作信息,按照噪音的声音频谱进行录音。
15.根据权利要求14所述的装置,其特征在于,
所述识别模块,具体用于对录制的噪音进行噪音检测,获得所述录制的噪音的检测结果;
所述搜索模块,具体用于对所述用户当前所处的地理位置进行定位,搜索与所述用户当前所处的地理位置相距预定距离的噪声源的位置和信息;
所述展现模块,具体用于将所述录制的噪音的检测结果,以及所述噪声源的位置和信息按照所述噪音的结果展现模板进行展现。
16.根据权利要求15所述的装置,其特征在于,还包括:定位模块;
所述接收模块,还用于接收所述用户对展现的结果中噪声源的位置和信息的第四操作信息;
所述定位模块,用于根据所述接收模块接收的第四操作信息,通过地图类应用或无线应用协议页面定位到被操作的噪声源的位置,并开启街景模式。
CN201510515072.4A 2015-08-20 2015-08-20 声音搜索方法和装置 Active CN105069146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510515072.4A CN105069146B (zh) 2015-08-20 2015-08-20 声音搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510515072.4A CN105069146B (zh) 2015-08-20 2015-08-20 声音搜索方法和装置

Publications (2)

Publication Number Publication Date
CN105069146A CN105069146A (zh) 2015-11-18
CN105069146B true CN105069146B (zh) 2019-04-02

Family

ID=54498515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510515072.4A Active CN105069146B (zh) 2015-08-20 2015-08-20 声音搜索方法和装置

Country Status (1)

Country Link
CN (1) CN105069146B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129924A (zh) * 2021-03-26 2022-09-30 北京达佳互联信息技术有限公司 基于语音的内容搜索方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
CN1859258A (zh) * 2006-05-29 2006-11-08 中国移动通信集团公司 基于音频信号的搜索方法
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
CN1859258A (zh) * 2006-05-29 2006-11-08 中国移动通信集团公司 基于音频信号的搜索方法
CN101271457A (zh) * 2007-03-21 2008-09-24 中国科学院自动化研究所 一种基于旋律的音乐检索方法及装置
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序

Also Published As

Publication number Publication date
CN105069146A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105074697B (zh) 用于推断关于实体的元数据的实时众包数据的累积
CN105120304B (zh) 信息显示方法、装置及系统
US9280598B2 (en) Systems and methods for sound recognition
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
EP1855216A2 (en) System, device, method, and program for segmenting radio broadcast audio data
CN108305632A (zh) 一种会议的语音摘要形成方法及系统
US9972340B2 (en) Deep tagging background noises
CN109299318A (zh) 音乐推荐的方法、装置、存储介质和终端设备
CN106448683A (zh) 查看多媒体文件中录音的方法及装置
CN104899302A (zh) 向用户推荐音乐的方法和装置
CN108009303A (zh) 基于语音识别的搜索方法、装置、电子设备和存储介质
CN104581351A (zh) 音频或视频的录制方法及其播放方法、电子装置
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
CN106155470B (zh) 一种音频文件生成方法及装置
WO2017080235A1 (zh) 录音编辑方法及录音装置
CN105845158A (zh) 一种信息处理方法及客户端
CN110047515A (zh) 一种音频识别方法、装置、设备及存储介质
CN112269898A (zh) 背景音乐获取方法、装置、电子设备以及可读存储介质
CN106468987A (zh) 一种信息处理方法及客户端
CN107679196A (zh) 一种多媒体识别方法、电子设备及存储介质
KR101590078B1 (ko) 음성 아카이빙 장치 및 방법
US11899716B2 (en) Content providing server, content providing terminal, and content providing method
CN105069146B (zh) 声音搜索方法和装置
US9990911B1 (en) Method for creating preview track and apparatus using the same
CN105895079A (zh) 语音数据的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant