CN105550308A - 一种信息处理方法,检索方法及电子设备 - Google Patents

一种信息处理方法,检索方法及电子设备 Download PDF

Info

Publication number
CN105550308A
CN105550308A CN201510924873.6A CN201510924873A CN105550308A CN 105550308 A CN105550308 A CN 105550308A CN 201510924873 A CN201510924873 A CN 201510924873A CN 105550308 A CN105550308 A CN 105550308A
Authority
CN
China
Prior art keywords
target vocabulary
voice data
text message
vocabulary set
corresponding relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510924873.6A
Other languages
English (en)
Other versions
CN105550308B (zh
Inventor
徐培来
孙艳庆
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201510924873.6A priority Critical patent/CN105550308B/zh
Publication of CN105550308A publication Critical patent/CN105550308A/zh
Application granted granted Critical
Publication of CN105550308B publication Critical patent/CN105550308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法,检索方法及电子设备,其中,所述信息处理方法,包括:采集获得M个音频数据,其中,M为正整数;获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。用于解决随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题,实现了针对语音数据检索的检索效率高的技术效果。

Description

一种信息处理方法,检索方法及电子设备
技术领域
本发明涉及电子技术领域,特别涉及一种信息处理方法,检索方法及电子设备。
背景技术
随着互联网技术的普及,为了便于用户从因特网上搜集各类信息,出现了各种各样的信息检索方法。比如,基于网页快照、文本等的互联网搜索引擎技术;基于语音标注的小数据量语音标注检索方法;基于语音识别的检索方法。
其中,现有的网页文本搜索引擎技术并不适用于语音数据搜索。即便是采用语音标注检索方法,由于需要人工对用户所的语音内容进行完整的文本内容标注,由用户手动建立音频数据与搜索结果之间的对应关系,从而费时耗力。此外,采用语音识别检索方法中的第一种检索方法,直接将用户输入的语音和数据库中的语音资源进行音频相似度匹配。或者,采用语音识别检索方法中的第二种检索方法,将用户输入的语音通过语音识别转换为文本A,然后遍历数据库,对数据库中的每个音频资源通过语音识别为文本B,并将文本B与文本A进行文本相似度匹配。也就是说,这两种语音识别检索方法均需要在检索时,对数据库中的每条音频记录做音频相似度匹配和识别。
本申请发明人在发明本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题。
发明内容
本发明实施例提供一种信息处理方法,检索方法及电子设备,用于解决随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题,实现了针对语音数据检索的检索效率高的技术效果。
一,本申请实施例提供了一种信息处理方法,包括以下步骤:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
可选地,所述获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,具体包括:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
可选地,所述从所述L个文本信息中确定出符合预设条件的P个文本信息,具体包括:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
可选地,在所述采集获得M个音频数据之后,所述方法还包括:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
可选地,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述方法还包括:
将所述第一对应关系存储在电子设备的第一数据库中;或者,
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
二,本申请实施例还提供了一种电子设备,包括:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
可选地,在所述第一输入内容具体为第一输入音频时,所述确定出所述第一输入内容对应的第一目标词汇集合,具体包括:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
可选地,在所述第一输入内容具体为第一文本信息时,所述确定出所述第一输入内容对应的第一目标词汇集合,具体包括:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
可选地,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,所述方法还包括:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
三,本申请实施例还提供了一种电子设备,包括:
壳体;
处理器,设置在所述壳体中;其中,所述处理器被配置为:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
可选地,所述处理器被配置为:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
可选地,所述处理器被配置为:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
可选地,在所述采集获得M个音频数据之后,所述处理器被配置为:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
可选地,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述处理器被配置为:
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
四,本申请实施例还提供了一种电子设备,包括:
壳体;
处理装置,设置在所述壳体中;其中,所述处理装置被配置为:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
可选地,在所述第一输入内容具体为第一输入音频时,所述处理装置被配置为:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
可选地,在所述第一输入内容具体为第一文本信息时,所述处理装置被配置为:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
可选地,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,所述处理装置被配置为:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
五,本申请实施例还提供了一种电子设备,包括:
第一采集单元,用于采集获得M个音频数据,其中,M为正整数;
第一获得单元,用于获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
第一建立单元,用于建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
六,本申请实施例还提供了一种电子设备,包括:
第二获得单元,用于获得第一输入内容;
第一确定单元,用于确定出所述第一输入内容对应的第一目标词汇集合;
第三获得单元,用于获得音频数据集合与目标词汇集合间的第一对应关系;
第二确定单元,基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在本申请实施例的技术方案中,通过采集获得M个音频数据,其中,M为正整数;获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。也就是说,通过直接建立音频数据与目标词汇集合间的对应关系,从而能够基于该对应关系较快地检索到与该音频数据相关的所有的音频数据检索结果,从而实现了针对语音数据检索的检索效率高的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本申请实施例一提供的一种信息处理方法的流程图;
图2为本申请实施例一提供的一种信息处理方法的步骤S102的方法流程图;
图3为本申请实施例一提供的一种信息处理方法的步骤S202的方法流程图;
图4为本申请实施例一提供的一种信息处理方法的步骤S101之后的方法流程图;
图5为本申请实施例一提供的一种信息处理方法的步骤S103之后的方法流程图;
图6为本申请实施例二提供的一种电子设备的结构框图;
图7为本申请实施例三提供的一种电子设备的结构框图;
图8为本申请实施例四提供的一种检索方法的流程图;
图9为本申请实施例四提供的一种检索方法的步骤S802的方法流程图;
图10为本申请实施例四提供的一种检索方法在步骤S802之后的方法流程图;
图11为本申请实施例五提供的一种电子设备的结构框图;
图12为本申请实施例六提供的一种电子设备的结构框图。
具体实施方式
本发明实施例提供一种信息处理方法,推荐方法及电子设备,用于解决随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题,实现了针对语音数据检索的检索效率高的技术效果。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
在本申请实施例的技术方案中,通过采集获得M个音频数据,其中,M为正整数;获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。也就是说,通过直接建立音频数据与目标词汇集合间的对应关系,从而能够基于该对应关系较快地检索到与该音频数据相关的所有的音频数据检索结果,从而实现了针对语音数据检索的检索效率高的技术效果。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
实施例一
请参考图1,本申请实施例一提供了一种信息处理方法,包括:
S101:采集获得M个音频数据,其中,M为正整数;
S102:获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
S103:建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
在具体实施过程中,步骤S101至步骤S103的具体实现过程如下:
首先,采集获得M个音频数据。比如,各种音频文件格式对应的音频数据。比如,WAV文件格式的会议报告,MP3文件格式的演讲稿或歌曲,等等。然后,获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,N为不小于M的正整数。也就是说,获得每个音频数据对应的关键词集合。在具体实施过程中,由于同音字和同音词的存在,同一个音频数据可能对应不同的关键词集合。比如,“今天youlun不准进港”的音频数据中的“youlun”有可能为“油轮”,也有可能为“游轮”,还有可能为“邮轮”;再比如,音频数据“一duidui男女”中的“duidui”有可能为“对对”,也有可能为“队队”。然后,建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。比如,将音频数据“jintianyoulunbujingang”与关键词集合“今天油轮港”关联起来,也可以将其与关键词集合“游轮港”,“邮轮”等关键词集合关联起来。
在本申请实施例中,步骤S101:采集获得M个音频数据,在具体实施过程中,具体可以是,通过电子设备获取存储在所述电子设备中第一存储空间的至少一个本地音频数据。比如,保存在智能手机内存储卡中的录音文件,音乐文件,等音频文件。当然,在本申请实施例中,还可以是由服务器从其存储空间中所获取的音频文件,还可以是所述电子设备基于各种网络所获取的音频文件,在此就不一一赘述了。
在具体实施过程,为了能够较为快捷地采集获得所述M个音频数据,可以主动采集和被动采集两种方式来采集获得所述M个音频数据。其中,主动采集方式主要是通过服务器主动去抓取网络上的语音资源,比如,一段演讲,电影录音,会议报告。其中,被动采集方式主要是基于应用场景的实际需求,设置被动采集入口,供用户提供语音,进而采集用户语音。比如,在使用智能手机上的浏览器进行搜索时,通过设置采集入口,采集用户语音。再比如,通过在设备本地建立一个具体的应用来采集语音。当然,本领域的技术人员,还可以根据具体的需要来设计不同的采集音频数据的方案,在此就不一一赘述了。
在本申请实施例中,为了获得每个音频文件对应的目标词汇集合,请参考图2,步骤S102:获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,具体包括:
S201:对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
S202:从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
S203:对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
在具体实施过程中,步骤S201至步骤S203的具体实现过程如下:
首先,对所述M个音频数据进行语音识别,获得L个文本信息。也就是说,将采集到的语音音频数据转化为文本信息。由于同音字和同音词的存在,在具体实施过程中,对每个音频数据的识别结果可能有多个。然后,从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数。然后,对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
在本申请实施例中,请参考图3,步骤S202:从所述L个文本信息中确定出符合预设条件的P个文本信息,具体包括:
S301:确定所述L个文本信息对应的L个置信度数值;
S302:基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
具体实施过程中,当音频数据的对应的文本识别结果为多个时,可以依据置信度的高低,从所述L个文本信息中确定出符合条件的一个或多个文本信息,作为识别的结果。比如,针对音频数据“他的优秀事迹在方圆几十里的地方被大家辗转chuansong”,其中,“chuansong”对应的文本识别信息有“传送”,“传诵”,“传颂”。当选取置信度高于百分之八十的文本信息作为识别结果时,则将“传颂”作为符合条件的识别结果。再比如,在音频数据“他的名字在民间广为chuansong”。当选取置信度高于百分之八十的文本信息作为识别结果时,则将“传诵”作为符合条件的识别结果。进一步地,将符合所述预设条件的所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。从而建立了文本信息与目标词汇集合间的对应关系。当然,当音频数据的识别结果有多个时,除了依据置信度的情况从中筛选出符合条件的文本信息外,本领域的技术人员,还可以根据具体的需要来设计其它的方案来确定出符合条件的文本信息,在此就不一一举例了。
在本申请实施例中,为了保证检索结果的精确性,在具体实施过程中,除了建立语音音频数据对应所有的关键词集合间的形式较为单一的对应关系模式之外,还可以将音频数据相关的详细信息与音频数据及关键词集合间建立对应关系。此时,请参考图4,在步骤S101:采集获得M个音频数据之后,所述方法还包括:
S401:获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
S402:建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
在具体实施过程中,步骤S401至步骤S402的具体实现过程如下:
首先,获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合。比如,获得每个关键词集合中表征时间,地名,人名,词汇出现频率等信息。然后,建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。也就是说,将每个音频数据,与其对应的关键词集合,以及表明该音频数据的属性信息关联起来。
在本申请实施例中,为了便于用户搜索请求时使用上述的所建立音频数据与目标词汇间的对应关系,需要将对应获得语音检索数据模型保存到相应的数据库中。具体来讲,请参考图5,在步骤S103:建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述方法还包括:
S501:将所述第一对应关系存储在电子设备的第一数据库中;或者,
S502:接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
在具体实现过程中,步骤S501与步骤S502只是用于表示将所建立的语音检索模型以不同的方式进行存储,并不表示执行步骤的先后顺序。具体可以将获得音频数据与目标词汇集合间的对应关系存储在本地设备的第一数据库中。也可以将由服务器所建立的音频数据与目标词汇集合间的对应关系存储在该服务器的某一存储空间中。还可以是,将在服务器所建立的J个音频数据与K个目标词汇集合间的第三对应关系,发送给本地设备,并将该第三对应关系存储在本地设备中。当然,还可以是,将本地设备所建立的所述第一对应关系发送给服务器设备,并将其存储在该服务器的某一存储空间中。当然,本领域的技术人员,还可以根据用户的需要来将所建立的语音检索模型存储在特定的数据库中,在此就不一一赘述了。
实施例二
基于与本申请实施例一同样的发明构思,请参考图6,本申请实施例还提供了一种电子设备,包括;
壳体10;
处理器20,设置在壳体10中;其中,处理器20被配置为:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
在本申请实施例中,处理器20被配置为:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
在本申请实施例中,处理器20被配置为:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
在本申请实施例中,在所述采集获得M个音频数据之后,处理器20被配置为:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
在本申请实施例中,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,处理器20被配置为:
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
实施例三
基于与本申请实施例一同样的发明构思,请参考图7,本申请实施例还提供了一种电子设备,包括:
第一采集单元30,用于采集获得M个音频数据,其中,M为正整数;
第一获得单元40,用于获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
第一建立单元50,用于建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
在本申请实施例中,第一获得单元40具体包括:
第一获得模块,用于对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
第一确定模块,用于从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
第二获得模块,用于对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
在本申请实施例中,所述第一确定模块具体包括:
第一确定子模块,用于确定所述L个文本信息对应的L个置信度数值;
第二确定子模块,基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
在本申请实施例中,在所述采集获得M个音频数据之后,所述电子设备还包括:
第四获得单元,用于获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
第二建立单元,用于建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
在本申请实施例中,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述电子设备还包括:
第一存储单元,用于将所述第一对应关系存储在电子设备的第一数据库中;或者,
第二存储单元,用于接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第二对应关系,并将所述第二对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
实施例四
请参考图8,基于本申请实施例一中的发明构思,本申请实施例还提供了一种检索方法,包括:
S801:获得第一输入内容;
S802:确定出所述第一输入内容对应的第一目标词汇集合;
S803:获得音频数据集合与目标词汇集合间的第一对应关系;
S804:基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
在具体实施过程中,步骤S801至步骤S804的具体实现过程如下:
在本申请实施例中,为了快速地检索到用户所需的音频资源。首先,获得第一输入内容。其中,所述第一输入内容具体为由操作体针对电子设备所输入的内容。比如,由用户输入的查询内容,具体可以是音频内容,也可以是文本内容。然后,确定出所述第一输入内容对应的第一目标词汇集合。然后,获得音频数据集合与目标词汇集合间的第一对应关系;然后,便可以基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
在本申请实施例中,请参考图9,在所述第一输入内容具体为第一输入音频时,步骤S802:确定出所述第一输入内容对应的第一目标词汇集合,具体包括:
S901:对所述第一输入音频进行语音识别,获得文本信息;
S902:基于所述文本信息,获得所述第一目标词汇集合。
在具体实施过程中,步骤S901至步骤S902的具体实现过程如下:
首先,对所述第一输入音频进行语音识别,获得对应的文本信息,也就是说,对所述第一输入音频进行语义分析,获得对应的文本信息。然后,对该文本信息进行处理,提取出该查询内容中的关键词信息。比如,用户输入的音频资源为“xiaoaojianghuzhuyanlinghuchongrenyingying”,与之对应的文本信息为“笑傲江湖主演令狐冲任盈盈”,则对该查询内容对应的文本信息进行语义分析,则该音频资源对应的关键词集合可以“笑傲江湖”,“笑傲江湖令狐冲任盈盈”,“笑傲江湖令狐冲”,“笑傲江湖任盈盈”,“任盈盈令狐冲”,等等。
在本申请实施例中,在所述第一输入内容具体为第一文本信息时,步骤S802:确定出所述第一输入内容对应的第一目标词汇集合,具体为:对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。也就是说,当用户输入的查询内容具体为文本内容时,对该文本内容进行文本分析,进而获得与该查询内容对应的关键词集合。比如,用户输出的查询内容为“其实人生就像一次旅行,我没有了双腿,我的脚步就变慢了,就是因为我的脚步变慢了,那么我更能体会生命之美。”,在对该查询内容进行文本分析后,获得关键词集合有“人生旅行双腿脚步生命之美”,“人生旅行”,“双腿生命”等。
在本申请实施例中,为了从诸多语音资源中筛选出符合用户需求的音频数据,请参考图10,在步骤S802:确定出所述第一输入内容对应的第一目标词汇集合之后,所述方法还包括:
S1001:基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
S1002:从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
S1003:基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
在具体实施过程中,步骤S1001至步骤S1003的具体实现过程如下:
首先,基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合。比如,用户输入的查询内容对应的目标词汇集合为A,基于所述第一对应关系,从所建立的语音检索模型中获得与目标词汇集合A具有一定相关性的多个目标词汇集合。然后,从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数。也就是说,从多个目标词汇集合中筛选出满足一定匹配标准的目标词汇集合,然后,由所述第一对应关系,确定出与所筛选出的目标词汇集合所对应的音频数据集合。仍然以上述提到的,用户输出的查询内容为“其实人生就像一次旅行,我没有了双腿,我的脚步就变慢了,就是因为我的脚步变慢了,那么我更能体会生命之美。”,在对该查询内容进行文本分析后,获得关键词集合有“人生旅行双腿脚步生命之美”,然后,基于所述第一对应关系以及该关键词集合,获得第二目标词汇集合有“人生旅行”,“双腿脚步”,“旅行生命之美”,等等。然后,从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合。比如,当所述预设匹配规则具体为全部关键词保持一致顺序的精确匹配,此时,从检索数据库中查找是否有满足条件的关键词集合。当找到时便可以根据该关键词集合以及所述第一对应关系,获得与该关键词对应的音频数据集合,比如,该关键词集合对应的音频数据属于,陈州在超级演说家第一季所做的演讲内容中部分内容。然后,便将该音频文件呈现给用户,供用户选择收听。此外,当该关键词集合对应的音频数据属于多个音频文件中的内容时,则可以将所有符合条件的音频文件按照一定顺序显示出来,在此就不一一举例了。
再比如,当所述预设匹配规则具体为全部关键词无顺序要求的精确匹配时,则可以从已建立的数据库中查找所有出现关键词“人生旅行双腿脚步生命之美”的关键词集合,当满足条件的结果有多个时,可以按照顺序一致的程序由大到小的顺序将对应的音频资源显示出来。
再比如,当所述预设匹配规则具体为部分关键词的模糊匹配,比如,只要数据库中某个关键词集合中的超过一定个数的关键词,与输入内容的关键词集合中的部分关键词相同时,则该某个关键词集合是符合筛选标准的。比如,个数设定为4,则满足条件的关键词集合可以为“人生旅行双腿脚步”“人生旅行双腿生命之美”,“人生旅行脚步生命之美”,“人生双腿脚步生命之美”,“旅行双腿脚步生命之美”,等等。然后,基于所述第一对应关系,将这些符合条件的所有关键词集合对应的所有的音频资源按照一定的顺序显示出来。也就是说,将所有的与查询内容相关的语音资源显示出来。
在本申请实施例中,在将筛选出来的语音资源显示出来的同时,还可以将对应的关键词显示出来,还可以将该语音资源中的诸如人名、地点、词汇出现频率等属性信息显示出来。进一步地,提高了用户的使用体验,提高了用户对检索结果的筛选效率。
实施例五
基于与实施例四中一种检索方法相同的发明构思,请参考图11,本申请实施例四还提供了一种电子设备,包括:
壳体10;
处理装置60,设置在所述壳体中;其中,所述处理装置被配置为:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
在本申请实施例中,在所述第一输入内容具体为第一输入音频时,处理装置60被配置为:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
在本申请实施例中,在所述第一输入内容具体为第一文本信息时,处理装置60被配置为:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
在本申请实施例中,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,处理装置60被配置为:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
实施例六
基于与实施例四中一种检索方法相同的发明构思,请参考图12,本申请实施例四还提供了一种电子设备,包括:
第二获得单元70,用于获得第一输入内容;
第一确定单元80,用于确定出所述第一输入内容对应的第一目标词汇集合;
第三获得单元90,用于获得音频数据集合与目标词汇集合间的第一对应关系;
第二确定单元100,基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
在本申请实施例中,在所述第一输入内容具体为第一输入音频时,第一确定单元80具体包括:
第三获得模块,用于对所述第一输入音频进行语音识别,获得文本信息;
第四获得模块,基于所述文本信息,获得所述第一目标词汇集合。
在本申请实施例中,在所述第一输入内容具体为第一文本信息时,第一确定单元80具体用于:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
在本申请实施例中,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,所述电子设备还包括:
第五获得单元,基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
第二确定单元,用于从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
第三确定单元,基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
通过本申请实施例中的一个或多个技术方案,可以实现如下一个或多个技术效果:
在本申请实施例的技术方案中,通过采集获得M个音频数据,其中,M为正整数;获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。也就是说,通过直接建立音频数据与目标词汇集合间的对应关系,从而能够基于该对应关系较快地检索到与该音频数据相关的所有的音频数据检索结果,从而实现了针对语音数据检索的检索效率高的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
一方面,本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
可选地,所述存储介质中存储的与步骤,所述获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,对应的计算机程序指令在被执行时,具体包括:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
可选地,所述存储介质中存储的与步骤,所述从所述L个文本信息中确定出符合预设条件的P个文本信息,对应的计算机程序指令在被执行时,具体包括:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
可选地,所述存储介质中存储的与步骤,在所述采集获得M个音频数据之后,对应的计算机程序指令在被执行时,所述方法还包括:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
可选地,所述存储介质中存储的与步骤,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,对应的计算机程序指令在被执行时,所述方法还包括:
将所述第一对应关系存储在电子设备的第一数据库中;或者,
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
另一方面,本申请实施例中的检索方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
可选地,所述存储介质中存储的与步骤,在所述第一输入内容具体为第一输入音频时,所述确定出所述第一输入内容对应的第一目标词汇集合,对应的计算机程序指令在被执行时,具体包括:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
可选地,所述存储介质中存储的与步骤,在所述第一输入内容具体为第一文本信息时,所述确定出所述第一输入内容对应的第一目标词汇集合,对应的计算机程序指令在被执行时,具体包括:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
可选地,所述存储介质中存储的与步骤,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,对应的计算机程序指令在被执行时,所述方法还包括:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种信息处理方法,包括:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
2.如权利要求1所述的方法,其特征在于,所述获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,具体包括:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
3.如权利要求2所述的方法,其特征在于,所述从所述L个文本信息中确定出符合预设条件的P个文本信息,具体包括:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
4.如权利要求1-3任一权项所述的方法,其特征在于,在所述采集获得M个音频数据之后,所述方法还包括:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
5.如权利要求4所述的方法,其特征在于,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述方法还包括:
将所述第一对应关系存储在电子设备的第一数据库中;或者,
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
6.一种检索方法,包括:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
7.如权利要求6所述的方法,其特征在于,在所述第一输入内容具体为第一输入音频时,所述确定出所述第一输入内容对应的第一目标词汇集合,具体包括:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
8.如权利要求6所述的方法,其特征在于,在所述第一输入内容具体为第一文本信息时,所述确定出所述第一输入内容对应的第一目标词汇集合,具体包括:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
9.如权利要求7或8所述的方法,其特征在于,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,所述方法还包括:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
10.一种电子设备,包括:
壳体;
处理器,设置在所述壳体中;其中,所述处理器被配置为:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
11.如权利要求10所述的电子设备,其特征在于,所述处理器被配置为:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
12.如权利要求11所述的电子设备,其特征在于,所述处理器被配置为:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
13.如权利要求10-12任一权项所述的电子设备,其特征在于,在所述采集获得M个音频数据之后,所述处理器被配置为:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
14.如权利要求13所述的电子设备,其特征在于,在所述建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系之后,所述处理器被配置为:
接收与所述电子设备连接的另一电子设备发送的J个音频数据与K个目标词汇集合间的第三对应关系,并将所述第三对应关系存储在所述电子设备的第二数据库中,其中,J为正整数,K为不小于J的正整数。
15.一种电子设备,包括:
壳体;
处理装置,设置在所述壳体中;其中,所述处理装置被配置为:
获得第一输入内容;
确定出所述第一输入内容对应的第一目标词汇集合;
获得音频数据集合与目标词汇集合间的第一对应关系;
基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
16.如权利要求15所述的电子设备,其特征在于,在所述第一输入内容具体为第一输入音频时,所述处理装置被配置为:
对所述第一输入音频进行语音识别,获得文本信息;
基于所述文本信息,获得所述第一目标词汇集合。
17.如权利要求15所述的电子设备,其特征在于,在所述第一输入内容具体为第一文本信息时,所述处理装置被配置为:
对所述第一文本信息进行文本分析,获得所述第一目标词汇集合。
18.如权利要求16或17所述的电子设备,其特征在于,在所述确定出所述第一输入内容对应的第一目标词汇集合之后,所述处理装置被配置为:
基于所述第一对应关系以及所述第一目标词汇集合,获得至少一个第二目标词汇集合;
从所述第二目标词汇集合中确定出符合预设匹配规则的第三目标词汇集合,其中,所述第三目标词汇集合的个数不大于所述第二目标词汇集合的个数;
基于所述第一对应关系,确定出与所述第三目标词汇集合对应的第二音频数据集合。
19.一种电子设备,包括:
第一采集单元,用于采集获得M个音频数据,其中,M为正整数;
第一获得单元,用于获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
第一建立单元,用于建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
20.一种电子设备,包括:
第二获得单元,用于获得第一输入内容;
第一确定单元,用于确定出所述第一输入内容对应的第一目标词汇集合;
第三获得单元,用于获得音频数据集合与目标词汇集合间的第一对应关系;
第二确定单元,基于所述第一对应关系,确定出与所述第一目标词汇集合对应的第一音频数据集合,其中,所述第一音频数据集合包括至少一个音频数据。
CN201510924873.6A 2015-12-14 2015-12-14 一种信息处理方法,检索方法及电子设备 Active CN105550308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510924873.6A CN105550308B (zh) 2015-12-14 2015-12-14 一种信息处理方法,检索方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510924873.6A CN105550308B (zh) 2015-12-14 2015-12-14 一种信息处理方法,检索方法及电子设备

Publications (2)

Publication Number Publication Date
CN105550308A true CN105550308A (zh) 2016-05-04
CN105550308B CN105550308B (zh) 2019-07-26

Family

ID=55829497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510924873.6A Active CN105550308B (zh) 2015-12-14 2015-12-14 一种信息处理方法,检索方法及电子设备

Country Status (1)

Country Link
CN (1) CN105550308B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254696A (zh) * 2016-08-02 2016-12-21 北京京东尚科信息技术有限公司 外呼结果确定方法、装置及系统
CN109145309A (zh) * 2017-06-16 2019-01-04 北京搜狗科技发展有限公司 一种实时语音翻译的方法、及用于实时语音翻译的装置
CN110019921A (zh) * 2017-11-16 2019-07-16 阿里巴巴集团控股有限公司 音频与属性的关联方法及装置、音频搜索方法及装置
CN111640420A (zh) * 2020-06-10 2020-09-08 上海明略人工智能(集团)有限公司 音频数据的处理方法和装置、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815471A (zh) * 2005-01-31 2006-08-09 株式会社东芝 信息检索系统、方法和程序
CN101118541A (zh) * 2006-08-03 2008-02-06 苗玉水 汉语语音码汉语语音识别方法
CN101281534A (zh) * 2008-05-28 2008-10-08 叶睿智 一种基于音频内容检索的多媒体资源检索方法
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
US20140136198A1 (en) * 2012-09-29 2014-05-15 International Business Machines Corporation Correcting text with voice processing
US20140278413A1 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815471A (zh) * 2005-01-31 2006-08-09 株式会社东芝 信息检索系统、方法和程序
CN101118541A (zh) * 2006-08-03 2008-02-06 苗玉水 汉语语音码汉语语音识别方法
CN101281534A (zh) * 2008-05-28 2008-10-08 叶睿智 一种基于音频内容检索的多媒体资源检索方法
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
US20140136198A1 (en) * 2012-09-29 2014-05-15 International Business Machines Corporation Correcting text with voice processing
US20140278413A1 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254696A (zh) * 2016-08-02 2016-12-21 北京京东尚科信息技术有限公司 外呼结果确定方法、装置及系统
CN109145309A (zh) * 2017-06-16 2019-01-04 北京搜狗科技发展有限公司 一种实时语音翻译的方法、及用于实时语音翻译的装置
CN109145309B (zh) * 2017-06-16 2022-11-01 北京搜狗科技发展有限公司 一种实时语音翻译的方法、及用于实时语音翻译的装置
CN110019921A (zh) * 2017-11-16 2019-07-16 阿里巴巴集团控股有限公司 音频与属性的关联方法及装置、音频搜索方法及装置
CN110019921B (zh) * 2017-11-16 2023-01-13 阿里巴巴集团控股有限公司 音频与属性的关联方法及装置、音频搜索方法及装置
CN111640420A (zh) * 2020-06-10 2020-09-08 上海明略人工智能(集团)有限公司 音频数据的处理方法和装置、存储介质
CN111640420B (zh) * 2020-06-10 2023-05-12 上海明略人工智能(集团)有限公司 音频数据的处理方法和装置、存储介质

Also Published As

Publication number Publication date
CN105550308B (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US10452691B2 (en) Method and apparatus for generating search results using inverted index
CN107885745B (zh) 一种歌曲推荐方法及装置
CN107657048B (zh) 用户识别方法及装置
CN111753198A (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
WO2017097231A1 (zh) 话题处理方法及装置
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
US20130226559A1 (en) Apparatus and method for providing internet documents based on subject of interest to user
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN104221017A (zh) 使用示例来查找连接语料库中的数据
CN104537341A (zh) 人脸图片信息获取方法和装置
CN103440243A (zh) 一种教学资源推荐方法及其装置
CN105550308A (zh) 一种信息处理方法,检索方法及电子设备
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN106294358A (zh) 一种信息的检索方法及系统
CN111078849B (zh) 用于输出信息的方法和装置
CN103226601A (zh) 一种图片搜索的方法和装置
CN105512300A (zh) 信息过滤方法及系统
EP2887239A2 (en) Method and system of audio retrieval and source separation
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
CN110895587B (zh) 用于确定目标用户的方法和装置
CN105653546A (zh) 一种目标主题的检索方法和系统
US10503773B2 (en) Tagging of documents and other resources to enhance their searchability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant