CN115544297A - 一种声音数据库构建及智能检索方法、系统及存储介质 - Google Patents
一种声音数据库构建及智能检索方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115544297A CN115544297A CN202211162960.9A CN202211162960A CN115544297A CN 115544297 A CN115544297 A CN 115544297A CN 202211162960 A CN202211162960 A CN 202211162960A CN 115544297 A CN115544297 A CN 115544297A
- Authority
- CN
- China
- Prior art keywords
- sound
- data
- retrieval
- database
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种声音数据库构建及智能检索方法、系统及存储介质,方法包括:获取原始音频数据;对原始音频数据进行数据预处理,得到声音元数据;根据原始音频数据和声音元数据,构建声音数据库及知识图谱;响应于目标对象的检索数据,基于声音数据库及知识图谱匹配返回检索结果;其中,检索数据包括检索文本和检索音频。本发明通过对原始音频数据的预处理,提取声音元数据;进而构建声音数据库及知识图谱,实现基于声音元数据以及原始音频数据声音检索的全文索引。通过声音数据库的创建,并基于知识图谱实现了基于元数据和音频数据的检索功能,能够实现包含多特性的声音检索技术,可广泛应用于数据检索技术领域。
Description
技术领域
本发明涉及数据检索技术领域,尤其是一种声音数据库构建及智能检索方法、系统及存储介质。
背景技术
传统的声音数据库采用关系数据库,也被称为关系数据库管理系统(RDBMS),通过结构化查询语言和web应用程序中使用,在实际应用中用户需要复杂和专门的方式来访问符合其特殊需求的声音资源。在声音共享网站中搜索内容的用户可能会寻找具有非常具体和详细特征的音频剪辑,这可以用广泛的音频属性来表示。例如,一个用户可能正在搜索具有特定持续时间、大小和材料的打开门的声音,而另一个用户可能正在搜索例如雷声这样具有特定类型的声音。如果能够成功地检索到这些特定的内容,但是,应该如何描述声音,以便用户能够有效地搜索它们呢?
总之,常规的声音数据库及分类检索方法只处理非常有限的声音的信息,但在实际的声音中,声音往往复杂的,通常一个声音文件中,含有多种声音种类,并含有复杂的声音事件及场景,单纯通过声音类型检索,结果往往是无法达到要求的。
发明内容
有鉴于此,本发明实施例提供一种声音数据库构建及智能检索方法、系统及存储介质。
一方面,本发明实施例提供了一种声音数据库构建及智能检索方法,包括:
获取原始音频数据;其中,所述原始音频数据包括长音频数据和短音频数据;
对所述原始音频数据进行数据预处理,得到声音元数据;
根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱;
响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果;其中,所述检索数据包括检索文本和检索音频。
可选地,所述对所述原始音频数据进行数据预处理,得到声音元数据,包括:
对所述短音频数据进行数据清洗及特征提取,得到音频特征;
根据所述音频特征,通过深度学习模型生成声音元数据;
其中,所述声音元数据包括声音类别数据、声音事件数据、声音场景数据和声音描述数据。
可选地,所述对所述原始音频数据进行数据预处理,得到声音元数据,包括:
对所述长音频数据进行分割处理,得到音频数据集;
对所述音频数据集进行数据清洗及特征提取,得到音频特征集;
根据所述音频特征集,通过深度学习模型生成声音元数据;
其中,所述声音元数据包括若干声音事件数据以及与各个所述声音事件数据对应的声音类别数据、声音场景数据和声音描述数据。
可选地,所述根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱,包括:
根据所述原始音频数据和所述声音元数据,通过NoSQL大数据平台技术构建声音数据库;
基于先验声音知识图谱数据和所述声音元数据,构建声音知识图谱。
可选地,所述根据所述原始音频数据和所述声音元数据,通过NoSQL大数据平台技术构建声音数据库,包括:
通过NoSQL数据库的S3对象数据库存储所述原始音频数据;
通过NoSQL数据库的图数据库存储所述声音元数据;
基于所述S3对象数据库和所述图数据库构建声音数据库。
可选地,所述响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果,包括:
根据目标对象的检索文本;
基于所述声音数据库及知识图谱的所述声音元数据进行全文检索;
或,基于所述声音数据库及知识图谱的声音知识图谱进行元检索;
根据所述全文检索或所述元检索的结果返回检索结果。
可选地,所述响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果,包括:
根据目标对象的检索音频,对所述检索音频进行特征处理;
根据所述检索音频特征处理的结果,基于所述声音数据库及知识图谱的所述原始音频数据进行相似度检索;
根据所述相似度检索的结果返回检索结果。
另一方面,本发明实施例提供了一种声音数据库构建及智能检索系统,包括:
第一模块,用于获取原始音频数据;其中,所述原始音频数据包括长音频数据和短音频数据;
第二模块,用于对所述原始音频数据进行数据预处理,得到声音元数据;
第三模块,用于根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱;
第四模块,用于响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果;其中,所述检索数据包括检索文本和检索音频。
另一方面,本发明实施例提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例首先获取原始音频数据;其中,所述原始音频数据包括长音频数据和短音频数据;对所述原始音频数据进行数据预处理,得到声音元数据;根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱;响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果;其中,所述检索数据包括检索文本和检索音频。本发明通过对原始音频数据的预处理,提取声音元数据;进而构建声音数据库及知识图谱,实现基于声音元数据以及原始音频数据声音检索的全文索引。通过声音数据库的创建,并基于知识图谱实现了基于元数据和音频数据的检索功能,能够实现包含多特性的声音检索技术。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音数据库构建及智能检索方法的步骤流程示意图;
图2为本发明实施例提供的声音数据库构建的原理流程示意图;
图3为本发明实施例提供的声音智能检索的原理流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了使本申请内容及技术方案更加清楚明白,对相关术语及含义进行说明:
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
声音处理:声音处理是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理,达到人与计算机之间进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。
CNN:卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。CNN使用多层感知器的变体设计,需要最少的预处理。它们也被称为移位不变或空间不变人工神经网络(SIANN),基于它们的共享权重架构和平移不变性特征
RNN:循环神经网络(RNN)是一类深度循环神经网络,最常用于分析序列数据,RNN使用LSTM等多层感知器的变体设计,需要最少的预处理。
知识图谱:是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
声音描述:音频描述是系统将声音片段作为输入并输出音频文件内容的文本描述的任务。例如,“人们在拥挤的餐厅里交谈”。它可以被视为一种情态间翻译,将一种情态(即“声音”)中表示的信息翻译成另一种情态(即“文本”)。这是一项复杂的任务,用于音频描述的方法必须能够同时进行音频事件识别(识别声音片段中发生的声音事件)、时空关系和关联识别(识别声源的运动和相对位置)、声场景识别(识别声场景、音频背景),用语言句子来表达声音。
声音多模态:基于自然语言处理(NLP,Natural Language Processing)和声音的综合处理技术
声音元数据:元数据可以定义为“关于数据的数据”。在音频的情况下,它通常是指用于描述和索引音频文件或音频段的文本信息。音频文件已经在头中包含某种元数据,如采样率、比特深度、比特率和潜在的编辑信息,这些信息可以添加到数据库中进行索引。声音元数据通常包括名称(可能与文件名一致,也可能不一致)、声音内容的文本描述、声音场景信息,或其他更结构化的信息位,如音频文件格式属性、记录时间或地理位置信息。
音频指纹:音频指纹将音频录音总结为一个小的描述(通常是字母数字字符串),理想是唯一的。这被用于识别相同记录的副本,因为应用相同的算法应该会产生相同的指纹。系统通常被设计成对某些失真的稳健性,如环境噪声或混响,但一般来说,指纹识别只适用于同一记录的副本,而不是对类似声音的多个录音,如一个给定的话语或一个音乐作品。用于指纹识别的技术通常基于如上所述的特征提取,通常总结音频特征时间序列的更复杂的步骤。例如,可以使用向量量化或隐藏的马尔可夫模型来获得一个简短的、唯一的表示。
NoSQL数据库:是对不同于传统的关系数据库的数据库管理系统的统称。允许部分资料使用SQL系统存储,而其他资料允许使用NOSQL系统存储。其数据存储可以不需要固定的表格模式以及元数据,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。
S3对象存储:S3理论上是一个全球存储区域网络(SAN),它表现为一个超大的硬盘,可以在其中存储和检索数字资产。通过S3存储和检索的资产被称为对象,对象存储在存储段(bucket)中,与硬盘一样,对象和存储段也可以通过统一资源标识符(URI,UniformResource Identifier)查找。
针对现有技术存在的问题,本发明旨在以环境声音大数据、深度学习、知识图谱、元数据、智能检索为理论基础,针对环境声音大数据进行数据预处理,进行基于深度学习的声音分类、声音事件和声学场景分析,生成声音指纹和声音元数据,基于NoSQL数据库结合关系型数据库构建环境声音多模态数据库,并基于声音元数据形成声音知识图谱,建立支持全文检索、相似性检索和声音知识图谱检索的环境声音智能检索处理系统。一方面,本发明实施例提供了一种声音数据库构建及智能检索方法,参照图1和图2,方法流程包括以下步骤:
S100、获取原始音频数据;
具体地,原始音频数据包括长音频数据和短音频数据。针对音频数据的大小和持续时间,将音频数据分为长音频数据和短音频数据,其中,较短的录音(即短音频数据)通常仅包含声音事件,而较长的录音(长音频数据)可能会包含各种声音事件和环境声音场景。
S200、对原始音频数据进行数据预处理,得到声音元数据;
需要说明的是,针对长音频数据和短音频数据的信息特性。
对短音频数据进行数据清洗及特征提取,得到音频特征;根据音频特征,通过深度学习模型生成声音元数据;其中,声音元数据包括声音类别数据、声音事件数据、声音场景数据和声音描述数据。
对长音频数据进行分割处理,得到音频数据集;对音频数据集进行数据清洗及特征提取,得到音频特征集;根据音频特征集,通过深度学习模型生成声音元数据;其中,声音元数据包括若干声音事件数据以及与各个声音事件数据对应的声音类别数据、声音场景数据和声音描述数据。
具体地,为了隔离特定的事件及支持流媒体,首先对原始音频数据中较长的声音(长音频数据)进行分析和分割。进而通过深度学习模型,对原始音频数据(长音频数据和短音频数据)进行声音分类、声音事件、声学场景及声音描述的生成,生成声音元数据。步骤如下:
①数据清洗;
②特征提取;
③将提取的音频特征以及对应标签输入深度学习模型,进行模型训练;
④通过模型生成对应的类别,事件,场景,声音描述;
其中,特征提取的特征量包括但不限于短时傅里叶变换谱、梅尔谱、对数梅尔谱、梅尔倒谱;基于yamnet迁移学习进行声音分类、基于CRNN(卷积循环神经网络)进行声音事件检测、根据场景和分类的效果生成声音场景和声音描述;声音元数据包括了声音类别中的声音类别名称列表、声音事件中各个声音的名字和起止时间列表、声学场景中的场景类别列表、声音描述中声音描述的列表。
S300、根据原始音频数据和声音元数据,构建声音数据库及知识图谱;
需要说明的是,根据原始音频数据和声音元数据,通过NoSQL大数据平台技术构建声音数据库;基于先验声音知识图谱数据和声音元数据,构建声音知识图谱。
其中,根据原始音频数据和所述声音元数据,通过NoSQL大数据平台技术构建声音数据库,包括:通过NoSQL数据库的S3对象数据库存储原始音频数据;通过NoSQL数据库的图数据库存储声音元数据;基于S3对象数据库和所述图数据库构建声音数据库。
具体地,将声音存储到NoSQL数据库中,其中基本声音文件(即原始音频数据)存入S3对象存储,基于声音元数据和已有声音知识图谱数据,生成新的声音知识图谱节点数据,并将声音文件索引及对应的图谱数据存入到图数据库中。声音数据库及知识图谱构建步骤如下:
①声音文件存入S3对象储存中;声音元数据使用图数据库进行存储;
②实体抽取、关系抽取、属性抽取;
实体抽取:主要是通过机器学习方法抽取声音文件和声音元数据中的声音类别的名称、声音事件、声音场景、声音特征等;
关系抽取:根据实体的关系进行处理,比如鸟鸣属于动物鸣叫,风雨雷属于自然气象等;
属性抽取:从声音文件中获取声音文件对应的属性值,如:采样频率、采样位数、通道数、帧等。
③对音频数据通过相似度计算进行实体消歧和共指消解,确认正确实体对象后,再将该实体指称项链接到知识库中对应实体,从而进行知识融合;
④实体并列关系相似度计算、实体上下位关系抽取、本体的生成,完成自动化的本体构建;基于逻辑的推理、基于图的推理和基于深度学习的推理,处理知识图谱之间关系值缺失,完成进一步的知识发现;
⑤概念层更新,新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。数据层更新,新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中高频出现的事实和属性加入知识库。
S400、响应于目标对象的检索数据,基于声音数据库及知识图谱匹配返回检索结果;
需要说明的是,检索数据包括检索文本和检索音频;对应的:
根据目标对象的检索文本;基于声音数据库及知识图谱的所述声音元数据进行全文检索;或,基于声音数据库及知识图谱的声音知识图谱进行元检索;根据全文检索或元检索的结果返回检索结果。
根据目标对象的检索音频,对检索音频进行特征处理;根据检索音频特征处理的结果,基于声音数据库及知识图谱的原始音频数据进行相似度检索;根据相似度检索的结果返回检索结果。
具体地,为了基于声音元数据进行索引和检索内容,本发明采用全文搜索引擎技术,用于搜索声音元数据中声音类别、声音事件、声音场景及声音描述的列别字段的文本。通过声音元数据和S3对象存储原始音频数据文件索引,构建声音知识图谱,实现声音事件、分类、场景与声音实体及其关系的明确表达,实现具有有意义的语义关系,相互关联的知识图谱。
搜索引擎将这搜索关键词与带有索引的声音元数据字段进行匹配,并返回一个已排序的结果列表。对于索引中的每个声音,搜索引擎将根据输入项与元数据字段中的信息的匹配程度以及匹配项的相关性来计算相关性得分。信息检索中的经典相关性得分是基于通过TF*IDF度量计算一个术语与给定文档的相关性。TF代表“术语频率”,以及特定术语在文档中出现的次数。IDF代表“反向文档频率”,表示索引中包含给定术语的文档数量的倒数。其想法是,如果一个给定的术语出现了很多次,则它将与一个声音文件相关,但如果它也出现在许多其他文件中,则其相关性将受到惩罚。使用这样的相关性函数并给定多个输入查询术语,可以通过聚合索引中每个不同元数据字段的每个查询术语的相关性来计算全局分数;除了用于结果排序的评分功能外,搜索引擎还可以包括查询扩展机制,在将用户查询与索引内容匹配之前对用户查询进行预处理,在与索引匹配之前,可以将用户提供的输入术语与其他相关术语进行展开,从而增加结果的数量。将新术语添加到查询中的方式基于简单的策略,如使用同义词列表及分析以前的查询或使用特定于领域的知识,通过允许用户指定过滤条件,可以进一步细化搜索结果。通过这种方式,可以在搜索过程中使用在评分函数中没有考虑到的声音元数据字段来限制可搜索的空间。
其中,参照图3,用户搜索音频信息,输入搜索引擎中相应的文本信息或者一段音频;若是文本信息可以进行全文搜索或者进行元检索,若是一段音频可进行相似度检索;对于检索输入的文本信息则直接通过全文检索或元检索进行检索;而对于检索输入的音频需要对音频做特征处理,然后进行匹配检索,实现相似度检索。检索方式如下:
全文检索:检索与用户查询条件匹配相关的记录,然后按照一定的排序将结果返回给用户;
元检索:据知识图谱的计算结果来给出一些搜索结果,通过图谱的关联信息,实体上下位信息,实体属性信息,查询出相应的结果;
相似度检索:一条未知的音频,和S3存储中的音频进行相似度的遍历匹配。
另一方面,本发明实施例提供了一种声音数据库构建及智能检索系统,包括:
第一模块,用于获取原始音频数据;其中,原始音频数据包括长音频数据和短音频数据;
第二模块,用于对原始音频数据进行数据预处理,得到声音元数据;
第三模块,用于根据原始音频数据和声音元数据,构建声音数据库及知识图谱;
第四模块,用于响应于目标对象的检索数据,基于声音数据库及知识图谱匹配返回检索结果;其中,检索数据包括检索文本和检索音频。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
本发明方法实施例的内容均适用于本电子设备实施例,本电子设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
综上所述,本发明通过使用NoSQL大数据平台技术,NoSQL数据库包括多个异构存储引擎,包括对象存储、文档数据库、键值存储和图形数据库,对于使用复杂本体进行索引的信息,配备专门的图形数据库或三重存储,来应对音频内容的描述、索引和检索的挑战,以便使声音可智能搜索增加其价值。数据预先处理及采用知识图谱技术,可以有效地对声音类型、声音描述进行有效进索引,使用声音特征可以表示声音属性等各类信息,在索引时,结合知识图谱还可以使用其他声音特性,如声音事件、声学场景等各类信息,实现不同的浏览和搜索策略,如基于文本的搜索、基于类别和场景过滤的声音检索,或基于音频相似性的搜索,所有这些策略最终使环境声音的智能搜索和发现成为现实。本发明实施例通过基于深度学习的声音预先处理,提取声音元数据,并通过知识图谱技术构建环境声音数据库的全文索引,实现对环境声音搜索和导航的不同方式。实现了音频数据库的创建,并添加了基于元数据和基于音频的检索功能,实现了包含多特性的声音检索技术。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种声音数据库构建及智能检索方法,其特征在于,包括:
获取原始音频数据;其中,所述原始音频数据包括长音频数据和短音频数据;
对所述原始音频数据进行数据预处理,得到声音元数据;
根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱;
响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果;其中,所述检索数据包括检索文本和检索音频。
2.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述对所述原始音频数据进行数据预处理,得到声音元数据,包括:
对所述短音频数据进行数据清洗及特征提取,得到音频特征;
根据所述音频特征,通过深度学习模型生成声音元数据;
其中,所述声音元数据包括声音类别数据、声音事件数据、声音场景数据和声音描述数据。
3.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述对所述原始音频数据进行数据预处理,得到声音元数据,包括:
对所述长音频数据进行分割处理,得到音频数据集;
对所述音频数据集进行数据清洗及特征提取,得到音频特征集;
根据所述音频特征集,通过深度学习模型生成声音元数据;
其中,所述声音元数据包括若干声音事件数据以及与各个所述声音事件数据对应的声音类别数据、声音场景数据和声音描述数据。
4.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱,包括:
根据所述原始音频数据和所述声音元数据,通过NoSQL大数据平台技术构建声音数据库;
基于先验声音知识图谱数据和所述声音元数据,构建声音知识图谱。
5.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述根据所述原始音频数据和所述声音元数据,通过NoSQL大数据平台技术构建声音数据库,包括:
通过NoSQL数据库的S3对象数据库存储所述原始音频数据;
通过NoSQL数据库的图数据库存储所述声音元数据;
基于所述S3对象数据库和所述图数据库构建声音数据库。
6.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果,包括:
根据目标对象的检索文本;
基于所述声音数据库及知识图谱的所述声音元数据进行全文检索;
或,基于所述声音数据库及知识图谱的声音知识图谱进行元检索;
根据所述全文检索或所述元检索的结果返回检索结果。
7.根据权利要求1所述的一种声音数据库构建及智能检索方法,其特征在于,所述响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果,包括:
根据目标对象的检索音频,对所述检索音频进行特征处理;
根据所述检索音频特征处理的结果,基于所述声音数据库及知识图谱的所述原始音频数据进行相似度检索;
根据所述相似度检索的结果返回检索结果。
8.一种声音数据库构建及智能检索系统,其特征在于,包括:
第一模块,用于获取原始音频数据;其中,所述原始音频数据包括长音频数据和短音频数据;
第二模块,用于对所述原始音频数据进行数据预处理,得到声音元数据;
第三模块,用于根据所述原始音频数据和所述声音元数据,构建声音数据库及知识图谱;
第四模块,用于响应于目标对象的检索数据,基于所述声音数据库及知识图谱匹配返回检索结果;其中,所述检索数据包括检索文本和检索音频。
9.一种电子设备,其特征在于,包括处理器及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211162960.9A CN115544297A (zh) | 2022-09-23 | 2022-09-23 | 一种声音数据库构建及智能检索方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211162960.9A CN115544297A (zh) | 2022-09-23 | 2022-09-23 | 一种声音数据库构建及智能检索方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544297A true CN115544297A (zh) | 2022-12-30 |
Family
ID=84729753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211162960.9A Pending CN115544297A (zh) | 2022-09-23 | 2022-09-23 | 一种声音数据库构建及智能检索方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544297A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719954A (zh) * | 2023-08-04 | 2023-09-08 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
-
2022
- 2022-09-23 CN CN202211162960.9A patent/CN115544297A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719954A (zh) * | 2023-08-04 | 2023-09-08 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
CN116719954B (zh) * | 2023-08-04 | 2023-10-17 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680173B (zh) | 统一检索跨媒体信息的cmr模型 | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
Bhatt et al. | Multimedia data mining: state of the art and challenges | |
CN113544661B (zh) | 使用搜索日志训练的意图编码器 | |
KR100446627B1 (ko) | 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법 | |
Won et al. | Multimodal metric learning for tag-based music retrieval | |
Page et al. | Realising a layered digital library: exploration and analysis of the live music archive through linked data | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
KR20090087269A (ko) | 컨텍스트 기반 정보 처리 방법 및 장치, 그리고 컴퓨터기록 매체 | |
Font et al. | Sound sharing and retrieval | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN114328799A (zh) | 数据处理方法、装置以及计算机可读存储介质 | |
Strle et al. | The EthnoMuse digital library: conceptual representation and annotation of ethnomusicological materials | |
Fernández et al. | Vits: video tagging system from massive web multimedia collections | |
Budikova et al. | ConceptRank for search-based image annotation | |
CN115544297A (zh) | 一种声音数据库构建及智能检索方法、系统及存储介质 | |
Casey | Acoustic lexemes for organizing internet audio | |
Rogushina et al. | Use of ontologies for metadata records analysis in big data | |
Favory et al. | Search result clustering in collaborative sound collections | |
Mahdi et al. | Similarity search techniques in exploratory search: a review | |
Säger et al. | AudioPairBank: towards a large-scale tag-pair-based audio content analysis | |
KR101520572B1 (ko) | 음악에 대한 복합 의미 인식 방법 및 그 장치 | |
CA2669218A1 (en) | Generating chinese language banners | |
CN113761213A (zh) | 一种基于知识图谱的数据查询系统、方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |