CN108268600A - 基于ai的非结构化数据管理方法及装置 - Google Patents
基于ai的非结构化数据管理方法及装置 Download PDFInfo
- Publication number
- CN108268600A CN108268600A CN201711387626.2A CN201711387626A CN108268600A CN 108268600 A CN108268600 A CN 108268600A CN 201711387626 A CN201711387626 A CN 201711387626A CN 108268600 A CN108268600 A CN 108268600A
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured data
- model
- unstructured
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于AI的非结构化数据管理方法及装置,其中,方法包括:通过HDFS、HBase和Nosql存储大规模的非结构化数据对象;从非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的数据特征存储在外部表,并构建非结构化数据模型;使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。
Description
技术领域
本发明涉及非结构化数据技术领域,特别涉及一种基于AI(ArtificialIntelligence,人工智能)的非结构化数据管理方法及装置。
背景技术
非结构化数据的语义信息包括格式信息,内容信息等等,但是非结构化数据数量巨大,格式多样,内容信息难以完全提取和存储,存储成本极高,相关技术中常用到的主要为:通过预置解析规则或者特征模板,然后提取关键词的方式得到数据信息和直接对非结构化数据的元数据信息存储在索引表中。
然而,已有的非结构化处理方法和装置绝大部分通过预置相应的用于解析和匹配非结构化数据中关键词的模板或者规则,或者直接将已知的数据的元数据信息存储在索引表中,埋没了非结构化数据的其他非结构化数据潜在的重要的数据信息,无法挖掘出数据的潜在的价值,需要预先将元数据信息进行存储,也无疑增大了存储的压力和成本,由于企业的图像、声音、视频等文件类的非结构化数据呈爆炸性增长,而且非结构化数据不像结构化数据般可以方便地进行检索利用,导致难以管理,不能有效地利用,亟待解决。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于AI的非结构化数据管理方法,该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。
本发明的另一个目的在于提出一种基于AI的非结构化数据管理装置。
为达到上述目的,本发明一方面实施例提出了一种基于AI的非结构化数据管理方法,包括以下步骤:通过HDFS(Hadoop Distributed File System,分布式文件系统)、HBase和Nosql(Not Only SQL,非关系型数据库)存储大规模的非结构化数据对象;从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;使用SQL(Structured Query Language,结构化查询语言)检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。
本发明实施例的基于AI的非结构化数据管理方法,可以按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。
另外,根据本发明上述实施例的基于AI的非结构化数据管理方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过HDFS、HBase和Nosql存储大规模的非结构化数据对象,进一步包括:通过所述HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
进一步地,在本发明的一个实施例中,所述从所述非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:根据数据类型提取所述数据特征;对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
进一步地,在本发明的一个实施例中,所述根据数据类型提取所述数据特征,进一步包括:对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将所述重要的部分特征进行存储;对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将所述第二重要特征进行存储。
进一步地,在本发明的一个实施例中,所述对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将所述关联规则的JSON(JavaScript Object Notation,轻量级的数据交换格式)脚本提交到通过数据库执行搜索的搜索算法层;在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据所述同样的特征向量和所述数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
为达到上述目的,本发明另一方面实施例提出了一种基于AI的非结构化数据管理装置,包括:存储模块,用于通过HDFS、HBase和Nosql存储大规模的非结构化数据对象;构建模块,用于从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;管理模块,用于使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。
本发明实施例的基于AI的非结构化数据管理装置,可以按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。
另外,根据本发明上述实施例的基于AI的非结构化数据管理装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述存储模块,进一步包括:存储单元,用于通过所述HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;检索单元,用于存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
进一步地,在本发明的一个实施例中,所述从所述非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:根据数据类型提取所述数据特征;对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
进一步地,在本发明的一个实施例中,所述根据数据类型提取所述数据特征,进一步包括:对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将所述重要的部分特征进行存储;对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将所述第二重要特征进行存储。
进一步地,在本发明的一个实施例中,所述对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将所述关联规则的JSON脚本提交到通过数据库执行搜索的搜索算法层;在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据所述同样的特征向量和所述数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于AI的非结构化数据管理方法的流程图;
图2为根据本发明一个具体实施例的基于AI的非结构化数据管理方法的流程图;
图3为根据本发明实施例的基于AI的非结构化数据管理装置的结构示意图;
图4为根据本发明一个实施例的基于AI的非结构化数据管理装置的结构示意图;
图5为根据本发明一个实施例的基于AI的非结构化数据管理装置总体结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍本发明实施例的基于AI的非结构化数据管理方法及装置之前,先简单介绍下相关技术中的方法。
非结构化数据不仅数据量大,而且增长非常迅速,然而在如此庞大的数据中,只有10%的数据是存储在数据库中的结构化数据,其余的则是由邮件、视频、微博、文档、页面点击等产生的大量的半结构化数据非结构化数据。非结构化数据格式多样化,相对结构化数据有统一的格式和标准,非结构化数据的样式复杂多变,所以在存储、管理、检索等应用上现有的标准化体系难以支撑,由于非结构化数据体量大、格式复杂多样,如何对非结构化数据进行管理,从海量数据中发掘有价值的信息一直是个难题。
相关技术中,有的通过设置多个包括关键词的特征模板;分别使用各个特征模板扫描存储有多条非结构化数据的数据库,通过利用特征模板将非结构化数据处理成向量形式,使得后续的计算处理针对模板向量进行;但是由于预置模板和规则,埋没了非结构化数据的其他非结构化数据潜在的重要的数据信息,无法挖掘出数据的潜在的价值。有的用以将非结构化数据转换为结构化数据,获取用于抽取非结构化数据中关键字段的解析规则,并利用所述解析规则,抽取非结构化数据中的关键字段,将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据;但是由于预先将元数据信息进行存储,无疑增大了存储的压力和成本。还有的将数据的元数据信息都存储在HBase中,并根据元数据的主题、标签等信息建立元数据的索引表,加快查询速度;查询元数据时,可以根据要查找的元数据的主题或标签对元数据索引表进行查找,快速定位数据表。之后在数据索引表中查找数据的语义标签,找到所要查找的数据记录主键,然后根据主键在数据表中快速定位数据。
本发明正是基于上述问题而提出了一种基于AI的非结构化数据管理方法及装置。
下面参照附图描述根据本发明实施例提出的基于AI的非结构化数据管理方法及装置,首先将参照附图描述根据本发明实施例提出的基于AI的非结构化数据管理方法。
图1是本发明一个实施例的基于AI的非结构化数据管理方法的流程图
如图1所示,该基于AI的非结构化数据管理方法包括以下步骤:
在步骤S101中,通过HDFS、HBase和Nosql存储大规模的非结构化数据对象。
进一步地,在本发明的一个实施例中,通过HDFS、HBase和Nosql存储大规模的非结构化数据对象,进一步包括:通过HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
可以理解的是,本发明实施例可以通过HDFS、HBase和Nosql存储大规模的非结构化数据对象,也就是说,存储技术手段包括HDFS、Hbase、Nosql,存储的是原始非结构化文件,以及通过语义分析模块得到的基本属性,语义特征和视觉特征,同时把用于访问特征数据和原始数据的接口提供给检索模块。例如对于音频,通过计算节点分布式地使用语音处理模型提取包括声强、响度、音高、信噪比、谐噪比的音频特征,建表将这些特征进行存储。特别地,将计算得到的平均语句的SNR(SIGNAL-NOISE RATIO,信噪比),与文件id一起作为抽取出的信息,然后存储。
在步骤S102中,从非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的数据特征存储在外部表,并构建非结构化数据模型。
进一步地,在本发明的一个实施例中,从非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:根据数据类型提取数据特征;对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
进一步地,在本发明的一个实施例中,根据数据类型提取数据特征,进一步包括:对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将重要的部分特征进行存储;对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将第二重要特征进行存储。
可以理解的是,本发明实施例可以从非结构化数据对象中通过AI智能算法提取数据特征,也就是说,本发明实施例首先根据数据类型的不同,提取不同的数据特征,对于非结构化文档,通过计算节点分布式地使用自然语言处理NLP(Neuro-LinguisticProgramming,神经语言程序学)提取核心实体和相关事实,建表,将keyword和相关的文本信息(如:标题、分类、时间)存储于数据表中。文档的核心对象可以是时间,地点,人物,通用词等;文档的相关事实可以是情感态度,动词,主题词等;对于图像,通过计算节点分布式地使用图像处理模型提取重要的部分特征,建表将这些特征进行存储。图像特征有亮度、边缘、纹理和色彩,主成份,灰度均值,灰度方差,面积,纹理特征等;对于音频,通过计算节点分布式地使用语音处理模型提取重要的部分特征,建表将这些特征进行存储。音频特征:声强、响度、音高、信噪比、谐噪比。
进一步地,在本发明的一个实施例中,对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将关联规则的JSON脚本提交到通过数据库执行搜索的搜索算法层;在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据同样的特征向量和数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
可以理解的是,本发明实施例可以对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,具体的,在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系(比如反义词,同义词等),形成关联规则,这些规则是以JSON脚本编程的,然后将JSON脚本提交到通过数据库执行搜索的搜索算法层。
图像识别过程中,图像识别的具体实现原理为通过对图片数据库的每张图片抽取特征(一般形式为特征向量),存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据该向量和数据库中向量的距离,找出最接近的一些特征向量,其对应的图片即为检索结果,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练。以人脸识别为例,对于人脸实时处理检测增强,可以使用Afw+Lfpw等人脸数据库训练生成的模型,对面部特征点进行定位,来跟踪各种表情,嘴巴眼皮瞳孔。对于人脸的离线处理分析,实现全姿态人脸检测,主要的工作是通过优化算法、参数和指令集的方法或者根据用户反馈丰富数据集,不断迭代持续提升模型精度的方法来优化数据模型。然后将生成的模型存储在存储模块,以用于进一步的检索和可视化。
其中,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。在原理在本质上都是:语音输入后,进行特征提取,将提取的特征值放进模型库里,再不断地进行训练和匹配,最终解码得到结果。同样,可以使用深度学习的技术对语音进行模型的训练,以用于检索和可视化模块的后续处理;视频识别主要包括前端视频信息的采集及传输、中间的视频检测和后端的分析处理三个环节。主要对视频画面进行识别、检测、分析,滤除干扰,对视频画面中的异常情况做目标和轨迹标记。具体的,通过预处理,编码等技术,对视频进行切片处理,然后通过图学习算法,将每幅图像或每个标注词作为图节点,以图像间或标注词间的相似关系为边,实现标注信息从已标注图像到未知图像的传播,对视频对应片进行自动标注。视频的处理分成图像和语音的处理,最后将生成的视频模型储在存储模块,以用于进一步的检索和可视化。
在步骤S103中,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。
可以理解的是,本发明实施例使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索,且主要使用语义分析和模型预测来检索得到结果,然后从机的计算结果发送到主机合并为最终结果,最后并将结果展示到前端展示。
举例而言,如图2所示,在本发明的一个具体实施例中,本发明一个具体实施例的基于AI的非结构化数据管理方法的步骤如下:
a、通过HDFS存储大规模的非结构化数据对象,再进一步导入HBase、Nosql中。
b、从非结构化数据对象中通过AI智能算法提取特征,将提取的特征存储在外部表(SQL/NoSQL均可,如Hive),并构建非结构化数据模型;
c、使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型可以用于对非结构化数据进行相似性搜索。
根据本发明实施例提出的基于AI的非结构化数据管理方法,可以通过按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性,具有全面高效的优点。
其次参照附图描述根据本发明实施例提出的基于AI的非结构化数据管理装置。
图3是本发明实施例的基于AI的非结构化数据管理装置的结构示意图。
如图3所示,该基于AI的非结构化数据管理装置10包括:存储模块100、构建模块200和管理模块300。
其中,存储模块100用于通过HDFS、HBase和Nosql存储大规模的非结构化数据对象。构建模块200用于从非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的数据特征存储在外部表,并构建非结构化数据模型。管理模块300用于使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。本发明实施例的装置10可以有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。
可以理解的是,如图4所示,本发明实施例的装置10主要包括存储层,查询客户端,语义分析引擎,和查询层以及API(Application Programming Interface,应用程序编程接口)接口层。其中,API接口定义层生成查询以执行搜索,由于数据库具有不同的结构,因此,针对不同的数据源定义了不同的API,最后将相似性的查询结果返回,而语义分析引擎是最为关键的一部分,对于不同的非结构化数据需要采取不同的分析方法。
另外,图5为本发明实施例的总体结构设计示意图,基于AI的非结构化数据管理装置分为四大模块,分别是存储模块,核心计算模块,算法语义分析模块,sql(StructuredQuery Language,结构化查询语言)检索并可视化模块四大模块。其中,核心计算模块作为分布式计算的核心部分,主要使用的先对非结构化数据进行预处理,然后调用算法进行非结构数据的处理分析,同时也可以调用训练好的模型实现对非结构化数据的分析处理。在对于非结构化数据的处理过程中涉及离线的分析和在线的流处理,所以使用到的技术手段除了用于离线计算的MapReduce、Spark、SparkSQL部分,还包括Storm、Spark Streaming技术来流式处理非结构化数据。
进一步地,在本发明的一个实施例中,存储模块100,进一步包括:存储单元。其中,存储单元用于通过HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;检索单元,用于存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
进一步地,在本发明的一个实施例中,从非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:根据数据类型提取数据特征;对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
进一步地,在本发明的一个实施例中,根据数据类型提取数据特征,进一步包括:对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将重要的部分特征进行存储;对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将第二重要特征进行存储。
进一步地,在本发明的一个实施例中,对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将关联规则的JSON脚本提交到通过数据库执行搜索的搜索算法层;在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据同样的特征向量和数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
需要说明的是,前述对基于AI的非结构化数据管理方法实施例的解释说明也适用于该实施例的基于AI的非结构化数据管理装置,此处不再赘述。
根据本发明实施例提出的基于AI的非结构化数据管理装置,可以通过按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非机构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于AI的非结构化数据管理方法,其特征在于,包括以下步骤:
通过HDFS、HBase和Nosql存储大规模的非结构化数据对象;
从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;以及
使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。
2.根据权利要求1所述的基于AI的非结构化数据管理方法,其特征在于,所述通过HDFS、HBase和Nosql存储大规模的非结构化数据对象,进一步包括:
通过所述HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;
存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
3.根据权利要求1所述的基于AI的非结构化数据管理方法,其特征在于,所述从所述非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:
根据数据类型提取所述数据特征;
对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
4.根据权利要求3所述的基于AI的非结构化数据管理方法,其特征在于,所述根据数据类型提取所述数据特征,进一步包括:
对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;
对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将所述重要的部分特征进行存储;
对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将所述第二重要特征进行存储。
5.根据权利要求3或4所述的基于AI的非结构化数据管理方法,其特征在于,所述对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:
在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将所述关联规则的JSON脚本提交到通过数据库执行搜索的搜索算法层;
在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据所述同样的特征向量和所述数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;
在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;
在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
6.一种基于AI的非结构化数据管理装置,其特征在于,包括:
存储模块,用于通过HDFS、HBase和Nosql存储大规模的非结构化数据对象;
构建模块,用于从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;以及
管理模块,用于使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而对于模型用于对非结构化数据进行相似性搜索。
7.根据权利要求6所述的基于AI的非结构化数据管理装置,其特征在于,所述存储模块,进一步包括:
存储单元,用于通过所述HDFS、Hbase和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;
检索单元,用于存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
8.根据权利要求6所述的基于AI的非结构化数据管理装置,其特征在于,所述从所述非结构化数据对象中通过AI智能算法提取数据特征,进一步包括:
根据数据类型提取所述数据特征;
对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理。
9.根据权利要求8所述的基于AI的非结构化数据管理装置,其特征在于,所述根据数据类型提取所述数据特征,进一步包括:
对于非结构化文档,通过计算节点分布式地使用自然语言处理提取核心实体和相关事实,并且建表以将keyword和相关的文本信息存储于数据表中;
对于图像,通过计算节点分布式地使用图像处理模型提取第一重要特征,建表以将所述重要的部分特征进行存储;
对于音频,通过计算节点分布式地使用语音处理模型提取第二重要特征,建表将所述第二重要特征进行存储。
10.根据权利要求8或9所述的基于AI的非结构化数据管理装置,其特征在于,所述对于各类非结构化数据采取不同人工智能的方法进行数据的建模处理,进一步包括:
在文本识别过程中,对文本首先经过主题解析和主题映射的方式,找到词法之间的依赖关系以形成关联规则,并将所述关联规则的JSON脚本提交到通过数据库执行搜索的搜索算法层;
在图像识别过程中,对图片数据库的每张图片抽取特征向量,并存储于数据库中,对于待检索图片,抽取同样的特征向量,然后并根据所述同样的特征向量和所述数据库中向量的距离,找出最接近的多个特征向量,获取检索结果,以及通过深度学习的方式,对图像数据进行模型的训练,以生成图像模型;
在语音识别过程中,语音输入后进行特征提取,并将提取的特征值放进模型库里,且进行训练和匹配,使得解码得到结果,以及通过深度学习的技术对语音进行模型的训练,以生成语音模型;
在视频识别过程中,对视频画面进行识别、检测、分析,并滤除干扰,且对视频画面中的异常情况做目标和轨迹标记,以生成视频模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711387626.2A CN108268600B (zh) | 2017-12-20 | 2017-12-20 | 基于ai的非结构化数据管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711387626.2A CN108268600B (zh) | 2017-12-20 | 2017-12-20 | 基于ai的非结构化数据管理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108268600A true CN108268600A (zh) | 2018-07-10 |
CN108268600B CN108268600B (zh) | 2020-09-08 |
Family
ID=62772471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711387626.2A Active CN108268600B (zh) | 2017-12-20 | 2017-12-20 | 基于ai的非结构化数据管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268600B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147883A (zh) * | 2018-07-24 | 2019-01-04 | 北京遥领医疗科技有限公司 | 应用于临床试验数据的原始文件映射、管理方法及其系统 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN109597919A (zh) * | 2018-10-18 | 2019-04-09 | 中国科学院计算机网络信息中心 | 一种融合图数据库和人工智能算法的数据管理方法及系统 |
CN110569390A (zh) * | 2019-08-20 | 2019-12-13 | 武汉大千信息技术有限公司 | 基于区分存储介质的海量案件数据高效检索方法 |
CN110674265A (zh) * | 2019-08-06 | 2020-01-10 | 上海孚典智能科技有限公司 | 面向非结构化信息的特征判别与信息推荐系统 |
CN110851586A (zh) * | 2019-10-22 | 2020-02-28 | 陈华 | 银行运营数据处理系统及方法、设备、存储介质 |
CN110851519A (zh) * | 2019-11-18 | 2020-02-28 | 上海新炬网络信息技术股份有限公司 | 基于nlp自然语言通过etl工具进行数据处理的方法 |
WO2020173334A1 (zh) * | 2019-02-25 | 2020-09-03 | 阿里巴巴集团控股有限公司 | 数据存储方法及数据查询方法 |
CN111897911A (zh) * | 2020-06-11 | 2020-11-06 | 中国科学院计算机网络信息中心 | 一种基于次级属性图的非结构化数据查询方法及系统 |
CN112148938A (zh) * | 2020-10-16 | 2020-12-29 | 成都中科大旗软件股份有限公司 | 一种跨域异构数据检索系统及检索方法 |
CN116719785A (zh) * | 2023-08-09 | 2023-09-08 | 北京量子伟业信息技术股份有限公司 | 一种基于元数据的数据库管理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012912A (zh) * | 2010-11-19 | 2011-04-13 | 清华大学 | 一种基于云计算环境的非结构化数据的管理方法 |
CN102591896A (zh) * | 2011-01-05 | 2012-07-18 | 北京大用科技有限责任公司 | 非结构化数据四面体数据模型的系统、实现、应用和查询语言 |
US20150248475A1 (en) * | 2014-03-03 | 2015-09-03 | Michael L. Hamm | Text-sql relational database |
US20150339575A1 (en) * | 2014-05-21 | 2015-11-26 | Open Inference LLC | Inference engine |
CN105205104A (zh) * | 2015-08-26 | 2015-12-30 | 成都布林特信息技术有限公司 | 一种云平台数据获取方法 |
US20160188415A1 (en) * | 2014-12-31 | 2016-06-30 | Netapp. Inc. | Methods and systems for clone management |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN105930836A (zh) * | 2016-04-19 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种视频文字的识别方法和装置 |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
-
2017
- 2017-12-20 CN CN201711387626.2A patent/CN108268600B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012912A (zh) * | 2010-11-19 | 2011-04-13 | 清华大学 | 一种基于云计算环境的非结构化数据的管理方法 |
CN102591896A (zh) * | 2011-01-05 | 2012-07-18 | 北京大用科技有限责任公司 | 非结构化数据四面体数据模型的系统、实现、应用和查询语言 |
US20150248475A1 (en) * | 2014-03-03 | 2015-09-03 | Michael L. Hamm | Text-sql relational database |
US20150339575A1 (en) * | 2014-05-21 | 2015-11-26 | Open Inference LLC | Inference engine |
US20160188415A1 (en) * | 2014-12-31 | 2016-06-30 | Netapp. Inc. | Methods and systems for clone management |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN105205104A (zh) * | 2015-08-26 | 2015-12-30 | 成都布林特信息技术有限公司 | 一种云平台数据获取方法 |
CN105930836A (zh) * | 2016-04-19 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种视频文字的识别方法和装置 |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
Non-Patent Citations (1)
Title |
---|
宋美娜 等: "一种通用的数据可视化模型设计与实现", 《计算机应用与软件》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147883B (zh) * | 2018-07-24 | 2022-10-21 | 北京遥领医疗科技有限公司 | 应用于临床试验数据的原始文件映射、管理方法及其系统 |
CN109147883A (zh) * | 2018-07-24 | 2019-01-04 | 北京遥领医疗科技有限公司 | 应用于临床试验数据的原始文件映射、管理方法及其系统 |
CN109597919A (zh) * | 2018-10-18 | 2019-04-09 | 中国科学院计算机网络信息中心 | 一种融合图数据库和人工智能算法的数据管理方法及系统 |
CN109597919B (zh) * | 2018-10-18 | 2021-11-09 | 中国科学院计算机网络信息中心 | 一种融合图数据库和人工智能算法的数据管理方法及系统 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
WO2020173334A1 (zh) * | 2019-02-25 | 2020-09-03 | 阿里巴巴集团控股有限公司 | 数据存储方法及数据查询方法 |
CN110674265B (zh) * | 2019-08-06 | 2021-03-02 | 上海孚典智能科技有限公司 | 面向非结构化信息的特征判别与信息推荐系统 |
CN110674265A (zh) * | 2019-08-06 | 2020-01-10 | 上海孚典智能科技有限公司 | 面向非结构化信息的特征判别与信息推荐系统 |
CN110569390A (zh) * | 2019-08-20 | 2019-12-13 | 武汉大千信息技术有限公司 | 基于区分存储介质的海量案件数据高效检索方法 |
CN110569390B (zh) * | 2019-08-20 | 2024-01-30 | 武汉大千信息技术有限公司 | 基于区分存储介质的海量案件数据高效检索方法 |
CN110851586B (zh) * | 2019-10-22 | 2022-10-11 | 陈华 | 银行运营数据处理系统及方法、设备、存储介质 |
CN110851586A (zh) * | 2019-10-22 | 2020-02-28 | 陈华 | 银行运营数据处理系统及方法、设备、存储介质 |
CN110851519A (zh) * | 2019-11-18 | 2020-02-28 | 上海新炬网络信息技术股份有限公司 | 基于nlp自然语言通过etl工具进行数据处理的方法 |
CN111897911A (zh) * | 2020-06-11 | 2020-11-06 | 中国科学院计算机网络信息中心 | 一种基于次级属性图的非结构化数据查询方法及系统 |
CN112148938A (zh) * | 2020-10-16 | 2020-12-29 | 成都中科大旗软件股份有限公司 | 一种跨域异构数据检索系统及检索方法 |
CN116719785A (zh) * | 2023-08-09 | 2023-09-08 | 北京量子伟业信息技术股份有限公司 | 一种基于元数据的数据库管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108268600B (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268600A (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111680173B (zh) | 统一检索跨媒体信息的cmr模型 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN104281702B (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN110298033A (zh) | 关键词语料标注训练提取工具 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN108268539A (zh) | 基于文本分析的视频匹配系统 | |
CN111930518B (zh) | 面向知识图谱表示学习的分布式框架构建方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN107977363A (zh) | 标题生成方法、装置和电子设备 | |
CN108664599A (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN106055560A (zh) | 一种基于统计机器学习方法的分词字典数据采集方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN110866129A (zh) | 一种基于跨媒体统一表征模型的跨媒体检索方法 | |
Achlioptas et al. | ChangeIt3D: Language-assisted 3d shape edits and deformations | |
Agrawal et al. | Scalable, semi-supervised extraction of structured information from scientific literature | |
Huang et al. | Intangible cultural heritage management using machine learning model: A case study of northwest folk song Huaer | |
CN113190692B (zh) | 一种知识图谱的自适应检索方法、系统及装置 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN112836008B (zh) | 基于去中心化存储数据的索引建立方法 | |
CN106599305B (zh) | 一种基于众包的异构媒体语义融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |