一种基于人工智能的文件要素信息识别方法及装置
技术领域
本发明涉及大数据领域,尤其涉及一种基于人工智能的文件要素信息识别方法及装置。
背景技术
随着计算机领域的不断发展,在对计算机中的文件进行检索时,需要计算机根据检索关键词对其存储模块中存储的数据文件进行识别操作,最终将识别出来的文件检索出来供人们查看;然而,计算机现有的识别方式仅仅只能对文件的名称信息进行识别,其识别范围太窄,从而导致其检索出来的文件不够全面,因此,有必要研究一种文件要素信息识别方法及装置来解决上述问题。
发明内容
本发明目的是针对上述问题,提供一种操作简单、使用便利的基于人工智能的文件要素信息识别方法及装置。
为了实现上述目的,本发明的技术方案是:
一种基于人工智能的文件要素信息识别方法,包括以下步骤:
S1、在输入模块中输入待识别关键词;
S2、通过要素分析模块对待识别关键词进行分析,得到待识别关键词的相关词汇;
S3、通过相近要素确定模块将待识别关键词以及待识别关键词的相关词汇一同汇总为识别词汇;
S4、通过检索平台在数据储存模块中对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;
S5、通过相似度排序模块对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;
S6、将文件汇总模块中的所有文件输送到排序显示模块中,排序显示模块根据识别词汇的排列顺序对所有文件进行排序并显示出来。
进一步的,所述步骤S4中,通过检索平台在数据储存模块中对识别词汇进行检索识别操作时,通过文档识别模块对数据存储模块中存储的文字文件进行识别操作,通过视频识别模块对数字存储模块中存储的视频文件进行识别操作,通过图片识别模块对数字存储模块中存储的图片文件进行识别操作。
一种基于人工智能的文件要素信息识别装置,包括用于进行待识别关键词输入的要素输入模块、用于分析待识别关键词所属相关词汇的要素分析模块、用于将待识别关键词以及其相关词汇汇总为识别词汇的相近要素确定模块、用于将识别词汇按照相近程度进行排序的相似度排序模块、用于对所有文件进行存储的数据存储模块、用于根据检索词汇对数据存储模块中的所有文件进行检索识别的检索平台、用于将检索平台检索出来的文件进行汇总的文件汇总模块、用于将汇总后的文件根据识别词汇排序顺序进行排序并显示出来的排序显示模块;
所述要素输入模块的信号输出端与要素分析模块的信号输入端相连接,要素分析模块的信号输出端与相近要素确定模块的信号输入端相连接,相近要素确定模块的信号输出端分别与检索平台、相似度排序模块的信号输入端相连接,数据存储模块的信号输出端与检索平台的信号输入端相连接,检索平台的信号输出端与文件汇总模块的信号输入端相连接,文件汇总模块、相似度排序模块的信号输出端均与排序显示模块的信号输入端相连接。
进一步的,所述检索平台包括用于对数据存储模块中文字文件进行识别的文档识别模块、用于对数据存储模块中视频文件进行识别的视频识别模块、用于对数据存储模块中图片文件进行识别的图片识别模块;所述文档识别模块、视频识别模块、图片识别模块的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档识别模块、视频识别模块、图片识别模块的信号输出端均与文件汇总模块的信号输入端相连接。
进一步的,所述文档识别模块包括用于对文字文件的名称进行识别的文档名称识别单元、用于对文字文件的内容进行识别的文档内容识别单元;所述文档名称识别单元、文档内容识别单元的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档名称识别单元、文档内容识别单元的信号输出端均与文件汇总模块的信号输入端相连接。
进一步的,所述视频识别模块包括用于对视频文件中的图像和字幕进行拆分的视频拆分单元、用于对视频文件拆分后的图像信息进行存储的图像信息单元、用于对视频文件拆分后的字幕信息进行存储的字幕信息单元;所述视频拆分单元的信号输入端与数据存储模块的信号输出端相连接,视频拆分单元的信号输出端分别与图像信息单元、字幕信息单元的信号输入端相连接,字幕信息单元的信号输入端与相近要素确定模块的信号输出端相连接,字幕信息单元的信号输出端与文件汇总模块的信号输入端相连接。
进一步的,所述图片识别模块包括用于对图片文件中的文字信息进行提取的文字提取单元、用于对提取出的文字信息进行存储的文字信息单元;所述文字提取单元的信号输入端与数据存储模块的信号输出端相连接,文字提取单元的信号输出端与文字信息单元的信号输入端相连接,文字信息单元的信号输入端与相近要素确定模块的信号输出端相连接,文字信息单元的信号输出端与文件汇总模块的信号输入端相连接。
与现有技术相比,本发明具有的优点和积极效果是:
本发明首先对待识别关键词的相关词汇进行汇总,接着通过检索平台将数据存储模块中所有与相关词汇有关的文件全部检索出来,最后通过相关词汇的相近程度对检索出来的文件进行排序;其既可以实现相关文件的全部检索操作,又可以令人们最先查看到相近程度最高的检索文件,提高了计算机检索全面性的同时保证了人们寻找文件的高效性;另一方面,本发明中的检索平台可以同时对数据存储模块中的文字文件、视频文件、图片文件进行要素信息识别操作,解决了现有技术中计算机只能对文件名称进行识别导致其检索的文件不够全面的缺陷,有效提高了计算机的文件检索全面性,从而进一步提高了本发明的使用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为文件要素信息识别装置的框架逻辑图;
图2为文档识别模块的连接结构图;
图3为视频识别模块的连接结构图;
图4为图片识别模块的连接结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本实施例公开了一种基于人工智能的文件要素信息识别方法,包括以下步骤:
S1、在输入模块中输入待识别关键词;
S2、通过要素分析模块对待识别关键词进行分析,得到待识别关键词的相关词汇;
S3、通过相近要素确定模块将待识别关键词以及待识别关键词的相关词汇一同汇总为识别词汇;
S4、通过检索平台在数据储存模块中对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;
通过检索平台在数据储存模块中对识别词汇进行检索识别操作时,通过文档识别模块对数据存储模块中存储的文字文件进行识别操作,通过视频识别模块对数字存储模块中存储的视频文件进行识别操作,通过图片识别模块对数字存储模块中存储的图片文件进行识别操作;
S5、通过相似度排序模块对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;
S6、将文件汇总模块中的所有文件输送到排序显示模块中,排序显示模块根据识别词汇的排列顺序对所有文件进行排序并显示出来。
如图1所示,本实施例还公开了一种基于人工智能的文件要素信息识别装置,包括用于进行待识别关键词输入的要素输入模块、用于分析待识别关键词所属相关词汇的要素分析模块、用于将待识别关键词以及其相关词汇汇总为识别词汇的相近要素确定模块、用于将识别词汇按照相近程度进行排序的相似度排序模块、用于对所有文件进行存储的数据存储模块、用于根据检索词汇对数据存储模块中的所有文件进行检索识别的检索平台、用于将检索平台检索出来的文件进行汇总的文件汇总模块、用于将汇总后的文件根据识别词汇排序顺序进行排序并显示出来的排序显示模块;
所述要素输入模块的信号输出端与要素分析模块的信号输入端相连接,要素分析模块的信号输出端与相近要素确定模块的信号输入端相连接,相近要素确定模块的信号输出端分别与检索平台、相似度排序模块的信号输入端相连接,数据存储模块的信号输出端与检索平台的信号输入端相连接,检索平台的信号输出端与文件汇总模块的信号输入端相连接,文件汇总模块、相似度排序模块的信号输出端均与排序显示模块的信号输入端相连接。
如图1所示,所述检索平台包括用于对数据存储模块中文字文件进行识别的文档识别模块、用于对数据存储模块中视频文件进行识别的视频识别模块、用于对数据存储模块中图片文件进行识别的图片识别模块;所述文档识别模块、视频识别模块、图片识别模块的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档识别模块、视频识别模块、图片识别模块的信号输出端均与文件汇总模块的信号输入端相连接。
如图2所示,所述文档识别模块包括用于对文字文件的名称进行识别的文档名称识别单元、用于对文字文件的内容进行识别的文档内容识别单元;所述文档名称识别单元、文档内容识别单元的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档名称识别单元、文档内容识别单元的信号输出端均与文件汇总模块的信号输入端相连接。
文档名称识别单元可以对文字文件名称信息中含有识别词汇的文件进行检索识别并输送到文件汇总模块中;文档内容识别单元可以对文字文件内容信息中含有识别词汇的文件进行检索识别并输送到文件汇总模块中。
如图3所示,所述视频识别模块包括用于对视频文件中的图像和字幕进行拆分的视频拆分单元、用于对视频文件拆分后的图像信息进行存储的图像信息单元、用于对视频文件拆分后的字幕信息进行存储的字幕信息单元;所述视频拆分单元的信号输入端与数据存储模块的信号输出端相连接,视频拆分单元的信号输出端分别与图像信息单元、字幕信息单元的信号输入端相连接,字幕信息单元的信号输入端与相近要素确定模块的信号输出端相连接,字幕信息单元的信号输出端与文件汇总模块的信号输入端相连接。
首先通过视频拆分单元将视频文件的图像信息、字幕信息进行拆分并分开存储到图像信息单元、字幕信息单元中,在字幕信息单元中,当某个视频文件的字幕信息中含有识别词汇时,则将该视频文件识别出来并输送到文件汇总模块中。
如图4所示,所述图片识别模块包括用于对图片文件中的文字信息进行提取的文字提取单元、用于对提取出的文字信息进行存储的文字信息单元;所述文字提取单元的信号输入端与数据存储模块的信号输出端相连接,文字提取单元的信号输出端与文字信息单元的信号输入端相连接,文字信息单元的信号输入端与相近要素确定模块的信号输出端相连接,文字信息单元的信号输出端与文件汇总模块的信号输入端相连接。
首先通过文字提取单元将图片文件的文字信息提取出来并存储到文字信息单元中,在文字信息单元中,当某个图片文件的文字信息中含有识别词汇时,则将该图片文件识别出来并输送到文件汇总模块中。
本发明首先对待识别关键词的相关词汇进行汇总,接着通过检索平台将数据存储模块中所有与相关词汇有关的文件全部检索出来,最后通过相关词汇的相近程度对检索出来的文件进行排序;其既可以实现相关文件的全部检索操作,又可以令人们最先查看到相近程度最高的检索文件,提高了计算机检索全面性的同时保证了人们寻找文件的高效性;另一方面,本发明中的检索平台可以同时对数据存储模块中的文字文件、视频文件、图片文件进行要素信息识别操作,解决了现有技术中计算机只能对文件名称进行识别导致其检索的文件不够全面的缺陷,有效提高了计算机的文件检索全面性,从而进一步提高了本发明的使用效果。