CN116011443A - 一种基于人工智能的文件要素信息识别方法及装置 - Google Patents

一种基于人工智能的文件要素信息识别方法及装置 Download PDF

Info

Publication number
CN116011443A
CN116011443A CN202211417481.7A CN202211417481A CN116011443A CN 116011443 A CN116011443 A CN 116011443A CN 202211417481 A CN202211417481 A CN 202211417481A CN 116011443 A CN116011443 A CN 116011443A
Authority
CN
China
Prior art keywords
module
file
identification
signal output
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211417481.7A
Other languages
English (en)
Inventor
张煇
杨勇
崔红凯
崔晋雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Changhe Technology Co ltd
Original Assignee
Shanxi Changhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Changhe Technology Co ltd filed Critical Shanxi Changhe Technology Co ltd
Priority to CN202211417481.7A priority Critical patent/CN116011443A/zh
Publication of CN116011443A publication Critical patent/CN116011443A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的文件要素信息识别方法及装置;基于人工智能的文件要素信息识别方法,包括以下步骤:S1、输入待识别关键词;S2、分析得到待识别关键词的相关词汇;S3、将待识别关键词以及待识别关键词的相关词汇汇总为识别词汇;S4、对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;S5、对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;S6、按照识别词汇的排列顺序对所有文件进行排序并显示出来。所述文件要素信息识别装置包括要素输入模块、要素分析模块、相近要素确定模块、相似度排序模块、数据存储模块、检索平台、文件汇总模块、排序显示模块。

Description

一种基于人工智能的文件要素信息识别方法及装置
技术领域
本发明涉及大数据领域,尤其涉及一种基于人工智能的文件要素信息识别方法及装置。
背景技术
随着计算机领域的不断发展,在对计算机中的文件进行检索时,需要计算机根据检索关键词对其存储模块中存储的数据文件进行识别操作,最终将识别出来的文件检索出来供人们查看;然而,计算机现有的识别方式仅仅只能对文件的名称信息进行识别,其识别范围太窄,从而导致其检索出来的文件不够全面,因此,有必要研究一种文件要素信息识别方法及装置来解决上述问题。
发明内容
本发明目的是针对上述问题,提供一种操作简单、使用便利的基于人工智能的文件要素信息识别方法及装置。
为了实现上述目的,本发明的技术方案是:
一种基于人工智能的文件要素信息识别方法,包括以下步骤:
S1、在输入模块中输入待识别关键词;
S2、通过要素分析模块对待识别关键词进行分析,得到待识别关键词的相关词汇;
S3、通过相近要素确定模块将待识别关键词以及待识别关键词的相关词汇一同汇总为识别词汇;
S4、通过检索平台在数据储存模块中对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;
S5、通过相似度排序模块对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;
S6、将文件汇总模块中的所有文件输送到排序显示模块中,排序显示模块根据识别词汇的排列顺序对所有文件进行排序并显示出来。
进一步的,所述步骤S4中,通过检索平台在数据储存模块中对识别词汇进行检索识别操作时,通过文档识别模块对数据存储模块中存储的文字文件进行识别操作,通过视频识别模块对数字存储模块中存储的视频文件进行识别操作,通过图片识别模块对数字存储模块中存储的图片文件进行识别操作。
一种基于人工智能的文件要素信息识别装置,包括用于进行待识别关键词输入的要素输入模块、用于分析待识别关键词所属相关词汇的要素分析模块、用于将待识别关键词以及其相关词汇汇总为识别词汇的相近要素确定模块、用于将识别词汇按照相近程度进行排序的相似度排序模块、用于对所有文件进行存储的数据存储模块、用于根据检索词汇对数据存储模块中的所有文件进行检索识别的检索平台、用于将检索平台检索出来的文件进行汇总的文件汇总模块、用于将汇总后的文件根据识别词汇排序顺序进行排序并显示出来的排序显示模块;
所述要素输入模块的信号输出端与要素分析模块的信号输入端相连接,要素分析模块的信号输出端与相近要素确定模块的信号输入端相连接,相近要素确定模块的信号输出端分别与检索平台、相似度排序模块的信号输入端相连接,数据存储模块的信号输出端与检索平台的信号输入端相连接,检索平台的信号输出端与文件汇总模块的信号输入端相连接,文件汇总模块、相似度排序模块的信号输出端均与排序显示模块的信号输入端相连接。
进一步的,所述检索平台包括用于对数据存储模块中文字文件进行识别的文档识别模块、用于对数据存储模块中视频文件进行识别的视频识别模块、用于对数据存储模块中图片文件进行识别的图片识别模块;所述文档识别模块、视频识别模块、图片识别模块的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档识别模块、视频识别模块、图片识别模块的信号输出端均与文件汇总模块的信号输入端相连接。
进一步的,所述文档识别模块包括用于对文字文件的名称进行识别的文档名称识别单元、用于对文字文件的内容进行识别的文档内容识别单元;所述文档名称识别单元、文档内容识别单元的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档名称识别单元、文档内容识别单元的信号输出端均与文件汇总模块的信号输入端相连接。
进一步的,所述视频识别模块包括用于对视频文件中的图像和字幕进行拆分的视频拆分单元、用于对视频文件拆分后的图像信息进行存储的图像信息单元、用于对视频文件拆分后的字幕信息进行存储的字幕信息单元;所述视频拆分单元的信号输入端与数据存储模块的信号输出端相连接,视频拆分单元的信号输出端分别与图像信息单元、字幕信息单元的信号输入端相连接,字幕信息单元的信号输入端与相近要素确定模块的信号输出端相连接,字幕信息单元的信号输出端与文件汇总模块的信号输入端相连接。
进一步的,所述图片识别模块包括用于对图片文件中的文字信息进行提取的文字提取单元、用于对提取出的文字信息进行存储的文字信息单元;所述文字提取单元的信号输入端与数据存储模块的信号输出端相连接,文字提取单元的信号输出端与文字信息单元的信号输入端相连接,文字信息单元的信号输入端与相近要素确定模块的信号输出端相连接,文字信息单元的信号输出端与文件汇总模块的信号输入端相连接。
与现有技术相比,本发明具有的优点和积极效果是:
本发明首先对待识别关键词的相关词汇进行汇总,接着通过检索平台将数据存储模块中所有与相关词汇有关的文件全部检索出来,最后通过相关词汇的相近程度对检索出来的文件进行排序;其既可以实现相关文件的全部检索操作,又可以令人们最先查看到相近程度最高的检索文件,提高了计算机检索全面性的同时保证了人们寻找文件的高效性;另一方面,本发明中的检索平台可以同时对数据存储模块中的文字文件、视频文件、图片文件进行要素信息识别操作,解决了现有技术中计算机只能对文件名称进行识别导致其检索的文件不够全面的缺陷,有效提高了计算机的文件检索全面性,从而进一步提高了本发明的使用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为文件要素信息识别装置的框架逻辑图;
图2为文档识别模块的连接结构图;
图3为视频识别模块的连接结构图;
图4为图片识别模块的连接结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本实施例公开了一种基于人工智能的文件要素信息识别方法,包括以下步骤:
S1、在输入模块中输入待识别关键词;
S2、通过要素分析模块对待识别关键词进行分析,得到待识别关键词的相关词汇;
S3、通过相近要素确定模块将待识别关键词以及待识别关键词的相关词汇一同汇总为识别词汇;
S4、通过检索平台在数据储存模块中对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;
通过检索平台在数据储存模块中对识别词汇进行检索识别操作时,通过文档识别模块对数据存储模块中存储的文字文件进行识别操作,通过视频识别模块对数字存储模块中存储的视频文件进行识别操作,通过图片识别模块对数字存储模块中存储的图片文件进行识别操作;
S5、通过相似度排序模块对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;
S6、将文件汇总模块中的所有文件输送到排序显示模块中,排序显示模块根据识别词汇的排列顺序对所有文件进行排序并显示出来。
如图1所示,本实施例还公开了一种基于人工智能的文件要素信息识别装置,包括用于进行待识别关键词输入的要素输入模块、用于分析待识别关键词所属相关词汇的要素分析模块、用于将待识别关键词以及其相关词汇汇总为识别词汇的相近要素确定模块、用于将识别词汇按照相近程度进行排序的相似度排序模块、用于对所有文件进行存储的数据存储模块、用于根据检索词汇对数据存储模块中的所有文件进行检索识别的检索平台、用于将检索平台检索出来的文件进行汇总的文件汇总模块、用于将汇总后的文件根据识别词汇排序顺序进行排序并显示出来的排序显示模块;
所述要素输入模块的信号输出端与要素分析模块的信号输入端相连接,要素分析模块的信号输出端与相近要素确定模块的信号输入端相连接,相近要素确定模块的信号输出端分别与检索平台、相似度排序模块的信号输入端相连接,数据存储模块的信号输出端与检索平台的信号输入端相连接,检索平台的信号输出端与文件汇总模块的信号输入端相连接,文件汇总模块、相似度排序模块的信号输出端均与排序显示模块的信号输入端相连接。
如图1所示,所述检索平台包括用于对数据存储模块中文字文件进行识别的文档识别模块、用于对数据存储模块中视频文件进行识别的视频识别模块、用于对数据存储模块中图片文件进行识别的图片识别模块;所述文档识别模块、视频识别模块、图片识别模块的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档识别模块、视频识别模块、图片识别模块的信号输出端均与文件汇总模块的信号输入端相连接。
如图2所示,所述文档识别模块包括用于对文字文件的名称进行识别的文档名称识别单元、用于对文字文件的内容进行识别的文档内容识别单元;所述文档名称识别单元、文档内容识别单元的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档名称识别单元、文档内容识别单元的信号输出端均与文件汇总模块的信号输入端相连接。
文档名称识别单元可以对文字文件名称信息中含有识别词汇的文件进行检索识别并输送到文件汇总模块中;文档内容识别单元可以对文字文件内容信息中含有识别词汇的文件进行检索识别并输送到文件汇总模块中。
如图3所示,所述视频识别模块包括用于对视频文件中的图像和字幕进行拆分的视频拆分单元、用于对视频文件拆分后的图像信息进行存储的图像信息单元、用于对视频文件拆分后的字幕信息进行存储的字幕信息单元;所述视频拆分单元的信号输入端与数据存储模块的信号输出端相连接,视频拆分单元的信号输出端分别与图像信息单元、字幕信息单元的信号输入端相连接,字幕信息单元的信号输入端与相近要素确定模块的信号输出端相连接,字幕信息单元的信号输出端与文件汇总模块的信号输入端相连接。
首先通过视频拆分单元将视频文件的图像信息、字幕信息进行拆分并分开存储到图像信息单元、字幕信息单元中,在字幕信息单元中,当某个视频文件的字幕信息中含有识别词汇时,则将该视频文件识别出来并输送到文件汇总模块中。
如图4所示,所述图片识别模块包括用于对图片文件中的文字信息进行提取的文字提取单元、用于对提取出的文字信息进行存储的文字信息单元;所述文字提取单元的信号输入端与数据存储模块的信号输出端相连接,文字提取单元的信号输出端与文字信息单元的信号输入端相连接,文字信息单元的信号输入端与相近要素确定模块的信号输出端相连接,文字信息单元的信号输出端与文件汇总模块的信号输入端相连接。
首先通过文字提取单元将图片文件的文字信息提取出来并存储到文字信息单元中,在文字信息单元中,当某个图片文件的文字信息中含有识别词汇时,则将该图片文件识别出来并输送到文件汇总模块中。
本发明首先对待识别关键词的相关词汇进行汇总,接着通过检索平台将数据存储模块中所有与相关词汇有关的文件全部检索出来,最后通过相关词汇的相近程度对检索出来的文件进行排序;其既可以实现相关文件的全部检索操作,又可以令人们最先查看到相近程度最高的检索文件,提高了计算机检索全面性的同时保证了人们寻找文件的高效性;另一方面,本发明中的检索平台可以同时对数据存储模块中的文字文件、视频文件、图片文件进行要素信息识别操作,解决了现有技术中计算机只能对文件名称进行识别导致其检索的文件不够全面的缺陷,有效提高了计算机的文件检索全面性,从而进一步提高了本发明的使用效果。

Claims (7)

1.一种基于人工智能的文件要素信息识别方法,其特征在于:包括以下步骤:
S1、在输入模块中输入待识别关键词;
S2、通过要素分析模块对待识别关键词进行分析,得到待识别关键词的相关词汇;
S3、通过相近要素确定模块将待识别关键词以及待识别关键词的相关词汇一同汇总为识别词汇;
S4、通过检索平台在数据储存模块中对识别词汇进行检索识别操作,并将检索识别出的文件传输到文件汇总模块;
S5、通过相似度排序模块对识别词汇的相关程度进行排序,将相关性较大的识别词汇排在前列;
S6、将文件汇总模块中的所有文件输送到排序显示模块中,排序显示模块根据识别词汇的排列顺序对所有文件进行排序并显示出来。
2.如权利要求1所述的基于人工智能的文件要素信息识别方法,其特征在于:所述步骤S4中,通过检索平台在数据储存模块中对识别词汇进行检索识别操作时,通过文档识别模块对数据存储模块中存储的文字文件进行识别操作,通过视频识别模块对数字存储模块中存储的视频文件进行识别操作,通过图片识别模块对数字存储模块中存储的图片文件进行识别操作。
3.一种基于人工智能的文件要素信息识别装置,其用于实施如权利要求2所述的基于人工智能的文件要素信息识别方法;其特征在于:所述文件要素信息识别装置包括用于进行待识别关键词输入的要素输入模块、用于分析待识别关键词所属相关词汇的要素分析模块、用于将待识别关键词以及其相关词汇汇总为识别词汇的相近要素确定模块、用于将识别词汇按照相近程度进行排序的相似度排序模块、用于对所有文件进行存储的数据存储模块、用于根据检索词汇对数据存储模块中的所有文件进行检索识别的检索平台、用于将检索平台检索出来的文件进行汇总的文件汇总模块、用于将汇总后的文件根据识别词汇排序顺序进行排序并显示出来的排序显示模块;
所述要素输入模块的信号输出端与要素分析模块的信号输入端相连接,要素分析模块的信号输出端与相近要素确定模块的信号输入端相连接,相近要素确定模块的信号输出端分别与检索平台、相似度排序模块的信号输入端相连接,数据存储模块的信号输出端与检索平台的信号输入端相连接,检索平台的信号输出端与文件汇总模块的信号输入端相连接,文件汇总模块、相似度排序模块的信号输出端均与排序显示模块的信号输入端相连接。
4.如权利要求3所述的基于人工智能的文件要素信息识别装置,其特征在于:所述检索平台包括用于对数据存储模块中文字文件进行识别的文档识别模块、用于对数据存储模块中视频文件进行识别的视频识别模块、用于对数据存储模块中图片文件进行识别的图片识别模块;所述文档识别模块、视频识别模块、图片识别模块的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档识别模块、视频识别模块、图片识别模块的信号输出端均与文件汇总模块的信号输入端相连接。
5.如权利要求4所述的基于人工智能的文件要素信息识别装置,其特征在于:所述文档识别模块包括用于对文字文件的名称进行识别的文档名称识别单元、用于对文字文件的内容进行识别的文档内容识别单元;所述文档名称识别单元、文档内容识别单元的信号输入端均与相近要素确定模块、数据存储模块的信号输出端相连接,文档名称识别单元、文档内容识别单元的信号输出端均与文件汇总模块的信号输入端相连接。
6.如权利要求5所述的基于人工智能的文件要素信息识别装置,其特征在于:所述视频识别模块包括用于对视频文件中的图像和字幕进行拆分的视频拆分单元、用于对视频文件拆分后的图像信息进行存储的图像信息单元、用于对视频文件拆分后的字幕信息进行存储的字幕信息单元;所述视频拆分单元的信号输入端与数据存储模块的信号输出端相连接,视频拆分单元的信号输出端分别与图像信息单元、字幕信息单元的信号输入端相连接,字幕信息单元的信号输入端与相近要素确定模块的信号输出端相连接,字幕信息单元的信号输出端与文件汇总模块的信号输入端相连接。
7.如权利要求6所述的基于人工智能的文件要素信息识别装置,其特征在于:所述图片识别模块包括用于对图片文件中的文字信息进行提取的文字提取单元、用于对提取出的文字信息进行存储的文字信息单元;所述文字提取单元的信号输入端与数据存储模块的信号输出端相连接,文字提取单元的信号输出端与文字信息单元的信号输入端相连接,文字信息单元的信号输入端与相近要素确定模块的信号输出端相连接,文字信息单元的信号输出端与文件汇总模块的信号输入端相连接。
CN202211417481.7A 2022-11-14 2022-11-14 一种基于人工智能的文件要素信息识别方法及装置 Pending CN116011443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211417481.7A CN116011443A (zh) 2022-11-14 2022-11-14 一种基于人工智能的文件要素信息识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211417481.7A CN116011443A (zh) 2022-11-14 2022-11-14 一种基于人工智能的文件要素信息识别方法及装置

Publications (1)

Publication Number Publication Date
CN116011443A true CN116011443A (zh) 2023-04-25

Family

ID=86027608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211417481.7A Pending CN116011443A (zh) 2022-11-14 2022-11-14 一种基于人工智能的文件要素信息识别方法及装置

Country Status (1)

Country Link
CN (1) CN116011443A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057312A (zh) * 2023-10-11 2023-11-14 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057312A (zh) * 2023-10-11 2023-11-14 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法
CN117057312B (zh) * 2023-10-11 2023-12-29 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
US8433136B2 (en) Tagging video using character recognition and propagation
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
CN104504109B (zh) 图片搜索方法和装置
CN107766571B (zh) 一种多媒体资源的检索方法和装置
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
US8126897B2 (en) Unified inverted index for video passage retrieval
CN106649778B (zh) 基于深度问答的交互方法和装置
JP5894149B2 (ja) Top−k処理を活用した意味の充実
US10152540B2 (en) Linking thumbnail of image to web page
CN108121715B (zh) 一种文字标签方法及文字标签装置
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
CN112468877B (zh) 一种基于ai内容分析和ocr识别的智能新闻编目方法
CN101853297A (zh) 一种在电子设备中快速获得期望图像的方法
CN111369980A (zh) 语音检测方法、装置、电子设备及存储介质
CN116011443A (zh) 一种基于人工智能的文件要素信息识别方法及装置
CN111324768A (zh) 一种视频搜索系统和方法
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN116644228A (zh) 多模态全文信息检索方法、系统及存储介质
EP3905060A1 (en) Artificial intelligence for content discovery
CN112241463A (zh) 一种基于融合文本语义与图片信息的搜索方法
CN112507105A (zh) 一种基于微信公众号的多模智能问答系统及方法
CN111241313A (zh) 支持图像录入的检索方法和装置
CN111126334A (zh) 技术资料的快速阅读和处理方法
CN114222193B (zh) 一种视频字幕时间对齐模型训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Country or region after: China

Address after: 030001 Building A, Gaoxin Guozhi Building, No. 3, Dong'e'er Lane, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province

Applicant after: Changhe Information Co.,Ltd.

Address before: 030001 Building A, Gaoxin Guozhi Building, No. 3, Dong'e'er Lane, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province

Applicant before: Shanxi Changhe Technology Co.,Ltd.

Country or region before: China

CB02 Change of applicant information