CN110990563A - 一种基于人工智能的传统文化素材库构建方法及系统 - Google Patents

一种基于人工智能的传统文化素材库构建方法及系统 Download PDF

Info

Publication number
CN110990563A
CN110990563A CN201911128530.3A CN201911128530A CN110990563A CN 110990563 A CN110990563 A CN 110990563A CN 201911128530 A CN201911128530 A CN 201911128530A CN 110990563 A CN110990563 A CN 110990563A
Authority
CN
China
Prior art keywords
text
result
algorithm
picture
material set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911128530.3A
Other languages
English (en)
Inventor
胡涵清
张健
尹小林
齐林
倪渊
吕进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201911128530.3A priority Critical patent/CN110990563A/zh
Publication of CN110990563A publication Critical patent/CN110990563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于人工智能的传统文化素材库构建方法及系统。该方法包括:获取原始文化素材集合;将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。本发明实施例通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。

Description

一种基于人工智能的传统文化素材库构建方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的传统文化素材库构建方法及系统。
背景技术
在传统文化元素领域,由于存在大量的素材,其产生的年代悠久,对应的分类比较繁杂,内容和表现形式差异性比较大。
而针对传统文化元素的素材整理,目前还没有比较系统的方案对传统文化元素进行一个全面的统计和整理,普遍都是分门别类的进行统计,也没有一个产品对文化的素材进行有效的提取,无法全面和系统的获取到对应的文化素材。
因此,需要提出一种新的构建传统文化素材库的方法,能解决上述问题。
发明内容
本发明实施例提供一种基于人工智能的传统文化素材库构建方法及系统,用以解决现有技术中对素材的分类不系统,覆盖不够全面,对应的搜索无法不够精确等缺陷。
第一方面,本发明实施例提供一种基于人工智能的传统文化素材库构建方法,包括:
获取原始文化素材集合;
将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
优选地,所述将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合,具体包括:
按照所述原始文化素材集合对应的文件扩展名进行分类;
得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。
优选地,所述基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果,具体包括:
获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;
基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;
对所述文本语料导入词进行聚类分析,得到聚类文本;
将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。
优选地,所述对所述文本语料导入词进行聚类分析,得到聚类文本,具体包括:
获取所述文本语料导入词;
向所述文本语料导入词中导入预先训练好的中文词向量;
将所述文本语料导入词加载入词嵌入矩阵;
获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。
优选地,所述基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果,具体包括:
获取Faster R-CNN算法,提取所述Faster R-CNN算法中的分类标签输出,以及候选窗口输出;
基于所述分类标签输出和所述候选窗口输出,对所述图片素材集合进行物体检测,得到目标检测结果;
获取FCN算法,叠加在所述Faster R-CNN算法基础上,提取所述FCN算法中的二进制掩模输出,获得所述图像语义分割算法;
基于所述图像语义分割算法,对所述目标检测结果提取目标轮廓,得到所述图片素材整理结果。
优选地,所述基于所述二进制掩模输出,对所述目标检测结果提取目标轮廓,具体包括:
对所述目标检测结果进行对象区域分割,识别所述对象分割区域的内容。
优选地,所述将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库,之后还包括:
提取文化元素简介为标签,并从文化素材中提取文化元素,输入至所述非关系型数据库;
所述非关系型数据库实时同步数据至所述全文检索引擎;
用户输入检索词至所述全文检索引擎;
所述全文检索引擎返回检索结果给所述用户,进行检索结果展示。
第二方面,本发明实施例提供一种基于人工智能的传统文化素材库构建系统,包括:
获取模块,用于获取原始文化素材集合;
分类模块,用于将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
文本处理模块,用于基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
图片处理模块,用于基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
构建模块,用于将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
第三方面,本发明实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述基于人工智能的传统文化素材库构建方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述基于人工智能的传统文化素材库构建方法的步骤。
本发明实施例提供的基于人工智能的传统文化素材库构建方法及系统,通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于人工智能的传统文化素材库构建方法流程图;
图2为本发明实施例提供的数据清洗与文本提取部分体系结构图;
图3为本发明实施例提供的分词处理过程流程图;
图4为本发明实施例提供的GloVe算法对导入文本进行聚类分析流程示意图;
图5为本发明实施例提供的素材检索系统流程图;
图6为本发明实施例提供的系统ER图;
图7为本发明实施例提供的一种基于人工智能的传统文化素材库构建系统结构图;
图8为本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中对传统文化素材分类不够系统和准确的问题,本发明实施例提出了一种基于人工智能的传统文化素材库构建方法,该方法基于人工智能技术的传统文化素材库系统,采用网络爬虫技术大量收集传统文化元素数据,运用文本分类技术进行元素分类,很好的对传统文化元素进行了统计和整理,同时对已有的文化元素进行素材识别和提取。
针对中国文化素材库系统,研究文本素材特征提取技术;研究基于空间信息的中国文化图像素材的特征提取技术,构建基于特征选择与组合的图像素材分类识别方法;构建中国文化元素素材库,实现文本和图像素材的高效语义检索。
图1为本发明实施例提供的一种基于人工智能的传统文化素材库构建方法流程图,如图1所示,包括:
S1,获取原始文化素材集合;
S2,将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
S3,基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
S4,基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
S5,将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
具体地,步骤S1中,首先获取一定数量的原始文化素材集合,基于该集合来进行后续的处理和构建步骤;
步骤S2中,基于原始文化素材集合进行初步的分类,分为文本类的素材集合和图片类的素材集合;
步骤S3中,引入词向量表示算法对其中的文本素材集合进行进一步地分类和关键信息提取,得到文本素材整理结果;
步骤S4中,再基于图像语义分割算法对其中的图片素材集合进行分类和特征提取,通过一系列的图片处理过程,得到图片素材整理结果;
步骤S5中,将步骤S3和步骤S4中得到的文本素材整理结果和图片素材整理结果保存至非关系型的数据库,同时导入全文检索引擎,完成文化素材库的构建。
本发明实施例通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。
基于上述实施例,所述将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合,具体包括:
按照所述原始文化素材集合对应的文件扩展名进行分类;
得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。
具体地,为了实现对原始文化素材集合的进一步分类,本发明实施例使用以素材文件的扩展名来进行分类,识别以xml为扩展名的是文本素材集合,以jpg为扩展名的则是图片素材集合,以便后续对不同类别的素材集合进行有针对性地处理,并输出对应的处理结果。
本发明实施例通过对原始文化素材集合进行初始分类,便于后续进行对应的有区别的处理模式,能更准确地进行素材识别。
基于上述任一实施例,所述基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果,具体包括:
获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;
基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;
对所述文本语料导入词进行聚类分析,得到聚类文本;
将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。
具体地,针对筛选出来的文本素材集合,进行了如下的步骤进行处理:
图2为本发明实施例提供的数据清洗与文本提取部分体系结构图,如图2所示,开发了基于xml的文本信息提取程序,该程序有效集成了现有数据按扩展名分类、按照对应标签提取所需信息、建立基于标题的文本文件、将提取相应信息按照其标签存入xls文件等,提供了现有文本语料目录显示、数据量统计、对应标签文本提取与存储功能,促进了零散、混乱、无序的文本向集中、按一定规则排列的规则化文本数据转变。
在此基础上,研究建立了基于GloVe的文本分类体系,该技术体系对经过清洗的文本数据语料的提取、对提取数据的再处理、通过分词程序进行处理,最后将处理后的文本语料导入词嵌入矩阵并计算其与目标分类的近似度、基于单词间近似度技术的文本聚类与评估等步骤处理,完成对导入的大批量相近格式的xml文件处理后的信息进行深加工,得到文本信息所对应的分类。此处,词向量表示算法采用GloVe算法,Glove算法中的GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
可以理解的是,采用xls表格文件来存储最后的文本素材整理结果,具有更直观以及显著的分类整理效果,相比其他类型的文件,电子表格因其强大的归类和可编辑功能,适用于存储分类结果。
另外采用的分词处理过程如图3所示,将待分词的句子输入算法模型中,进行句子清洗,如果包含特殊字符,将其进行分离,一方面标注其中特殊字符为未知词性来输出结果,另一方面加载登陆词典,建立Trie树分词模型,在此基础上建立分词DAG(DirectedAcyclic Graph)词图,此处,建立Trie树进行DAG分词有两个优点:一是节省空间,二是查找迅速;进一步地,计算全局概率Route得到基于前缀词典的词频最大切分组合,将其中的登陆词按字典标注进行标识来输出结果,而未登录词采用Token识别中文和英文部分分开进行识别,英文部分采用和数字字典组合,进一步识别英文、数字以及时间形式的组合给予相应标注来输出结果,而在中文部分加载隐马HMM概率模型图,接下来采用Viterbi算法动态规则取得分词和标注,至此得到全部的分词结果。
本发明实施例通过采用基于xml的文本信息提取程序,以及建立了基于词向量表示算法的文本分类体系,构建了基于文化元素的语料库,达到了精确分类的效果。
基于上述任一实施例,所述对所述文本语料导入词进行聚类分析,得到聚类文本,具体包括:
获取所述文本语料导入词;
向所述文本语料导入词中导入预先训练好的中文词向量;
将所述文本语料导入词加载入词嵌入矩阵;
获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。
具体地,图4为本发明实施例提供的GloVe算法对导入文本进行聚类分析流程示意图,如图4所示,将前述实施例中得到的已分词的数据,导入已经训练好的中文词向量,再将分词后的文本加载入词嵌入矩阵,并导入分类标签,按照标签对导入文本进行聚类,最后将提取出的聚类存入xls文件。
本发明实施例采用标签聚类等方法对分词数据做进一步细化处理,得到更为精确的分类结果。
基于上述任一实施例,所述基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果,具体包括:
获取Faster R-CNN算法,提取所述Faster R-CNN算法中的分类标签输出,以及候选窗口输出;
基于所述分类标签输出和所述候选窗口输出,对所述图片素材集合进行物体检测,得到目标检测结果;
获取FCN算法,叠加在所述Faster R-CNN算法基础上,提取所述FCN算法中的二进制掩模输出,获得所述图像语义分割算法;
基于所述图像语义分割算法,对所述目标检测结果提取目标轮廓,得到所述图片素材整理结果。
其中,所述基于所述二进制掩模输出,对所述目标检测结果提取目标轮廓,具体包括:
对所述目标检测结果进行对象区域分割,识别所述对象分割区域的内容。
具体地,对于图片素材集合的处理,采用了改进结合的图像语义分割算法,首先,图像语义分割是一种pixel-wise级的一种图像分类操作,其目的是在图像中上的同一个类别上打上相同的label,以表示这个类别是同一类。在训练自己的数据集中,语义分割最重要且最基础的一步便是对图像进行标注,以训练得到自己的模型。
本发明实施例采用的图像语义分割算法,即Mask R-CNN算法,Mask R-CNN是Faster R-CNN和FCN的结合,前者负责物体检测(分类标签+窗口),后者负责确定目标轮廓。对于每个目标对象,Faster R-CNN都有两个输出,一是分类标签,二是候选窗口;为了分割目标像素,可以在前两个输出的基础上增加第三个输出——指示对象在窗口中像素位置的二进制掩模(mask)。和前两个输出不同,这个新输出需要提取更精细的空间布局,Mask R-CNN在Faster-RCNN上添加一个分支网络:Fully Convolution Network(FCN),FCN是一种流行的语义分割算法,机器自动从图像中分割出对象区域,并识别其中的内容。该模型首先通过卷积和最大池化层把输入图像压缩到原始大小的1/32,然后在这个细粒度级别进行分类预测。最后,它再用上采样和反卷积层把图还原成原始大小。
本发明实施例创新地使用图像语义分割算法,对图像中的元素进行提取,解决从单个图像中识别提取元素的技术难题。
基于上述任一实施例,所述将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库,之后还包括:
提取文化元素简介为标签,并从文化素材中提取文化元素,输入至所述非关系型数据库;
所述非关系型数据库实时同步数据至所述全文检索引擎;
用户输入检索词至所述全文检索引擎;
所述全文检索引擎返回检索结果给所述用户,进行检索结果展示。
具体地,图5为本发明实施例提供的素材检索系统流程图,如图5中所示,首先提取文化元素简介为标签,同时从文化素材中提取文化元素,一同输入至非关系型的数据库,本发明实施例采用的是MongoDB数据库,该数据库会实时同步数据至全文检索引擎,即ElasticSearch,用户在查询的时候会输入检索词,进行检索词分词,进入ElasticSearch检索,ElasticSearch全文检索引擎返回检索结果给用户,进行检索结果的展示。图6为本发明实施例提供的系统ER图,展示了素材库中文化元素的各分量。
此处,MongoDB数据库是一个开源的,基于分布式的,面向文档存储的非关系型数据库,是非关系型数据库中功能最丰富,并且最像关系型数据库的。MongoDB由C++语言编写,旨在处理海量的数据,并且提供高效的性能和良好的可靠性。
Elasticsearch是一个基于Lucene的使用Java开发的实时分布式搜索引擎,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful Web接口。并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。
本发明实施例通过用户在构建好的素材库中进行素材检索,由数据库进行特征标签和文化元素的提取,并结合搜索引擎进行全局搜索,实践证明,通过构建全文检索引擎,提供百万数据级别的快速精准检索需求,检索时间小于3s。
基于上述任一实施例,本发明实施例采用的软硬件处理环境为:超算服务器1台,逻辑CPU80个,内存500G,GPU3个,硬盘容量7T;安装Anaconda环境,引入glove,gensim等算法库,用于文本分类算法运行;引入labelme等工具,用于图像素材识别和提取算法运行;安装jdk1.8,MongoDB 4.0.10,ElasticSearch6.4.3,用于构建文化素材库系统。
图7为本发明实施例提供的一种基于人工智能的传统文化素材库构建系统结构图,如图7所示,包括:获取模块71、分类模块72、文本处理模块73、图片处理模块74和构建模块75;其中:
获取模块71用于获取原始文化素材集合;分类模块72用于将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;文本处理模块73用于基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;图片处理模块74用于基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;构建模块75用于将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
本发明实施例提供的系统用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。
本发明实施例通过应用基于人工智能的一系列算法,对文化元素的各个特征进行分类提取和整合,基于提取整合的结果构建了系统的文化素材库,很好地提供了搜索文化素材的体验。
基于上述任一实施例,所述分类模块72具体用于按照所述原始文化素材集合对应的文件扩展名进行分类;得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。
本发明实施例通过对原始文化素材集合进行初始分类,便于后续进行对应的有区别的处理模式,能更准确地进行素材识别。
基于上述任一实施例,所述文本处理模块73包括:数据清洗子模块731、分词处理子模块732、聚类子模块733和存储子模块734;其中:
数据清洗子模块731用于获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;分词处理子模块732用于基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;聚类子模块733用于对所述文本语料导入词进行聚类分析,得到聚类文本;存储子模块734用于将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。
本发明实施例通过采用基于xml的文本信息提取程序,以及建立了基于词向量表示算法的文本分类体系,构建了基于文化元素的语料库,达到了精确分类的效果。
基于上述任一实施例,所述聚类子模块733具体用于获取所述文本语料导入词;向所述文本语料导入词中导入预先训练好的中文词向量;将所述文本语料导入词加载入词嵌入矩阵;获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。
本发明实施例采用标签聚类等方法对分词数据做进一步细化处理,得到更为精确的分类结果。
基于上述任一实施例,所述图片处理模块74包括:提取子模块741、检测子模块742、叠加子模块743和输出子模块744;其中:
提取子模块741用于获取Faster R-CNN算法,提取所述Faster R-CNN算法中的分类标签输出,以及候选窗口输出;检测子模块742用于基于所述分类标签输出和所述候选窗口输出,对所述图片素材集合进行物体检测,得到目标检测结果;叠加子模块743用于获取FCN算法,叠加在所述Faster R-CNN算法基础上,提取所述FCN算法中的二进制掩模输出,获得所述图像语义分割算法;输出子模块744用于基于所述图像语义分割算法,对所述目标检测结果提取目标轮廓,得到所述图片素材整理结果。
其中所述叠加子模块743具体用于对所述目标检测结果进行对象区域分割,识别所述对象分割区域的内容。
本发明实施例创新地使用图像语义分割算法,对图像中的元素进行提取,解决从单个图像中识别提取元素的技术难题。
基于上述任一实施例,该系统还包括搜索模块76,所述搜索模块76用于提取文化元素简介为标签,并从文化素材中提取文化元素,输入至所述非关系型数据库;所述非关系型数据库实时同步数据至所述全文检索引擎;用户输入检索词至所述全文检索引擎;所述全文检索引擎返回检索结果给所述用户,进行检索结果展示。
本发明实施例通过用户在构建好的素材库中进行素材检索,由数据库进行特征标签和文化元素的提取,并结合搜索引擎进行全局搜索,实践证明,通过构建全文检索引擎,提供百万数据级别的快速精准检索需求,检索时间小于3s。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:获取原始文化素材集合;将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:获取原始文化素材集合;将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的传统文化素材库构建方法,其特征在于,包括:
获取原始文化素材集合;
将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
2.根据权利要求1所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合,具体包括:
按照所述原始文化素材集合对应的文件扩展名进行分类;
得到扩展名为xml的文本素材集合,以及扩展名为jpg的图片素材集合。
3.根据权利要求1所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果,具体包括:
获取词向量表示算法,将所述文本素材集合进行数据清洗,得到预处理文本素材集合;
基于分词算法,对所述预处理文本素材集合进行处理,得到文本语料导入词;
对所述文本语料导入词进行聚类分析,得到聚类文本;
将所述聚类分析文件存入xls文件,得到所述文本素材整理结果。
4.根据权利要求3所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述对所述文本语料导入词进行聚类分析,得到聚类文本,具体包括:
获取所述文本语料导入词;
向所述文本语料导入词中导入预先训练好的中文词向量;
将所述文本语料导入词加载入词嵌入矩阵;
获取分类标签,基于所述分类标签计算所述文本语料导入词与目标分类的近似度,得到所述聚类文本。
5.根据权利要求2所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果,具体包括:
获取Faster R-CNN算法,提取所述Faster R-CNN算法中的分类标签输出,以及候选窗口输出;
基于所述分类标签输出和所述候选窗口输出,对所述图片素材集合进行物体检测,得到目标检测结果;
获取FCN算法,叠加在所述Faster R-CNN算法基础上,提取所述FCN算法中的二进制掩模输出,获得所述图像语义分割算法;
基于所述图像语义分割算法,对所述目标检测结果提取目标轮廓,得到所述图片素材整理结果。
6.根据权利要求5所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述基于所述二进制掩模输出,对所述目标检测结果提取目标轮廓,具体包括:
对所述目标检测结果进行对象区域分割,识别所述对象分割区域的内容。
7.根据权利要求1至6任一权利要求所述的基于人工智能的传统文化素材库构建方法,其特征在于,所述将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库,之后还包括:
提取文化元素简介为标签,并从文化素材中提取文化元素,输入至所述非关系型数据库;
所述非关系型数据库实时同步数据至所述全文检索引擎;
用户输入检索词至所述全文检索引擎;
所述全文检索引擎返回检索结果给所述用户,进行检索结果展示。
8.一种基于人工智能的传统文化素材库构建系统,其特征在于,包括:
获取模块,用于获取原始文化素材集合;
分类模块,用于将所述原始文化素材集合进行分类,得到文本素材集合和图片素材集合;
文本处理模块,用于基于词向量表示算法对所述文本素材集合进行分类和提取关键信息,输出文本素材整理结果;
图片处理模块,用于基于图像语义分割算法对所述图片素材集合进行分类和特征提取,输出图片素材整理结果;
构建模块,用于将所述文本素材整理结果和所述图片素材整理结果保存至非关系型数据库,并导入全文检索引擎,构建文化素材库。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于人工智能的传统文化素材库构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于人工智能的传统文化素材库构建方法的步骤。
CN201911128530.3A 2019-11-18 2019-11-18 一种基于人工智能的传统文化素材库构建方法及系统 Pending CN110990563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911128530.3A CN110990563A (zh) 2019-11-18 2019-11-18 一种基于人工智能的传统文化素材库构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911128530.3A CN110990563A (zh) 2019-11-18 2019-11-18 一种基于人工智能的传统文化素材库构建方法及系统

Publications (1)

Publication Number Publication Date
CN110990563A true CN110990563A (zh) 2020-04-10

Family

ID=70084816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911128530.3A Pending CN110990563A (zh) 2019-11-18 2019-11-18 一种基于人工智能的传统文化素材库构建方法及系统

Country Status (1)

Country Link
CN (1) CN110990563A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN112528053A (zh) * 2020-12-23 2021-03-19 三星电子(中国)研发中心 多媒体库分类检索管理系统
CN112667831A (zh) * 2020-12-25 2021-04-16 上海硬通网络科技有限公司 素材存储方法、装置及电子设备
CN113384898A (zh) * 2021-06-10 2021-09-14 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质
CN114090777A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文本数据处理方法及装置
CN115757853A (zh) * 2022-11-09 2023-03-07 西安美院资产经营有限责任公司 一种群智化的艺术创新系统
CN117725146A (zh) * 2023-12-22 2024-03-19 中信出版集团股份有限公司 一种基于人工智能的网络信息加工处理系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095331A1 (en) * 2012-12-21 2015-04-02 Cloud Computing Center Chinese Academy Of Sciences Establishing and querying methods of knowledge library engine based on emergency management
CN109086393A (zh) * 2018-07-27 2018-12-25 贵州中科恒运软件科技有限公司 一种舆情分析系统及方法
CN109344425A (zh) * 2018-08-13 2019-02-15 湖南师范大学 一种基于长沙窑文物元素再造创意设计集成平台
CN110298884A (zh) * 2019-05-27 2019-10-01 重庆高开清芯科技产业发展有限公司 一种适于动态环境中单目视觉相机的位姿估计方法
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095331A1 (en) * 2012-12-21 2015-04-02 Cloud Computing Center Chinese Academy Of Sciences Establishing and querying methods of knowledge library engine based on emergency management
CN109086393A (zh) * 2018-07-27 2018-12-25 贵州中科恒运软件科技有限公司 一种舆情分析系统及方法
CN109344425A (zh) * 2018-08-13 2019-02-15 湖南师范大学 一种基于长沙窑文物元素再造创意设计集成平台
CN110298884A (zh) * 2019-05-27 2019-10-01 重庆高开清芯科技产业发展有限公司 一种适于动态环境中单目视觉相机的位姿估计方法
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381038A (zh) * 2020-11-26 2021-02-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN112381038B (zh) * 2020-11-26 2024-04-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN112528053A (zh) * 2020-12-23 2021-03-19 三星电子(中国)研发中心 多媒体库分类检索管理系统
CN112667831A (zh) * 2020-12-25 2021-04-16 上海硬通网络科技有限公司 素材存储方法、装置及电子设备
CN112667831B (zh) * 2020-12-25 2022-08-05 上海硬通网络科技有限公司 素材存储方法、装置及电子设备
CN113384898A (zh) * 2021-06-10 2021-09-14 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质
CN113384898B (zh) * 2021-06-10 2024-01-30 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质
CN114090777A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文本数据处理方法及装置
CN115757853A (zh) * 2022-11-09 2023-03-07 西安美院资产经营有限责任公司 一种群智化的艺术创新系统
CN117725146A (zh) * 2023-12-22 2024-03-19 中信出版集团股份有限公司 一种基于人工智能的网络信息加工处理系统和方法

Similar Documents

Publication Publication Date Title
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN106874279B (zh) 生成应用类别标签的方法及装置
CN109117777A (zh) 生成信息的方法和装置
US9436768B2 (en) System and method for pushing and distributing promotion content
CN110019943B (zh) 视频推荐方法、装置、电子设备和存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN116415017B (zh) 基于人工智能的广告敏感内容审核方法及系统
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
KR102575507B1 (ko) 인공지능을 활용한 기사 작성 솔루션 및 장치
CN116010545A (zh) 一种数据处理方法、装置及设备
CN115357720A (zh) 基于bert的多任务新闻分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination