CN106940726A - 一种基于知识网络的创意自动生成方法与终端 - Google Patents
一种基于知识网络的创意自动生成方法与终端 Download PDFInfo
- Publication number
- CN106940726A CN106940726A CN201710173037.8A CN201710173037A CN106940726A CN 106940726 A CN106940726 A CN 106940726A CN 201710173037 A CN201710173037 A CN 201710173037A CN 106940726 A CN106940726 A CN 106940726A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- intention
- information
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识网络的创意自动生成方法与终端,方法包括:首先构建发明知识网络,从专利数据中抽取出能表示专利特征的关键词,用欧氏距离计算向量空间模型中关键词的相似度,将相似度高的关键词用层次聚类的方式聚类,建立一种具有层次关联关系的创意关键词集合。通过定制的发明目标,根据定制目标与词云中关键词的关联度和词云集合中的层次紧密度,抽取出发明创意的关键词集合形成词云。标注所需要的创意信息,通过训练好的语言模型自动生成发明创意,从而完成创意引导过程。
Description
技术领域
本发明涉及一种基于知识网络的创意自动生成方法与终端。
背景技术
当今,信息技术高速发展,文字、图片、视频等数据倍增,全球的数据总量已经达到ZB级别,并且每年的增长速度都保持在40%左右,显然我们已经进入了大数据时代。大数据给人们带来了机会的同时也增大了定向检索发明创意的难度,这会令一些创新者不胜其烦,以往的检索发明创意信息的方式都是通过搜索引擎按需求搜索发明创意资料,查看专利、论文或者进入某一科技博客、论坛逐一翻看与你发明创意主题相似的话题、评论,这样会导致一些创新者在海量数据中检索有价值的发明创意信息难度加大,在检索过程中不仅会消耗大量的时间,而且检索精度非常低。在国家“双创”政策发布以来,人们对于寻求发明创意进行创新的热情越来越高涨,显然传统的方式已经满足不了新时代人们的需求。
发明内容
为了解决现有技术的不足,本发明提供了一种基于知识网络的创意自动生成方法与终端,其具有提供创意信息并自动生成创意的效果;
一种基于知识网络的创意自动生成方法,所述方法由计算机程序控制计算机设备来完成,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现以下步骤:
步骤(1):建立知识网络:对专利数据进行爬取,对爬取后的数据进行预处理,对预处理后的数据进行关键词抽取,然后利用层次聚类的方法将关键词进行聚类,最后建立具有层次关联关系的知识网络;
步骤(2):接收输入的发明创意需求;发明创意需求是所要发明或创新领域内的关键词,发明创意需求是关键词或一句话,如果是一句话,将所述一句话进行分词,然后根据用户选择所需要的关键词完成发明创意需求的输入;
步骤(3):按照输入的发明创意需求,通过计算发明创意需求与知识网络中关键词的关联度,推荐出关联度高的关键词,计算层次关联关系的紧密度,通过计算的层次关联关系的紧密度抽取出创意关键词集合即词云。同时推荐出与词云中心词相关的关联信息,包括高频词和专利文献信息。
步骤(4):用户根据发明创新需求更换词云中心词获取更多与需求相关的关键词,在词云和关联信息中标记出相关信息,通过训练好的语言模型自动生成发明创意。
步骤(5):从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导过程。
所述步骤(1)包括步骤(101)-步骤(105):
步骤(101):对专利数据进行爬取;
在万方数据知识服务网络上爬取专利信息,爬取专利的名称、类型、摘要、专利分类号信息,以下步骤处理的专利都是指专利的摘要部分;
步骤(102):对爬取的数据进行预处理;
用中科院分词系统NLPIR对步骤(101)爬取的专利摘要信息进行分词,并依据停用词库删除所爬取专利摘要信息中的停用词。
建立向量空间模型:把专利摘要信息中的分好的词统称为项Team,专利文档用项表示为D(t1,t2,t3…tn),不考虑tk在文档中的先后顺序和重复;把t1,t2,t3…tn看成一个N维的坐标系,而w1,w2,w3…wn为相应的坐标值,因而D(w1,w2,w3…wn)被看成是N维空间中的一个向量,D(w1,w2,w3…wn)为文档D的向量空间表示。
步骤(103):用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关键词。
步骤(104):计算抽取出关键词的相似度,将相似度高的关键词筛选出来,利用层次聚类的方法将抽取出来的关键词进行聚类,相似度高的关键词建立一种具有层次关联关系的集合。
步骤(105):建立具有层次关联关系的知识网络;根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。
步骤(103)的步骤为:
词频TF指的是一个词在专利中出现的次数;TF的英文全称是Term Frequency;
词频的计算公式如下:
专利的总词语数是指一篇专利分词后的词语个数;
逆向文件频率IDF是一个词语普遍重要性的度量;一个词语的IDF,由专利文献总文件数目除以包含该词语的专利文献的数目,再将得到的商取对数得到;IDF的英文全称是Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;
逆向文件频率IDF的计算公式如下:
TF-IDF的计算公式如下:
TF-IDF=词频TF×逆向文件频率IDF;
TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现次数成反比。所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行排列,取排在前面的设定个数的词。
所述步骤(104)的步骤为:
在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来。
用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:
公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空间模型中的位置信息、k指的是总的关键词的个数、distance(ti,tj)表示的是两个关键词之间的欧式距离。
使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻找欧式距离最近的两个关键词,将两个关键词结合,有N个关键词的集合Sn={t1,t2,…tn},聚成K个类。
所述凝聚层次聚类的步骤如下:
(1041)建立一个关键词集合di={ti}用来存放和ti相近的关键词,其中i=1,2,3,…k;
(1042)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;
(1043)找到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出来的关键词聚类成具有层次关联关系的双层结构,并存入di={ti、ta、tb、tc、td、te}中;
(1044)再依次寻找与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别作为父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的关键词有序地存入关键词集合di中,并将具有三层关联关系的关键词集合标记成ti;
(1045)除去ti,令k=k-1,然后转到第(1042)步。
所述停用词库采用中科院统计的中文停用词库,另外将“该发明、该案例和涉及”等词汇加入停用词库,避免此类词汇的词频过高影响最终关键词提取结果。
所述步骤(3)的步骤为:
步骤(31):按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和层次聚类后关键词的关联度。
WSR语义关联度计算公式如下:
公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点。RelArtNeti是基于专利文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重。
步骤(32):经过计算后,寻找出语义关联度最高的关键词,进而在知识网络中寻找与关联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合即词云。
聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次紧密度计算公式如下:
其中,Cl(Ni)表示聚类Ni内部的紧密度,tj则是聚类Ni中的任意关键词,是聚类Ni的中心,|Ni|表示聚类Ni中的关键词数目。
步骤(33):根据步骤(31)和步骤(32)计算关联度和层次紧密度后,将关联度高且层次紧密度高的创意关键词集合抽取出来形成词云。
步骤(34):生成词云的同时还会推荐出相应的关联信息。推荐出中心词及关联词所在的专利信息。通过计算专利中词频的方式,推荐出高频词。
所述步骤(4)的步骤为:
步骤(41):爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取的发明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集。
对爬取到的任一语句首先进行分词,然后对词语进行预处理,得到的语句e∈S表示为:
e=(<t1,w1><t2,w2>…<tk,wk>),k∈N
其中ti(i=1,2,3…,k)为发明创意信息分词后的词,wi(i=1,2,3…,k)为词语的语法语义表示项,词语的语法语义表示项,包括:名词词语NOTH,应用动词词语VAPP,介词、副词词语ATOH,数量词语UOTH。
词语的标识项构成的集合记为W:
W=(w1,w2,…,wk),wi∈W,i=1,2,3…,k
目标是为了生成一组语言模型:
语言模型=(rule1,rule2,…,rulek)
每一个规则rulei可表示为:rule=R1×R2×R3×…×Rk;
其中Ri有三种取值:通配符$(可以为任意词语,或为空Null),词语标识项w以及词语t,即:Ri∈{$}+W+{t1,t2,t3…,tk};
通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模型,然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型。
步骤(42):搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词集合,更换搜索中心词,得到更多与中心词具有关联关系的关键词。
步骤(43):查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信息以选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。
一种基于知识网络的创意自动生成终端,包括:
发明知识网络构建单元:爬取专利数据作为构建模块的数据集,对专利数据预处理,抽取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形成一种具有层次关联关系的发明知识网络。
创意引导单元:计算发明创意需求的关键词与发明知识网络中关键词的关联度,计算层次关联紧密度,抽取出创意关键词集合即词云,同时推荐专利文本信息和高频词的关联信息,查看相关信息引导创意的产生。
发明创意生成单元:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型,根据标记信息自动生成创意。
创意输出单元:选择所需要的发明创意,完成创意引导过程。
发明知识网络构建单元,包括:
预处理模块:首先对爬取到的专利信息进行分词,然后建立处理专利数据的停用词库,对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备。
关键词抽取模块:将专利文本信息在向量空间模型中表示出来,选择信息检索和文本挖掘中常用的加权技术抽取能表示专利信息的关键词。
相似度计算模块:计算抽取出关键词的相似度,将相似度高的关键词用凝聚层次聚类的方式聚类,建立一种具有层次关联关系的关键词集合。
发明知识网络形成模块:根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。
创意引导单元,包括:
关联度计算模块:用语义关联度计算的方式计算发明创意需求与发明知识网络中关键词的关联度,将关联度较高的关键词推荐出来。
紧密度计算模块:计算关键词和每个层次网络的紧密度。
词云形成模块:通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关键词集合,形成词云。
关联信息推荐模块:关联信息不仅包含与词云中心词相关的专利文本信息,而且包含专利文本中出现的高频词。
发明创意生成单元,包括:
标记模块:标记出词云中有关的关键词,更换词云中心词查看更多与中心词相关联的信息,同时标记出专利文本信息和高频词信息。
语言模型生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型。
创意自动生成模块:根据标记信息和已经训练好的语言模型,自动生成创意。
与现有技术相比,本发明的有益效果是:
建立了一个创意生成平台,用户只需明确自己发明创意的需求,系统就会推荐出一个具有层次关联关系的词云,词云分层次展示出与需求最相关的发明创意的关键词集合。例如,发明创意需求是“智能手机”,在词云中就会按层次展示出“无线通讯、蓝牙、app、数据连接、通信协议”等关键词。为了使系统用户更加清楚的了解词云中的关键词,系统还将推荐出与词云中心词相关的专利信息和专利中的高频词,根据发明创意需求深入浅出地了解与你所感兴趣的各个方面,这样根据系统生成的发明创意信息,有理有据地为创新者提供创意引导。如果这样还不能满足创新者的需求,我们还提供了发明创意自动生成的功能。在词云、专利信息、高频词中标记出所关注的信息,根据预先训练好的语言模型和标注出的信息,自动生成发明创意。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的系统调度示意图。
图2为本发明一个实施例的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
本发明提出了一种基于发明知识网络的创意自动生成方法与终端。
具体来说:
一是建立专用发明知识网络,为用户提供准确而有价值的发明创意信息。
二是建立一种训练好的语言模型,根据用户标记出来的关键词以及专利信息自动生成发明创意。
为了实现上述目的,如图1所示,本发明采用的技术方案具体包括:
发明知识网络构建模块:爬取专利数据作为构建模块的数据集,对专利数据预处理,抽取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形成一种具有层次关联关系的专用发明知识网络。
创意引导模块:计算发明创意需求与发明知识网络中关键词的关联度,推荐出关联度高的关键词,然后计算推荐出的关键词与层次网络的紧密度,抽取出创意关键词集合即词云,同时推荐包含专利文本信息和高频词的关联信息,查看相关信息引导创意产生。
发明创意生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型,根据标记信息自动生成发明创意。
创意输出:选择所需要的发明创意,完成创意引导过程。
具体的,发明知识网络构建模块包括以下实现步骤:
a.首先对爬取到的专利数据进行分词处理,然后建立处理专利数据的停用词库,对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备。
b.将专利文本信息在向量空间模型中表示出来,选择信息检索和文本挖掘中常用的加权技术抽取能表示专利信息的关键词。
c.计算抽取出关键词相似度,将相似度高的关键词用凝聚层次聚类的方式聚类,建立一种具有层次关联关系的关键词集合。
d.根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,建立发明知识网络。
具体的,创意引导模块包括以下实现步骤:
a.用语义关联度计算的方式计算发明创意需求与发明知识网络中关键词的关联度,将关联度较高的关键词推荐出来。
b.由于只计算关联度不能准确推荐出创意关键词集合,一个关键词可能同时属于多个层次网络/关键词集合,继续计算此关键词和每个层次网络的紧密度。
c.通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关键词集合,形成词云。
d.同时会推荐出一些关联信息,关联信息不仅包含与词云中心词相关的专利文本信息,而且包含专利文本中出现的高频词。
具体的,发明创意生成模块包括以下实现步骤:
a.标记出词云中有关的关键词,更换词云中心词查看关键词的层次关联关系,同时标记出专利文本信息和高频词信息。
b.通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型。
c.根据标记信息和已经训练好的语言模型,自动生成创意。
下面以一个实施例对创意自动生成方法与终端进行具体的阐述。如图2所示;
步骤201:建立发明知识网络;对爬取的专利数据预处理,然后抽取数据中的关键词,用层次聚类的方法将关键词聚类,建立具有层次关联关系的发明知识网络。
分步骤1:首先对专利数据进行分词处理,然后建立专用的停用词库。由于专利数据信息中含有较多的与要抽取关键词不相关的词汇,为了优化抽取关键词的结果,抽取关键词前先对专利文献去停用词。停用词库则选择的是中科院统计的中文停用词库,另外,将专利信息中“该发明、该案例、涉及”等词汇加入停用词库。
分步骤2:将专利文本用向量空间模型表示。把专利摘要中的分好的词统称为项Team,专利文档用项表示为D(t1,t2,t3…tn),不考虑Tk在文档中的先后顺序和重复;把t1,t2,t3…tn看成一个N维的坐标系,而w1,w2,w3…wn为相应的坐标值,因而D(w1,w2,w3…wn)被看成是N维空间中的一个向量,D(w1,w2,w3…wn)为文档D的向量空间表示
分步骤3:用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关键词。
词频TF指的是某一个给定的词语在该文件中出现的次数;TF的英文全称是TermFrequency;
词频的计算公式如下:
逆向文件频率IDF是一个词语普遍重要性的度量。一个词语的IDF,由专利文献文件总数目除以包含该词语的专利文献的数目,再将得到的商取对数得到。IDF的英文全称是Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;
逆向文件频率的计算公式如下:
TF-IDF的计算公式如下:
TF–IDF=词频(TF)×逆文档频率(IDF)
TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现次数成反比。所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行排列,取排在前面的设定个数的词;
分步骤4:计算关键词之间的相似度,聚类关键词,相似度高的关键词建立一种层次关联关系。
在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来。
用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:
公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空间模型中的位置信息、k指的是总的关键词的个数、distance(ti,tj)表示的是两个关键词之间的欧式距离。
使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻找欧式距离最近的两个关键词,将两个关键词结合,有N个关键词的集合Sn={t1,t2,…tn},聚成K个类。
凝聚层次聚类的步骤如下:
1)建立一个关键词集合di={ti}用来存放和ti相近的关键词,其中i=1,2,3,…k;
2)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;
3)找到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出来的关键词聚类成具有层次关联关系的双层结构,并存入di={ti、ta、tb、tc、td、te}中;
4)再依次寻找与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别作为父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的关键词有序地存入关键词集合di中,并将具有三层关联关系的关键词集合标记成ti;
5)除去ti,令k=k-1,然后转到第2)步;
分步骤5:根据聚类成功的关键词集合和相应的层次关联关系,形成具有关联关系的三层模型,建立发明知识网络。
步骤202:输入发明创意需求;发明创意需求即是所要发明或创新领域内的主要关键词,可以是关键词或是一句完整的话,如果是一句话会自动将这一句话分词,然后选择你所需要的关键词完成发明创意需求的输入。
步骤203:按照输入的发明创意需求,计算需求与发明知识网络中关键词的关联度,推荐出关联度高的关键词,只计算关联度不能很好地抽取创意关键词集合,一个关键词可能同时属于不同的层次关联模型,将语义关联度和层次关联关系的紧密度结合起来计算,抽取出创意关键词集合即词云。同时推荐出与词云中心词相关的关联信息,包括高频词和专利文本信息。
分步骤1:按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和层次聚类后关键词的关联度。
WSR语义关联度计算公式如下:
公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点。RelArtNeti是基于专利文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重。
分步骤2:经过计算后,寻找出语义关联度最高的关键词,进而在知识网络中寻找与关联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合即词云。
聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次紧密度计算公式如下:
其中,Cl(Ni)表示聚类Ni内部的紧密度,tj则是聚类Ni中的任意关键词,是聚类Ni的中心,|Ni|表示聚类Ni中的关键词数目。
分步骤3:根据上述方法计算关联度和层次紧密度后,将关联度高而且层次紧密度高的创意关键词集合抽取出来形成词云。
分步骤4:生成词云的同时还会推荐出相应的关联信息。通过计算需求关键词和专利文本信息的相似度,推荐出专利文本信息。通过计算专利中词频的方式,推荐出高频词,引导创意的产生。
步骤204:更换词云中心词获取更多与需求相关的关键词,在词云和关联信息中标记出相关信息,通过训练好的语言模型自动生成发明创意。
分步骤1:爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取的发明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集。
对爬取到的任一语句首先进行分词,然后对词语进行简单的预处理,这样得到的语句e∈S可表示为:
e=(<t1,w1><t2,w2>…<tk,wk>),k∈N
其中ti(i=1,2,3…,k)为发明创意信息分词后的词,wi(i=1,2,3…,k)为词语的语法语义表示项,如一般名词词语NOTH,应用动词词语VAPP,介词、副词词语ATOH,数量词语UOTH等等。
这些词语的标识项构成的集合记为W:
W=(w1,w2,…,wk),wi∈W,i=1,2,3…,k
目标是为了生成一组语言模型:
语言模型=(rule1,rule2,…,rulek)
每一个规则rulei可表示为:rule=R1×R2×R3×…
其中Ri有三种取值:通配符$(可以为任意词语,或为空Null),词语标识项w以及词语t,即:Ri∈{$}+W+{t1,t2,t3…}
通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模型,然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型。
分步骤2:搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词集合,更换搜索中心词,得到更多与中心词具有关联关系的关键词。
分步骤3:查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信息以选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。
步骤205:从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导过程。
以上所述仅为本发明的优先实施例,并不用于限制本发明,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于知识网络的创意自动生成方法,其特征是,所述方法由计算机程序控制计算机设备来完成,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现以下步骤:
步骤(1):建立知识网络:对专利数据进行爬取,对爬取后的数据进行预处理,对预处理后的数据进行关键词抽取,然后利用层次聚类的方法将关键词进行聚类,最后建立具有层次关联关系的知识网络;
步骤(2):接收输入的发明创意需求;发明创意需求是所要发明或创新领域内的关键词,发明创意需求是关键词或一句话,如果是一句话,将所述一句话进行分词,然后根据用户选择所需要的关键词完成发明创意需求的输入;
步骤(3):按照输入的发明创意需求,通过计算发明创意需求与知识网络中关键词的关联度,推荐出关联度高的关键词,计算层次关联关系的紧密度,通过计算的层次关联关系的紧密度抽取出创意关键词集合即词云;同时推荐出与词云中心词相关的关联信息,包括高频词和专利文献信息;
步骤(4):用户根据发明创新需求更换词云中心词获取更多与需求相关的关键词,在词云和关联信息中标记出相关信息,通过训练好的语言模型自动生成发明创意;
步骤(5):从自动生成的发明创意信息中选取需要的创意信息,从而完成创意引导过程。
2.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤(1)包括步骤(101)-步骤(105):
步骤(101):对专利数据进行爬取;
在万方数据知识服务网络上爬取专利信息,爬取专利的名称、类型、摘要、专利分类号信息,以下步骤处理的专利都是指专利的摘要部分;
步骤(102):对爬取的数据进行预处理;
用中科院分词系统NLPIR对步骤(101)爬取的专利摘要信息进行分词,并依据停用词库删除所爬取专利摘要信息中的停用词;
建立向量空间模型:把专利摘要信息中的分好的词统称为项Team,专利文档用项表示为D(t1,t2,t3…tn),不考虑tk在文档中的先后顺序和重复;把t1,t2,t3…tn看成一个N维的坐标系,而w1,w2,w3…wn为相应的坐标值,因而D(w1,w2,w3…wn)被看成是N维空间中的一个向量,D(w1,w2,w3…wn)为文档D的向量空间表示;
步骤(103):用TF-IDF方法计算向量空间模型中项的权重,并抽取专利摘要中的关键词;
步骤(104):计算抽取出关键词的相似度,将相似度高的关键词筛选出来,利用层次聚类的方法将抽取出来的关键词进行聚类,相似度高的关键词建立一种具有层次关联关系的集合;
步骤(105):建立具有层次关联关系的知识网络;根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。
3.如权利要求2所述的一种基于知识网络的创意自动生成方法,其特征是,步骤(103)的步骤为:
词频TF指的是一个词在专利中出现的次数;TF的英文全称是Term Frequency;
词频的计算公式如下:
专利的总词语数是指一篇专利分词后的词语个数;
逆向文件频率IDF是一个词语普遍重要性的度量;一个词语的IDF,由专利文献总文件数目除以包含该词语的专利文献的数目,再将得到的商取对数得到;IDF的英文全称是Inverse Document Frequency;所述指定词语是指专利摘要中的分好词的结果;
逆向文件频率IDF的计算公式如下:
TF-IDF的计算公式如下:
TF-IDF=词频TF×逆向文件频率IDF;
TF-IDF与一个词在专利文献中出现的次数成正比,与该词在所有专利文献中出现次数成反比;所以,提取关键词就是计算出文档的每个词的TF-IDF值,然后按从大到小进行排列,取排在前面的设定个数的词。
4.如权利要求2所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤(104)的步骤为:
在向量空间模型中计算抽取出关键词的相似度,将相似度高的关键词筛选出来;
用欧式距离来计算关键词之间的相似度,欧式距离的表达式如下:
公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空间模型中的位置信息、k指的是总的关键词的个数、distance(ti,tj)表示的是两个关键词之间的欧式距离;
使用凝聚层次聚类的方法来聚类相似度高的关键词,就是寻找欧式距离最近的两个关键词,将两个关键词结合,有N个关键词的集合Sn={t1,t2,…tn},聚成K个类。
5.如权利要求4所述的一种基于知识网络的创意自动生成方法,其特征是,所述凝聚层次聚类的步骤如下:
(1041)建立一个关键词集合di={ti}用来存放和ti相近的关键词,其中i=1,2,3,…k;
(1042)设置一个参数k来记录关键词总个数,如果k等于聚类数K,则结束循环;
(1043)找到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出来的关键词聚类成具有层次关联关系的双层结构,并存入di={ti、ta、tb、tc、td、te}中;
(1044)再依次寻找与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别作为父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的关键词有序地存入关键词集合di中,并将具有三层关联关系的关键词集合标记成ti;
(1045)除去ti,令k=k-1,然后转到第(1042)步。
6.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤(3)的步骤为:
步骤(31):按语义关联度计算方法WSR来计算输入的发明创意需求中的关键词和层次聚类后关键词的关联度;
WSR语义关联度计算公式如下:
公式中a是指发明创意需求中的关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点;RelArtNeti是基于专利文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重;
步骤(32):经过计算后,寻找出语义关联度最高的关键词,进而在知识网络中寻找与关联度最高的关键词的聚类层次结构,再根据层次紧密度大小,抽取出创意关键词集合即词云;
聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次紧密度计算公式如下:
其中,Cl(Ni)表示聚类Ni内部的紧密度,tj则是聚类Ni中的任意关键词,是聚类Ni的中心,|Ni|表示聚类Ni中的关键词数目;
步骤(33):根据步骤(31)和步骤(32)计算关联度和层次紧密度后,将关联度高且层次紧密度高的创意关键词集合抽取出来形成词云;
步骤(34):生成词云的同时还会推荐出相应的关联信息;推荐出中心词及关联词所在的专利信息;通过计算专利中词频的方式,推荐出高频词。
7.如权利要求1所述的一种基于知识网络的创意自动生成方法,其特征是,所述步骤(4)的步骤为:
步骤(41):爬取创意设计网的发明创意信息作为训练语言模型的数据集,所爬取的发明创意信息主要是发明创意标题信息,将数据集分为训练集和测试集;
对爬取到的任一语句首先进行分词,然后对词语进行预处理,得到的语句e∈S表示为:
e=(<t1,w1><t2,w2>…<tk,wk>),k∈N
其中ti(i=1,2,3…,k)为发明创意信息分词后的词,wi(i=1,2,3…,k)为词语的语法语义表示项,词语的语法语义表示项,包括:名词词语NOTH,应用动词词语VAPP,介词、副词词语ATOH,数量词语UOTH;
词语的标识项构成的集合记为W:
W=(w1,w2,…,wk),wi∈W,i=1,2,3…,k
目标是为了生成一组语言模型:
语言模型=(rule1,rule2,…,rulek)
每一个规则rulei可表示为:rule=R1×R2×R3×…×Rk;
其中Ri有三种取值:通配符$为任意词语或为空Null;词语标识项w以及词语t,即:Ri∈{$}+W+{t1,t2,t3…,tk};
通过对训练集中的发明创意信息进行逐一学习,得到一组能覆盖训练集的语言模型,然后用测试集进行测试并调整模型信息,进而得到自动生成的发明创意信息语言模型;
步骤(42):搜索与发明创意需求相关的关键词,得到具有关联关系的创意关键词集合,更换搜索中心词,得到更多与中心词具有关联关系的关键词;
步骤(43):查看中心词、关联词、高频词和专利信息,将与发明创意需求相关的信息以选中加入记事本的方式标记出来,通过训练好的语言模型自动生成发明创意。
8.一种基于知识网络的创意自动生成终端,其特征是,包括:
发明知识网络构建单元:爬取专利数据作为构建模块的数据集,对专利数据预处理,抽取出能表示专利特征的关键词,计算关键词相似度,同时聚类相似度高的关键词,形成一种具有层次关联关系的发明知识网络;
创意引导单元:计算发明创意需求的关键词与发明知识网络中关键词的关联度,计算层次关联紧密度,抽取出创意关键词集合即词云,同时推荐专利文本信息和高频词的关联信息,查看相关信息引导创意的产生;
发明创意生成单元:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型,根据标记信息自动生成创意;
创意输出单元:选择所需要的发明创意,完成创意引导过程。
9.如权利要求8所述的一种基于知识网络的创意自动生成终端,其特征是,发明知识网络构建单元,包括:
预处理模块:首先对爬取到的专利信息进行分词,然后建立处理专利数据的停用词库,对专利文本数据进行预处理,去掉没有意义的词,为提取关键词做好准备;
关键词抽取模块:将专利文本信息在向量空间模型中表示出来,选择信息检索和文本挖掘中常用的加权技术抽取能表示专利信息的关键词;
相似度计算模块:计算抽取出关键词的相似度,将相似度高的关键词用凝聚层次聚类的方式聚类,建立一种具有层次关联关系的关键词集合;
发明知识网络形成模块:根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立发明知识网络。
10.如权利要求8所述的一种基于知识网络的创意自动生成终端,其特征是,创意引导单元,包括:
关联度计算模块:用语义关联度计算的方式计算发明创意需求与发明知识网络中关键词的关联度,将关联度较高的关键词推荐出来;
紧密度计算模块:计算关键词和每个层次网络的紧密度;
词云形成模块:通过比较关键词关联度和层次关联紧密度,抽取出相应的创意关键词集合,形成词云;
关联信息推荐模块:关联信息不仅包含与词云中心词相关的专利文本信息,而且包含专利文本中出现的高频词;
发明创意生成单元,包括:
标记模块:标记出词云中有关的关键词,更换词云中心词查看更多与中心词相关联的信息,同时标记出专利文本信息和高频词信息;
语言模型生成模块:通过爬取到的发明创意信息进行训练,得到一种自动生成发明创意的语言模型;
创意自动生成模块:根据标记信息和已经训练好的语言模型,自动生成创意。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173037.8A CN106940726B (zh) | 2017-03-22 | 2017-03-22 | 一种基于知识网络的创意自动生成方法与终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173037.8A CN106940726B (zh) | 2017-03-22 | 2017-03-22 | 一种基于知识网络的创意自动生成方法与终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106940726A true CN106940726A (zh) | 2017-07-11 |
CN106940726B CN106940726B (zh) | 2020-09-01 |
Family
ID=59463006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710173037.8A Active CN106940726B (zh) | 2017-03-22 | 2017-03-22 | 一种基于知识网络的创意自动生成方法与终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106940726B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679084A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN108563749A (zh) * | 2018-04-16 | 2018-09-21 | 中山大学 | 基于多维度信息和知识网络的在线教育系统资源推荐方法 |
CN111753067A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本创新性评估方法、装置和设备 |
CN112036158A (zh) * | 2020-09-01 | 2020-12-04 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN112559668A (zh) * | 2020-08-23 | 2021-03-26 | 同济大学 | 一种基于聚类的专利地图制作与表示方法 |
CN112559734A (zh) * | 2019-09-26 | 2021-03-26 | 中国科学技术信息研究所 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
CN113297447A (zh) * | 2020-02-24 | 2021-08-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析系统及方法 |
CN113535125A (zh) * | 2021-08-04 | 2021-10-22 | 中国工商银行股份有限公司 | 金融需求项生成方法及装置 |
CN115033772A (zh) * | 2022-06-20 | 2022-09-09 | 浙江大学 | 一种基于语义网络的创意激发方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011126474A1 (en) * | 2010-04-05 | 2011-10-13 | Global Patent Research Limited Cpa | Locating technology centers in an organization using a patent search engine |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
-
2017
- 2017-03-22 CN CN201710173037.8A patent/CN106940726B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011126474A1 (en) * | 2010-04-05 | 2011-10-13 | Global Patent Research Limited Cpa | Locating technology centers in an organization using a patent search engine |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
CN105808768A (zh) * | 2016-03-19 | 2016-07-27 | 浙江大学 | 一种基于图书的概念-描述词知识网络的构建方法 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
Non-Patent Citations (3)
Title |
---|
孙琛琛 等: "WSR:一种基于维基百科结构信息的语义关联度计算算法", 《计算机学报》 * |
白新国: "基于主题图的教育文献资源组织模型与应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
马刚: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679084A (zh) * | 2017-08-31 | 2018-02-09 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN108563749B (zh) * | 2018-04-16 | 2020-11-10 | 中山大学 | 基于多维度信息和知识网络的在线教育系统资源推荐方法 |
CN108563749A (zh) * | 2018-04-16 | 2018-09-21 | 中山大学 | 基于多维度信息和知识网络的在线教育系统资源推荐方法 |
CN112559734A (zh) * | 2019-09-26 | 2021-03-26 | 中国科学技术信息研究所 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
CN112559734B (zh) * | 2019-09-26 | 2023-10-17 | 中国科学技术信息研究所 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
CN113297447A (zh) * | 2020-02-24 | 2021-08-24 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析系统及方法 |
CN111753067A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本创新性评估方法、装置和设备 |
CN112559668A (zh) * | 2020-08-23 | 2021-03-26 | 同济大学 | 一种基于聚类的专利地图制作与表示方法 |
CN112036158A (zh) * | 2020-09-01 | 2020-12-04 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN112036158B (zh) * | 2020-09-01 | 2023-11-03 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN113535125A (zh) * | 2021-08-04 | 2021-10-22 | 中国工商银行股份有限公司 | 金融需求项生成方法及装置 |
CN115033772A (zh) * | 2022-06-20 | 2022-09-09 | 浙江大学 | 一种基于语义网络的创意激发方法及装置 |
CN115033772B (zh) * | 2022-06-20 | 2024-06-21 | 浙江大学 | 一种基于语义网络的创意激发方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106940726B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106940726A (zh) | 一种基于知识网络的创意自动生成方法与终端 | |
Madabushi et al. | Integrating question classification and deep learning for improved answer selection | |
US20190332672A1 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US10678786B2 (en) | Translating search queries on online social networks | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN108509482A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
Nguyen et al. | LifeSeeker 3.0: An Interactive Lifelog Search Engine for LSC'21 | |
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN108304373A (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN114997288B (zh) | 一种设计资源关联方法 | |
CN110399505A (zh) | 语义标签生成方法及设备、计算机存储介质 | |
CN109597892A (zh) | 一种数据库中数据的分类方法、装置、设备及存储介质 | |
Asgari-Chenaghlu et al. | Topicbert: A transformer transfer learning based memory-graph approach for multimodal streaming social media topic detection | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
Gao et al. | Chatbot or Chat-Blocker: Predicting chatbot popularity before deployment | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
Fauzan et al. | Automatic multilabel categorization using learning to rank framework for complaint text on Bandung government | |
CN108763208A (zh) | 话题信息获取方法、装置、服务器和计算机可读存储介质 | |
Gaman et al. | UnibucKernel: Geolocating Swiss German jodels using ensemble learning | |
Dashdorj et al. | High‐level event identification in social media | |
Gao et al. | Deep learning based network news text classification system | |
Bleiweiss | A hierarchical book representation of word embeddings for effective semantic clustering and search | |
Wang et al. | A cnn-based feature extraction scheme for patent analysis | |
GENTILE | Using Flickr geotags to find similar tourism destinations | |
US12057032B1 (en) | Auto-solving multiple-choice questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |