CN113609288B - 一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 - Google Patents
一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 Download PDFInfo
- Publication number
- CN113609288B CN113609288B CN202110699164.8A CN202110699164A CN113609288B CN 113609288 B CN113609288 B CN 113609288B CN 202110699164 A CN202110699164 A CN 202110699164A CN 113609288 B CN113609288 B CN 113609288B
- Authority
- CN
- China
- Prior art keywords
- innovation
- principle
- innovative
- field
- universal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 259
- 238000010276 construction Methods 0.000 title claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 76
- 238000013145 classification model Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000013459 approach Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000004925 denaturation Methods 0.000 claims description 3
- 230000036425 denaturation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000002054 transplantation Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 7
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003137 locomotive effect Effects 0.000 description 2
- PGLIUCLTXOYQMV-UHFFFAOYSA-N Cetirizine hydrochloride Chemical compound Cl.Cl.C1CN(CCOCC(=O)O)CCN1C(C=1C=CC(Cl)=CC=1)C1=CC=CC=C1 PGLIUCLTXOYQMV-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质,所述方法包括:构建普适性创新方法数据集,并利用其训练朴素贝叶斯分类模型得到创新方法‑创新原理分类模型,再将本领域创新方法数据集的数据特征输入分类模型得到创新原理分类结果,最后构建出创新原理‑应用背景的映射词典以及普适性创新方法‑应用背景的映射词典。本发明针对某一技术领域构建了其独有的分类体系,从而针对本技术领域中待求解技术问题,确定其应用背景后可以快速确定对应的创新原理以及普适性创新方法,便于进行本领域技术研究及改进,本发明所述方法尤其适用于轨道交通装备领域,对提升轨道交通整体自主创新水平起到重要作用。
Description
技术领域
本发明属于文本处理技术领域,具体涉及一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质。
背景技术
目前针对创新方法的分类研究主要集中在对普适性创新方法的多维度集成应用模式研究,缺乏对特定技术领域的分析,从而导致构建的分类体系缺乏某一技术领域的独有特性。尤其是针对轨道交通装备领域,对于轨道交通装备而言,单一的、局部的创新方法难以满足其日益复杂的创新活动,因此,加快总结轨道交通装备技术创新的既往方法和经验,梳理轨道交通装备领域特有创新方法,研究具有轨道交通装备领域特色的创新方法分类体系,将对提升轨道交通整体自主创新水平起到重要作用。
发明内容
本发明的目的是针对某一特定技术领域,提供一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质,用于实现特定技术领域创造方法分类体系的构建,以便后续在研发、生产和服务过程中进行创新指导。
一方面,本发明提供一种技术领域创新方法的分类体系构建方法,其包括以下步骤:
S1:获取普适性创新方法及其创新原理,其中,将所述创新原理设置为普适性创新方法的样本标签,构建普适性创新方法数据集;
S2:利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型;
所述创新方法-创新原理分类模型的输入数据为所述普适性创新方法数据集的数据特征,输出数据为创新原理分类结果;
S3:将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果;
S4:基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
本发明提供的所述分类体系的构建方法,其针对某一技术领域构建了创新原理-应用背景的映射词典以及普适性创新方法-应用背景的映射词典。从而,针对本技术领域中待求解的应用背景的问题,可以快速确定其对应的创新原理以及普适性创新方法,便于对本领域进行技术研究、技术改进以及解决应用问题。其中,从普适性创新方法出发,构建创新方法-创新原理分类模型,从而可以快速确定本领域创新方法对应的创新原理,从而构建了普适性创新方法-创新原理-本领域创新方法-应用背景之间的关联关系。
可选地,步骤S2中所述普适性创新方法数据集的数据特征的获取如下:
S2-1:对所述普适性创新方法数据集中创新方法的文本内容进行预处理;
S2-2:对所述普适性创新方法数据集进行特征提取,其中,计算创新方法的文本内容中所有特征词的TF-IDF值,再构建所述普适性创新方法数据集的TF-IDF矩阵TDQG;
S2-3:对所述普适性创新方法数据集的TF-IDF矩阵TDQG进行权重调整得到数据特征;
其中,对特征词的TF-IDF值进行大小排序,构建关键词集合K以及特征词集合W;所述关键词集合K中包含了每个创新方法样本中TF-IDF值排前q的特征词,所述特征词集合 W包含所有特征词,再按照如下循环算法调整特征词权重:
判断位于TDQG矩阵中第i行,第j个元素对应的特征词wi,j是否为关键词集合K中的元素;其中,矩阵TDQG的大小为Q×G,Q为文本数量,G为特征词集合W中特征词数量,每一行的列数对应特征词集合W中的特征词个数;
若是,判断矩阵TDQG中第i行,第j个元素TD[i,j]是否等于0,若TD[i,j]不等于0,令TD[i,j]=TD[i,j]*log(1+ex),ex表示以e为底的指数函数,x为常数;
按照上述循环算法调整特征词权重后,将特征词权重调整后的TF-IDF矩阵TDQG作为所述普适性创新方法数据集的数据特征。
可选地,将所述普适性创新方法数据集划分为训练集和测试集,所述训练集用于训练朴素贝叶斯分类模型,所述测试集用于对所述创新方法-创新原理分类模型进行测试,训练和测试过程中分别获取训练集、测试集对应的数据特征参与训练和测试。
可选地,所述TF-IDF值的计算公式如下:
TF-IDF=TF*IDF
其中:nw表示特征词w在某创新方法的文本内容中出现的次数;
n表示某创新方法的文本内容中特征词总数;
N表示数据集中创新方法的文本总数;
Nw表示数据集中包含特征词w的文本数量。
可选地,包括本领域创新方法-创新原理的映射词典C-R、本领域创新方法-应用背景的映射词典B-R、创新原理-应用背景的映射词典B-C、普适性创新方法与创新原理的映射词典 C-U、以及普适性创新方法-应用背景的映射词典U-B;
其中,所述本领域创新方法-创新原理的映射词典C-R为:C-R={cpi:rci|i=1,2,…,P}, cpi为第i类创新原理,rci为属于第i类创新原理的本领域创新方法集;
所述本领域创新方法-应用背景的映射词典B-R为:B-R={rcj:abj|j=1,2,…,n},rcj为第j个本领域创新方法,abj为对应于第j个创新方法的应用背景集;
当rci=rcj时,构建出所述创新原理-应用背景的映射词典B-C: B-C={abj:cpi|j=1,2,…,n;i=1,2,…,P}
所述普适性创新方法与创新原理的映射词典C-U表示为:
C-U={cpi:uci|i=1,2,…,P}
其中,uci为属于第i类创新原理的普适性创新方法集;
所述普适性创新方法-应用背景的映射词典U-B,表示为:
U-B={uci:abj|i=1,2,…,P;j=1,2,…,n}
n、P分别为创新方法数量和创新原理类别数。
可选地,利用映射词典获取某技术问题的应用背景对应的创新方法集合的过程如下:
利用所述创新问题的应用背景,并基于所述创新原理-应用背景的映射词典B-C确定创新原理cpi;
以所述创新原理cpi为键,基于所述普适性创新方法与创新原理的映射词典C-U获取普适性创新方法集uci;以及基于本领域创新方法-创新原理的映射词典C-R获取本领域创新方法集rci;
最后将领域创新方法集rci和普适性创新方法集uci的并集Ci作为创新问题的应用背景对应的创新方法集合。
可选地,所述技术领域为轨道交通装备领域,所述应用背景包括:产品类型、创新对象、创新链环节、创新类别及创新程序五个维度;所述创新原理包括还原原理、组合原理、变性原理、移植原理、逆反原理、迂回原理、群体原理和完满原理。
二方面,本发明提供一种基于上述方法的系统,其包括:
普适性创新方法数据集构建模块,用于获取普适性创新方法及其创新原理,并构建普适性创新方法数据集,其中,将所述创新原理设置为普适性创新方法的样本标签;
创新方法-创新原理分类模型构建模块,用于利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型;
分类模块,用于将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果;
映射词典构建模块,用于基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
三方面,本发明提供一种终端,其包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:
一种技术领域创新方法的分类体系构建方法的步骤。
四方面,本发明提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以执行:
一种技术领域创新方法的分类体系构建方法的步骤。
有益效果
本发明提供的一种技术领域创新方法的分类体系构建方法,其基于普适性创新方法及其创新原理构建了创新方法-创新原理分类模型,从而利用创新方法-创新原理分类模型确定本领域创新方法的创新原理,进而搭建了普适性创新方法-创新原理-本领域创新方法-应用背景的关联关系,最终构建了本领域创新方法-创新原理-应用背景-普适性创新方法之间的多重映射词典,为本领域的创新方法分类提供了一种全新的分类体系,也便于快速确定一个应用问题对应的创新原理及本领域的创新方法,尤其适用于轨道交通装备领域,对提升轨道交通整体自主创新水平起到重要作用。
附图说明
图1是本发明提供的一种技术领域创新方法的分类体系构建方法的流程示意图;
图2是本发明提供的分类体系构建系统的功能模块示意图。
图3是本发明提供的创新方法-创新原理-应用背景的关系示意图。
具体实施方式
本发明提供的一种技术领域创新方法的分类体系构建方法,用于对某一特定技术领域的创新方法进行分类,构建了本领域创新方法-创新原理-应用背景-普适性创新方法之间的多重映射词典,其中,应用背景是指本领域的技术应用背景。从而,针对本领域的应用问题,基于其应用背景可以快速确定创新原理和普适性创新方法,其中,普适性创新方法的定义为现存能够普遍地适用于同类对象或事物的创新方法,比如TRIZ、QFD法、头脑风暴法等。本发明将以轨道交通装备技术领域为例进行下文阐述,应当理解,本发明并不局限于此。下面将结合实施例对本发明做进一步的说明。
实施例1:
如图1所示的为轨道交通装备技术领域的创新方法分类体系构建过程的流程示意图,其中,针对轨道交通装备技术领域,本实施例提供的创新方法的分类体系构建方法概括为5个方面,具体包括以下步骤:
步骤1:获取普适性创新方法及其创新原理,再构建普适性创新方法数据集。
本实施例中利用爬虫和人工提取等方式从互联网、中国知网以及图书馆等多个线上线下途径获取普适性创新方法;再通过查阅文献及相关资料,确定普适性创新方法的创新原理,并以创新原理作为普适性创新方法的样本标签。其中,人工搜索关键词包括:创新方法、创新技法、创造方法、创造技法和创新思维等,检索途径包括互联网、期刊和专著等。获取内容包括创新方法的名称、定义、内容以及应用流程。
步骤2:获取本领域创新方法及其应用背景,再构建本领域创新方法数据集。该本领域创新方法数据集中包含了本领域创新方法。
本实施例中从轨道交通装备领域典型科技成果形成过程中反求和凝练的创新方法作为本领域创新方法,并确定各个本领域创新方法的应用背景。应用背景包括:产品类型、创新对象、创新链环节、创新类别及创新程序五个维度。
其中:产品类型是轨道交通装备企业的主要产品的集合,包括电力机车、调车机车、动车、城轨和磁浮列车等。
创新对象是轨道交通装备的具体创新部件,包括车体、转向架、电气部件和制动系统等。
创新链环节是轨道交通装备在研发、生产和服务以及各环节的不同阶段。
创新类别是轨道交通装备制造过程中创新的类型,具体指技术创新和管理创新。
创新程序是轨道交通装备创新过程中发现问题、分析问题以及解决问题的流程。
步骤3:利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型。
创新方法-创新原理分类模型的构建过程,包括以下步骤:
1.对普适性创新方法数据集进行预处理:
1-1依据创新原理对普适性创新方法数据进行分类,将属于同一类创新原理的普适性创新方法放在同一文件路径下。
其中,创新原理包括还原原理、组合原理、变性原理、移植原理、逆反原理、迂回原理、群体原理和完满原理。
1-2利用python的jieba分词对普适性创新方法内容文本进行分词处理,然后对分词处理结果进行无效字符和停用词过滤。其中,通过整合“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”和“百度停用词表”形成本发明所用停用词表,其他可行的实施例中,还可以使用其他停用词库或者表,本发明对此不进行具体的限定。
1-3将处理后的普适性创新方法文本数据集分为训练集和测试集,其中,训练集用于对基于优化的朴素贝叶斯分类算法的机器学习分类模型进行训练,测试集用于对创新方法-创新原理分类模型进行验证和测试,根据测试结果对其进行性能评价。本实施例中设定测试集和训练集的样本数比例为7:3。
2.提取普适性创新方法数据集的数据特征。
2.1计算普适性创新方法的文本内容中所有特征词的TF-IDF值,再构建所述普适性创新方法数据集的TF-IDF矩阵TDQG;
本实施例利用sklearn库的特征提取模块,对预处理后的普适性创新方法数据集进行词频统计并计算特征词的TF-IDF值,TF表示词项频率,指的是某一个给定的词语在文本中出现的频率;IDF表示总文件数目除以包含该词语的文本的数目,再将得到的商取以10为底的对数所得的值。TF-IDF是一种针对关键词的统计分析方法,可以用来评估一个词对一个文本集或者一个语料库的重要程度,TF-IDF值的公式如下:
TF-IDF=TF*IDF
其中:nw表示词项w在某文本中出现的次数;
n表示某文本中总的词项总数;
N表示数据集中的文本总数;
Nw表示包含词项W的文本数量。
2.2对所述普适性创新方法数据集的TF-IDF矩阵TDQG进行权重调整得到数据特征。
其中,对特征词的TF-IDF值进行大小排序,构建关键词集合K以及特征词集合W;所述关键词集合K中包含了每个创新方法样本中TF-IDF值排前q的特征词,譬如20个,所述特征词集合W包含所有特征词,再按照如下循环算法调整特征词权重:
判断位于矩阵TDQG中第i行,第j个元素对应的特征词wi,j是否为关键词集合K中的元素,其中,矩阵TDQG的大小为Q×G,Q为文本数量,G为特征词集合W中特征词数量,每一行的列数对应特征词集合W中的特征词个数;
若是,判断矩阵TDQG中第i行,第j个元素TD[i,j]是否等于0,若TD[i,j]不等于0,令TD[i,j]=TD[i,j]*log(1+ex),ex表示以e为底的指数函数,x为常数。其中,在循环算法调整特征词权重时,x为需要变化的常数,如x在0-3范围内变化,可以得到精确度最高的 x值,那么这个x值就作为权重调整算法确定的参数。
其中,按照上述循环算法遍历TF-IDF矩阵TDQG调整特征词权重后,将特征词权重调整后的TF-IDF矩阵TDQG作为所述普适性创新方法数据集的数据特征。
3.将训练集的数据特征以及训练集中样本标签输入朴素贝叶斯分类模型进行模型训练得到创新方法-创新原理分类模型。
其中,朴素贝叶斯分类模型的核心公式为:
本实施例中利用python编程语言将训练集的数据特征以及样本标签导入朴素贝叶斯分类模型,再利用测试集进行验证和测试,得到分类结果的准确度。再利用分类结果的准确度对采用循环算法对朴素贝叶斯分类模型进行调参,直至所述分类结果准确度达到预期,得到训练好的创新方法-创新原理分类模型。
步骤4:将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果。
其中,按照前述预处理以及特征提取的方式提取本领域创新方法数据集的数据特征,再输入所述创新方法-创新原理分类模型得到分类结果。
步骤5:基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
其中,如图3所示,通过创新方法-创新原理分类模型得到每一种轨道交通装备领域创新方法的应用背景与创新原理的关系,构建了创新原理与应用背景的映射关系;同时,基于普适性创新方法与创新原理的映射关系,进一步得到每种创新原理类型下的轨道交通装备领域创新方法及普适性创新方法与应用背景的映射关系。其中,应用背景与创新原理的映射关系为一对一或多对一关系,创新方法与创新原理的映射关系为一对一或一对多关系。
具体的,本实施例得到了如下映射字典:本领域创新方法-创新原理的映射词典C-R、本领域创新方法-应用背景的映射词典B-R、创新原理-应用背景的映射词典B-C、普适性创新方法与创新原理的映射词典C-U、以及普适性创新方法-应用背景的映射词典U-B。
其中,利用每一种轨道交通装备领域创新方法的应用背景与创新原理的关系,表示本领域创新方法-创新原理的映射词典C-R为:C-R={cpi:rci|i=1,2,…,8},cpi为第i类创新原理; rci为属于第i类创新原理的本领域创新方法集;其中,将创新原理的类别数设置为8。
本领域创新方法-应用背景的映射词典B-R为:B-R={rcj:abj|j=1,2,…,n},rcj为第j 个本领域创新方法;abj为对应于第j个创新方法的应用背景集。
然后,根据映射词典C-R和B-R,构建创新原理与应用背景的映射关系词典B-C: B-C={abj:cpi|j=1,2,…,n;i=1,2,…,8},过程为:
P1:获取映射词典C-R中键cpi对应的值rci以及映射词典B-R中的键rcj;
P2:当rci=rcj=rcj时,获取映射词典B-R中的键rcj对应的值abj;
P3:将abj作为键,对应的值为cpi,由此建立创新原理与应用背景的映射关系词典B-C={abj:cpi|j=1,2,…,n;i=1,2,…,8},其中,j为应用背景数量,i为创新方法类别。
最后,构建普适性创新方法-创新原理的映射词典C-U:C-U={cpi:uci|i=1,2,…,8}, cpi为第i类创新原理;uci为属于第i类创新原理的普适性创新方法集;
进一步所述普适性创新方法-应用背景的映射词典U-B,表示为:
U-B={uci:abj|i=1,2,…,P;j=1,2,…,n}。
基于上述映射字典得到了本实施例中轨道交通装备技术领域的创新方法分类体系。实际应用过程中,只需确定所需解决创新问题的应用背景,即可得到解决该问题的创新原理,并进一步得到对应的创新方法解集,推理过程包括:
P4:输入创新问题的应用背景,根据应用背景abj获取映射关系词典 B-C={abj:cpi|j=1,2,…,n;i=1,2,…,8}中对应于应用背景abj的创新原理cpi;
P5:将cpi作为键,获取映射词典C-R和C-U中的值rci及uci,即对应于创新原理cpi的本领域创新方法集rci和普适性创新方法集uci。
P6:求解本领域创新方法集rci和普适性创新方法集uci的并集Ci,Ci即为最终得到的创新方法解集。
实施例2:
如图2所示,本实施例基于前述方法的内容,提供了一种分类体系构建系统,其包括:普适性创新方法数据集构建模块、本领域创新方法数据集采集模块、创新方法-创新原理分类模型构建模块、分类模块以及映射词典构建模块。
其中,普适性创新方法数据集构建模块,用于获取普适性创新方法及其创新原理,并构建普适性创新方法数据集,其中,将所述创新原理设置为普适性创新方法的样本标签;
创新方法-创新原理分类模型构建模块,用于利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型;
分类模块,用于将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果;
映射词典构建模块,用于基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
其中,各个单元模块的具体实现过程请参照前述方法的对应过程。应当理解,上述单元模块的具体实现过程参照方法内容,本发明在此不进行具体的赘述,且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例3:
本实施例提供了一种终端,其包括处理器和存储器,存储器存储了计算机程序,处理器调用计算机程序以实现:
步骤1:获取普适性创新方法及其创新原理,再构建普适性创新方法数据集。
步骤2:获取本领域创新方法及其应用背景,再构建本领域创新方法数据集。
步骤3:利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型。
步骤4:将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果。
步骤5:基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit, CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
实施例4:
本发明实施例提供一种可读存储介质,其存储了计算机程序,计算机程序被处理器调用以实现:
步骤1:获取普适性创新方法及其创新原理,再构建普适性创新方法数据集。
步骤2:获取本领域创新方法及其应用背景,再构建本领域创新方法数据集。
步骤3:利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型。
步骤4:将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果。
步骤5:基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (9)
1.一种技术领域创新方法的分类体系构建方法,其特征在于:包括以下步骤:
S1:获取普适性创新方法及其创新原理,其中,将所述创新原理设置为普适性创新方法的样本标签,构建普适性创新方法数据集;
S2:利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型;
所述创新方法-创新原理分类模型的输入数据为所述普适性创新方法数据集的数据特征,输出数据为创新原理分类结果;
S3:将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果;
S4:基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典;
包括本领域创新方法-创新原理的映射词典C-R、本领域创新方法-应用背景的映射词典B-R、创新原理-应用背景的映射词典B-C、普适性创新方法与创新原理的映射词典C-U、以及普适性创新方法-应用背景的映射词典U-B;
其中,所述本领域创新方法-创新原理的映射词典C-R为:C-R={cpi:rci|i=1,2,…,P},cpi为第i类创新原理,rci为属于第i类创新原理的本领域创新方法集;
所述本领域创新方法-应用背景的映射词典B-R为:B-R={rcj:abj|j=1,2,…,n},rcj为第j个本领域创新方法,abj为对应于第j个创新方法的应用背景集;
当rci=rcj时,构建出所述创新原理-应用背景的映射词典B-C:B-C={abj:cpi|j=1,2,…,n;i=1,2,…,P}
所述普适性创新方法与创新原理的映射词典C-U表示为:
C-U={cpi:uci|i=1,2,…,P}
其中,uci为属于第i类创新原理的普适性创新方法集;
所述普适性创新方法-应用背景的映射词典U-B,表示为:
U-B={uci:abj|i=1,2,…,P;j=1,2,…,n}
n、P分别为创新方法数量和创新原理类别数。
2.根据权利要求1所述的方法,其特征在于:步骤S2中所述普适性创新方法数据集的数据特征的获取如下:
S2-1:对所述普适性创新方法数据集中创新方法的文本内容进行预处理;
S2-2:对所述普适性创新方法数据集进行特征提取,其中,计算创新方法的文本内容中所有特征词的TF-IDF值,再构建所述普适性创新方法数据集的TF-IDF矩阵TDQG;
S2-3:对所述普适性创新方法数据集的TF-IDF矩阵TDQG进行权重调整得到数据特征;
其中,对特征词的TF-IDF值进行大小排序,构建关键词集合K以及特征词集合W;所述关键词集合K中包含了每个创新方法样本中TF-IDF值排前q的特征词,所述特征词集合W包含所有特征词,再按照如下循环算法调整特征词权重:
判断位于TDQG矩阵中第i行,第j个元素对应的特征词wi,j是否为关键词集合K中的元素;其中,矩阵TDQG的大小为Q×G,Q为文本数量,G为特征词集合W中特征词数量,每一行的列数对应特征词集合W中的特征词个数;
若是,判断矩阵TDQG中第i行,第j个元素TD[i,j]是否等于0,若TD[i,j]不等于0,令TD[i,j]=TD[i,j]*log(1+ex),ex表示以e为底的指数函数,x为常数;
按照上述循环算法调整特征词权重后,将特征词权重调整后的TF-IDF矩阵TDQG作为所述普适性创新方法数据集的数据特征。
3.根据权利要求2所述的方法,其特征在于:将所述普适性创新方法数据集划分为训练集和测试集,所述训练集用于训练朴素贝叶斯分类模型,所述测试集用于对所述创新方法-创新原理分类模型进行测试,训练和测试过程中分别获取训练集、测试集对应的数据特征参与训练和测试。
4.根据权利要求2所述的方法,其特征在于:所述TF-IDF值的计算公式如下:
TF-IDF=TF*IDF
其中:nw表示特征词w在某创新方法的文本内容中出现的次数;
n表示某创新方法的文本内容中特征词总数;
N表示数据集中创新方法的文本总数;
Nw表示数据集中包含特征词w的文本数量。
5.根据权利要求1所述的方法,其特征在于:利用映射词典获取某技术问题的应用背景对应的创新方法集合的过程如下:
利用所述创新问题的应用背景,并基于所述创新原理-应用背景的映射词典B-C确定创新原理cpi;
以所述创新原理cpi为键,基于所述普适性创新方法与创新原理的映射词典C-U获取普适性创新方法集uci;以及基于本领域创新方法-创新原理的映射词典C-R获取本领域创新方法集rci;
最后将领域创新方法集rci和普适性创新方法集uci的并集Ci作为创新问题的应用背景对应的创新方法集合。
6.根据权利要求1所述的方法,其特征在于:所述技术领域为轨道交通装备领域,所述应用背景包括:产品类型、创新对象、创新链环节、创新类别及创新程序五个维度;所述创新原理包括还原原理、组合原理、变性原理、移植原理、逆反原理、迂回原理、群体原理和完满原理。
7.一种基于权利要求1-6任一项所述方法的系统,其特征在于:包括:
普适性创新方法数据集构建模块,用于获取普适性创新方法及其创新原理,并构建普适性创新方法数据集,其中,将所述创新原理设置为普适性创新方法的样本标签;
创新方法-创新原理分类模型构建模块,用于利用所述普适性创新方法数据集训练朴素贝叶斯分类模型得到创新方法-创新原理分类模型;
分类模块,用于将本领域创新方法数据集的数据特征输入所述创新方法-创新原理分类模型得到创新原理分类结果;
映射词典构建模块,用于基于本领域创新方法与创新原理分类结果的对应关系、以及本领域创新方法对应的应用背景构建创新原理-应用背景的映射词典;再基于普适性创新方法与创新原理的对应关系构建普适性创新方法-应用背景的映射词典。
8.一种终端,其特征在于:包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:
权利要求1-6任一项所述方法的步骤。
9.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以执行:
权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110699164.8A CN113609288B (zh) | 2021-06-23 | 2021-06-23 | 一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110699164.8A CN113609288B (zh) | 2021-06-23 | 2021-06-23 | 一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609288A CN113609288A (zh) | 2021-11-05 |
CN113609288B true CN113609288B (zh) | 2024-03-15 |
Family
ID=78336729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110699164.8A Active CN113609288B (zh) | 2021-06-23 | 2021-06-23 | 一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609288B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997341A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 一种创新方案匹配方法、装置、服务器及系统 |
CN110674289A (zh) * | 2019-07-04 | 2020-01-10 | 南瑞集团有限公司 | 基于分词权重判断文章所属分类的方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165258B2 (en) * | 2012-12-10 | 2015-10-20 | Hewlett-Packard Development Company, L.P. | Generating training documents |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
-
2021
- 2021-06-23 CN CN202110699164.8A patent/CN113609288B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997341A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 一种创新方案匹配方法、装置、服务器及系统 |
CN110674289A (zh) * | 2019-07-04 | 2020-01-10 | 南瑞集团有限公司 | 基于分词权重判断文章所属分类的方法、装置和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于朴素贝叶斯的中文海事文本多分类器研究;袁文生;王晓峰;;计算机与现代化(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113609288A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992668B (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
Hassan et al. | Credibility Detection in Twitter Using Word N-gram Analysis and Supervised Machine Learning Techniques. | |
Sehgal et al. | Sops: stock prediction using web sentiment | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
Indriani et al. | Comparison of Naive Bayes smoothing methods for Twitter sentiment analysis | |
Mehndiratta et al. | Identification of sarcasm using word embeddings and hyperparameters tuning | |
CN116150349A (zh) | 一种数据产品安全合规性检查方法、装置及服务器 | |
Moon et al. | Natural language processing based advanced method of unnecessary video detection | |
CN115391701A (zh) | 一种互联网内容风险分析及预警方法 | |
Akhbardeh et al. | Handling extreme class imbalance in technical logbook datasets | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113609288B (zh) | 一种技术领域创新方法的分类体系构建方法、系统、终端及可读存储介质 | |
CN108255880B (zh) | 数据处理方法及装置 | |
CN117009478A (zh) | 一种基于软件知识图谱问答问句解析过程的算法融合方法 | |
Koli et al. | A Review on Sentiment Analysis Methodologies, Practices and Applications with Machine Learning | |
Arbaatun et al. | Hate speech detection on Twitter through Natural Language Processing using LSTM model | |
Shubham et al. | Aspect level sentiment analysis using machine learning | |
CN109145297B (zh) | 基于hash存储的网络词汇语义分析方法和系统 | |
CN114036289A (zh) | 一种意图识别方法、装置、设备及介质 | |
Khadija et al. | Deep learning Indonesian chatbot using PyTorch for customer support automation | |
Nguyen | USING DEEP LEARNING AND LINGUISTIC ANALYSIS TO PREDICT FAKE NEWS WITHIN TEXT | |
Narmadha et al. | Recognizing eminent players from the Indian Premier League using CNN model | |
Rashidullah Khan et al. | Suggestion mining from online reviews using temporal convolutional network | |
EP4435670A1 (en) | Web content sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |