CN116956228A - 一种技术交易平台的文本挖掘方法 - Google Patents
一种技术交易平台的文本挖掘方法 Download PDFInfo
- Publication number
- CN116956228A CN116956228A CN202310972265.7A CN202310972265A CN116956228A CN 116956228 A CN116956228 A CN 116956228A CN 202310972265 A CN202310972265 A CN 202310972265A CN 116956228 A CN116956228 A CN 116956228A
- Authority
- CN
- China
- Prior art keywords
- demand
- technical
- text
- neural network
- supply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005065 mining Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 84
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 68
- 238000005516 engineering process Methods 0.000 claims abstract description 59
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000007418 data mining Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 50
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 241000288105 Grus Species 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 12
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 7
- 230000001965 increasing effect Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种技术交易平台的文本挖掘方法,引入跨语言知识图谱和卷积神经网络与循环神经网络模型相结合的方式进行多语言技术供需数据挖掘;基于卷积神经网络与循环神经网络模型和跨语言知识图谱相结合,进行多语言技术供需信息的文本挖掘、分类和匹配,能够提供更加丰富的上下文信息来增强文本理解。通过对技术供需文本数据进行预处理,抽取文本的特征向量,与跨语言知识图谱结合,充分利用知识图谱的丰富资源和语义信息之间的联系,形成技术供需信息的跨语言特征向量,再利用卷积神经网络和循环神经网络模型对跨语言技术供需文本特征向量进行特征提取、分析和处理,以实现技术供需信息的高效检索和精准匹配。
Description
技术领域
本发明涉及自然语言处理和数据挖掘技术领域,具体涉及一种卷积神经网络(CNN)和循环神经网络(RNN)模型与跨语言知识图谱相结合的文本挖掘技术。
背景技术
文本挖掘是指从文本数据中获取有价值的信息和知识,涵盖了包括数据挖掘技术、信息抽取、信息检索、机器学习、自然语言处理、计算语言学等多种技术。随着互联网的高速发展,网络文本数据呈现出爆炸式的增长,文本挖掘技术在技术供需信息检索、文本分类、信息匹配等领域发挥着越来越重要的作用。
近年来,深度学习技术在文本挖掘技术领域取得了显著的成果,目前卷积神经网络与循环神经网络模型文本挖掘技术、知识图谱文本挖掘技术在处理文本信息的分类和匹配方面分别有一些研究成果,但仍然存在以下问题需要进一步改进和优化。
首先,现有的卷积神经网络和循环神经网络模型在利用语义信息方面存在一定的局限性。这些模型主要依赖于词嵌入或词袋模型来表示文本,无法充分利用文本的语义信息。在技术交易平台的技术供需信息中,文本往往包含丰富的专业术语和上下文信息,而这些信息对于技术供需准确匹配非常重要。
其次,现有的卷积神经网络和循环神经网络模型对于实体和关系的建模能力有限。在技术供需信息中,文本中的实体和关系对于供需精准匹配至关重要。然而,现有的卷积神经网络和循环神经网络模型并没有专门的机制来建模实体和关系,而是将文本视为一串词汇的序列进行处理。这样的处理方式无法准确识别和抽取文本中的实体和关系,限制了技术供需匹配精度的提升。
再次,现有的卷积神经网络与循环神经网络模型在处理多模态信息方面也存在一定的不足。在技术交易平台的技术供需信息中,可能会涉及多种模态的信息,但现有的卷积神经网络与循环神经网络模型主要针对文本进行处理,对于其他模态的信息处理能力有限。这导致模型无法充分利用多模态信息来提升匹配精度。
最后,现有的卷积神经网络和循环神经网络模型在处理多语言数据的能力也有限。技术交易平台的技术供需信息可能涉及多种语言,而现有的卷积神经网络和循环神经网络模型主要侧重处理单一语言的情况,对于多语言的处理能力有限。这导致在技术交易平台中,涉及多种语言的技术供需信息无法得到有效的处理和匹配。
发明内容
针对现有技术存在的上述不足,本发明的目的在于提供一种技术交易平台的文本挖掘方法,解决如何利用自然语言处理和数据挖掘技术对平台海量技术供需数据进行有效挖掘和利用,精准匹配平台供需信息,高效匹配优质资源的问题。
为了解决上述技术问题,本发明采用如下技术方案:
一种技术交易平台的文本挖掘方法,其特征在于,引入跨语言知识图谱和卷积神经网络与循环神经网络模型相结合的方式进行多语言技术供需数据挖掘;包括需求分析、数据收集、数据预处理、特征提取、跨语言知识图谱初步匹配、利用卷积神经网络和循环神经网络模型进行特征表示、引入跨语言知识图谱进行特征融合、训练卷积神经网络和循环神经网络技术供需文本模型分类、技术供需信息精准匹配、以及模型评估和优化步骤;
其中,构建基于卷积神经网络与循环神经网络的技术供需数据挖掘模型,是利用卷积神经网络与循环神经网络对跨语言技术供需数据的特征向量进行特征提取、分析和处理,经技术供需匹配的模型训练、评估与优化,实现技术供需数据的高效检索和精准匹配;所述卷积神经网络与循环神经网络模型进行特征表示,包括采用卷积神经网络捕获技术供需数据特征表现的局部信息,并将这些信息输出到长短时记忆网络(LSTM)和门控循环单元(GRU)结合的多层循环神经网络,以捕获技术供需信息的文本长距离依赖关系;
所述跨语言知识图谱特征融合,包括在处理技术供需数据时,对一些跨语言、多模态的关系,通过将“实体”节点和“关系”边嵌入到低维向量空间,产生知识图谱嵌入表示,通过特征融合技术,以增强跨语言、多模态数据的特征表示,提供额外的语义信息,优化卷积神经网络和循环神经网络模型在技术供需数据挖掘上的表现。
进一步,本发明所述基于技术交易平台的文本挖掘方法,具体包括:
步骤1,需求分析:收集技术交易平台的供需信息文本,包括技术需求概要信息、预算信息、预期成果、需求期限、需求详细描述、技术规格、其他要求或条件等;
步骤2,数据收集:使用网络爬虫从各类技术交易平台或相关网站上抓取供需数据,并收集用户注册信息填写的技术供需信息;
步骤3,数据预处理:对技术交易平台的供需信息文本进行文本清洗、分词和去除停用词等操作,构建技术供需信息领域文本分类数据集,并对收集到的技术供需信息文本进行预处理,并分为训练样本、验证样本和测试样本;
步骤4,特征提取:涉及对技术供需文本进行特征提取,通过词嵌入处理、共现概率关系捕获、词语间相似度F函数确定、目标函数构建和权重函数构建等步骤,实现对技术供需文本的特征表示;
步骤5,跨语言知识图谱初步匹配:通过实体识别与链接、候选集生成等步骤,将技术供需文本中的实体与跨语言知识图谱中的相关实体关联起来,并生成一个候选集;该候选集包含了与文本实体相关的实体和关系,用于后续的匹配过程,以提高匹配效率和准确性;
步骤6,特征表示:使用卷积神经网络对预处理后的词向量进行特征提取,并利用循环神经网络编码这些特征向量,同时利用图嵌入技术将跨语言知识图谱中的实体和关系表示为低维向量,最后将文本特征和知识图谱候选集的特征进行融合得到综合特征表示;
步骤7,引入跨语言知识图谱:将跨语言知识图谱中的实体和关系信息与文本特征相融合;
步骤8:构建基于CNN-RNN神经网络模型对技术供需数据进行分类和匹配训练:包括数据预处理,清洗和标准化处理技术供需数据,将其划分为训练集和测试集;CNN特征提取,使用卷积神经网络提取数据的特征表示;RNN序列建模,采用LSTM和GRU相结合的方式构建RNN模型,并引入注意力机制以捕捉上下文信息和序列依赖关系;技术供需匹配判断,通过学习技术供需详细描述的语义特征并计算语义相似度进行技术供需匹配判断;
步骤9:模型评估和优化,包括参数调整、训练数据增强、早停法等方式。
进一步,所述步骤4特征提取,具体包括:
步骤4.1,对技术供需文本进行词嵌入处理,将每个单词映射到高维向量空间中;
步骤4.2,根据GloVe词向量获取技术的公式,进行文本数据特征提取;
步骤4.3,对词语之间的共现概率关系进行捕获,利用词向量和目标词上下文词语的词向量计算共现概率比值;
步骤4.4,确定词语间相似度F函数,使用向量差异来编码共现概率比值的信息,通过参数化的复杂函数实现;
步骤4.5,基于共现概率矩阵,构建目标函数,采用加权最小二乘回归模型,以带权的均方差作为损失函数;
步骤4.6,构建权重函数,确保贡献频率低的词语具有较小的权重,并防止共现频率高的词语权重过大;
步骤4.7,在操作中固定截断值,控制模型性能。
进一步,所述步骤5跨语言知识图谱初步匹配,具体包括:
步骤5.1,对步骤3预处理后的文本进行实体识别,识别出文本中的相关实体;
步骤5.2,利用实体链接技术将文本中的实体与跨语言知识图谱中的对应实体进行关联;
步骤5.3,根据实体链接的结果,在跨语言知识图谱中找到与文本实体相关的实体和关系;
步骤5.4,遍历知识图谱中的实体和关系,筛选出与文本实体相关的候选实体和关系;
步骤5.5,将候选实体和关系作为输入,与技术供需文本一起输入到卷积神经网络和循环神经网络模型中,进行精细的匹配。
进一步,所述步骤6特征表示,具体包括:
步骤6.1,卷积神经网络特征提取:对预处理后的词向量使用卷积神经网络进行特征提取;通过多个不同窗口大小的卷积核在词向量序列上进行卷积操作,捕捉不同长度的局部特征,将其映射为固定长度的特征向量;
步骤6.2,循环神经网络编码:使用循环神经网络对卷积神经网络提取的特征向量进行编码;
步骤6.3,知识图谱候选集表示:利用图嵌入技术将跨语言知识图谱候选集中的实体和关系映射为低维向量表示;通过转换模型将实体和关系表示为向量,然后将候选集中的实体和关系组合成一个向量表示,作为知识图谱候选集的整体特征;
步骤6.4,特征融合:将卷积神经网络和循环神经网络模型提取的文本特征与知识图谱候选集的特征进行融合;通过拼接、加权求和将两部分特征融合在一起,得到一个综合的特征表示,用于技术供需信息的精准匹配;
进一步,所述步骤8构建基于CNN-RNN神经网络模型对技术供需数据进行分类和匹配训练,具体包括:
步骤8.1,数据预处理:对技术供需数据进行清洗和标准化处理,去除噪声和不必要的信息,并将数据划分为训练集和测试集;
步骤8.2,CNN特征提取:使用卷积神经网络(CNN)提取数据的特征表示,包括以下操作:(1)定义卷积核和池化窗口的数量和大小,以捕获不同尺度下的特征;(2)添加卷积层来提取技术供需数据的局部特征,每个卷积核用于捕获不同的语义特征;(3)添加池化层来降低特征维度并保留关键信息;(4)堆叠多个卷积层和池化层以进一步提取高级别特征;(5)添加全连接层将特征映射到输出空间;
步骤8.3,RNN序列建模:使用结合了长短期记忆(LSTM)和门控循环单元(GRU)的RNN模型对数据进行序列建模,包括以下操作:(1)使用双向GRU学习技术需求和科技成果的详细描述的数据表征;(2)引入注意力机制评估技术需求中不同要求的重要程度;(3)使用全连接层和sigmoid激活函数进行技术供需匹配的预测判断;
步骤8.4,技术供需匹配判断:使用语义相似度计算来衡量技术供需详细描述的匹配程度,并通过最小化二分类交叉熵损失函数训练模型以判断技术供需匹配结果。
相比现有技术,本发明具有如下有益效果:
1、本发明引入跨语言知识图谱和卷积神经网络(CNN)与循环神经网络(RNN)模型相结合的方式进行多语言技术供需数据文本挖掘,优点在于:(1)能够提供更加丰富的上下文信息来增强文本理解。(2)能够理解和处理多种语言,有利于增强本模型的泛化能力。(3)对于模型进行跨语言训练,有些技术领域、有些语言很难获取更大规模、质量较高的训练数据时,能够扩大模型的训练数据样本。(4)由于构建的跨语言知识图谱存储了大量的实体和关系信息,而且这些信息是结构化的,这能帮助模型快速而准确地提取关键的知识点,减少误配率。(5)在CNN-RNN神经网络处理技术供需文本时,跨语言的知识图谱能够提供额外的语义信息,对一些难以通过直接文字理解的隐含关系、复杂关系等,跨语言知识图谱能有利于模型理解,从而优化模型表现。
2、本发明采用长短时记忆网络(LSTM)和门控循环单元(GRU)、注意力机制对多层循环神经网络进行改进,优势在于:(1)处理长期依赖性:传统的循环神经网络在处理长序列技术供需文本时容易出现梯度消失或梯度爆炸的问题,导致难以捕捉到技术供需数据长期的依赖关系。而LSTM和GRU引入了门控机制,能够有效地处理技术供需数据的长期依赖性,使得网络能够更好地记住和利用过去的信息。(2)减轻梯度消失问题:LSTM和GRU通过使用门控机制来决定是否更新和传递信息,从而减轻了梯度消失问题。门控机制允许网络选择性地将信息传递给下一时间步,避免了原始循环神经网络中技术供需信息传递被重复计算或丢失的问题。(3)缓解过拟合:多层循环神经网络容易受到过拟合的影响,而LSTM和GRU通过门控机制控制技术供需信息在模型中的流动,提高了模型的泛化能力,有助于减轻过拟合问题。(4)强化重要特征:注意力机制能够将CNN-RNN神经网络模型的关注点集中在功能、应用场景、性能指标等较重要的技术供需特征上。通过计算权重或分数,注意力机制可以根据输入技术供需数据的不同部分自动学习并选取最相关的信息,提高模型对关键特征的利用能力。(5)提升模型性能:LSTM、GRU和注意力机制的引入可以增加模型的表达能力和记忆能力,并帮助模型更好地理解和处理复杂的序列数据。这些改进措施有助于提高模型的准确性、泛化能力和稳定性。
附图说明
图1为本发明基于技术交易平台的文本挖掘方法流程图。
具体实施方式
下面结合具体实施例,对本发明的具体实施方式作进一步详细描述。
本申请文件中,除非另有说明以外,说明书中使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
参见图1,本发明提供一种技术交易平台的文本挖掘方法,将卷积神经网络(CNN)与循环神经网络(RNN)和跨语言知识图谱相结合,具体包括如下步骤:
步骤1,需求分析:收集技术交易平台的供需信息文本;
包括需求方名称、地址、联系方式、需求方业务范围等。
技术需求概要信息:包括需求的技术名称、技术类型、技术特点、技术接入需求等。
预算信息:包括购买预算、开发预算等。
预期成果:包括技术实施后希望实现的目标,如改进的效率、降低的成本等。
需求期限:包括需求的开始日期和截止日期。
需求详细描述:包括所需技术的功能、应用场景、性能指标等详细信息。
技术规格:包括所需技术的尺寸、精度、容量、兼容性等要求。
其他要求或条件:包括是否提供技术支持、是否需要进行技术培训、技术所有权、知识产权等要求。
步骤2,数据收集:
网络爬虫:使用网络爬虫技术从各类技术交易平台或相关网站上抓取供需数据。通过在搜索引擎中输入相关关键词(如技术名称、技术类型等),爬虫可以自动抓取并提取出需求方信息、技术需求概要信息、预算信息、预期成果、需求期限、需求详细描述、技术规格、其他要求或条件等。
用户注册信息:在技术交易平台上,可以要求用户在填写需求时进行注册,并要求填写包括需求方名称、地址、联系方式、需求方业务范围等信息。这些信息可以被保存下来,并用于后续的数据分析和匹配。同时,设计一份针对技术需求方的调查问卷,包括需求方信息、技术需求概要信息、预算信息、预期成果、需求期限、需求详细描述、技术规格、其他要求或条件等问题。通过向需求方发送问卷链接,可以收集到他们的具体需求和意见。
步骤3,数据预处理
对于技术交易平台的供需信息文本,进行数据预处理,包括文本清洗、分词、去除停用词等操作,以减少噪声和冗余信息。
步骤3.1:构建技术供需信息领域文本分类数据集,对之前收集和整理的技术供需相关信息类别设置为1;对从网上新爬取到的技术供需相关信息,类别设置为0。
步骤3.2:对收集到的技术供需信息文本数据进行预处理,为了满足跨语言知识图谱需要处理多语言文本数据的输入要求,采用jieba库和hanlp库处理文本数据,处理结果是机器可以理解的词向量形式。并将文本数据分为训练样本、验证样本和测试样本,训练样本用于训练模型,验证样本用于模型的参数调优和模型选择,测试样本用于最后一次性评价模型的性能。
步骤4,特征提取
在用卷积神经网络和循环神经网络模型对技术供需文本进行特征表示之前,需要将文本进行词嵌入处理。词嵌入可以将技术供需文本中的每个单词映射到一个高维向量空间中,使得具有相似语义的技术供需词汇在向量空间中距离较近。这样做的好处是可以将文本中的词汇转换为连续的向量表示,从而将自然语言处理问题转化为向量空间中的数值计算问题。以GloVe词向量获取技术为例,进行文本数据特征提取的公式如下:
由于基于矩阵分解的方法虽然可以有效利用技术供需相关的统计信息,但不能很好满足词语类比的任务要求;而基于局部滑动窗口的方法能较好地满足词语类比任务的要求,但在利用全局信息上的表现欠佳;因此,本发明引入共现概率矩阵的方式来解决这个问题。
(1)捕获词语之间共现概率的关系
其中,w∈Rd是词向量,是目标词上下文词语的词向量,Pik是词语k出现在词语i上下文中的概率,Pjk是词语k出现在词语j上下文中的概率。以技术交易平台技术供需数据中的技术类型为例,具体来说,假设i=“电子信息”和j=“新材料”。可以通过研究它们与各种探测词k的共现概率比值来研究这些词之间的关系。对于“电子信息”相关的技术但与“新材料”无关的词k(例如:“计算机算法”),期望/>的比值会很大;同样的,对于与“新材料”相关但与“电子信息”无关的词k(例如:“金属材料”),/>的比值会很小。对于既与“电子信息”又与“新材料”相关,或者既与“电子信息”又与“新材料”都不相关的词k,比值应该接近于1。
(2)确定词语间相似度F函数:首先,希望F在词向量空间中编码比值中存在的信息。由于向量空间本质上是线性结构,最自然的方法是使用向量差异来实现这一点。为了达到这个目的,将考虑因素限制在那些仅依赖于两个目标词之间差异的函数F上,修改方程(4.1)为:
式(4.2)中F的参数是向量,而右边是一个标量。虽然F是由神经网络等参数化的复杂函数,但这样做会使试图捕捉的线性结构变得模糊。为了避免这个问题,首先可以对上述参数进行如下点积操作:
注意对于词-词共现矩阵,词和上下文词之间的区别是任意的,可以自由地交换两者的角色。为了一致性地进行交换,不仅要交换还要交换/> 最终模型应该在这种重新标记下保持不变,但式(4.3)没有满足这个条件。然而,对称性可以通过两个步骤恢复。首先,要求F是(R,+)和(R>0,×)之间的同态映射,即:
根据式(4.3),可以解得:
通过指数函数将式(4.4)左边差和右边商关联起来:
式(4.6)如果右侧没有log(Xi)项将具有交换对称性。然而,log(Xi)项与k无关,因此可以吸收到wi的偏置bi中。最后,为添加额外的偏置/>可以恢复对称性。
式(4.7)中当参数为0时,对数将发散。为了解决这个问题,在对数中包含一个加法偏移量,即将log(Xik)→log(1+Xik),这样可以保持X的稀疏性同时避免发散现象。为了解决平等权衡所有共现情况,带来稀有共现噪音的情况,采用加权最小二乘回归模型来解决这些问题。在式(7)中引入一个权重函数f(Xij),得到目标函数。
(3)构建目标函数:带权的均方差,权重是函数f(Xij)。为了保证的对称性,添加一个关于/>的偏置项/>用bi替代log(Xi)。
其中,V是语料库中词语数量的大小;
f(0)=0,如果将f视为连续函数,它应该在x→0时足够快地消失,使limx→0f(x)log2x是
有限的;
f(x)应该是非递减的,这样稀有的共现不会被过重加权;
f(x)在x值较大时应相对较小,这样频繁的共现不会被过重加权。
(4)构建权重函数:为了保证贡献频率低的词语权重较小的同时,防止共现频率高的词语权重过大,构建权重函数:
权重函数f,其中模型的性能对截断值的依赖较弱,在操作中将其固定为xmax=100。我们发现,相对于α=1的线性版本,/>可以略微改善模型性能。
步骤5,跨语言知识图谱初步匹配
在利用卷积神经网络和循环神经网络模型处理技术供需文本之前,利用跨语言知识图谱对其进行初步匹配,为后续匹配提供候选集,可以通过以下方式来实现:
步骤5.1,实体识别与链接:对步骤2预处理后的文本进行实体识别,识别出文本中的相关实体,利用实体链接技术将文本中的实体与跨语言知识图谱中的对应实体进行关联。这一步骤可以通过实体识别模型和实体链接算法来实现。
步骤5.2,候选集生成
根据实体链接的结果,在跨语言知识图谱中找到与文本实体相关的实体和关系。通过遍历知识图谱中的实体和关系,筛选出与文本实体相关的候选实体和关系。这样可以为后续的匹配提供一个候选集,缩小匹配范围,提高匹配效率。
以技术供需信息精准匹配为例,假设有一个技术需求的文本描述,对预处理后的文本进行实体识别,识别出文本中的相关实体,如技术名称、供应商名称等;利用实体链接技术将文本中的实体与跨语言知识图谱中的对应实体进行关联,如,识别出文本中的技术名称为“人工智能”和“大数据”,将它们与跨语言知识图谱中的对应实体进行链接。
根据实体链接的结果,在跨语言知识图谱中找到与文本实体相关的实体和关系。例如,在知识图谱中存在与“人工智能”和“大数据”相关的实体和关系,如“人工智能算法”和“大数据分析”。通过遍历知识图谱中的实体和关系,筛选出与文本实体相关的候选实体和关系。这样,就得到了一个候选集,其中包含与技术供需文本实体相关的实体和关系。这个候选集可以用于后续的匹配过程,缩小匹配范围,提高匹配效率。在利用卷积神经网络和循环神经网络模型处理技术供需文本之前,可以将候选集作为输入,与文本一起输入到模型中,进行精细的匹配。
步骤6,特征表示
对预处理后的词向量使用卷积神经网络进行特征提取,通过卷积操作获取不同长度的特征向量。然后,使用循环神经网络对这些特征向量进行编码,捕捉序列之间的依赖关系。对于跨语言知识图谱初步匹配产生的候选集,利用TransE等图嵌入技术将实体和关系表示为低维向量。最后,将文本特征和知识图谱候选集的特征进行融合,得到一个综合的特征表示,用于技术供需信息的精准匹配。
步骤6.1,卷积神经网络特征提取:使用卷积神经网络对技术供需数据的词向量序列进行特征提取,通过卷积操作捕捉到不同窗口大小的局部特征,将其映射为一个固定长度的特征向量。在技术供需信息的精准匹配中,使用多个不同窗口大小的卷积核对词向量序列进行卷积操作,获取多个不同长度的特征向量。具体的卷积层运算如下:
(1)卷积层
其中,为第1层的第i个卷积核的第j个权值;/>第l层中第j个被卷积的局部区域;W为卷积核的宽度。
卷积后采用一个Sigmoid激活函数,运算如下:
卷积层的运算过程为:取输入技术需求数据文本的一部分与卷积核进行运算,获得特征的一部分,之后输入技术需求数据的其他部分获得按照设定的步长进行,重复运算,获得的结果便可组成一个完整的特征群。
(2)池化层
池化层的作用就是将前端获得的技术供需特征信息进行量上的降维,因为通过卷积层得到的特征向量里存在信息冗余现象,通过池化层的降维操作而减少CNN神经网络的参数。把特征向量分为多个区块,取区块的最大值视为新的特征向量,即为最大池化,运算如下:
式中αl(i,t)第l层第i帧第t个神经元的激活值;W为池化区域的宽度;Pi l(i,j)为池化区域的权重。
(3)全连接层
全连接层将之前层层提取的特征全部展开,后接一个激活函数将展开的特征向量映射到应属的样本标签,输出层采用将线性模型输出的实数映射到[0,1]的Softmax予以分类。正向传播运算如下:
Softmax运算方式如下:
步骤6.2,循环神经网络编码:使用循环神经网络对卷积神经网络提取的特征向量进行编码。循环神经网络捕捉到序列之间的依赖关系,将每个特征向量与前面的特征向量进行关联。这样,可以将整个词向量序列编码为一个固定长度的向量表示,作为技术供需文本的整体特征。
(1)循环神经网络中的前向传播和后向传播
激活函数为双曲正切函数,且输出时离散,表示离散变量是把输出o作为每一个离散变量可能值的非标准变化对数概率。最后用softmax函数做多分类,获得分类概率RNN从初始状态h(O)向前传播。其运算方式如下:
α(t)=b+Wh(t-1)+Ux(t) (6.6)
h(t)=tanh(α(t)) (6.7)
o(t)=c+Vh(t) (6.8)
其中,b、c为偏置,U、V和W为权重矩阵,h(t)为t时刻隐藏层单元。L(t)为给定的序列x(1),K,x(t)和其对应的y(t)的负对数,则:
其中,pmodel(y(t)|{x(1),K,x(t)})是输出变量相对应的项。
步骤6.3,知识图谱候选集表示:对于跨语言知识图谱初步匹配产生的候选集,可以利用TransE等图嵌入技术将实体和关系映射为低维向量表示,以便捕捉它们之间的语义和结构信息。将知识图谱中的实体和关系表示为向量后,可以将候选集中的实体和关系组合成一个向量表示,作为知识图谱候选集的整体特征。
步骤6.4,特征融合:通过拼接、加权求和等方式将卷积神经网络和循环神经网络模型提取的文本特征和知识图谱候选集的特征融合在一起,形成一个综合的特征表示,用于技术供需信息的精准匹配。
步骤7,引入跨语言知识图谱
引入跨语言知识图谱,可以提供跨语言实体和关系的关联信息,能够帮助模型更好地理解和推理文本中的语义。通过将跨语言知识图谱中的实体和关系信息与文本特征相融合,可以提升模型对多语言文本的处理能力和泛化能力。相关做法与步骤5类似,这里不再累述。
步骤8,构建基于CNN-RNN神经网络模型对技术供需数据进行分类和匹配训练
使用融合了文本特征和知识图谱特征的数据对卷积神经网络和循环神经网络模型进行训练,在训练过程中,根据具体任务和数据情况进行参数调整和模型优化;
跨语言知识图谱初步匹配对于跨语言知识图谱初步匹配产生的候选集,利用TransE等图嵌入技术将实体和关系表示为低维向量。
可以快速找到与技术供需文本相关的实体或概念。这个初步匹配可以为后续的匹配提供一个候选集,缩小匹配范围,提高效率。
步骤8.1,数据预处理:首先,将对技术供需数据进行清洗和标准化处理,去除噪声和不必要的信息。然后,将数据划分为训练集和测试集。
步骤8.2,CNN特征提取:使用卷积神经网络(CNN)来提取数据的特征表示。将技术供需数据转换为二维图像的形式,其中每个词或短语表示为一个向量。通过堆叠多个卷积层和池化层,提取出数据中的关键特征。
(1)定义卷积核和池化窗口的数量和大小:在每个卷积层中,可以根据特定技术供需匹配的需要定义多个卷积核和不同大小的池化窗口,这样可以捕获不同尺度下的特征。
(2)添加卷积层:通过添加卷积层来提取技术供需数据的局部特征,每个卷积核将学习不同的领域,用于捕获数据中的各种语义特征。
(3)添加池化层:在每个卷积层之后,可以通过最大池化或平均池化的方式,添加池化层来降低特征维度并保留关键信息。
(4)堆叠卷积层和池化层:为了进一步提取数据中更高级别的特征,可以堆叠多个卷积层和池化层。
(5)添加全连接层:将经过卷积和池化的特征映射到最终的输出,可以通过添加全连接层实现。全连接层可以将特征进行线性组合,并将其映射到输出空间。
步骤8.3,RNN序列建模:为了解决传统RNN模型在处理长期依赖关系时遇到的梯度消失或梯度爆炸问题,同时提高模型的泛化能力,本发明采用长短期记忆(LSTM)与门控循环单元(GRU)相结合的方式构建RNN模型,从而利用RNN的记忆能力捕捉上下文信息和序列依赖关系,提升模型的性能与效果。基于长短期记忆(LSTM)与门控循环单元(GRU)相结合的技术供需信息分类与匹配模型,将技术供需双方的技术需求和科技成果转化成一系列的供需状态,并在此基础上增加了attention机制,实现对技术需求方不同个体需求偏好的提取,整个技术供需提取模块分为输入层,隐藏层,LSTM-GRU层,注意力机制,输出层。
(1)词级别的技术供需文本表征:以技术详细描述为例。
由于输入的技术需求数据特征之间存在顺序依赖性,所以采用了双向GRU学习技术需求中的详细描述和科技成果中技术详细描述的数据特征表示。双向GRU由正向GRU和反向GRU两部分组成,它除了能解决传统RNN模型在处理长期依赖关系时遇到的梯度消失或梯度爆炸问题,同时能够感知输入的技术需求中性能指标更宽泛的上下文语义信息,能够更好地理解技术详细描述的要求和科技成果技术详细描述的上下文信息。
GRU包含两种门结构,即重置门和更新门。这两种门控机制用来输入文本信息的记忆和传递。在第t时刻,GRU单元结合前一时刻t-1的隐藏状态信息ht-1(包含之前节点的相关信息)和当前时刻t的输入向量xt,计算得到重置门rt、更新门zt和当前时刻的记忆内容最终获得当前时刻t的隐藏状态信息ht。GRU的公式如下表示:
rt=σ(Wrxt+Urht-1+br) (8.1)
zt=σ(Wzxt+Uzht-1+bz) (8.2)
其中,σ表示sigmoid激活函数,Tanh表示双曲正切激活函数,表示向量对应元素的点乘,W*和U*分别表示网络可学习的权重矩阵,b*表示网络待学习的偏置。rt决定需要以往多少过去的信息,zt决定上一时刻和当前时刻的信息有多少需要继续传递,表示ht的候选隐藏状态,ht表示隐藏状态信息。
GRU可以形式化表示为:
ht=GRU(xt,ht-1) (8.5)
双向GRU的隐向量由前向向量和反向向量/>表示,如下所示:
式(8.8)的作用是拼接GRU的前向向量和反向向量,捕获技术供需数据的上下文语义。
上述公式进一步形式化表示为:
h't=BiGRU(x,t) (8.9)
接下来将描述使用双向GRU建模词级别的技术供需文本中技术详细描述的数据表征。双向GRU模型的输入是数据预处理后的技术供需文本中技术详细描述的文本对,输出是技术供需文本中技术详细描述文本对的语义表征向量。企业技术需求详细描述用J表示,科技成果技术详细描述用R表示。技术需求详细描述的集合为{j1,j2,Λ,jo},科技成果技术详细描述集合为{r1,r2,Λ,rp}。第k条技术需求技术详细描述要求用jk={jk,1,jk,2,Λjk,m}表示,第t条科技成果技术详细描述用rt={rt,1,rt,2,Λrt,n}表示。其中,1≤k≤o,1≤t≤p。
每个技术供需技术详细描述中的词语,通过式10和式11计算技术供需技术详细描述的表征向量。计算公式为:
其中x1:m表示输入的技术需求技术详细描述指标序列为{x1,x2,Λ,xm},x1:n表示输入的科技成果技术详细描述序列为{x1,x2,Λ,xn}。
(2)引入注意力机制
使用双向GRU获得的技术供需详细描述的词级别文本表征,将该词级别语义表征输入到识别模块中。企业技术需求的详细描述中,会描述一些特定的技术详细描述,对不同技术需求的要求是不同的。对技术需求J的感知识别来说,在双向GRU层之后,增加一层注意力机制层,目的是为了评估不同要求的重要程度。采用注意力机制学习权重系数,旨在评估技术需求详细描述中每个指标要求的重要性。技术公式如式(8.12)——式(8.14)所示。注意力机制层是能力要求语义表征向量的加权和。通过式(8.12)计算得到技术需求详细描述中功能、应用场景、性能指标的表征向量。其中向量通过加权求和计算得到,其公式如下:
权重系数aij的数学公式如式(8.13)和式(8.14):
其中,表示隐状态的加权求和,aij使用softmax归一化,如式(8.13)。/>表示hi和hj之间的依赖程度的分数,由函数Fscore计算。Fscore是计算hi和hj分数的函数,由得到,如式(8.14)所示,其中u、W1和W2是注意力机制的参数。
步骤8.4,技术供需匹配判断
通过注意力机制学习技术供需详细描述的语义特征。为了度量技术供需详细描述的匹配程度,使用语义相似度计算。计算公式如下:
技术供需详细需求匹配任务本质上属于二分类问题,因此,采用具有sigmoid激活函数的全连接层来学习二维向量l,以预测技术供需匹配结果标签y。也就是说,将最终表征的技术需求详细描述语义向量传送到全连接层的sigmoid层进行技术供需匹配的预测判断。技术方法如下:
l=Wd+b (8.15)
y=sigmoid(Wl+b) (8.16)
如果预测技术供需结果的标签y为1,则表示技术供需匹配成功;反之,则表示技术供需匹配失败。具体来说,为了判断技术需求和科技成果是否匹配,在这个步骤中使用最小化二分类交叉熵损失函数来训练模型。
步骤9,模型评估和优化
通过对模型进行评估和优化,提升该文本挖掘工具进行技术供需信息智能分类与匹配的准确性和覆盖能力,以此提升模型性能;通过参数调整、训练数据增强、早停法等方式对模型进行优化处理,最终降低技术供需信息匹配的错误率。
步骤9.1,模型评估
本发明主要采用准确性/精度(accuracy/precision)、召回率/查全率(recall)、F1分数(F1-Score)、AUC-ROC曲线等方式来评估CNN和RNN与跨语言知识图谱相结合的文本挖掘模型。
步骤9.2,模型优化:
(1)欠拟合的解决方法有:添加其他特征项、减少正则化参数等方式。
①通过添加其他特征项来提高模型的性能:
数据分析:首先,对训练数据进行全面的分析,了解数据的特点和问题。查看数据集中各个特征的分布情况、缺失值情况以及异常值情况等。
特征选择:根据数据分析的结果,选择一些与目标变量相关性较高的特征。可以使用统计方法如皮尔逊相关系数或者互信息等,也可以结合领域知识进行选择。
特征工程:对选定的特征进行进一步的处理和转换,以便更好地表达数据之间的关系。可以进行特征缩放、离散化、归一化、编码等操作,以及创建新的特征组合或交互项。
参数调优:通过网格搜索、随机搜索等方法对模型参数进行调优。可以尝试不同的超参数组合,例如学习率、正则化参数、隐藏层大小等,以找到最佳的模型配置。
增加复杂度:如果模型仍然欠拟合,可以考虑增加模型的复杂度。例如,增加CNN层的数量、增加RNN单元的数量、增加隐藏层的大小等,以提高模型的表达能力。
扩充数据集:如果数据量不足,可以考虑通过数据增强的方法扩充训练数据集。例如,使用图像旋转、缩放、裁剪等方式来生成更多的样本,或者使用文本生成模型来生成更多的文本样本。
②通过减少正则化参数来提高模型的性能
确定正则化参数:首先,查看当前使用的正则化方法(如L1正则化、L2正则化)和对应的正则化参数。确定当前正则化参数的数值。
减少正则化参数:将当前正则化参数的数值减小。可以根据经验或者尝试不同的数值来进行调整。较大的正则化参数会对模型的权重进行更强的约束,从而可能导致欠拟合。通过减小正则化参数,可以减轻对权重的限制,使模型更容易学习到数据中的复杂关系。
模型训练:使用减小后的正则化参数重新训练模型。保持其他超参数不变,仅调整正则化参数。
模型评估:在训练过程中,监控模型在训练集和验证集上的性能指标,如准确率、损失函数等。观察是否出现了更好的拟合结果。如果模型在验证集上的性能有所提升,说明减小正则化参数对减轻欠拟合问题起到了作用。
调优与迭代:如果模型的性能还不够理想,可以进一步减小正则化参数,重复步骤3和步骤4,直到达到满意的拟合效果。注意要避免过拟合,观察模型在测试集上的表现。
重复以上步骤,逐渐减少正则化参数,直到找到适合当前数据集的最佳值。需要注意的是,减小正则化参数可能会增加模型的过拟合风险,因此应该仔细监控模型在训练集和验证集上的性能,并进行合适的调整。
(2)过拟合的解决方式有:扩大训练集数据、提前终止、数据集扩增、正则化等。
①通过扩大训练集数据提升模型性能
数据分析:仔细分析现有的训练数据集,确认可能导致过拟合的原因。检查数据集中各个类别或标签的分布情况,观察是否存在类别不平衡的情况。
数据增强:利用数据增强技术来扩大训练集数据。数据增强是通过对现有训练样本进行一系列变换和扰动来生成更多样本的方法。例如,在图像数据中可以进行旋转、平移、缩放、镜像等操作,而在文本数据中可以进行词语替换、句子重组等操作。
数据生成:如果原始数据有限,可以考虑使用生成模型来生成新的训练样本。生成模型如生成对抗网络(GAN)可以生成与真实数据相似的样本。这些生成的样本可以用于增加训练集的多样性和数量。
数据集划分:根据扩大后的训练集数据,重新划分训练集、验证集和测试集。确保每个数据集都能代表整体数据的特征,并且新的训练集数据比之前更丰富多样。
模型训练:使用扩大后的训练集数据重新训练CNN-RNN模型。保持其他超参数不变,仅关注训练集数据的增加。可以适当降低学习率或增加正则化参数以控制模型的复杂度。
模型评估:在训练过程中,监控模型在训练集和验证集上的性能指标,如准确率、损失函数等。观察是否出现了更好的泛化效果。同时,还要注意模型是否出现了过拟合问题。
调优与迭代:如果模型仍然存在过拟合问题,可以进一步增加训练集数据,重复上述步骤。持续扩大训练集数据并调整其他参数,直到获得满意的模型性能。
②通过正则化提升模型性能
数据分析:仔细分析现有的训练数据集,确认可能导致过拟合的原因。检查数据集中各个类别或标签的分布情况,观察是否存在类别不平衡的情况。
选择正则化项:根据数据分析的结果,在CNN-RNN模型中选择适当的正则化项。通常使用L2正则化项来惩罚权重的平方和(L2范数),但也可以尝试L1正则化项。
正则化参数设置:确定正则化参数的大小。正则化参数控制正则化项的权重,较大的正则化参数会对权重进行更强的约束,从而减少过拟合的风险。可以通过交叉验证等方法来选择合适的正则化参数。
模型训练:使用正则化后的模型参数重新训练CNN-RNN模型。保持其他超参数不变,仅调整正则化参数。
模型评估:在训练过程中,监控模型在训练集和验证集上的性能指标,如准确率、损失函数等。观察是否出现了更好的泛化效果。同时,还要注意模型是否出现了欠拟合问题。
调优与迭代:如果模型仍然存在过拟合问题,可以尝试调整正则化参数的大小,并进行多轮迭代训练。通过逐步增大或减小正则化参数,找到最佳的正则化参数值,以获得更好的模型性能。
Claims (6)
1.一种技术交易平台的文本挖掘方法,其特征在于,引入跨语言知识图谱和卷积神经网络与循环神经网络模型相结合的方式进行多语言技术供需数据挖掘;包括需求分析、数据收集、数据预处理、特征提取、跨语言知识图谱初步匹配、利用卷积神经网络和循环神经网络模型进行特征表示、引入跨语言知识图谱进行特征融合、训练卷积神经网络和循环神经网络技术供需文本模型分类、技术供需信息精准匹配、以及模型评估和优化步骤;
其中,所述卷积神经网络与循环神经网络模型进行特征表示,包括采用卷积神经网络捕获技术供需数据特征表现的局部信息,并将这些信息输出到长短时记忆网络和门控循环单元结合的多层循环神经网络,以捕获技术供需信息的文本长距离依赖关系;跨语言知识图谱特征融合,包括在处理技术供需数据时,对一些跨语言、多模态的关系,通过将“实体”节点和“关系”边嵌入到低维向量空间,产生知识图谱嵌入表示,通过特征融合技术,以增强跨语言、多模态数据的特征表示,提供额外的语义信息,优化卷积神经网络和循环神经网络模型在技术供需数据挖掘上的表现。
2.根据权利要求1所述基于技术交易平台的文本挖掘方法,其特征在于,具体包括:
步骤1,需求分析:收集技术交易平台的供需信息文本,包括技术需求概要信息、预算信息、预期成果、需求期限、需求详细描述和技术规格;
步骤2,数据收集:使用网络爬虫从各类技术交易平台或相关网站上抓取供需数据,并收集用户注册信息填写的技术供需信息;
步骤3,数据预处理:对技术交易平台的供需信息文本进行文本清洗、分词和去除停用词等操作,构建技术供需信息领域文本分类数据集,并对收集到的技术供需信息文本进行预处理,并分为训练样本、验证样本和测试样本;
步骤4,特征提取:涉及对技术供需文本进行特征提取,通过词嵌入处理、共现概率关系捕获、词语间相似度F函数确定、目标函数构建和权重函数构建等步骤,实现对技术供需文本的特征表示;
步骤5,跨语言知识图谱初步匹配:通过实体识别与链接、候选集生成等步骤,将技术供需文本中的实体与跨语言知识图谱中的相关实体关联起来,并生成一个候选集;该候选集包含了与文本实体相关的实体和关系,用于后续的匹配过程,以提高匹配效率和准确性;
步骤6,特征表示:使用卷积神经网络对预处理后的词向量进行特征提取,并利用循环神经网络编码这些特征向量,同时利用图嵌入技术将跨语言知识图谱中的实体和关系表示为低维向量,最后将文本特征和知识图谱候选集的特征进行融合得到综合特征表示;
步骤7,引入跨语言知识图谱:将跨语言知识图谱中的实体和关系信息与文本特征相融合;
步骤8:构建基于CNN-RNN神经网络模型对技术供需数据进行分类和匹配训练:包括数据预处理,清洗和标准化处理技术供需数据,将其划分为训练集和测试集;CNN特征提取,使用卷积神经网络提取数据的特征表示;RNN序列建模,采用LSTM和GRU相结合的方式构建RNN模型,并引入注意力机制以捕捉上下文信息和序列依赖关系;技术供需匹配判断,通过学习技术供需详细描述的语义特征并计算语义相似度进行技术供需匹配判断;
步骤9:模型评估和优化,包括参数调整、训练数据增强、早停法等方式。
3.根据权利要求2所述基于技术交易平台的文本挖掘方法,其特征在于,所述步骤4特征提取,具体包括:
步骤4.1,对技术供需文本进行词嵌入处理,将每个单词映射到高维向量空间中;
步骤4.2,根据GloVe词向量获取技术的公式,进行文本数据特征提取;
步骤4.3,对词语之间的共现概率关系进行捕获,利用词向量和目标词上下文词语的词向量计算共现概率比值;
步骤4.4,确定词语间相似度F函数,使用向量差异来编码共现概率比值的信息,通过参数化的复杂函数实现;
步骤4.5,基于共现概率矩阵,构建目标函数,采用加权最小二乘回归模型,以带权的均方差作为损失函数;
步骤4.6,构建权重函数,确保贡献频率低的词语具有较小的权重,并防止共现频率高的词语权重过大;
步骤4.7,在操作中固定截断值,控制模型性能。
4.根据权利要求2所述基于技术交易平台的文本挖掘方法,其特征在于,所述步骤5跨语言知识图谱初步匹配,具体包括:
步骤5.1,对步骤3预处理后的文本进行实体识别,识别出文本中的相关实体;
步骤5.2,利用实体链接技术将文本中的实体与跨语言知识图谱中的对应实体进行关联;
步骤5.3,根据实体链接的结果,在跨语言知识图谱中找到与文本实体相关的实体和关系;
步骤5.4,遍历知识图谱中的实体和关系,筛选出与文本实体相关的候选实体和关系;
步骤5.5,将候选实体和关系作为输入,与技术供需文本一起输入到卷积神经网络和循环神经网络模型中,进行精细的匹配。
5.根据权利要求2所述基于技术交易平台的文本挖掘方法,其特征在于,所述步骤6特征表示,具体包括:
步骤6.1,卷积神经网络特征提取:对预处理后的词向量使用卷积神经网络进行特征提取;通过多个不同窗口大小的卷积核在词向量序列上进行卷积操作,捕捉不同长度的局部特征,将其映射为固定长度的特征向量;
步骤6.2,循环神经网络编码:使用循环神经网络对卷积神经网络提取的特征向量进行编码;
步骤6.3,知识图谱候选集表示:利用图嵌入技术将跨语言知识图谱候选集中的实体和关系映射为低维向量表示;通过转换模型将实体和关系表示为向量,然后将候选集中的实体和关系组合成一个向量表示,作为知识图谱候选集的整体特征;
步骤6.4,特征融合:将卷积神经网络和循环神经网络模型提取的文本特征与知识图谱候选集的特征进行融合;通过拼接、加权求和将两部分特征融合在一起,得到一个综合的特征表示,用于技术供需信息的精准匹配。
6.根据权利要求2所述基于技术交易平台的文本挖掘方法,其特征在于,所述步骤8构建基于CNN-RNN神经网络模型对技术供需数据进行分类和匹配训练,具体包括:
步骤8.1,数据预处理:对技术供需数据进行清洗和标准化处理,去除噪声和不必要的信息,并将数据划分为训练集和测试集;
步骤8.2,CNN特征提取:使用卷积神经网络(CNN)提取数据的特征表示,包括以下操作:(1)定义卷积核和池化窗口的数量和大小,以捕获不同尺度下的特征;(2)添加卷积层来提取技术供需数据的局部特征,每个卷积核用于捕获不同的语义特征;(3)添加池化层来降低特征维度并保留关键信息;(4)堆叠多个卷积层和池化层以进一步提取高级别特征;(5)添加全连接层将特征映射到输出空间;
步骤8.3,RNN序列建模:使用结合了长短期记忆(LSTM)和门控循环单元(GRU)的RNN模型对数据进行序列建模,包括以下操作:(1)使用双向GRU学习技术需求和科技成果的详细描述的数据表征;(2)引入注意力机制评估技术需求中不同要求的重要程度;(3)使用全连接层和sigmoid激活函数进行技术供需匹配的预测判断;
步骤8.4,技术供需匹配判断:使用语义相似度计算来衡量技术供需详细描述的匹配程度,并通过最小化二分类交叉熵损失函数训练模型以判断技术供需匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310972265.7A CN116956228A (zh) | 2023-08-03 | 2023-08-03 | 一种技术交易平台的文本挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310972265.7A CN116956228A (zh) | 2023-08-03 | 2023-08-03 | 一种技术交易平台的文本挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956228A true CN116956228A (zh) | 2023-10-27 |
Family
ID=88449066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310972265.7A Pending CN116956228A (zh) | 2023-08-03 | 2023-08-03 | 一种技术交易平台的文本挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956228A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539648A (zh) * | 2024-01-09 | 2024-02-09 | 天津市大数据管理中心 | 一种电子政务云平台的服务质量管理方法及装置 |
-
2023
- 2023-08-03 CN CN202310972265.7A patent/CN116956228A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539648A (zh) * | 2024-01-09 | 2024-02-09 | 天津市大数据管理中心 | 一种电子政务云平台的服务质量管理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
US11900250B2 (en) | Deep learning model for learning program embeddings | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN114547230A (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN111259147A (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
Ribeiro et al. | Acceptance decision prediction in peer-review through sentiment analysis | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN113435212B (zh) | 一种基于规则嵌入的文本推断方法及装置 | |
CN113821571B (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |