CN114443916B - 一种面向试验数据的供需匹配方法及系统 - Google Patents

一种面向试验数据的供需匹配方法及系统 Download PDF

Info

Publication number
CN114443916B
CN114443916B CN202210087462.6A CN202210087462A CN114443916B CN 114443916 B CN114443916 B CN 114443916B CN 202210087462 A CN202210087462 A CN 202210087462A CN 114443916 B CN114443916 B CN 114443916B
Authority
CN
China
Prior art keywords
user
data
demand
text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210087462.6A
Other languages
English (en)
Other versions
CN114443916A (zh
Inventor
周晓磊
张骁雄
严浩
王芳潇
范强
江春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210087462.6A priority Critical patent/CN114443916B/zh
Publication of CN114443916A publication Critical patent/CN114443916A/zh
Application granted granted Critical
Publication of CN114443916B publication Critical patent/CN114443916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向试验数据的供需匹配方法及系统,所述方法包括如下步骤:对所采集的试验数据名录分别进行文本的语义特征提取和图像的语义特征提取,获取语义特征存储至数据名录数据库中;结合需求用户的静态信息与动态行为,对需求用户进行多模态融合全维画像操作,获取全维特征并存储至用户行为数据库中;对所述语义特征与所述全维特征,分别进行数据分类映射服务;构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。本发明具备方法配置、参数配置、调用验证等功能。

Description

一种面向试验数据的供需匹配方法及系统
技术领域
本发明涉及一种面向试验数据的供需匹配方法及系统,属于计算机数据智能分析技术领域。
背景技术
现有数据名录生成方法通常采用单一策略进行生成,目前主流的方法如下:第一,基于数据名录的协同过滤,根据所有用户对物品或者信息的评价,发现数据名录之间的相似度或关联性,然后根据用户的历史偏好信息将类似的物品生成推荐给该用户;第二,基于用户的协同过滤,根据用户之间相似度生成推荐相似用户感兴趣的数据名录。
现有技术方案难以解决试验业务领域数据名录推荐的需求,存在的技术缺点是:第一,用户在使用系统时,对于数据名录的推荐需求是动态变化的,现有单一策略的推荐方法无法满足用户的动态需求;第二,现有推荐算法无法基于数据名录的语义和图像信息进行推荐,缺乏基于语义层面的推荐算法;第三,用户除静态属性外,还需结合其动态行为特征进行画像分析,现有推荐算法无法结合用户的静态属性和动态行为特征。
发明内容
本发明的目的在于,克服现有技术存在的技术缺陷,解决现有技术无法动态配置推荐策略以满足试验这一业务场景和用户动态需求的问题、无法基于试验数据名录的语义和图像特征进行推荐的问题和无法综合静态属性和动态行为特征对试验用户进行全维画像问题,提出一种面向试验数据的供需匹配方法及系统。
为了解决上述技术问题,本发明提出的一种面向试验数据的供需匹配方法,包括如下步骤:
101)语义特征提取步骤:采集试验数据名录,对所采集的试验数据名录分别利用TextRank-BiLSTM-CNN-Attention多特征融合方法和CNN-Attention-BiLSTM多特征提取方法进行文本的语义特征提取和图像的语义特征提取,获取语义特征后存储至数据名录数据库中;
102)用户行为提取步骤:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像,获取全维特征存储至用户行为数据库中;
103)数据分类映射步骤:基于语义特征与全维特征,分别基于FastText模型的文本分类方法和基于显著增强分层双线性池化网络的细粒度图像分类方法提供数据分类映射服务;
104)名录混合生成步骤:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;
105)供需匹配服务步骤:基于语义特征和用户全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
进一步,所述步骤101)中的语义特征包括:文本关键词、图像关键词、文本实体、文本实体属性、图像属性、文本描述向量、图像语义描述。
进一步,步骤101)中所述对所采集的试验数据名录进行语义特征提取包括两个子步骤:10101)文本的语义特征提取与10102)图像的语义特征提取。
进一步,所述步骤101)的子步骤10101)采用TextRank-BiLSTM-CNN-Attention多特征融合方法,步骤包括:
1010101)利用TextRank算法进行文本关键词提取;
1010102)利用结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型进行文本实体识别;
1010103)利用面向文本化简(TS)的序列到序列(seq2seq)神经网络模型进行文本实体属性提取;
1010104)基于BiLSTM-CNN-Attention的文本描述向量获取。
进一步,所述步骤101)的子步骤10102)采用CNN-ATT-BiLSTM多特征提取方法,步骤包括:
1010201):利用卷积神经网络(CNN)进行图像全局特征提取;
1010202):利用属性提取模型(ATT)进行图像属性特征提取;
1010203):结合上述两种特征,利用双向长短时记忆网络(Bi-LSTM)生成图像语义描述。
进一步,所述步骤102)采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源。该模型是多层多级的融合模型,包含3个简单而有效的方法,即模型组合策略、跨模态学习联合表示网络和stacking集成方法。
进一步,步骤103)所述数据分类映射包括两个子步骤:10301)文本数据分类映射与10302)图像数据分类映射。
进一步,所述步骤103)的子步骤10301)采用FastText模型进行文本分类映射。
进一步,所述步骤103)的子步骤10302)采用显著增强分层双线性池化网络进行细粒度图像分类映射。
进一步,步骤104)所述的推荐算法集合包含:基于内容协同过滤、基于用户协同过滤、基于内容语义推荐、基于用户静态属性、基于用户行为、基于数据名录热度和基于用户评价的推荐算法。
进一步,所述步骤104)用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征。
进一步,步骤105)所述的基于注意力与多模态混合融合法面向文本、图片和用户画像3个模态,基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权。
本发明还提出面向试验数据的供需匹配系统,包括:语义特征提取装置,用户行为提取装置,数据分类映射装置,名录混合生成装置,供需匹配服务装置。
语义特征提取装置,具体执行:利用试验数据名录进行语义分析,抽取试验数据名录的语义特征,存储至数据名录数据库中;
用户行为提取装置,具体执行:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像,并将全维特征存储至用户行为数据库中;
数据分类映射装置,具体执行:基于语义特征与全维特征,分别基于FastText模型的文本分类方法和基于显著增强分层双线性池化网络的细粒度图像分类方法提供数据分类映射服务;
名录混合生成装置,具体执行:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;
供需匹配服务装置,具体执行:基于语义特征和用户全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
进一步,所述语义特征提取装置中的语义特征包括:文本关键词、图像关键词、文本实体、文本实体属性、图像属性、文本描述向量、图像语义描述。
进一步,语义特征提取装置中所述对所采集的试验数据名录进行语义特征提取包括:文本的语义特征提取与图像的语义特征提取。
进一步,所述语义特征提取装置的文本语义特征提取采用TextRank-BiLSTM-CNN-Attention多特征融合方法,包括如下4个子模块:
TextRank文本关键词提取子模块;
结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型的文本实体识别子模块;
面向文本化简(TS)的序列到序列(seq2seq)神经网络模型的文本实体属性提取子模块;
基于BiLSTM-CNN-Attention的文本描述向量获取子模块。
进一步,所述语义特征提取装置的图像语义特征提取采用CNN-ATT-BiLSTM多特征提取方法,包括如下3个子模块:
卷积神经网络(CNN)图像全局特征提取子模块;
基于属性提取模型(ATT)的图像属性特征提取子模块;
基于双向长短时记忆网络(Bi-LSTM)的图像语义描述生成子模块。
进一步,所述用户行为提取装置采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源。该模型是多层多级的融合模型,包含3个简单而有效的子模块,即模型组合策略子模块、跨模态学习联合表示网络子模块和stacking集成子模块。
进一步,所述数据分类映射装置包括:文本数据分类映射子模块与图像数据分类映射子模块。
进一步,所述数据分类映射装置的文本数据分类映射子模块采用FastText模型进行文本分类映射。
进一步,所述数据分类映射装置的图像数据分类映射子模块采用显著增强分层双线性池化网络进行细粒度图像分类映射。
进一步,名录混合生成装置所述的推荐算法集合包含:基于内容协同过滤、基于用户协同过滤、基于内容语义推荐、基于用户静态属性、基于用户行为、基于数据名录热度和基于用户评价的推荐算法。
进一步,所述名录混合生成装置采用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征。
进一步,供需匹配服务装置采用了基于注意力与多模态混合融合法,面向文本、图片和用户画像3个模态,基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权。
本发明所达到的有益效果:本发明使用的多策略混合数据名录推荐技术,能够对动态配置推荐策略,以满足试验业务场景和用户不断变化的需求;同时,抽取数据名录的语义和图像特征,并基于抽取特征实现数据名录的精准推荐;最后,方法除考虑试验用户的静态属性外,还记录试验用户的动态行为,并根据静态和动态两方面特征构建试验用户画像,提升推荐的准确率。
附图说明
图1是根据本发明实施例的一种面向试验数据的供需匹配方法的整体原理框图;
图2是根据本发明实施例的一种面向试验数据的供需匹配方法的流程图;
图3是根据本发明实施例的文本语义特征提取方法的流程图;
图4是根据本发明实施例的图像语义特征提取方法的流程图;
图5是根据本发明实施例的基于多层多级融合模型的用户行为提取框图;
图6是根据本发明实施例的文本数据分类映射示意图;
图7是根据本发明实施例的图像数据分类映射示意图;
图8是根据本发明实施例的面向试验数据的供需匹配系统示意图。
具体实施方式
下面详细描述本发明的实施方式,其中自始至终相同或类似的标号表示相同或类似的元件或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明而不能作为对本发明的限制。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科技术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样的定义,不会用理想化或过于正式的含义来解释。
本发明提供的一种面向试验数据的供需匹配方法,如图1所示。一方面,采集数据名录,调用语义特征提取方法(包括文本分析与图像识别)获得包括关键词(包括文本的和图像的)、实体、实体属性(也包括图像属性)、描述向量(也包括图像语义描述)在内的语义特征,并将这些特征入库。另一方面,结合需求用户的静态信息与动态行为,对需求用户进行全维画像,并将全维特征存储至用户行为数据库中。最后,构建推荐算法集合,根据具体业务场景和用户需求,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果。
本发明提供的一种面向试验数据的供需匹配方法的具体步骤如图2所示,描述如下:
101)语义特征提取步骤:采集试验数据名录,对所采集的试验数据名录分别利用TextRank-BiLSTM-CNN-Attention多特征融合方法和CNN-Attention-BiLSTM多特征提取方法进行文本的语义特征提取和图像的语义特征提取,将特征存储至数据名录数据库中;
102)用户行为提取步骤:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像,并将全维特征存储至用户行为数据库中;
103)数据分类映射步骤:基于语义特征与全维特征,分别基于FastText模型的文本分类方法和基于显著增强分层双线性池化网络的细粒度图像分类方法提供数据分类映射服务;
104)名录混合生成步骤:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;
105)供需匹配服务步骤:基于语义特征和用户全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
进一步,所述步骤101)中的语义特征包括:文本关键词、图像关键词、文本实体、文本实体属性、图像属性、文本描述向量、图像语义描述。
进一步,步骤101)中所述对所采集的试验数据名录进行语义特征提取包括两个子步骤:10101)文本的语义特征提取与10102)图像的语义特征提取。
进一步,所述步骤101)的子步骤10101)采用TextRank-BiLSTM-CNN-Attention多特征融合方法,如图3所示,步骤包括:
1010101)利用TextRank算法进行文本关键词提取;
1010102)利用结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型进行文本实体识别;
1010103)利用面向文本化简(TS)的序列到序列(seq2seq)神经网络模型进行文本实体属性提取;
1010104)基于BiLSTM-CNN-Attention的文本描述向量获取。
详细地,步骤1010101)利用改进的TextRank算法进行文本关键词提取的过程如下:将一段文本分成若干部分,对其中的每个部分构建关键词图,并在每一部分中提取若干关键词,最后根据词频、长度、位置和词性等综合因素进行打分,选出最终的关键词;
详细地,步骤1010102)利用结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型进行文本实体识别的过程如下:采用连续词袋模型对输入字向量进行预训练,丰富字向量特征信息,缓解分词准确度对性能的影响;引入文档级的注意力机制,获取实体间相似信息,保证实体在不同语境下的标签一致性;基于双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型,实现武器装备实体识别;
详细地,步骤1010103)利用面向文本化简(TS)的序列到序列(seq2seq)神经网络模型进行文本实体属性提取的过程如下:对于待抽取信息的文本,先使用一个针对文本化简设计的seq2seq神经网络将其转化为一系列的简单句,再用简洁的规则从简单句中抽取实体的属性信息;
详细地,步骤1010104)基于BiLSTM-CNN-Attention的文本描述向量获取的过程如下:使用预训练词向量将文本信息转换为词向量,通过将词向量送入CNN层、BiLSTM层,获得所对应的深度词向量特征;通过Attention机制使CNN层特征与Bi-LSTM层特征交互,得到融合特征(文本描述向量)表示。
进一步,所述步骤101)的子步骤10102)采用CNN-ATT-BiLSTM多特征提取方法,如图4所示,步骤包括:
1010201):利用卷积神经网络(CNN)进行图像全局特征提取;
1010202):利用属性提取模型(ATT)进行图像属性特征提取;
1010203):结合上述两种特征,利用双向长短时记忆网络(Bi-LSTM)生成图像语义描述。
详细地,步骤1010201)采用Resnet-50残差网络架构的卷积层与平均池化层提取图像的全局特征。Resnet-50残差网络在ImageNet分类数据集上预先训练。
详细地,步骤1010202)采用SSD(Single Shot multibox Detector)模型对图像的属性信息进行提取。为了能够检测到图像中不同尺寸的物体,使用若干不同输出尺寸的特征图进行检测。位于不同层的特征图设置的先验框数目不同,其参数包括尺度和长宽比两个方面。
详细地,步骤1010203)使用了双向长短时记忆网络模型,充分利用句子过去和将来的上下文信息预测语义,生成涵盖丰富的语义信息的语句,并且更加符合人类表达习惯。模型由三部分组成:图像全局特征、用于编码句子输入的T-LSTM(Test LSTM)、用于将视觉和文本向量嵌入到公共语言空间的M-LSTM(Multimodal LSTM)。
进一步,所述步骤102)采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源。该模型是多层多级的融合模型,包含3个简单而有效的方法,即模型组合策略、跨模态学习联合表示网络和stacking集成方法。
详细地,步骤102)将数据集中的所有用户用一个用户特征集(A,B,C,D)来表示,特征集的每个用户拥有特征词A、文本特征B、视觉特征C和连接用户彼此的链接特征D共4种模态的特征。为了包含数据源共享与不共享的表示,使用模型组合的策略,并针对特定的模型组合构建相应的跨模态学习联合表示网络。模型可以分为(A,B,C,D)、(A,B,C)、(A,B,D)、(A,C,D)、(B,C,D)、(A,B)、(A,C)、(A,D)、(B,C)、(B,D)和(C,D)11种组合。其中,(A,B,C,D)对应的跨模态学习联合表示网络称为F_ABCD,其他组合依此类推。整体架构如图5所示,首先学习用户的4种数据源嵌入,然后将4种数据源嵌入进行模型组合,产生11种组合形式。将所有模型组合输入多模态融合模型中,每一种模型组合使用相应的跨模态学习联合表示网络来学习,输出类别的预测概率。将预测概率拼接,得到stacking第2层的训练样本和测试样本,最后输入到一个神经网络中做分类。
进一步,步骤103)所述数据分类映射包括两个子步骤:10301)文本数据分类映射与10302)图像数据分类映射。
进一步,所述步骤103)的子步骤10301)采用FastText模型进行文本分类映射。
详细地,子步骤10301)主要包含6层:输入层、卷积神经网络层、双向LSTM层、注意力计算层、FastText层、预测层。如图6所示,过程如下:
输入层对文本预处理,将每个词构建成词向量表示;
双向LSTM层与卷积神经网络层分别将输入层的词向量作为输入,得到深层词向量的特征表示;
注意力计算层将双向LSTM层与卷积神经网络层的输出特征作为输入,为双向LSTM层输出的每个深层词向量计算合适的注意力权重值;
Fasttext层将输入层的词向量进行2-gram处理,作为自己的输人并作叠加平均,得到词向量的浅层表示;
将Fasttext层的输出与注意力计算层的输出拼接并作为预测层的输入,预测层基于该特征预测文本分类。
进一步,所述步骤103)的子步骤10302)采用显著增强分层双线性池化网络进行细粒度图像分类映射。
详细地,子步骤10302)通过显著性检测得到一幅图像的显著性特征,在此基础上得到注意力图;再将注意力图与特征提取网络中的特征进行乘积融合实现显著区域的信息增强;然后进行后续的特征提取及增强特征的分层双线性池化细粒度分类操作,如图7所示。
进一步,步骤104)所述的推荐算法集合包含:基于内容协同过滤、基于用户协同过滤、基于内容语义推荐、基于用户静态属性、基于用户行为、基于数据名录热度和基于用户评价的推荐算法。
进一步,所述步骤104)用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征。
详细地,所述步骤104)首先考虑到用户兴趣的长期稳定性,基于降噪自编码器提取出用户兴趣的长期模型;其次考虑到用户兴趣的动态性,利用用户兴趣的短期模型,基于深度学习中对时间序列敏感的RNN技术提取出短期兴趣特征;最后,将用户长期和短期的兴趣模型混合,即在用户兴趣长期稳定的基础上加入短期兴趣变化扰动,构建了对用户推荐的混合模型。
进一步,步骤105)所述的基于注意力与多模态混合融合法面向文本、图片和用户画像3个模态,基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权。
详细地,步骤105)所述的基于注意力与多模态混合融合法面向文本、图片和用户画像3个模态,先对文本词和视觉特征进行双向匹配,生成融合注意力机制的文本词特征和视觉特征;然后对用户特征、文本词特征和视觉特征基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权;在此基础上,采用基于Dempster’s组合规则的多模态混合融合方法统一融合方式,以提升匹配的准确性。
本发明还提出一种面向试验数据的供需匹配系统,包括:语义特征提取装置,用户行为提取装置,数据分类映射装置,名录混合生成装置,供需匹配服务装置,如图8所示。
语义特征提取装置,具体执行:利用试验数据名录进行语义分析,抽取试验数据名录的语义特征,存储至数据名录数据库中;
用户行为提取装置,具体执行:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像,并将全维特征存储至用户行为数据库中;
数据分类映射装置,具体执行:基于语义特征与全维特征,分别基于FastText模型的文本分类方法和基于显著增强分层双线性池化网络的细粒度图像分类方法提供数据分类映射服务;
名录混合生成装置,具体执行:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;
供需匹配服务装置,具体执行:基于语义特征和用户全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
进一步,所述语义特征提取装置中的语义特征包括:文本关键词、图像关键词、文本实体、文本实体属性、图像属性、文本描述向量、图像语义描述。
进一步,语义特征提取装置中所述对所采集的试验数据名录进行语义特征提取包括:文本的语义特征提取子模块与图像的语义特征提取子模块。
进一步,所述语义特征提取装置的文本语义特征提取子模块采用TextRank-BiLSTM-CNN-Attention多特征融合方法,包括如下4个子模块:
TextRank文本关键词提取子模块;
结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型的文本实体识别子模块;
面向文本化简(TS)的序列到序列(seq2seq)神经网络模型的文本实体属性提取子模块;
基于BiLSTM-CNN-Attention的文本描述向量获取子模块。
详细地,所述TextRank文本关键词提取子模块的功能是:将一段文本分成若干部分,对其中的每个部分构建关键词图,并在每一部分中提取若干关键词,最后根据词频、长度、位置和词性等综合因素进行打分,选出最终的关键词;
详细地,所述结合注意力机制双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型的文本实体识别子模块的功能是:采用连续词袋模型对输入字向量进行预训练,丰富字向量特征信息,缓解分词准确度对性能的影响;引入文档级的注意力机制,获取实体间相似信息,保证实体在不同语境下的标签一致性;基于双向长短期记忆网络(BiLSTM)和条件随机场(CRF)模型,实现武器装备实体识别;
详细地,所述面向文本化简(TS)的序列到序列(seq2seq)神经网络模型的文本实体属性提取子模块的功能是:对于待抽取信息的文本,先使用一个针对文本化简设计的seq2seq神经网络将其转化为一系列的简单句,再用简洁的规则从简单句中抽取实体的属性信息;
详细地,所述基于BiLSTM-CNN-Attention的文本描述向量获取子模块的功能是:使用预训练词向量将文本信息转换为词向量,通过将词向量送入CNN层、BiLSTM层,获得所对应的深度词向量特征;通过Attention机制使CNN层特征与Bi-LSTM层特征交互,得到融合特征(文本描述向量)表示。
进一步,所述语义特征提取装置的图像语义特征提取子模块采用CNN-ATT-BiLSTM多特征提取方法,包括如下3个子模块:
卷积神经网络(CNN)图像全局特征提取子模块;
基于属性提取模型(ATT)的图像属性特征提取子模块;
基于双向长短时记忆网络(Bi-LSTM)的图像语义描述生成子模块。
详细地,所述卷积神经网络(CNN)图像全局特征提取子模块的功能是:采用Resnet-50残差网络架构的卷积层与平均池化层提取图像的全局特征。Resnet-50残差网络在ImageNet分类数据集上预先训练。
详细地,所述基于属性提取模型(ATT)的图像属性特征提取子模块的功能是:采用SSD(Single Shot multibox Detector)模型对图像的属性信息进行提取。为了能够检测到图像中不同尺寸的物体,使用若干不同输出尺寸的特征图进行检测。位于不同层的特征图设置的先验框数目不同,其参数包括尺度和长宽比两个方面。
详细地,所述基于双向长短时记忆网络(Bi-LSTM)的图像语义描述生成子模块的功能是:使用双向长短时记忆网络模型,充分利用句子过去和将来的上下文信息预测语义,生成涵盖丰富的语义信息的语句,并且更加符合人类表达习惯。模型由三部分组成:图像全局特征、用于编码句子输入的T-LSTM(Test LSTM)、用于将视觉和文本向量嵌入到公共语言空间的M-LSTM(Multimodal LSTM)。
进一步,所述用户行为提取装置采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源。该模型是多层多级的融合模型,包含3个简单而有效的子模块,即模型组合策略子模块、跨模态学习联合表示网络子模块和stacking集成子模块。
详细地,用户行为提取装置将数据集中的所有用户用一个用户特征集(A,B,C,D)来表示,特征集的每个用户拥有特征词A、文本特征B、视觉特征C和连接用户彼此的链接特征D共4种模态的特征。为了包含数据源共享与不共享的表示,使用模型组合的策略,并针对特定的模型组合构建相应的跨模态学习联合表示网络。模型可以分为(A,B,C,D)、(A,B,C)、(A,B,D)、(A,C,D)、(B,C,D)、(A,B)、(A,C)、(A,D)、(B,C)、(B,D)和(C,D)11种组合。其中,(A,B,C,D)对应的跨模态学习联合表示网络称为F_ABCD,其他组合依此类推。整体架构如图5所示,首先学习用户的4种数据源嵌入,然后将4种数据源嵌入进行模型组合,产生11种组合形式。将所有模型组合输入多模态融合模型中,每一种模型组合使用相应的跨模态学习联合表示网络来学习,输出类别的预测概率。将预测概率拼接,得到stacking第2层的训练样本和测试样本,最后输入到一个神经网络中做分类。
进一步,所述数据分类映射装置包括:文本数据分类映射子模块与图像数据分类映射子模块。
进一步,所述数据分类映射装置的文本数据分类映射子模块采用FastText模型进行文本分类映射。
进一步,所述数据分类映射装置的图像数据分类映射子模块采用显著增强分层双线性池化网络进行细粒度图像分类映射。
详细地,文本数据分类映射子模块主要包含6层:输入层、卷积神经网络层、双向LSTM层、注意力计算层、FastText层、预测层。如图6所示,过程如下:
输入层对文本预处理,将每个词构建成词向量表示;
双向LSTM层与卷积神经网络层分别将输入层的词向量作为输入,得到深层词向量的特征表示;
注意力计算层将双向LSTM层与卷积神经网络层的输出特征作为输入,为双向LSTM层输出的每个深层词向量计算合适的注意力权重值;
Fasttext层将输入层的词向量进行2-gram处理,作为自己的输入并作叠加平均,得到词向量的浅层表示;
将Fasttext层的输出与注意力计算层的输出拼接并作为预测层的输入,预测层基于该特征预测文本分类。
详细地,图像数据分类映射子模块通过显著性检测得到一幅图像的显著性特征,在此基础上得到注意力图;再将注意力图与特征提取网络中的特征进行乘积融合实现显著区域的信息增强;然后进行后续的特征提取及增强特征的分层双线性池化细粒度分类操作,如图7所示。
进一步,名录混合生成装置所述的推荐算法集合包含:基于内容协同过滤、基于用户协同过滤、基于内容语义推荐、基于用户静态属性、基于用户行为、基于数据名录热度和基于用户评价的推荐算法。
进一步,所述名录混合生成装置用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征。
详细地,所述名录混合生成装置首先考虑到用户兴趣的长期稳定性,基于降噪自编码器提取出用户兴趣的长期模型;其次考虑到用户兴趣的动态性,利用用户兴趣的短期模型,基于深度学习中对时间序列敏感的RNN技术提取出短期兴趣特征;最后,将用户长期和短期的兴趣模型混合,即在用户兴趣长期稳定的基础上加入短期兴趣变化扰动,构建了对用户推荐的混合模型。
进一步,供需匹配服务装置所述的基于注意力与多模态混合融合法面向文本、图片和用户画像3个模态,基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权。
详细地,供需匹配服务装置所述的基于注意力与多模态混合融合法面向文本、图片和用户画像3个模态,先对文本词和视觉特征进行双向匹配,生成融合注意力机制的文本词特征和视觉特征;然后对用户特征、文本词特征和视觉特征基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权;在此基础上,采用基于Dempster’s组合规则的多模态混合融合方法统一融合方式,以提升匹配的准确性。
本发明还提出电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法的步骤。
本发明还提出介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述方法的步骤。
本发明的优点在于:第一,本发明调用文本分析模型和图像识别模型抽取数据名录的语义特征和图像特征,为基于语义的推荐算法提供支撑。第二,本发明通过实时记录用户行为,结合用户静态属性和动态特征,构建用户全维画像,为基于用户的协同过滤提供支撑。第三,本发明构建由多种推荐算法组成的推荐算法库,根据业务场景和用户动态需求,基于多策略混合灵活配置推荐策略和权重,提高数据名录的推荐效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种面向试验数据的供需匹配方法,其特征在于,包括如下步骤:步骤101),语义特征提取步骤,包括:采集试验数据名录,对所采集的试验数据名录分别利用多特征融合方法和多特征提取方法进行文本的语义特征提取和图像的语义特征提取,获取语义特征存储至数据名录数据库中;
步骤102),用户行为提取步骤,包括:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像操作,获取全维特征并存储至用户行为数据库中;所述步骤102)采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源;所述跨模态学习模型为多层多级的融合模型,包含模型组合策略方法、跨模态学习联合表示网络方法和stacking集成方法;
步骤103),数据分类映射步骤,包括:对所述语义特征与所述全维特征,分别基于文本分类方法和基于细粒度图像分类方法进行数据分类映射服务;
步骤104),名录混合生成步骤,包括:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;所述步骤104)中所述名录混合生成步骤采用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征;
步骤105),供需匹配服务步骤,包括:基于语义特征和用户的全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
2.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤101)中的语义特征包括:文本关键词、图像关键词、文本实体、文本实体属性、图像属性、文本描述向量、图像语义描述。
3.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤102)中的全维画像融合了用户静态信息与动态行为。
4.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤103)包括文本数据分类映射与图像数据分类映射。
5.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤103)包括:采用FastText模型进行文本分类映射;采用显著增强分层双线性池化网络进行细粒度图像分类映射。
6.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤104)中的所述的推荐算法集合包含:基于内容协同过滤、基于用户协同过滤、基于内容语义推荐、基于用户静态属性、基于用户行为、基于数据名录热度和基于用户评价的推荐算法。
7.根据权利要求1所述的一种面向试验数据的供需匹配方法,其特征在于,所述步骤105)所述的供需匹配服务步骤具体包括:采用基于注意力与多模态混合融合法,面向文本、图片和用户画像3个模态,基于自注意力机制进行特征的前期融合和后期融合,实现特征和决策的自动加权。
8.一种面向试验数据的供需匹配系统,其特征在于,包括:
语义特征提取装置,具体执行:利用试验数据名录进行语义分析,抽取试验数据名录的语义特征,存储至数据名录数据库中;
用户行为提取装置,具体执行:结合需求用户的静态信息与动态行为,对需求用户基于跨模态学习模型进行多模态融合全维画像,并将全维特征存储至用户行为数据库中;所述用户行为提取装置采用的跨模态学习模型通过学习多模态联合表示来融合多种数据源;所述跨模态学习模型为多层多级的融合模型,包含模型组合策略方法、跨模态学习联合表示网络方法和stacking集成方法;
数据分类映射装置,具体执行:基于语义特征与全维特征,分别基于FastText模型的文本分类方法和基于显著增强分层双线性池化网络的细粒度图像分类方法提供数据分类映射服务;
名录混合生成装置,具体执行:构建推荐算法集合,根据具体业务场景和用户需求,结合降噪自编码器模型,动态选择推荐算法策略,多策略混合调用数据名录和用户行为相关数据,经计算排序生成推荐数据名录结果;所述名录混合生成装置采用降噪自编码器提取用户相对稳定的长期兴趣特征与短期兴趣特征进行融合作为用户长短期动态行为特征;
供需匹配服务装置,具体执行:基于语义特征和用户全维画像,根据用户需求,基于注意力与多模态混合融合法提供供需匹配服务。
CN202210087462.6A 2022-01-25 2022-01-25 一种面向试验数据的供需匹配方法及系统 Active CN114443916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210087462.6A CN114443916B (zh) 2022-01-25 2022-01-25 一种面向试验数据的供需匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210087462.6A CN114443916B (zh) 2022-01-25 2022-01-25 一种面向试验数据的供需匹配方法及系统

Publications (2)

Publication Number Publication Date
CN114443916A CN114443916A (zh) 2022-05-06
CN114443916B true CN114443916B (zh) 2024-02-06

Family

ID=81369251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210087462.6A Active CN114443916B (zh) 2022-01-25 2022-01-25 一种面向试验数据的供需匹配方法及系统

Country Status (1)

Country Link
CN (1) CN114443916B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
军事应用中位置计算服务关键问题研究;周晓磊;中国博士学位论文全文数据库 信息科技辑;I136-238 *

Also Published As

Publication number Publication date
CN114443916A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN111246256B (zh) 基于多模态视频内容和多任务学习的视频推荐方法
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN112434142B (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN114443916B (zh) 一种面向试验数据的供需匹配方法及系统
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN115168724A (zh) 一种融合多粒度信息的新闻推荐方法及系统
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN110969187A (zh) 一种图谱迁移的语义分析方法
CN116933854B (zh) 图像生成模型的处理方法、装置、设备和存储介质
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant