CN108268883A - 基于开放数据的移动端信息模板自构建系统 - Google Patents

基于开放数据的移动端信息模板自构建系统 Download PDF

Info

Publication number
CN108268883A
CN108268883A CN201611265749.4A CN201611265749A CN108268883A CN 108268883 A CN108268883 A CN 108268883A CN 201611265749 A CN201611265749 A CN 201611265749A CN 108268883 A CN108268883 A CN 108268883A
Authority
CN
China
Prior art keywords
concept
information model
open data
product
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611265749.4A
Other languages
English (en)
Other versions
CN108268883B (zh
Inventor
胡洁琼
毕舰水
蔡鸿明
姜丽红
谢诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201611265749.4A priority Critical patent/CN108268883B/zh
Publication of CN108268883A publication Critical patent/CN108268883A/zh
Application granted granted Critical
Publication of CN108268883B publication Critical patent/CN108268883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

一种基于开放数据的移动端信息模板自构建系统,包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工介入,易用性好且开放性强。

Description

基于开放数据的移动端信息模板自构建系统
技术领域
本发明涉及的是一种信息检索领域的技术,具体是一种基于开放数据的移动端信息模板自构建系统。
背景技术
随着电商平台井喷式的数量增长。产品需求具有模糊性、多样性、动态性等特点,企业需要准确地获取产品需求,规范产品需求表达方式,实现产品需求自适应。企业需要定制上架产品信息模版并对上架信息组织管理。
发明内容
本发明针对现有技术无法自动构建产品模板等缺陷,提出一种基于开放数据的移动端信息模板自构建系统,采用基于概念和规则的匹配方法查找能实现特定产品需求的信息条目,降低需求的模糊性,自动形成产品的独有信息模板。同时,结合移动端获取图像信息灵活和便利的特点,能够显著降低输入歧义,提高准确度。
本发明是通过以下技术方案实现的:
本发明包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到层级概念领域本体知识库。
所述的图像识别器根据用户输入的图片和文字,采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。
所述的余弦相似度是指:其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。
所述的相似性矩阵中的相似度采用similarity-flooding算法校正。
所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,共现分析理论得到的概念间相关性程度得分即为两个概念共同出现的次数除以两个概念分别出现的次数,通过与概念相关联的概念的相关性程度得分(即重要性权重)排序,从而得到产品概念的信息描述模板。
本发明涉及一种根据上述系统的信息描述模板实现方法,包括:离线阶段和在线阶段,其中:
离线阶段是指:本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库;然后利用共现分析理论得到概念间的相关性程度,再通过图像识别模块通过开放数据中的图像构建出图像训练集,由图像识别器对输入图像中的概念识别得到产品概念候选集;
在线阶段是指:图像识别模块根据用户输入的图片和文字识别出产品概念,由信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
技术效果
与现有技术相比,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工介入,易用性好且开放性强。
附图说明
图1为本发明结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
所述的开放数据包括但不限于:文件数据、数据库以及网页数据。
所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到层级概念领域本体知识库。
所述的属性集合中的集合表示表示采用一种用于描述Web资源的标记语言-资源描述框架(RDF),一条陈述包含三个部分<主体,属性,客体>,通常被称为RDF三元组。主体是被描述的资源,用URI表示;客体表示主体在该属性上的取值,可以是另外一个资源(由URI表示)或者是文本;属性类型对应于谓语,属性值对应于宾语,即为客体。
所述的近义词词典通过对开放数据的处理得到。同一概念的不同实例即认为是对于这一概念的近义词,近义词词典是不同概念近义词的集合。
所述的概念融合器以领域概念为列属性集合为行构造初始矩阵,并利用余弦相似度计算任一两个领域概念之间的相似度得到相似性矩阵并设置阀值,再通过对相似性矩阵进行相似概念融合形成概念聚类,利用凝聚层级聚类算法将概念聚类生成聚类树从而得到树状的层级概念领域本体知识库。余弦相似度为其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。相似性矩阵中的相似度采用similarity-flooding算法校正。
所述的阀值,即在进行相似概念融合形成概念聚类时,概念能否进行融合的判断标准。该阈值采用实验的方式得出,对数据设置不同的阈值进行聚类,选择聚类类间距离下降速度的拐点对应的阈值。
所述的凝聚层级聚类算法是指:获得每一个概念聚类后,将每一个概念聚类做为一个簇,每一步合并两个最接近的簇,合并的原则是分别取这两个簇的样本点,样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为这两个簇是相似并可合并。层层递进,合并这些原子类簇直至达到预期的类簇数目。本文中为合并成一个类作为终止条件,生成一颗完整的概念聚类树。
所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,从而得到产品概念的信息描述模板。
离线阶段,本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库。构建出层级概念领域本体知识库中包含的概念集合以及领域概念,并利用共现分析理论得到概念间的相关性程度,两个概念的相关性程度得分即为一个概念相对于另一个概念的重要性权重。图像识别模块提取开放数据中的图像,使用SIFT算法提取特征,构建图像训练集,并采用SVM算法构建图像识别模型,对输入图像中的概念识别得到产品概念候选集。
在线阶段,图像识别模块根据用户输入的图片和文字识别出产品概念,并识别出产品概念,而后信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
与现有技术相比,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度较高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工接入,易用性好且开放性强。本发明侧重于不同概念的差异性,旨在构造基于产品需求差异化的信息模板。因此,在基于概念的本体构建和信息模板过滤条件方面,极大化相似概念聚类,并在该聚类中依据过滤条件,结合产品需求的差异性,构造差异性的信息模版,从而提高信息模板构造的准确度和效率。

Claims (9)

1.一种基于开放数据的移动端信息模板自构建系统,其特征在于,包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
2.根据权利要求1所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到树状的层级概念领域本体知识库。
3.根据权利要求2所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的近义词词典通过对开放数据的处理得到。
4.根据权利要求1或2所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述层级概念领域本体知识库,通过概念融合器以领域概念为列,属性集合为行构造初始矩阵,并根据任意两个领域概念之间的余弦相似度得到相似性矩阵并设置阀值,再通过对相似性矩阵进行相似概念融合形成概念聚类,利用凝聚层级聚类算法将概念聚类生成聚类树,从而得到该层级概念领域本体知识库。
5.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的余弦相似度是指:其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。
6.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的凝聚层级聚类算法是指:获得每一个概念聚类后,将每一个概念聚类做为一个簇,每一步合并两个最接近的簇,合并的原则是分别取这两个簇的样本点,样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为这两个簇是相似并可合并,层层递进,合并这些原子类簇直至达到预期的类簇数目,本文中为合并成一个类作为终止条件,生成一颗完整的概念聚类树。
7.根据权利要求1所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,从而得到产品概念的信息描述模板。
8.根据权利要求1所述的基于开放数据的移动端信息模板自构建系统,其特征是,所述的图像识别器根据用户输入的图片和文字,采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。
9.一种根据上述任一权利要求所述系统的信息描述模板实现方法,其特征在于,包括离线阶段和在线阶段,其中:
离线阶段是指:本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库;然后利用共现分析理论得到概念间的相关性程度,再通过图像识别模块通过开放数据中的图像构建出图像训练集,由图像识别器对输入图像中的概念识别得到产品概念候选集;
在线阶段是指:图像识别模块根据用户输入的图片和文字识别出产品概念,由信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
CN201611265749.4A 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建系统 Active CN108268883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611265749.4A CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611265749.4A CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建系统

Publications (2)

Publication Number Publication Date
CN108268883A true CN108268883A (zh) 2018-07-10
CN108268883B CN108268883B (zh) 2021-05-07

Family

ID=62771072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611265749.4A Active CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建系统

Country Status (1)

Country Link
CN (1) CN108268883B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635119A (zh) * 2018-10-25 2019-04-16 同济大学 一种基于本体融合的工业大数据集成系统
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法
CN114341862A (zh) * 2019-08-20 2022-04-12 国际商业机器公司 使用基于本体的概念嵌入模型的自然语言处理
US11514321B1 (en) * 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999640A (zh) * 2013-01-09 2013-03-27 公安部第三研究所 基于语义推理和结构化描述的视频与图像检索系统及方法
CN104133913A (zh) * 2014-08-07 2014-11-05 中国科学技术大学 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN105335431A (zh) * 2014-08-11 2016-02-17 青岛海尔智能家电科技有限公司 界面文件的处理方法及装置、控制消息的处理方法及装置
CN105518653A (zh) * 2013-02-25 2016-04-20 P·孙雄 链接关联分析系统和方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999640A (zh) * 2013-01-09 2013-03-27 公安部第三研究所 基于语义推理和结构化描述的视频与图像检索系统及方法
CN105518653A (zh) * 2013-02-25 2016-04-20 P·孙雄 链接关联分析系统和方法
CN104133913A (zh) * 2014-08-07 2014-11-05 中国科学技术大学 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN105335431A (zh) * 2014-08-11 2016-02-17 青岛海尔智能家电科技有限公司 界面文件的处理方法及装置、控制消息的处理方法及装置
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHAHINA等: "Similarity of Medical Cases in Health Care Using Cosine Similarity and Ontology", 《ICCBR》 *
XIE CHENG等: "Ontology Combined Structural and Operational Semantics for Resource-Oriented Service Composition", 《JOURNAL OF UNIVERSAL COMPUTER SCIENCE》 *
姜丽红等: "一种基于医疗领域本体的数据检索框架的研究", 《计算机应用与软件》 *
蔡鸿明等: "一种关系数据库到本体的自动构建方法", 《计算机工程与应用》 *
蔡鸿明等: "基于本体推理的网络三维场景自动化构建及实现", 《东华大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635119A (zh) * 2018-10-25 2019-04-16 同济大学 一种基于本体融合的工业大数据集成系统
CN109635119B (zh) * 2018-10-25 2023-08-04 同济大学 一种基于本体融合的工业大数据集成系统
CN114341862A (zh) * 2019-08-20 2022-04-12 国际商业机器公司 使用基于本体的概念嵌入模型的自然语言处理
US11514321B1 (en) * 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法
CN113222018B (zh) * 2021-05-13 2022-06-28 郑州大学 一种图像分类方法

Also Published As

Publication number Publication date
CN108268883B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN107832663B (zh) 一种基于量子理论的多模态情感分析方法
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
Tarawneh et al. Invoice classification using deep features and machine learning techniques
Ye et al. Linguistic structures as weak supervision for visual scene graph generation
Sun et al. Combining feature-level and decision-level fusion in a hierarchical classifier for emotion recognition in the wild
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN108268883A (zh) 基于开放数据的移动端信息模板自构建系统
Tian et al. Image classification based on the combination of text features and visual features
Ma et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos
Sadeh et al. Joint visual-textual embedding for multimodal style search
Ahmed et al. Hateful meme prediction model using multimodal deep learning
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Qian et al. OTFace: Hard samples guided optimal transport loss for deep face representation
Schmitt et al. Outlier detection on semantic space for sentiment analysis with convolutional neural networks
Tian et al. Research on image classification based on a combination of text and visual features
Richter et al. Facial expression classification on web images
Zeng et al. Local discriminant training and global optimization for convolutional neural network based handwritten Chinese character recognition
Nguyen et al. Clustering web video search results with convolutional neural networks
Lu et al. Mining latent attributes from click-through logs for image recognition
CN104715071B (zh) 一种基于不完整文本描述的特定行人检索方法
Shafi et al. Urdu character recognition: A systematic literature review
CN110135306B (zh) 基于角度损失函数的行为识别方法
Saad et al. Efficient content based image retrieval using SVM and color histogram
Zhao et al. Machine Learning Approaches to Sentiment Analytics
CN103150574B (zh) 基于最邻近标签传播算法的图像型垃圾邮件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220610

Address after: Room 1011, West Building 2, No. 168, software Avenue, Yuhuatai District, Nanjing, Jiangsu 210000

Patentee after: NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right