CN112528042A - 一种多模态商品知识图谱构建方法 - Google Patents

一种多模态商品知识图谱构建方法 Download PDF

Info

Publication number
CN112528042A
CN112528042A CN202011498403.5A CN202011498403A CN112528042A CN 112528042 A CN112528042 A CN 112528042A CN 202011498403 A CN202011498403 A CN 202011498403A CN 112528042 A CN112528042 A CN 112528042A
Authority
CN
China
Prior art keywords
data
commodity
triple
extraction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011498403.5A
Other languages
English (en)
Inventor
陈其宾
李志芸
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN202011498403.5A priority Critical patent/CN112528042A/zh
Publication of CN112528042A publication Critical patent/CN112528042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

一种多模态商品知识图谱构建方法,利用爬虫工具爬取特定电商网站的商品数据,然后抽取商品数据中的三元组信息,并对抽取得到的三元组数据进行过滤融合,将三元组数据导入图数据库构建多模态商品知识图谱。图像数据往往包括最重要的商品信息,因此在文本数据的基础上,抽取图像信息中的三元组数据,构建结合文本和图像的多模态商品知识图谱,可以提高商品知识图谱的覆盖度,增强商品知识图谱的使用价值。

Description

一种多模态商品知识图谱构建方法
技术领域
本发明涉及网络爬虫、自然语言处理、知识图谱、计算机视觉领域,具体涉及一种多模态商品知识图谱构建方法。
背景技术
网络爬虫是目前较为流行的收集网上公开资源的方法,利用爬虫工具可以在网页上快速收集需要的信息,对海量信息进行过滤,然后通过人工智能算法,对信息进行分析,构建商品知识图谱,可以支撑商家竞品分析以及用户商品推荐等应用。但是,目前商品知识图谱构建中数据源的采集对象主要是文字描述,集中在商品的属性信息以及评价信息,而忽视了包含大量重要信息的图像数据。
针对上述问题,本发明提出一种多模态商品知识图谱构建方法,通过网络爬虫方法爬取商品文本描述信息以及图片描述信息,采用自然语言处理技术对文本信息进行过滤和解析,采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,构建多模态商品知识图谱。
发明内容
本发明目的是提供了一种多模态商品知识图谱构建方法,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
本发明为实现上述目的,通过以下技术方案实现:
1)基于商品属性和业务需求,梳理商品知识图谱schema;
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出;
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤;
4) 基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合
5)商品三元组信息抽取,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧;
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
优选的,所述步骤4包括基于文本的商品三元组信息抽取和基于图像的商品三元组信息抽取,所述基于文本的商品三元组信息抽取,包括结合远程监督,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;所述基于图像的商品三元组信息抽取包括,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合。
本发明的优点在于:本发明通过构建多模态商品知识图谱采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利的实施步骤包括:多模态商品知识图谱schema构建,商品多模态数据爬取,对商品多模态数据进行清洗过滤,基于文本的商品三元组信息抽取,基于图像的商品三元组信息抽取,商品三元组数据融合和消歧,多模态商品知识图谱构建。具体地,
1)基于商品属性和业务需求,梳理商品知识图谱schema。
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出。
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤。
4)基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合。
5)基于图像的商品三元组信息抽取,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧。
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。

Claims (2)

1.一种多模态商品知识图谱构建方法,包括以下步骤:
1)基于商品属性和业务需求,梳理商品知识图谱schema;
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出;
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤;
4)基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合
5)商品三元组信息抽取,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧;
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
2.根据权利要求1所述的多模态商品知识图谱构建方法,其特征在于,所述步骤4包括基于文本的商品三元组信息抽取和基于图像的商品三元组信息抽取,所述基于文本的商品三元组信息抽取,包括结合远程监督,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;所述基于图像的商品三元组信息抽取包括,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合。
CN202011498403.5A 2020-12-17 2020-12-17 一种多模态商品知识图谱构建方法 Pending CN112528042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011498403.5A CN112528042A (zh) 2020-12-17 2020-12-17 一种多模态商品知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011498403.5A CN112528042A (zh) 2020-12-17 2020-12-17 一种多模态商品知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN112528042A true CN112528042A (zh) 2021-03-19

Family

ID=75001248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011498403.5A Pending CN112528042A (zh) 2020-12-17 2020-12-17 一种多模态商品知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112528042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356084A (zh) * 2021-12-24 2022-04-15 阿里巴巴(中国)有限公司 图像处理方法、系统及电子设备
CN115080766A (zh) * 2022-08-16 2022-09-20 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293611A1 (en) * 2016-04-08 2017-10-12 Samsung Electronics Co., Ltd. Method and device for translating object information and acquiring derivative information
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN110472107A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 多模态知识图谱构建方法、装置、服务器以及存储介质
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170293611A1 (en) * 2016-04-08 2017-10-12 Samsung Electronics Co., Ltd. Method and device for translating object information and acquiring derivative information
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN110472107A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 多模态知识图谱构建方法、装置、服务器以及存储介质
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356084A (zh) * 2021-12-24 2022-04-15 阿里巴巴(中国)有限公司 图像处理方法、系统及电子设备
CN115080766A (zh) * 2022-08-16 2022-09-20 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法
CN115080766B (zh) * 2022-08-16 2022-12-06 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法

Similar Documents

Publication Publication Date Title
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN101515272B (zh) 提取网页内容的方法和装置
CN103399916A (zh) 基于产品特征的互联网评论观点挖掘方法及系统
KR102142126B1 (ko) 계층적 카테고리 군집 기반 장바구니 상품 추천 방법
CN104063521A (zh) 搜索业务实现方法和装置
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
KR20120014277A (ko) 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법
CN112528042A (zh) 一种多模态商品知识图谱构建方法
CN109345272A (zh) 一种基于改进马尔科夫链的店铺信用风险预测方法
CN104933171A (zh) 兴趣点数据关联方法和装置
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
Anh et al. Extracting customer reviews from online shopping and its perspective on product design
KR20190048781A (ko) 온라인 의견 정보 수집 및 분석 시스템
Sheeren et al. A data‐mining approach for assessing consistency between multiple representations in spatial databases
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN105808641A (zh) 线下资源的挖掘方法和装置
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
Kuamri et al. Real time analysis of social media data to understand people emotions towards national parties
CN115760295A (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN114022233A (zh) 一种新型的商品推荐方法
CN113821718A (zh) 一种物品信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210319