CN112528042A - 一种多模态商品知识图谱构建方法 - Google Patents
一种多模态商品知识图谱构建方法 Download PDFInfo
- Publication number
- CN112528042A CN112528042A CN202011498403.5A CN202011498403A CN112528042A CN 112528042 A CN112528042 A CN 112528042A CN 202011498403 A CN202011498403 A CN 202011498403A CN 112528042 A CN112528042 A CN 112528042A
- Authority
- CN
- China
- Prior art keywords
- data
- commodity
- triple
- extraction
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Abstract
一种多模态商品知识图谱构建方法,利用爬虫工具爬取特定电商网站的商品数据,然后抽取商品数据中的三元组信息,并对抽取得到的三元组数据进行过滤融合,将三元组数据导入图数据库构建多模态商品知识图谱。图像数据往往包括最重要的商品信息,因此在文本数据的基础上,抽取图像信息中的三元组数据,构建结合文本和图像的多模态商品知识图谱,可以提高商品知识图谱的覆盖度,增强商品知识图谱的使用价值。
Description
技术领域
本发明涉及网络爬虫、自然语言处理、知识图谱、计算机视觉领域,具体涉及一种多模态商品知识图谱构建方法。
背景技术
网络爬虫是目前较为流行的收集网上公开资源的方法,利用爬虫工具可以在网页上快速收集需要的信息,对海量信息进行过滤,然后通过人工智能算法,对信息进行分析,构建商品知识图谱,可以支撑商家竞品分析以及用户商品推荐等应用。但是,目前商品知识图谱构建中数据源的采集对象主要是文字描述,集中在商品的属性信息以及评价信息,而忽视了包含大量重要信息的图像数据。
针对上述问题,本发明提出一种多模态商品知识图谱构建方法,通过网络爬虫方法爬取商品文本描述信息以及图片描述信息,采用自然语言处理技术对文本信息进行过滤和解析,采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,构建多模态商品知识图谱。
发明内容
本发明目的是提供了一种多模态商品知识图谱构建方法,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
本发明为实现上述目的,通过以下技术方案实现:
1)基于商品属性和业务需求,梳理商品知识图谱schema;
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出;
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤;
4) 基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合
5)商品三元组信息抽取,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧;
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
优选的,所述步骤4包括基于文本的商品三元组信息抽取和基于图像的商品三元组信息抽取,所述基于文本的商品三元组信息抽取,包括结合远程监督,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;所述基于图像的商品三元组信息抽取包括,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合。
本发明的优点在于:本发明通过构建多模态商品知识图谱采用计算机视觉技术对图像进行处理,将所有商品信息进行融合消歧,不仅更加快捷方便,而且能够提取商品信息中的图像信息,使商品知识图谱更加完善,更具参考价值。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利的实施步骤包括:多模态商品知识图谱schema构建,商品多模态数据爬取,对商品多模态数据进行清洗过滤,基于文本的商品三元组信息抽取,基于图像的商品三元组信息抽取,商品三元组数据融合和消歧,多模态商品知识图谱构建。具体地,
1)基于商品属性和业务需求,梳理商品知识图谱schema。
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出。
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤。
4)基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合。
5)基于图像的商品三元组信息抽取,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧。
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
Claims (2)
1.一种多模态商品知识图谱构建方法,包括以下步骤:
1)基于商品属性和业务需求,梳理商品知识图谱schema;
2)商品多模态数据爬取,确定商品数据来源网站,然后复制URL到编写的爬虫工具中,采用自定义爬虫模式,依次打开商品的URL,选择采集商品标题、所属商家等商品信息以及图像数据,将采集后的数据信息进行导出;
3)商品多模态数据清洗过滤,通过正则表达式等方法删除爬取的一些杂乱无关信息,通过同义词替换等方式对商品的关键信息进行规范化和补全,通过图像分类对无关图像进行过滤;
4)基于文本的商品三元组信息抽取,结合远程监督等方法,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合
5)商品三元组信息抽取,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;
6)商品三元组数据融合和消歧,针对文本和图像重复抽取的三元组数据进行融合,针对文本和图像相悖的抽取结果进行消歧;
7)多模态商品知识图谱构建,将商品三元组数据导入到图数据库中,构建多模态商品知识图谱。
2.根据权利要求1所述的多模态商品知识图谱构建方法,其特征在于,所述步骤4包括基于文本的商品三元组信息抽取和基于图像的商品三元组信息抽取,所述基于文本的商品三元组信息抽取,包括结合远程监督,利用基于预训练模型的实体抽取、关系抽取、属性抽取方法,抽取文本数据中商品相关的实体-关系-实体和实体-关系-属性三元组信息,筛选掉不符合要求的三元组数据,并对重复三元组数据进行整合;所述基于图像的商品三元组信息抽取包括,将文本数据和图像数据作为模型输入,采用多模态深度学习模型,抽取图像中商品三元组数据,并对抽取得到的三元组数据进行过滤和整合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011498403.5A CN112528042A (zh) | 2020-12-17 | 2020-12-17 | 一种多模态商品知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011498403.5A CN112528042A (zh) | 2020-12-17 | 2020-12-17 | 一种多模态商品知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112528042A true CN112528042A (zh) | 2021-03-19 |
Family
ID=75001248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011498403.5A Pending CN112528042A (zh) | 2020-12-17 | 2020-12-17 | 一种多模态商品知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528042A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356084A (zh) * | 2021-12-24 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 图像处理方法、系统及电子设备 |
CN115080766A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170293611A1 (en) * | 2016-04-08 | 2017-10-12 | Samsung Electronics Co., Ltd. | Method and device for translating object information and acquiring derivative information |
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN110472107A (zh) * | 2019-08-22 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 多模态知识图谱构建方法、装置、服务器以及存储介质 |
CN110807100A (zh) * | 2019-10-30 | 2020-02-18 | 安阳师范学院 | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
-
2020
- 2020-12-17 CN CN202011498403.5A patent/CN112528042A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170293611A1 (en) * | 2016-04-08 | 2017-10-12 | Samsung Electronics Co., Ltd. | Method and device for translating object information and acquiring derivative information |
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN110472107A (zh) * | 2019-08-22 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 多模态知识图谱构建方法、装置、服务器以及存储介质 |
CN110807100A (zh) * | 2019-10-30 | 2020-02-18 | 安阳师范学院 | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356084A (zh) * | 2021-12-24 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 图像处理方法、系统及电子设备 |
CN115080766A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
CN115080766B (zh) * | 2022-08-16 | 2022-12-06 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN101515272B (zh) | 提取网页内容的方法和装置 | |
CN103399916A (zh) | 基于产品特征的互联网评论观点挖掘方法及系统 | |
KR102142126B1 (ko) | 계층적 카테고리 군집 기반 장바구니 상품 추천 방법 | |
CN104063521A (zh) | 搜索业务实现方法和装置 | |
CN107491435A (zh) | 基于计算机自动识别用户情感的方法及装置 | |
KR20120014277A (ko) | 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법 | |
CN112528042A (zh) | 一种多模态商品知识图谱构建方法 | |
CN109345272A (zh) | 一种基于改进马尔科夫链的店铺信用风险预测方法 | |
CN104933171A (zh) | 兴趣点数据关联方法和装置 | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
Anh et al. | Extracting customer reviews from online shopping and its perspective on product design | |
KR20190048781A (ko) | 온라인 의견 정보 수집 및 분석 시스템 | |
Sheeren et al. | A data‐mining approach for assessing consistency between multiple representations in spatial databases | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN105808641A (zh) | 线下资源的挖掘方法和装置 | |
CN105243095A (zh) | 一种基于微博文本的情绪分类方法及系统 | |
Kuamri et al. | Real time analysis of social media data to understand people emotions towards national parties | |
CN115760295A (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
CN113821718A (zh) | 一种物品信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |