CN111191012B - 知识图谱产生装置、方法及其计算机可读存储介质 - Google Patents
知识图谱产生装置、方法及其计算机可读存储介质 Download PDFInfo
- Publication number
- CN111191012B CN111191012B CN201811305509.1A CN201811305509A CN111191012B CN 111191012 B CN111191012 B CN 111191012B CN 201811305509 A CN201811305509 A CN 201811305509A CN 111191012 B CN111191012 B CN 111191012B
- Authority
- CN
- China
- Prior art keywords
- commodity
- commodity information
- template
- knowledge
- information classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种知识图谱产生装置、方法及其计算机可读存储介质被揭露。该装置根据操作信号自样板网页中标记样板商品信息的实体关联且产生撷取规则组合,样板网页为多个商品网页其中之一,且样板网页具有样板格式。该装置根据撷取规则组合撷取多个第一商品网页的多个第一商品信息,该等第一商品网页具有该样板格式,且该等第一商品网页选自该等商品网页。该装置透过商品信息分类模型产生商品信息分类结果,商品信息分类模型基于该等第一商品信息及样板商品信息的实体关联所产生。该装置将商品信息分类结果转成多个三元组格式,以产生知识图谱。
Description
技术领域
本发明是关于一种知识图谱产生装置、方法及其计算机可读存储介质。具体而言,本发明是关于一种基于样板格式将商品网页信息自动转为知识图谱的一知识图谱产生装置、方法及其计算机可读存储介质。
背景技术
随着人工智能(artificial intelligence)的快速发展,智能问答系统(例如:聊天机器人(chat bot))等相关服务已逐渐地应用于各种领域,透过模拟人类对话,而达到依据使用者的需求提供各式服务(例如:信息获取、回答产品相关的问题、推荐符合需求的产品等等)。
这些智能问答系统皆需要事先建立背景知识库(例如:问答语料库或知识图谱(Knowledge Graph)),以达到快速并准确的响应相关消息。然而,建立知识图谱相当耗时费工,一般厂商或企业虽拥有庞大的商品网页信息(通常具有半结构化形式),却缺乏一个有效率的方法将其转变为具结构化的形式,使得商品网页数据难以生成相应的知识图谱。在此情况下,商品网页信息的内容便无法有效率的应用,或是作为智能问答系统的基础数据。
有鉴于此,如何有效率的基于网页信息产生相应的知识图谱,乃业界亟需努力的目标。
发明内容
为解决前述问题,本发明提供了一种知识图谱产生装置、方法及其计算机可读存储介质。
本发明所提供的知识图谱产生装置包含一网络接口、一操作接口及一处理器,且该处理器电性连接至该网络接口及该操作接口。该网络接口,用以链接至多个商品网页。该操作接口,用以产生一操作信号。该处理器执行下列运作:(a)根据该操作信号自一样板网页中标记一样板商品信息的一实体关联(Entity-relationship),且产生一第一撷取规则组合,其中该样板网页为该多个商品网页其中之一,且该样板网页具有一样板格式,(b)透过该网络接口链接至多个第一商品网页,并根据该第一撷取规则组合撷取该等第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页是选自该等商品网页,(c)透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生,以及(d)将该第一商品信息分类结果转成多个三元组(Semantic triple)格式,以产生一知识图谱。
本发明所提供的一种知识图谱产生方法适用于一知识图谱产生装置,用以产生一操作信号。该知识图谱产生方法由该知识图谱装置所执行且包含下列步骤:(a)根据该操作信号自一样板网页中标记一样板商品信息的一实体关联,且产生一第一撷取规则组合,其中该样板网页为该等商品网页其中之一,且该样板网页具有一样板格式,(b)根据该第一撷取规则组合撷取多个第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页是选自该等商品网页,(c)透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生,以及(d)将该第一商品信息分类结果转成多个三元组格式,以产生一知识图谱。
本发明所提供的计算机可读存储介质经由一电子装置加载该计算机可读存储介质后,该电子装置执行该计算机可读存储介质所包含的多个程序指令,以执行一知识图谱产生方法。该知识图谱产生方法包含下列步骤:(a)根据一操作信号自一样板网页中标记一样板商品信息的一实体关联,且产生一第一撷取规则组合,其中该样板网页为多个商品网页其中之一,且该样板网页具有一样板格式,(b)根据该第一撷取规则组合撷取多个第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页是选自该等商品网页,(c)透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生,以及(d)将该第一商品信息分类结果转成多个三元组格式,以产生一知识图谱。
由上述说明可知,本发明提供的知识图谱产生装置、方法及其计算机可读存储介质,藉由分析具有一样板格式的样板网页,产生基于该样板格式的撷取规则组合。更进一步时可由于多张其他商品网页同样具有该样板格式,本发明可透过该撷取规则组合自动撷取其他商品网页的商品信息。另外,由于本发明更将该样板网页的样板商品信息标记一实体关联,因此可根据一商品信息分类模型(基于多个商品信息的实体关联及该样板商品信息的实体关联产生)产生商品信息分类结果。最后,本发明透过将该商品信息分类结果转成三元组格式,产生知识图谱。此外,本发明亦可根据多个样板格式建立撷取规则模型,且当商品网页更新时,进一步更新该知识图谱。由于降低建立知识图谱的人力耗费,藉由本发明提供的技术可有效率的产生多个网页的知识图谱,作为智能问答系统的基础数据,解决了习知建立知识图谱耗时费工的问题。
以下结合附图阐述本发明的详细技术及实施方式,使本领域的技术人员能理解所请求保护的发明的特征。
附图说明
图1是描绘第一实施方式的知识图谱产生装置的架构示意图;
图2A是描绘第一实施方式中样板网页的示意图;
图2B是描绘第一实施方式中样板网页上信息的实体关联示意图;
图3是描绘样板网页的网页原始码示意图;
图4A是描绘多张商品网页的示意图;
图4B是描绘根据图4A的商品网页所产生的知识图谱的示意图;以及
图5是描绘第二实施方式的知识图谱产生方法的流程图。
附图标记:
1:知识图谱产生装置
11:网络接口
13:操作接口
15:处理器
133:操作信号
21:样板网页
301:网页原始码
4:知识图谱
S501-S507:步骤
具体实施方式
以下将透过实施方式来解释本发明所提供的知识图谱产生装置、方法及其计算机可读存储介质。然而,该等实施方式并非用以限制本发明需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未绘示。
本发明的第一实施方式为一知识图谱产生装置1,其架构示意图是描绘于图1。知识图谱产生装置1包含一网络接口11、一操作接口13及一处理器15,处理器15电性连接至网络接口11及操作接口13。网络接口11为一连接至网络的接口或本领域的技术人员所知悉的其他可与网络连接的接口。操作接口13为一输入接口或本领域的技术人员所知悉的其他能接收输入信号并产生操作信号的接口。处理器15可为各种处理单元、中央处理单元(Central Processing Unit;CPU)、微处理器或本领域的技术人员所知悉的其他计算装置。需说明者,于本发明的其他实施方式中,操作接口13可被设置为外在于知识图谱产生装置1。
于本实施方式中,处理器15先将具有一样板格式的一样板网页(例如:自多个商品网页中选择的一网页)作为一标准,基于该样板网页的该样板格式产生一撷取规则组合。由于该等商品网页同样具有该样板格式,该撷取规则组合将用于后续自动撷取其他商品网页的商品信息(容后说明)。另外,处理器15更将该样板网页的样板商品信息分别对应至一实体关联(Entity-relationship),并将该样板商品信息的实体关联用于后续标记其他商品网页的商品信息(容后说明)。
具体而言,处理器15接收来自操作接口13的操作信号133,根据操作信号133自一样板网页中标记一样板商品信息的实体关联,且产生一第一撷取规则组合。该样板网页为该多个商品网页其中之一,且该样板网页具有一样板格式。须说明者,本发明所述的样板格式为一种半结构化信息,但本发明未限制样板格式须采用哪一种半结构化的形式。有关半结构化信息的样板格式,例如:一网页表格或是一层迭样式表单(Cascading StyleSheets;CSS)或者是以列举方式说明商品及产品相关信息的网页内容型态,都属于本发明保护的范畴。于某些实施方式中,该实体关联至少包含该商品的一实体(entity)、一关联(relation)及对应至该关联的至少一属性值(property)。另外,于某些实施方式中,该第一撷取规则组合与该样板格式的至少一类别名称相关联。
为便于理解,谨先详述本实施方式如何自一样板网页中标记样板商品信息的实体关联(如何产生一第一撷取规则组合容后说明)。请参图2A、图2B及图3所示的一具体范例,但其非用以限制本发明的范围。于该具体范例中,一拍卖网站有多个鞋子的商品网页,且该等商品网页具有同一样板格式(如图3所示,以CSS格式设计的样板网页21的网页原始码301)。
如图2A所示,样板网页21为该等商品网页其中之一,并显示了有关一X鞋款的信息。首先,使用者可透过操作接口13将样板网页21上的X鞋款的信息分类为实体、关联或属性值,操作接口13可依据分类后的信息产生一操作信号133,传送给处理器15,其中操作信号133载有前述的分类结果。如图2B的实体关联示意图所示,使用者将样板网页21上的信息“X鞋款”分类为一实体,“适合性别”分类为一关联,“男”分类为对应“适合性别”关联的一属性值。类似的,对应该“X鞋款”实体,使用者根据样板网页21上的信息,将“类型”分类为一关联,“路跑鞋”分类为对应“类型”关联的一属性值。对于样板网页21上的其他信息,使用者亦可一一进行分类,兹不赘言。接着,处理器15根据接收到的操作信号133,将样板网页21上的样板商品信息标记出前述的实体关联。须说明者,于某些实施方式中,该知识图谱产生装置1亦可由外部接收一操作信号来标记样板商品信息的实体关联。
以下说明处理器15如何根据操作信号133产生撷取规则组合。图3为以CSS格式设计的样板网页21的网页原始码301,其显示各字段所对应的类别(class)名称。处理器15接收到操作接口13所传来的操作信号133后,处理器15在原始码301中找出至少一类别名称及其所对应的标记内容,藉此产生第一撷取规则组合。举例而言,如图3虚线框起来的部分,使用者将类别名称为“equipment_basic_information eq-basic-info”的区块标记为“商品规格”,将类别名称为“basic_info_item basic-info-item”的区块标记为“商品规格说明”。须说明者,此处仅用以例示,但其非用以限制本发明的范围,使用者亦可根据不同的需求或是类别来标记网页的不同区块。由于该等商品网页同样具有该样板格式,后续处理该等商品网页时,处理器15即可根据类别名称撷取该等商品网页上对应的信息,并根据标记的内容,将撷取下来的商品内容分类(例如:该等撷取的内容属于“商品规格”或是“商品规格说明”等)。
随后,处理器15透过网络接口11链接至其他商品网页,由于其他商品网页同样具有该样板格式,处理器15即可根据该第一撷取规则组合,撷取其他商品网页上的多个第一商品信息。接着,处理器15透过一商品信息分类模型产生一第一商品信息分类结果,该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生。须说明者,本发明未限制该商品信息分类模型须由知识图谱产生装置1本身产生,亦可自外部接收一建立好的商品信息分类模型。
具体而言,该商品信息分类模型可根据下列运作产生该第一商品信息分类结果。首先,由处理器(可为内部处理器15或一外部处理器)基于前述该等商品网页上撷取下来的商品信息,进行一断词分析,接着产生一断词结果。须说明者,该断词分析可包含一词汇相似度分析,可透过如BM25(Best Match 25)、TF/IDF(Term frequency–
inverse document frequency)等算法实现,其更可包含去噪声、断句、断词等运作。随后,根据样板商品信息的该实体关联以及该断词结果,进行一关联性分析,透过该关联性分析将断词结果标记实体关联。最后,根据标记完实体关联的断词结果,产生该第一商品信息分类结果。需说明者,有关断词分析的细节、关联性分析的内容为何以及各断词结果如何分类并非本发明的重点,本领域的技术人员应可理解其内容,故不赘言。
须说明者,由于不同的商品网页信息用语可能不一致(例如:足型、容量、尺寸等),该商品信息分类模型于训练阶段时,可透过大量已标记实体关联的同类产品(例如:撷取自该等第一商品网页的商品信息)进行训练,并根据已生成的商品信息分类结果反馈其结果进行训练及整合,以处理信息用语不一致的问题。如此一来,透过该商品信息分类模型的关联性分析,可提高标记实体关联的准确性。本领域的技术人员应可理解如何训练商品信息分类模型,故不赘言。
最后,处理器15将该第一商品信息分类结果转成多个三元组格式(亦即Triplestore,以实体、关联、属性值顺序呈现的数据),以产生一知识图谱。请参考图4B的一知识图谱4的示意图,其例示了根据图4A的商品网页上的商品信息所产生的一知识图谱。须说明者,图4B仅用以例示知识图谱内容的实体关联,但其非用以限制本发明的范围,以习知方式储存及各种态样表示的知识图谱都属于本发明保护的范畴,本领域的技术人员应可理解其内容,故不赘言。此外,一商品网页可能根据信息的不同具有多张知识图谱,本领域的技术人员应可理解产生多张知识图谱的方式及其内容,故不赘言。
于某些实施方式中,处理器15更根据该第一撷取规则组合撷取一第二商品网页上的一第二商品信息,其中该第二商品网页具有该样板格式。于该等实施方式中,可采用第一实施方式所述的技术,透过该商品信息分类模型产生一第二商品信息分类结果,其中该第二商品信息分类结果指示该等第二商品信息的该实体关联。最后,根据该第二商品信息分类结果,更新该知识图谱。
于某些实施方式中,处理器15更可根据多张具有不同样板格式的样板网页(例如:来自不同拍卖网站的商品网页),产生一撷取规则模型。具体而言,处理器15根据一第二操作信号自一第二样板网页中标记一第二商品的实体关联,且产生一第二撷取规则组合,其中该第二样板网页为该多个商品网页其中之一,且该等第二样板网页具有一第二样板格式。处理器15根据该第一撷取规则组合及该第二撷取规则组合,产生一撷取规则模型。因此,当处理器15接收到具有不同样板格式的商品网页时,即可根据该撷取规则模型,选择适合的撷取规则组合,撷取该等商品网页的商品信息。
此外,于某些实施方式中,当该等第一商品网页有更新时,处理器15根据该第一撷取规则组合,重新撷取该等第一商品网页以取得更新的第一商品信息。接着,处理器15透过该商品信息分类模型产生更新的第一商品信息分类结果。随后,处理器15根据该更新的第一商品信息分类结果,更新该知识图谱。
由上述说明可知,知识图谱产生装置1藉由分析具有一样板格式的样板网页,产生基于该样板格式的撷取规则组合。对于也具有该样板格式的多张其他商品网页,知识图谱产生装置1可透过该撷取规则组合自动撷取其他商品网页的商品信息。另外,由于知识图谱产生装置1更将该样板网页的样板商品信息标记一实体关联,知识图谱产生装置1可根据一商品信息分类模型(基于多个商品信息的实体关联及该样板商品信息的实体关联产生)产生商品信息分类结果。最后,知识图谱产生装置1透过将该商品信息分类结果转成三元组格式,产生知识图谱。此外,知识图谱产生装置1亦可根据多个样板格式建立撷取规则模型,且当商品网页更新时,进一步更新该知识图谱。由于降低建立知识图谱的人力耗费,藉由本发明提供的技术可有效率的产生多个网页的知识图谱,作为智能问答系统的基础数据,解决了习知建立知识图谱耗时费工的问题。
本发明的第二实施方式为一种知识图谱产生方法,其流程图描绘于图5。知识图谱产生方法适用于一电子装置,例如:第一实施方式所述的知识图谱产生装置1。知识图谱产生方法透过步骤S501至步骤S507产生知识图谱。
首先,于步骤S501,由该电子装置根据一操作信号自一样板网页中标记一样板商品信息的一实体关联,且产生一第一撷取规则组合,其中该样板网页为多个商品网页其中之一,且该样板网页具有一样板格式。须说明者,本发明所述的样板格式为一半结构化信息,本发明未限制样板格式须采用哪一种半结构化的形式。有关半结构化信息的样板格式,例如:一网页表格或是一层迭样式表单(Cascading Style Sheets;CSS),都属于本发明保护的范畴。于某些实施方式中,该实体关联至少包含该商品的一实体(entity)、一关联(relation)及对应至该关联的至少一属性值(property)。另外,于某些实施方式中,该第一撷取规则组合与该样板格式的至少一类别名称相关联。
接着,于步骤S503,由该电子装置根据该第一撷取规则组合撷取多个第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页选自该等商品网页。
随后,于步骤S505,由该电子装置透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型基于该等第一商品信息及该样板商品信息的该实体关联所产生。于某些实施方式中,步骤S505可包含下列步骤:基于该等第一商品信息,进行一断词分析以产生一断词结果;以及根据该样板商品信息的该实体关联与该断词结果,进行一关联性分析以产生该第一商品信息分类结果,其中该第一商品信息分类结果指示该等第一商品信息的该实体关联。
之后,于步骤S507,由该电子装置将该第一商品信息分类结果转成多个三元组格式,以产生一知识图谱。须说明者,一商品网页可能根据信息的不同具有多张知识图谱,本领域的技术人员应可理解产生多张知识图谱的方式及其内容,故不赘言。
于某些实施方式中,该知识图谱产生方法更包含下列步骤:根据该第一撷取规则组合撷取一第二商品网页上的一第二商品信息,其中该第二商品网页具有该样板格式。透过该商品信息分类模型产生一第二商品信息分类结果,其中该第二商品信息分类结果指示该等第二商品信息的该实体关联。根据该第二商品信息分类结果,更新该知识图谱。
于某些实施方式中,该知识图谱产生方法更包含下列步骤:根据一第二操作信号自一第二样板网页中标记一第二商品的实体关联,以产生一第二撷取规则组合,其中该第二样板网页为该等商品网页其中之一,且该等第二样板网页具有一第二样板格式。接着,该知识图谱产生方法更包含一步骤以根据该第一撷取规则组合及该第二撷取规则组合,产生一撷取规则模型。
于某些实施方式中,该知识图谱产生方法更包含下列步骤:当该等第一商品网页有更新时,根据该第一撷取规则组合重新撷取该等第一商品网页以取得更新的第一商品信息。透过该商品信息分类模型产生更新的第一商品信息分类结果。根据该更新的第一商品信息分类结果,更新该知识图谱。
除了上述步骤,第二实施方式亦能执行第一实施方式所描述的知识图谱产生装置1的所有运作及步骤,具有同样的功能,且达到同样的技术效果。本领域的技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等运作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
第二实施方式所阐述的知识图谱产生方法可由具有多个指令的一计算机可读存储介质实现。各计算机可读存储介质可为能被于网络上传输的档案,亦可被储存于一非瞬时计算机可读取储存媒体中。针对各计算机可读存储介质,在其所包含的该等指令被加载至一电子装置(例如:知识图谱产生装置1)之后,该计算机可读存储介质执行第二实施方式所述的知识图谱产生方法。该非瞬时计算机可读取储存媒体可为一电子产品,例如:一只读存储器(read only memory;ROM)、一闪存、一软盘、一硬盘、一光盘(compact disk;CD)、一随身碟、一可由网络存取的数据库或本领域的技术人员所知且具有相同功能的任何其他储存媒体。
需说明者,于本发明专利说明书及申请专利范围中,某些用语(包含:撷取规则组合、商品网页、商品信息、商品信息分类结果、样板网页及样板格式)前被冠以“第一”或“第二”,该等“第一”及“第二”仅用来区分不同的用语。
综上所述,本发明所提供的知识图谱产生技术(至少包含装置、方法及其计算机可读存储介质),藉由分析具有一样板格式的样板网页,产生基于该样板格式的撷取规则。由于多张其他商品网页同样具有该样板格式,本发明所提供的知识图谱产生技术可透过该撷取规则自动撷取其他商品网页的商品信息。另外,由于本发明所提供的知识图谱产生技术更将该样板网页的样板商品信息标记一实体关联,即可根据一商品信息分类模型(基于多个商品信息的实体关联及该样板商品信息的实体关联产生)产生商品信息分类结果。最后,本发明所提供的知识图谱产生技术透过将该商品信息分类结果转成三元组格式,产生知识图谱。此外,本发明所提供的知识图谱产生技术亦可根据多个样板格式建立撷取规则模型,且当商品网页更新时,进一步更新该知识图谱。由于降低建立知识图谱的人力耗费,藉由本发明所提供的知识图谱产生技术可有效率的产生多个网页的知识图谱,作为智能问答系统的基础数据,解决了习知建立知识图谱耗时费工的问题。
上述实施方式仅用来例举本发明的部分实施态样,以及阐释本发明的技术特征,而非用来限制本发明的保护范畴及范围。任何本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,而本发明的权利保护范围以权利要求书为准。
Claims (15)
1.一种知识图谱产生装置,其特征在于,包含:
一网络接口,用以链接至多个商品网页;
一操作接口,用以产生一操作信号;以及
一处理器,电性连接至该网络接口及该操作接口,且执行下列运作:
(a)根据该操作信号自一样板网页中标记一样板商品信息的一实体关联,且产生一第一撷取规则组合,其中该样板网页为该多个商品网页其中之一,且该样板网页具有一样板格式;
(b)透过该网络接口链接至多个第一商品网页,并根据该第一撷取规则组合撷取该等第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页是选自该等商品网页;
(c)透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生;该商品信息分类模型包含下列运作:
基于该等第一商品信息,进行一断词分析以产生一断词结果;以及
根据该样板商品信息的该实体关联与该断词结果,进行一关联性分析以产生该第一商品信息分类结果,其中该第一商品信息分类结果指示该等第一商品信息的该实体关联;以及
(d)将该第一商品信息分类结果转成多个三元组格式,以产生一知识图谱。
2.如权利要求1所述的知识图谱产生装置,其特征在于,该样板格式为一个网页表格或一层迭样式表单。
3.如权利要求1所述的知识图谱产生装置,其特征在于,该第一撷取规则组合与该样板格式的至少一类别名称相关联。
4.如权利要求1所述的知识图谱产生装置,其特征在于,该实体关联至少包含该商品的一实体、一关联及对应至该关联的至少一属性值。
5.如权利要求1所述的知识图谱产生装置,其特征在于,该处理器更执行下列运作:
根据该第一撷取规则组合撷取一第二商品网页上的一第二商品信息,其中该第二商品网页具有该样板格式;
透过该商品信息分类模型产生一第二商品信息分类结果,其中该第二商品信息分类结果指示该等第二商品信息的该实体关联;以及
根据该第二商品信息分类结果,更新该知识图谱。
6.如权利要求1所述的知识图谱产生装置,其特征在于,该处理器更执行下列运作:
根据一第二操作信号自一第二样板网页中标记一第二商品的实体关联,且产生一第二撷取规则组合,其中该第二样板网页为该多个商品网页其中之一,且该等第二样板网页具有一第二样板格式;以及
根据该第一撷取规则组合及该第二撷取规则组合,产生一撷取规则模型。
7.如权利要求1所述的知识图谱产生装置,其特征在于,该处理器更执行下列运作:
当该等第一商品网页有更新时,根据该第一撷取规则组合重新撷取该等第一商品网页以取得更新的第一商品信息;
透过该商品信息分类模型产生更新的第一商品信息分类结果;以及
根据该更新的第一商品信息分类结果,更新该知识图谱。
8.一种知识图谱产生方法,其特征在于,所述知识图谱产生方法适用于一知识图谱产生装置,用以产生一操作信号,该知识图谱产生方法由该知识图谱产生装置所执行且包含下列步骤:
(a)根据该操作信号自一样板网页中标记一样板商品信息的一实体关联,且产生一第一撷取规则组合,其中该样板网页为该等商品网页其中之一,且该样板网页具有一样板格式;
(b)根据该第一撷取规则组合撷取多个第一商品网页上的多个第一商品信息,其中该等第一商品网页具有该样板格式,且该等第一商品网页是选自该等商品网页;
(c)透过一商品信息分类模型产生一第一商品信息分类结果,其中该商品信息分类模型是基于该等第一商品信息及该样板商品信息的该实体关联所产生;透过该商品信息分类模型产生该第一商品信息分类结果的步骤包含下列步骤:
基于该等第一商品信息,进行一断词分析以产生一断词结果;以及
根据该样板商品信息的该实体关联与该断词结果,进行一关联性分析以产生该第一商品信息分类结果,其中该第一商品信息分类结果指示该等第一商品信息的该实体关联;以及
(d)将该第一商品信息分类结果转成多个三元组格式,以产生一知识图谱。
9.如权利要求8所述的知识图谱产生方法,其特征在于,该样板格式为一个网页表格或一层迭样式表单。
10.如权利要求8所述的知识图谱产生方法,其特征在于,该第一撷取规则组合与该样板格式的至少一类别名称相关联。
11.如权利要求8所述的知识图谱产生方法,其特征在于,该实体关联至少包含该商品的一实体、一关联及对应至该关联的至少一属性值。
12.如权利要求8所述的知识图谱产生方法,其特征在于,所述知识图谱产生方法更包含下列步骤:
根据该第一撷取规则组合撷取一第二商品网页上的一第二商品信息,其中该第二商品网页具有该样板格式;
透过该商品信息分类模型产生一第二商品信息分类结果,其中该第二商品信息分类结果指示该等第二商品信息的该实体关联;以及
根据该第二商品信息分类结果,更新该知识图谱。
13.如权利要求8所述的知识图谱产生方法,其特征在于,所述知识图谱产生方法更包含下列步骤:
根据一第二操作信号自一第二样板网页中标记一第二商品的实体关联,以产生一第二撷取规则组合,其中该第二样板网页为该等商品网页其中之一,且该等第二样板网页具有一第二样板格式;以及
根据该第一撷取规则组合及该第二撷取规则组合,产生一撷取规则模型。
14.如权利要求8所述的知识图谱产生方法,其特征在于,所述知识图谱产生方法更包含下列步骤:
当该等第一商品网页有更新时,根据该第一撷取规则组合重新撷取该等第一商品网页以取得更新的第一商品信息;
透过该商品信息分类模型产生更新的第一商品信息分类结果;以及
根据该更新的第一商品信息分类结果,更新该知识图谱。
15.一种计算机可读存储介质,其特征在于,包含程序指令,所述程序指令被电子装置执行时实现如权利要求8、12及14中任一项所述的知识图谱产生方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107137786 | 2018-10-25 | ||
TW107137786A TWI682287B (zh) | 2018-10-25 | 2018-10-25 | 知識圖譜產生裝置、方法及其電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191012A CN111191012A (zh) | 2020-05-22 |
CN111191012B true CN111191012B (zh) | 2023-05-30 |
Family
ID=69942456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811305509.1A Active CN111191012B (zh) | 2018-10-25 | 2018-11-05 | 知识图谱产生装置、方法及其计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11250035B2 (zh) |
CN (1) | CN111191012B (zh) |
TW (1) | TWI682287B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI731469B (zh) * | 2019-11-11 | 2021-06-21 | 財團法人資訊工業策進會 | 資訊檢測裝置及方法 |
US11734497B2 (en) * | 2020-05-18 | 2023-08-22 | Icarus Lived Inc. | Document authoring platform |
TWI774117B (zh) * | 2020-11-09 | 2022-08-11 | 財團法人資訊工業策進會 | 知識圖譜建置系統與知識圖譜建置方法 |
US20220156582A1 (en) * | 2020-11-13 | 2022-05-19 | Accenture Global Solutions Limited | Generating Knowledge Graphs From Conversational Data |
WO2022140900A1 (zh) * | 2020-12-28 | 2022-07-07 | 华为技术有限公司 | 个人知识图谱构建方法、装置及相关设备 |
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及系统 |
TWI810756B (zh) * | 2021-12-22 | 2023-08-01 | 財團法人工業技術研究院 | 應用知識圖譜的排程系統及其方法 |
CN114881017B (zh) * | 2022-04-25 | 2024-10-18 | 南京烽火星空通信发展有限公司 | 一种自适应动态分词方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014029318A1 (en) * | 2012-08-22 | 2014-02-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for identifying webpage type |
CN107705066A (zh) * | 2017-09-15 | 2018-02-16 | 广州唯品会研究院有限公司 | 一种商品入库时信息录入方法及电子设备 |
CN107730343A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种基于图片属性提取的用户商品信息推送方法及设备 |
CN107862561A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002097667A2 (en) * | 2001-05-31 | 2002-12-05 | Lixto Software Gmbh | Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml |
TWI442249B (zh) * | 2010-03-05 | 2014-06-21 | Univ Nat Chi Nan | Domain Knowledge Network Construction Method and Its System |
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
EP2724309A4 (en) * | 2011-06-24 | 2015-02-25 | Monster Worldwide Inc | DEVICES, METHODS AND SYSTEMS FOR A PLATFORM FOR PAIRING SOCIAL DATA |
US9275148B1 (en) * | 2011-09-23 | 2016-03-01 | Shauki Elassaad | System and method for augmented browsing and knowledge discovery |
CN103827857A (zh) * | 2011-09-30 | 2014-05-28 | 惠普发展公司,有限责任合伙企业 | 个人化内容递送系统和方法 |
CN102360368B (zh) * | 2011-10-09 | 2014-07-02 | 山东大学 | 基于抽取模板可视化定制的Web数据抽取方法 |
US20150095303A1 (en) * | 2013-09-27 | 2015-04-02 | Futurewei Technologies, Inc. | Knowledge Graph Generator Enabled by Diagonal Search |
US10235681B2 (en) * | 2013-10-15 | 2019-03-19 | Adobe Inc. | Text extraction module for contextual analysis engine |
CN105574089B (zh) * | 2015-12-10 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 知识图谱的生成方法及装置、对象对比方法及装置 |
CN106156365B (zh) * | 2016-08-03 | 2019-06-18 | 北京儒博科技有限公司 | 一种知识图谱的生成方法及装置 |
CN107967267A (zh) * | 2016-10-18 | 2018-04-27 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
US11645314B2 (en) * | 2017-08-17 | 2023-05-09 | International Business Machines Corporation | Interactive information retrieval using knowledge graphs |
CN107665252B (zh) * | 2017-09-27 | 2020-08-25 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
US10803394B2 (en) * | 2018-03-16 | 2020-10-13 | Accenture Global Solutions Limited | Integrated monitoring and communications system using knowledge graph based explanatory equipment management |
US10938817B2 (en) * | 2018-04-05 | 2021-03-02 | Accenture Global Solutions Limited | Data security and protection system using distributed ledgers to store validated data in a knowledge graph |
-
2018
- 2018-10-25 TW TW107137786A patent/TWI682287B/zh active
- 2018-11-05 CN CN201811305509.1A patent/CN111191012B/zh active Active
- 2018-11-30 US US16/206,844 patent/US11250035B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014029318A1 (en) * | 2012-08-22 | 2014-02-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for identifying webpage type |
CN107705066A (zh) * | 2017-09-15 | 2018-02-16 | 广州唯品会研究院有限公司 | 一种商品入库时信息录入方法及电子设备 |
CN107730343A (zh) * | 2017-09-15 | 2018-02-23 | 广州唯品会研究院有限公司 | 一种基于图片属性提取的用户商品信息推送方法及设备 |
CN107862561A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200133962A1 (en) | 2020-04-30 |
TW202016758A (zh) | 2020-05-01 |
US11250035B2 (en) | 2022-02-15 |
CN111191012A (zh) | 2020-05-22 |
TWI682287B (zh) | 2020-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191012B (zh) | 知识图谱产生装置、方法及其计算机可读存储介质 | |
WO2021151270A1 (zh) | 图像结构化数据提取方法、装置、设备及存储介质 | |
CN110263009A (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN112860905A (zh) | 文本信息抽取方法、装置、设备及可读存储介质 | |
US9881004B2 (en) | Gender and name translation from a first to a second language | |
CN111435367A (zh) | 知识图谱的构建方法、系统、设备及存储介质 | |
TW202123026A (zh) | 資料歸檔方法、裝置、電腦裝置及存儲介質 | |
CN112582073B (zh) | 医疗信息获取方法、装置、电子设备和介质 | |
CN117436440A (zh) | 一种日志识别方法、系统、终端设备及存储介质 | |
CN109740074B (zh) | 参数配置信息的处理方法、装置及设备 | |
CN109710634B (zh) | 用于生成信息的方法及装置 | |
CN108170838B (zh) | 话题演变的可视化展现方法、应用服务器及计算机可读存储介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN110308931B (zh) | 一种数据处理方法及相关装置 | |
CN114860897A (zh) | 敏感词检测方法、装置、电子设备及可读存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN118469005B (zh) | 基于大语言模型的医学知识图谱构建方法、系统、终端及存储介质 | |
CN112445910B (zh) | 一种信息分类方法及系统 | |
JP7107609B1 (ja) | 言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム | |
CN114495140B (zh) | 表格的信息提取方法、系统、设备、介质及程序产品 | |
CN116166889B (zh) | 酒店产品筛选方法、装置、设备及存储介质 | |
CN117056488A (zh) | 基于人工智能的数据补全方法、装置、设备及存储介质 | |
KR101992748B1 (ko) | Html 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |