CN105589945A - 一种知识库构建方法、控制器 - Google Patents
一种知识库构建方法、控制器 Download PDFInfo
- Publication number
- CN105589945A CN105589945A CN201510953365.0A CN201510953365A CN105589945A CN 105589945 A CN105589945 A CN 105589945A CN 201510953365 A CN201510953365 A CN 201510953365A CN 105589945 A CN105589945 A CN 105589945A
- Authority
- CN
- China
- Prior art keywords
- task
- knowledge base
- grabber
- subtask
- subtasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种知识库构建方法、控制器,涉及互联网技术领域。解决了现有受限于WEB详情页面信息的丰富程度,导致构建的领域知识不够完整的问题。本发明提供的方法包括:接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务;将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;接收所述抓取器返回的所述至少两个结构化数据;合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种知识库构建方法、控制器。
背景技术
随着互联网的发展,互联网中信息在急剧增长,为了确保计算机应用可以与时俱进地理解并智能处理目标事物,构建和使用一个尽可能丰富、准确且及时的领域知识库是非常有必要的。目前,对于领域知识库的构建多采用自动或半自动知识抽取方法,如:通过定制爬虫对百科类站点、垂直网站进行抓取,获取网页(WEB)详情页面的对象属性、表格等半结构化信息来构建领域知识库。
但是,在实现本发明的过程中,本发明技术人员发现:这类通过抽取WEB详情页面的数据信息构建起来的领域知识库,其所填充的领域对象知识属性的完整性往往受限于WEB详情页面信息的丰富程度,当WEB详情页面信息不够丰富时,容易导致从该WEB详情页面信息抽取得到的领域对象知识属性不足,无法完整描述领域对象,比如:在一具体音乐的详情页面中,往往只包括与本首音乐相关的歌手、专辑、少量标签等少量信息,而该音乐所归属的风格、分类、场景等信息通过该详情页面都是无法获取到的,影响该音乐知识库的完整性。
发明内容
本发明的主要目的,在于提供一种知识库构建方法、控制器,以解决现有受限于WEB详情页面信息的丰富程度,导致构建的领域知识不够完整的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种知识库构建方法,应用于控制器,所述方法可以包括:
接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据;
合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。
可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页。
其中,为了使控制器方便地查询到与任务名称对应的任务配置,在第一方面的一种可实现方式中,在接收知识库构建任务之前,所述方法还可以包括:
接收创建请求;所述创建请求包含:所述任务名称以及任务属性;存储所述任务名称与所述任务属性的对应关系。
进一步的,为了方便用户进行知识信息查询,在第一方面的另一种可实现方式中,所述方法还可以包括:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,在第一方面的再一种可实现方式中,所述接收知识库构建任务可以包括:
定期接收知识库构建任务;
所述将合并后的结构化数据存入与所述任务名称对应的知识库具体可以包括:
删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。
第二方面,本发明实施例提供一种控制器,可以包括:
接口单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
任务调度单元,用于查询与所述接口单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据,并合并所述至少两个结构化数据;
任务存储单元,用于将任务调度单元合并后的结构化数据存入与所述任务名称对应的知识库。
可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页。
其中,为了使控制器方便地查询到与任务名称对应的任务配置,在第二方面的一种可实现方式中,所述接口单元还可以用于:
在接收知识库构建任务之前,接收创建请求;所述创建请求包含:所述任务名称以及任务属性;
所述控制器,还可以包括:任务管理单元;
所述任务管理单元,用于在接口单元接收到创建请求后,存储所述任务名称与所述任务属性的对应关系。
进一步的,为了方便用户进行知识信息查询,在第二方面的另一种可实现方式中,所述接口单元,还可以用于:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
所述任务调度单元,还可以用于查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,在第二方面的再一种可实现方式中,所述接口单元,具体用于:
定期接收知识库构建任务;
所述任务存储单元,具体用于删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
第三方面,本发明实施例提供一种控制器,可以包括:
通信单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
处理器,用于查询与所述通信单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据,并合并所述至少两个结构化数据;
存储器,用于将处理器合并后的结构化数据存入与所述任务名称对应的知识库。
可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页。
其中,为了使控制器方便地查询到与任务名称对应的任务配置,在第三方面的一种可实现方式中,所述通信单元还可以用于:
在接收知识库构建任务之前,接收创建请求;所述创建请求包含:所述任务名称以及任务属性;
所述处理器,还可以用于在通信单元接收到创建请求后,存储所述任务名称与所述任务属性的对应关系。
进一步的,为了方便用户进行知识信息查询,在第三方面的另一种可实现方式中,所述通信单元,还可以用于:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
所述处理器,还可以用于查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,在第三方面的再一种可实现方式中,所述通信单元,具体用于:
定期接收知识库构建任务;
所述存储器,具体用于删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
由上可知,本发明实施例提供一种知识库构建方法、控制器,接收知识库构建任务,查询与所述任务名称相对应的包含至少两个子任务的任务配置,每个子任务对应一类网页,然后,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,遍历不同种类的网页得到至少两个结构化数据,合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的系统架构的示意图;
图2为本发明实施例提供的控制器10的结构图;
图3为本发明实施例提供的抓取器20的结构图;
图4为本发明实施例提供的知识库构建方法的流程图;
图5为本发明实施例提供的控制器的结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了可以应用于本发明的系统架构的简化示意图,参见图1,所述系统架构可以包括:控制器10、抓取器20以及网页(WEB)服务器30;其中,控制器10、抓取器20以及WEB服务器30之间通过网络建立通信链路,所述网络可以为有线、无线通信链路或者光纤电缆等任一种连接方式;
控制器10主要用于:接收构建知识库任务,查询与本次任务相对应的任务配置,根据所述任务配置获取至少两个子任务,调度抓取器20执行所述至少两个子任务,多路迭代目标网站的不同类型的网页,获取至少两个结构化数据构建领域知识库;
抓取器20主要用于:对目标网站中与子任务的网页类型对应的页面内容进行抽取,获得与抽取模板相对应的结构化数据。
WEB服务器30包含多个垂直领域WEB网站,其作为抓取器20访问网页资源的入口而操作,抓取器20可以在接收到子任务后,通过统一资源定位符(UniformResourceLocator,URL)地址来访问WEB服务器中的目标网站。
具体的,如图2和图3所示,所述控制器10可以包括:接口单元101、任务调度单元102、任务存储单元103、任务管理单元104;所述抓取器20可以包括:接收单元201、WEB内容下载单元202、WEB内容抽取单元203;各单元通过下述过程来完成领域知识库的构建:
在所述接口单元101接收到包含任务名称的知识库构建任务后,任务调度单元102从任务存储单元103中与该任务名称相对应的任务配置,获取任务配置包含的至少两个子任务,将所述至少两个子任务发送给抓取器10,调度抓取器10执行各个子任务,遍历目标网站的不同网页,获取至少两个结构化数据;其中,任务存储单元103中存储的任务配置,由任务管理单元104在接口单元101接收到创建请求后存储到任务存储单元103中的。
在抓取器20的接收单元201接收到控制器10发出的执行多个子任务的调度任务后,WEB内容下载单元202对目标网站中与子任务对应的网页类型的WEB页面进行下载,然后,WEB内容抽取单元203根据子任务对应的抽取模板对下载的WEB页面的内容进行抽取,得到结构化数据,并通过接收单元201将获取的结构化数据发送至控制器10的任务调度单元102;任务调度单元102将多个子任务对应的结构化数据进行合并,并将合并后的结构化数据存储到任务存储单元103中的知识库中,以便在接口单元101接收到用户发送的查询请求后,从任务存储单元103的知识库中读取相应的结构化数据反馈给用户。
如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。
为了便于描述,以下以步骤的形式示出并详细描述了本发明中的知识库构建方法,其中,示出的步骤也可以在除图1所示的系统架构中的设备之外的诸如一组可执行指令的计算机系统中执行,此外,虽然在图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图4为本发明实施例提供的知识库构建方法的流程图,应用于如图1所示的系统架构中,如图4所示,该方法可以包括:
S101:控制器接收知识库构建任务,知识库构建任务包含标识待构建知识库的任务名称。
可选的,控制器可以接收用户通过用户手持的终端发送的知识库构建任务,或者,接收用户通过控制器的用户交互界面发送的知识库构建任务。
例如,用户可以在控制器显示屏上的输入框内输入“百度音乐知识库”,并点击相应的按钮,触发百度音乐知识库构建任务并将该任务发送给控制器;其中,“百度音乐知识库”即为待构建的知识库。
S102:控制器查询与任务名称对应的任务配置;任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型。
其中,每个子任务用于:指示抓取器根据抽取模板,在目标网站中与网页类型对应的页面上进行结构化数据抽取;目标网站为待进行结构化数据抽取的网站;抽取模板包含:与待构建知识库中的知识相关的至少一个属性;网页类型可以为详情页或索引导航页或者其他类型网页;为了最大程度地丰富构建的知识库,在本发明实施例中,每个子任务对应的抽取模板是不同的,且每个子任务对应的网页类型也是不同的,同时,在进行任务配置时,应当尽可能多的配置多个子任务,以求在更多种类的网页中抽取众多不同属性的知识信息。
可选的,根据目前已知的网页类型,至少两个子任务可以包含:第一子任务和第二子任务,其中,第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页;可理解的是,随着计算机技术的发展,在未来若出现其他类型的网页,则可以将其他类型的网页对应设置一个子任务,从该网页中进行结构化数据的抽取,以丰富领域知识库。
需要说明的是,在本发明实施例中,详情页可以为:能够查询到某一领域对象的详细情况的页面;索引导航页可以为:为用户提供一组领域对象的索引,引导用户浏览某一领域对象的详细页的页面,通常为目标网站的首页;结构化数据可以为:将根据抽取模板抽取到的知识数据,以列表的形式组合在一起,将组合后的数据称之为结构化数据。
例如:若构建音乐知识库,可以配置两个子任务:子任务1和子任务2,子任务1对应百度网站中的详情页,且对应的抽取模板包含:歌手、专辑、场景等属性;子任务2对应百度网站中的索引导航页,且对应的抽取模板包含:歌曲风格、歌曲年代等属性。
其中,在本发明实施例中,为了使控制器方便地查询到与任务名称对应的任务配置,在接收知识库构建任务之前,该方法还可以包括:
接收创建请求;创建请求包含:任务名称以及任务属性;
存储任务名称与任务属性的对应关系;
相对应的,控制器查询与任务名称对应的任务配置具体可以包括:
控制器查询控制器中预先存储的任务名称与任务属性的对应关系,获取与任务名称对应的任务配置。
S103:控制器向抓取器发送至少两个子任务。
可选的,控制器可以依次向抓取器发送至少两个子任务,也可以同时向抓取器发送至少两个子任务,本发明实施例对比不进行限定。
S104:抓取器分别执行至少两个子任务,获取至少两个结构化数据,并向控制器返回两个结构化数据。
其中,抓取器执行每个子任务的过程,与现有抓取器进行网页内容抽取是相同:先对目标网站中与子任务对应的网页类型的WEB页面进行下载,然后,根据与子任务对应的抽取模板,按照抽取模板包含的属性对下载的WEB页面内容进行数据抽取,将抽取的数据以列表的形式构建在一起,生成结构化数据。
例如,若子任务1对应百度网站中的详情页,且对应的抽取模板包含:歌手、专辑、场景等属性,则抓取器在子任务1时,可以从百度网站的详情页获取与歌曲相关的歌手、专辑以及场景等知识信息。
S105:控制器对接收到的抓取器返回的至少两个结构化数据进行合并,将合并后的结构化数据存入与任务名称对应的知识库。
其中,合并可以指将同一领域对象的至少两个结构化数据进行去重后组合在一起;例如,构建音乐知识库的时候,可以获取到多个歌曲中每个歌曲的至少两个结构化数据,此时,可以将某首歌曲的至少两个结构化数据去重后合并在一起。
由于,对于任一领域对象而言,在目标网站中都具有唯一的标识信息,因此,在本发明实施例中,标识信息相同的至少两个结构化数据进行去重后组合在一起。
例如,若用户需要建立与《小苹果》相关的知识库,且该构建任务的任务配置包含:详情子任务和索引导航子任务,按照每个子任务的抽取模板可以获取到如下两个结构化数据:
1)详情子任务,即针对领域知识库在目标网站的详情页面进行结构化数据抽取,该子任务执行结果输出如表1所示的结构化数据,该结构化数据包含与《小苹果》相关的详情属性信息:
表1
唯一标识 | 名称 | 歌手 | 专辑 |
120125029 | 小苹果 | 筷子兄弟 | 《老男孩之猛龙过江》电影原声 |
2)导航子任务,即针对领域知识库在目标网站的索引导航页面进行结构化数据抽取,该子任务执行结果输出如表2所示的结构化数据,该结构化数据包含与《小苹果》相关的分类信息:
表2
场景 | 唯一标识 |
广场舞 | 120125029 |
然后,将表1和表2的结构化数据进行合并,合并时将导航子任务所获得到的结构化数据合并到相应的详情子任务结果中,得到如表3所示与《小苹果》相关的知识库,如此,构建与《小苹果》相关的更加丰富的知识信息。
表3
进一步的,为了方便用户进行知识信息查询,该方法还可以包括:
接收用户发送的查询请求,查询请求包含:任务名称;
查询与任务名称相对应的知识库,将知识库中的结构化数据反馈给用户。
进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,具体的,接收知识库构建任务可以包括:
定期接收知识库构建任务;
将合并后的结构化数据存入与任务名称对应的知识库具体可以包括:
删除知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
同时,可理解的是,还可以定期更新控制器中存储的任务配置,增加一些新的子任务或者对现有子任务中的抽取模板中增加新的属性,以获取最丰富、最新的知识信息。
需要说明的是,本发明实施例中定期接收知识库构建任务可以指:间隔预设时间接收知识库构建任务,其中,预设时间可以根据需要进行设定,本发明实施例对比不进行限定。
由上可知,本发明实施例提供一种知识库构建方法,接收知识库构建任务,查询与所述任务名称相对应的包含至少两个子任务的任务配置,每个子任务对应一类网页,然后,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,遍历不同种类的网页得到至少两个结构化数据,合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。
需要说明的是,上述过程可以由图2所示控制器中的各单元执行,具体不再赘述。此外,本发明图2所示控制器中的接口单元可以为控制器的通信单元;任务调度单元、任务管理单元可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上知识库构建的功能,任务存储单元可以为控制器中存储器。这里所述的处理器可以是一个中央处理器(CentralProcessingUnit,CPU),或者是特定集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。具体的,下面本发明还提供了一种控制器,优选地用于实现上述方法。
图5为本发明实施例提供的一种控制器10的结构图,用于执行上述方法,如图5所示,所述控制器10可以包括:通信接口1001、处理器1002、存储器1003、以及至少一个通信总线1004,用于实现这些装置之间的连接和相互通信;
其中,通信接口1001,可用于与外部网元之间进行数据通信。
处理器1002可能是一个中央处理器(centralprocessingunit,简称为CPU),也可以是特定集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digitalsingnalprocessor,DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,FPGA)。
存储器1003,可以是易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,RAM);或者非易失性存储器(non-volatilememory),例如只读存储器(read-onlymemory,ROM),快闪存储器(flashmemory),硬盘(harddiskdrive,HDD)或固态硬盘(solid-statedrive,SSD);或者上述种类的存储器的组合,用于存储可实现本发明知识库构建相关的应用程序、任务配置以及知识库。
通信总线1004可以分为地址总线、数据总线、控制总线等,可以是工业标准体系结构(IndustryStandardArchitecture,ISA)总线、外部设备互连(PeripheralComponent,PCI)总线或扩展工业标准体系结构(ExtendedIndustryStandardArchitecture,EISA)总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信单元1001,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称。
处理器1002,用于查询与所述通信单元1001接收到的任务名称对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;
以及,向抓取器发送所述至少两个子任务,获取抓取器执行所述至少两个子任务后返回的至少两个结构化数据,并对至少两个结构化数据进行合并;
存储器1003,用于将处理器1002合并后的结构化数据存入与所述任务名称对应的知识库。
其中,每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;所述目标网站为待进行结构化数据抽取的网站;所述抽取模板包含:与待构建知识库中的知识相关的至少一个属性;所述网页类型可以为详情页或索引导航页或者其他类型网页;为了最大程度地丰富构建的知识库,在本发明实施例中,每个子任务对应的抽取模板是不同的,且每个子任务对应的网页类型也是不同的,同时,在进行任务配置时,应当尽可能多的配置多个子任务,以求在更多种类的网页中抽取众多不同属性的知识信息。
可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页;可理解的是,随着计算机技术的发展,在未来若出现其他类型的网页,则可以将其他类型的网页对应设置一个子任务,从该网页中进行结构化数据的抽取,以丰富领域知识库。
进一步的,通信单元1001具体可以用于:
接收用户通过用户手持的终端发送的知识库构建任务,或者,接收用户通过所述控制器的用户交互界面发送的知识库构建任务。
进一步的,在本发明实施例中,为了使控制器方便地查询到与任务名称对应的任务配置,所述通信单元1001,还可以用于:
在接收知识库构建任务之前,接收创建请求;所述创建请求包含:所述任务名称以及任务属性;存储所述任务名称与所述任务属性的对应关系。
进一步的,处理器1002具体用于:
依次向抓取器发送所述至少两个子任务,或者同时向抓取器发送所述至少两个子任务,本发明实施例对比不进行限定。
进一步的,在对至少两个结构化数据进行合并的,所述处理器1002具体可以用于:
将同一领域对象的至少两个结构化数据进行去重后组合在一起;例如,构建音乐知识库的时候,可以获取到多个歌曲中每个歌曲的至少两个结构化数据,此时,可以将某首歌曲的至少两个结构化数据去重后合并在一起。
由于,对于任一领域对象而言,在目标网站中都具有唯一的标识信息,因此,在本发明实施例中,标识信息相同的至少两个结构化数据进行去重后组合在一起。
进一步的,为了方便用户进行知识信息查询,所述通信单元1001还可以用于:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
所述处理器1002,还可以用于在所述通信单元1001接收到所述查询请求后,查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,所述通信单元1001,具体可以用于:
定期接收知识库构建任务;
所述处理器1002,具体可以用于:
删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
其中,可理解的是,还可以定期更新控制器中存储的任务配置,增加一些新的子任务或者对现有子任务中的抽取模板中增加新的属性,以获取最丰富、最新的知识信息。
需要说明的是,本发明实施例所述的定期接收知识库构建任务可以指:间隔预设时间接收知识库构建任务,其中,预设时间可以根据需要进行设定,本发明实施例对比不进行限定。
由上可知,本发明实施例提供一种控制器,接收知识库构建任务,查询与所述任务名称相对应的包含至少两个子任务的任务配置,每个子任务对应一类网页,然后,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,遍历不同种类的网页得到至少两个结构化数据,合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种知识库构建方法,应用于控制器,其特征在于,包括:
接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据;
合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。
2.根据权利要求1所述的方法,其特征在于,所述至少两个子任务包含:第一子任务和第二子任务;其中,所述第一子任务的网页类型为详情页;所述第二子任务的网页类型为索引导航页。
3.根据权利要求1或2所述的方法,其特征在于,在接收知识库构建任务之前,所述方法还包括:
接收创建请求;所述创建请求包含:所述任务名称以及任务属性;
存储所述任务名称与所述任务属性的对应关系。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述至少两个子任务发送给所述抓取器具体包括:
分别将所述至少两个子任务发送给所述抓取器;
或者,同时将所述至少两个子任务发送给所述抓取器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
6.根据权利要求1所述的方法,其特征在于,所述接收知识库构建任务具体包括:
定期接收知识库构建任务;
将合并后的结构化数据存入与所述任务名称对应的知识库具体包括:
删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
7.一种控制器,其特征在于,包括:
接口单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
任务调度单元,用于查询与所述接口单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据,并合并所述至少两个结构化数据;
任务存储单元,用于将任务调度单元合并后的结构化数据存入与所述任务名称对应的知识库。
8.根据权利要求7所述的控制器,其特征在于,所述至少两个子任务包含:第一子任务和第二子任务;其中,所述第一子任务的网页类型为详情页;所述第二子任务的网页类型为索引导航页。
9.根据权利要求7或8所述的控制器,其特征在于,所述接口单元,还用于:
在所述接口单元接收知识库构建任务之前,接收创建请求;所述创建请求包含:所述任务名称以及任务属性;
所述控制器还包括:
任务管理单元,将所述接口单元接收到的所述任务名称与所述任务属性的对应关系存储到所述任务存储单元中。
10.根据权利要求7-9任一项所述的控制器,其特征在于,所述任务调度单元,具体用于:
分别将所述至少两个子任务发送给所述抓取器;
或者,同时将所述至少两个子任务发送给所述抓取器。
11.根据权利要求7所述的控制器,其特征在于,所述接口单元,还用于:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
所述任务调度单元,还用于在所述接口单元接收到用户发送的查询请求后,查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。
12.根据权利要求7所述的控制器,其特征在于,所述接口单元具体用于:
定期接收知识库构建任务;
所述任务存储单元,具体用于:
删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。
13.一种控制器,其特征在于,包括:
通信单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;
处理器,用于查询与所述通信单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;
以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据,并合并所述至少两个结构化数据;
存储器,用于将处理器合并后的结构化数据存入与所述任务名称对应的知识库。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510953365.0A CN105589945A (zh) | 2015-12-17 | 2015-12-17 | 一种知识库构建方法、控制器 |
PCT/CN2016/103419 WO2017101591A1 (zh) | 2015-12-17 | 2016-10-26 | 一种知识库构建方法、控制器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510953365.0A CN105589945A (zh) | 2015-12-17 | 2015-12-17 | 一种知识库构建方法、控制器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105589945A true CN105589945A (zh) | 2016-05-18 |
Family
ID=55929524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510953365.0A Pending CN105589945A (zh) | 2015-12-17 | 2015-12-17 | 一种知识库构建方法、控制器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105589945A (zh) |
WO (1) | WO2017101591A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101591A1 (zh) * | 2015-12-17 | 2017-06-22 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
CN107103543A (zh) * | 2016-02-23 | 2017-08-29 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107256226A (zh) * | 2017-04-28 | 2017-10-17 | 北京神州泰岳软件股份有限公司 | 一种知识库的构建方法及装置 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN108595471A (zh) * | 2018-03-07 | 2018-09-28 | 中山大学 | 一种基于智能规划的知识获取方法 |
CN111274012A (zh) * | 2020-01-16 | 2020-06-12 | 珠海格力电器股份有限公司 | 服务调度方法、装置、电子设备及存储介质 |
CN111400485A (zh) * | 2018-12-28 | 2020-07-10 | 罗伯特·博世有限公司 | 用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471927B (zh) * | 2018-10-30 | 2023-01-10 | 重庆邂智科技有限公司 | 一种知识库及其建立、问答方法及应用装置 |
CN112860714A (zh) * | 2019-11-12 | 2021-05-28 | 斑马智行网络(香港)有限公司 | 知识库、数据库、信息更新方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236563A (zh) * | 2008-02-01 | 2008-08-06 | 刘峰 | 智能个性化服务网站构造方法 |
CN101853300A (zh) * | 2010-05-26 | 2010-10-06 | 中国科学技术大学 | 一种视频下载服务网站的识别、评估方法及系统 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589945A (zh) * | 2015-12-17 | 2016-05-18 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
-
2015
- 2015-12-17 CN CN201510953365.0A patent/CN105589945A/zh active Pending
-
2016
- 2016-10-26 WO PCT/CN2016/103419 patent/WO2017101591A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236563A (zh) * | 2008-02-01 | 2008-08-06 | 刘峰 | 智能个性化服务网站构造方法 |
CN101853300A (zh) * | 2010-05-26 | 2010-10-06 | 中国科学技术大学 | 一种视频下载服务网站的识别、评估方法及系统 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101591A1 (zh) * | 2015-12-17 | 2017-06-22 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
CN107103543A (zh) * | 2016-02-23 | 2017-08-29 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107103543B (zh) * | 2016-02-23 | 2021-03-30 | 平安科技(深圳)有限公司 | 协议数据处理方法和系统 |
CN107256226A (zh) * | 2017-04-28 | 2017-10-17 | 北京神州泰岳软件股份有限公司 | 一种知识库的构建方法及装置 |
CN107256226B (zh) * | 2017-04-28 | 2018-10-30 | 北京神州泰岳软件股份有限公司 | 一种知识库的构建方法及装置 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN107908637B (zh) * | 2017-09-26 | 2021-02-12 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN108595471A (zh) * | 2018-03-07 | 2018-09-28 | 中山大学 | 一种基于智能规划的知识获取方法 |
CN108595471B (zh) * | 2018-03-07 | 2022-08-02 | 中山大学 | 一种基于智能规划的知识获取方法 |
CN111400485A (zh) * | 2018-12-28 | 2020-07-10 | 罗伯特·博世有限公司 | 用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入 |
CN111274012A (zh) * | 2020-01-16 | 2020-06-12 | 珠海格力电器股份有限公司 | 服务调度方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017101591A1 (zh) | 2017-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589945A (zh) | 一种知识库构建方法、控制器 | |
US11425053B2 (en) | On-demand resource provisioning | |
KR102317535B1 (ko) | 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템 | |
WO2016015432A1 (zh) | 页面的构建方法、装置、系统、设备及非易失性计算机存储介质 | |
JP2017533503A5 (zh) | ||
WO2016155669A1 (zh) | 一种数据存储方法及装置 | |
WO2020000675A1 (zh) | 游戏资源包的发布方法、装置、终端设备及介质 | |
CN104601736A (zh) | 一种短url服务的实现方法及装置 | |
CN103412768A (zh) | 一种基于脚本程序自动化部署Zookeeper集群的方法 | |
CN106873952B (zh) | 移动端网页开发的数据处理系统和方法、及应用装置 | |
CN112612452B (zh) | 一种api平台实现方法、装置、设备及存储介质 | |
CN103677913A (zh) | 基于业务流程管理bpm的业务处理方法及装置 | |
CN106033474A (zh) | 一种数据同步更新方法、装置及电子设备 | |
WO2021189766A1 (zh) | 数据可视化方法及相关设备 | |
CN110941779A (zh) | 加载页面的方法、装置、存储介质及电子设备 | |
CN104052626A (zh) | 配置网元数据的方法、装置和系统 | |
CN109739906A (zh) | 一种报表生成方法及系统 | |
US10909487B2 (en) | Workflow customization | |
CN103617214A (zh) | 一种cim模型路径查询方法及装置 | |
US10970332B2 (en) | Electronic device and digital content managing method | |
CN103326957A (zh) | 一种浏览器及其中进行流量控制的方法 | |
CN109816450A (zh) | 一种内容推广方法及装置 | |
US9384284B2 (en) | Value-added usage of process-oriented extension fields in business mashups | |
US20220164738A1 (en) | Methods and systems for task management using syntactic markers in messaging communications | |
CN115291872A (zh) | 数据处理方法及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160518 |
|
RJ01 | Rejection of invention patent application after publication |