CN101655850A - 知识提取过程生成设备和知识提取过程调整设备及其方法 - Google Patents

知识提取过程生成设备和知识提取过程调整设备及其方法 Download PDF

Info

Publication number
CN101655850A
CN101655850A CN200810210068A CN200810210068A CN101655850A CN 101655850 A CN101655850 A CN 101655850A CN 200810210068 A CN200810210068 A CN 200810210068A CN 200810210068 A CN200810210068 A CN 200810210068A CN 101655850 A CN101655850 A CN 101655850A
Authority
CN
China
Prior art keywords
engine
knowledge extraction
parameter value
extraction process
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810210068A
Other languages
English (en)
Other versions
CN101655850B (zh
Inventor
梁邦勇
齐红威
丰强泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN200810210068.7A priority Critical patent/CN101655850B/zh
Publication of CN101655850A publication Critical patent/CN101655850A/zh
Application granted granted Critical
Publication of CN101655850B publication Critical patent/CN101655850B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识提取过程生成设备及其方法。其中,所述知识提取过程生成设备,包括:引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。以及本发明提供一种知识提取过程调整设备及其方法。通过采用本发明的知识提取过程生成设备和方法可以自动生成知识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设备和方法可以对知识提取过程的参数进行调整,以获得质量提升的知识提取过程。

Description

知识提取过程生成设备和知识提取过程调整设备及其方法
技术领域
本发明涉及知识提取过程的领域,具体地,涉及一种知识提取过程生成设备及其方法以及一种知识提取过程调整设备及其方法。
背景技术
知识提取过程是一种根据知识提取任务来提取所需的知识的过程。知识提取过程可以处理非结构化的信息,从中提取出结构化的信息。例如从一个HTML文件中提取出其中的公司信息。知识提取过程的构建是非常重要的,当构建的知识提取过程提取功能较优时,可以提取出有用的知识。此外,知识提取过程的质量提升是非常有用的,它可以让用户得到的知识的数量更多,知识的内容更精确。例如,一个知识提取过程可以得到50个产品,经过质量提升后,该知识提取过程可以得到80个更为精确的产品。
目前已经存在一些与知识提取相关的专利申请文件。
US20020165839描述了一种分词的质量提升方法。它可以自动选择分词特征(TF-IDF,词性标注等)和分类器(贝叶斯分类器,SVM分类器等),来使分词结果变得更好(获得更高的准确率和召回率)。
JP2005-316904描述了一个打印控制设备。它预先定义了一个工作流生成规则库,其手工定义了构成一个打印任务的各步骤之间的次序,然后根据工作流生成规则库来发现各打印任务之间的次序。
JP8006970描述了一个信息检索设备。当根据初始的搜索条件找到的搜索结果数目较少时,它可以扩展初始的搜索条件以得到预期数量的搜索结果。
综合上述现有的方法,都不能根据以往的知识提取结果来自动选择相应的知识提取步骤,决定各步骤的次序,以及调整各步骤的参数。
发明内容
为了解决上述问题,本发明提出了一种知识提取过程生成设备及其方法,一种知识提取过程调整设备及其方法。
根据本发明第一方面,提出了一种知识提取过程生成设备,包括:引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
根据本发明第二方面,提出了一种知识提取过程生成方法,包括:引擎选择步骤,根据知识提取任务选择引擎序列;以及参数值调整步骤,对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
根据本发明第三方面,提出了一种知识提取过程调整设备,包括:知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;引擎选择装置,用于在知识提取结果不满足目标质量时根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第四方面,提出了一种知识提取过程调整方法,包括:知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;引擎选择步骤,在知识提取结果不满足目标质量时根据知识提取任务选择引擎序列;以及参数值调整步骤,对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第五方面,提出了一种知识提取过程调整设备,包括:知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及参数值调整装置,用于在知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
根据本发明第六方面,提出了一种知识提取过程调整方法,包括:知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及参数值调整步骤,在知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
由于采用本发明的知识提取过程生成设备和方法可以自动生成知识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设备和方法可以对知识提取过程的参数进行调整,从而参数调整后的知识提取过程的质量得到了较大提高,以向用户提供更多数目和更精确的知识。
附图说明
图1a是示出了根据本发明的知识提取过程生成设备的示意图;
图1b是示出了根据本发明的知识提取过程生成方法的流程图;
图2a是示出了根据本发明的知识提取过程调整设备的示意图;
图2b是示出了根据本发明的知识提取过程调整方法的示意图;
图3a是示出了根据本发明的引擎选择装置的结构图;
图3b是示出了根据本发明的参数值调整装置的结构图;
图4是示出了根据本发明的知识提取过程调整设备执行引擎选择和参数调整方法的流程图;
图5示出了一个引擎库的示例;
图6示出了一个引擎管理界面;
图7示出了知识提取过程的一个示例;
图8示出了网站内容提取模板的一个示例;
图9示出了利用网站内容提取模板构建产品提取过程的一个示例;
图10示出了知识提取过程开发界面的一个示例;
图11示出了自动选择引擎序列的一个示例;
图12示出了调整知识提取过程的一个示例。
具体实施方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图1a示出了根据本发明的知识提取过程生成设备的示意图。该知识提取过程生成设备包括输入装置(未示出),用于输入知识提取任务;生成部分1,包括引擎选择装置10和参数值调整装置12;存储部分2,存储有知识提取过程历史库14和模板库16;输出装置(未示出),用于输出生成的知识提取过程。一个知识提取过程就是一个引擎序列。其中知识提取过程历史库14存储的是历史生成的知识提取过程,模板库16存储了多个模板,每个模板定义了一种经常使用的引擎序列,引擎序列是由一序列引擎构成的,每个引擎可以执行某个特定的知识提取任务,且引擎可以包括基本描述部分,功能部分以及参数定义部分。引擎选择装置10用于根据输入的知识提取任务选择引擎序列,其中,引擎选择装置10可以利用模板库16来选择引擎序列,或者可以根据知识提取过程历史库14中存储的知识提取过程来选择引擎序列。参数值调整装置12,用于对选择的引擎序列的引擎的参数定义部分中的参数的参数值进行调整,作为生成的知识提取过程。
图1b示出了根据本发明的知识提取过程生成方法的流程图。如图1b所示,在S201,输入装置输入知识提取任务。在S202,引擎选择装置10根据知识提取任务选择相应的引擎序列,用于提取知识。在S203,参数值调整装置12对选择的引擎序列的引擎的参数的参数值进行调整,以获得知识提取质量较高的知识提取过程,最后,在S204,输出装置输出生成的知识提取过程。
通过本发明的知识提取过程生成设备生成的知识提取过程可以获得数量较多且精度较高的提取的知识。
此外,本发明还提供一种知识提取过程调整设备,用于灵活地、持续不断地调整知识提取过程,从而获得高质量的提取的知识。
下面将对根据本发明的知识提取过程调整设备进行描述。其中,将对上述引擎选择装置10,参数值调整装置12,知识提取过程历史库14以及模板库16进行详细的描述。
图2a示出了根据本发明的知识提取过程调整设备的示意图。该知识提取过程调整设备包括调整部分3和存储部分4。调整部分3包括知识提取过程构建装置30,知识提取结果分析装置32,引擎选择装置10,参数值调整装置12。存储部分4包括知识提取过程历史库14,模板库16以及引擎库18。
首先将对引擎库18,模板库16以及知识提取过程历史库14进行描述。
(a)引擎库
图5示出了引擎库18的一个示例。引擎库存储了多个用于知识提取的引擎,每个引擎执行某个特定的知识提取任务,例如提取产品信息或者提取公司信息。
如前所述,一个引擎通常包括基本描述部分、功能部分和参数定义部分。
●基本描述部分包括引擎的基本信息,具体包括:Name(名称),Type(类别,即属于哪类知识提取任务),Owner(所有者,即,引擎是谁开发的),Description(描述,即引擎的基本介绍),Quality(质量,即,性能好坏的评价)等。
●功能部分包括引擎的可执行代码,即如何实现该引擎,通常是一个Java类或一个Web service(网页服务)。功能部分使引擎可以运行,以实现某个特定的知识提取任务。
●参数定义部分包括可以由用户配置的参数。例如Web Crawler(网页爬取器)引擎包括参数Thread Count(线程数目),表示线程数,如Thread Count=3表示同时启动3个线程去抓取网页。再如Content Filtering(内容过滤)引擎包括参数removeAdvertisement(去除广告)表示是否删除网页中的广告,如remove Advertisement=true,则表示删除广告。
图5所示出的引擎库包括3条记录,其中第一条记录描述了WebCrawler引擎,属于Data Source Collector(数据源收集器)类型,由Group 1,NEC Labs China开发,用来从网站中抓取网页,质量为9分(满分为10分),其通过Java类com.nec.iusp.engine.WebCrawlerEngine来实现,包括参数ThreadCount。第二条记录描述了Content Filtering引擎,第三条记录描述了Product Extractor(产品提取器)引擎。可以由人工对引擎的基本描述部分,功能部分和参数定义部分进行定义,并作为各条记录放入到引擎库中。
图6示出了一个引擎管理界面的示例,该示例为引擎注册管理界面,其中用户将Web Crawler引擎注册到引擎库中。通过该引擎管理界面,可以方便用户对引擎库进行管理,进行引擎注册,引擎修改,以及引擎删除等操作。
(b)知识提取过程历史库
知识提取过程历史库14存储了各用户之前构建的所有知识提取过程的记录。每个记录可以包括知识提取过程名称、引擎序列、质量评价和构建者。
例如对于一条记录:“Company Extractor;Web Site->WebCrawler->Content Filtering->Company Extractor(公司提取器;网站->网页爬取器->内容过滤->公司提取器);优秀;Tom”表示了一个名为“Company Extractor”的知识提取过程,其引擎序列为“Web Site->WebCrawler->Content Filtering->Company Extractor”,质量评价为优秀,该过程是由用户Tom构建的。
(c)模板库
模板库16存储了多个模板,每个模板定义了一种经常使用的引擎序列,其中各引擎的参数都被看作是该模板的参数。图8示出了一个网站内容提取模板,由Web Site,Web Crawler和Content Filtering组成。该引擎序列的使用频率较高,例如用于提取公司信息和产品信息等。模板库可以方便用户去构建知识提取过程,用户可以直接从模板库中选择所需使用的模板。图7示出了知识提取过程的一个示例。图9示出了利用网站内容提取模板构建产品知识提取过程的一个示例,用户将网站内容提取模板和Product Extractor引擎连在一起,并配置网站内容提取模板的参数URL,从而得到了产品知识提取过程。利用图9获得的模板构成的知识提取过程与图7的相同。
可以以手动方式获得模板库,也可以自动获得模板库。由用户根据自己的经验来总结每个常用的引擎序列并将其作为模板来获得模板库。或者通过分析知识提取过程历史库,从中学习重复次数多(出现频率高)的引擎序列,作为模板。例如,如果各用户以前建立过的产品提取过程和公司提取过程都包含引擎序列“Web Site->WebCrawler->Content Filtering”,则将该引擎序列提取出来作为一个模板。
下面结合引擎库18,模板库16以及知识提取过程历史库14对根据本发明的调整装置3进行描述。
调整装置3的知识提取过程构建装置30根据知识提取任务,从引擎库18中选择相关的引擎并按照引擎的功能次序连接在一起,并配置各个引擎的所需的参数的参数值。从而用户可以利用知识提取过程构建装置30根据知识提取任务从引擎库18中手工选择引擎序列,或者知识提取过程构建装置30自动从引擎库18中选择引擎序列。图10示出了知识提取过程开发界面的一个示例。该界面允许用户方便地拖拽引擎,快速建立一个知识提取过程。另外,利用该界面,用户还可以运行知识提取过程和查看知识提取结果。
调整装置3的知识提取结果分析装置32,用于分析构建的知识提取过程运行后的提取结果是否满足目标质量。目标质量可以根据知识提取任务设定,例如可以将目标质量设定为包括数量和/或准确度等,可以用一个正则表达式来表示设定的目标质量,例如“Number(Product)>110 & AverageNumber(Property)>=3.4”所表示的目标质量的含义是提取出的产品个数需大于110并且每个产品的平均属性数至少是3.4个。通过判断正则表达式的值为“真”还是“假”确定提取结果是否满足目标质量。如果为“真”,则满足目标质量,如果为“假”,则不满足目标质量。
调整装置3的引擎选择装置10,用于在知识提取结果分析装置32分析是构建的知识提取过程的知识提取结果不满足目标质量时,根据知识提取任务来选择引擎序列。引擎选择装置10可以根据知识提取任务对知识提取过程历史库14中的相关的知识提取过程进行分析,从中自动学习引擎序列,或者引擎选择装置10可以从模板库16中直接选择所需的引擎序列。
调整装置3的参数值调整装置12,用于对引擎选择装置10选择出的引擎序列的引擎的参数的参数值进行调整,以使得知识提取过程获得的知识提取结果满足目标质量。
虽然图2a示出了知识提取过程调整设备包括引擎选择装置10和模板库16,但是,知识提取过程调整设备也可以不包括引擎选择装置10和模板库16,从而在知识提取结果分析单元32分析出知识提取过程构建装置30构建的知识提取过程运行后的提取结果不满足目标质量时,由参数值调整装置12对构建的知识提取过程的参数进行调整。
图2b是示出了根据本发明的知识提取过程调整方法的示意图。
首先,在S401,知识提取过程构建装置30根据知识提取任务,从引擎库中选择相关的多个引擎,作为引擎序列。
在S402,知识提取结果分析装置32对引擎序列的运行结果(提取结果)进行分析,判断其提取结果是否满足一个预设的目标质量。
如果满足目标质量,则结束处理。否则,在S403,引擎选择装置10根据知识提取任务选择新的引擎序列。引擎选择装置10可以使用两种方法来根据知识提取任务选择新的引擎序列:第一种方法是利用分析以往用户建立的有相同知识提取任务的知识提取过程,并自动学习所需的引擎序列;第二种方法是利用模板库来选择引擎序列。根据知识提取任务,引擎选择装置10从模板库中选择一个包括引擎序列的模板,以构成一个完成知识提取任务的引擎序列。例如,对于“提取产品信息”的知识提取任务,引擎选择装置10从模板库中选择“网站内容提取模板”,从而获得知识提取过程“网站内容提取模板>ProductExtractor”。
之后,在S404,参数值调整装置12对选择的引擎序列的参数的参数值进行调整,可以利用排序的方式对参数值实现调整。
图3a示出了通过对知识提取过程进行分析来选择引擎序列的引擎选择装置10的结构图。该引擎选择装置10包括:历史知识提取过程获取单元101,路径图建立单元102,路径得分计算单元103以及引擎选择单元104。
图3b是示出了根据本发明的参数值调整装置的结构图。该引擎选择装置12包括参数值获取单元120,参数值排序单元122,候选参数值选择单元124以及候选参数值验证单元126。
下面将结合图3a,图3b,图4对本发明的知识提取过程调整设备如何执行引擎选择和参数调整进行具体描述。
在S601,历史知识提取过程获取单元101从知识提取过程历史库14中找到知识提取任务与当前知识提取任务相同的所有历史知识提取过程。
在S602,路径图建立单元102根据获取的历史提取过程建立一张路径图,具体方法是将各历史提取过程中的每个引擎作为路径图的一个结点,引擎间的顺序关系作为路径图的一条边,从而路径图中的每条路径都描述了一种可能的引擎序列。
在S603,路径得分计算单元103从路径图中得到分数最高的路径。路径的分数等于该路径中的各个引擎的分数的求和平均。其中某个引擎的分数可以是它在路径图中的出入度,或者是它被用户使用的频率即在知识提取过程历史库中出现了多少次,或者是知识提取过程历史库中引擎开发者对它的质量评价,或者是出入度、频率和质量评价的加权平均。
之后,在S604,擎选择单元104将分数最高的路径形成的引擎序列作为选择的引擎序列。
图11示出了自动选择引擎序列的一个示例。对于知识提取任务“提取产品信息”,根据知识提取过程历史库中的产品提取过程“E1->E2->E3->E4”,“E1->E3->E5->E6”,“E2->E3->E6->E7”和“E1->E2->E5->E7”(其中E1,E2,…是引擎),建立一张路径图,其中不同的引擎构成了各个节点,节点之间的路径表示了不同引擎之间的顺序关系。之后,根据知识提取过程历史库中对各个引擎的质量评价,计算路径图中各路径的分数,例如引擎E1-E7的质量评价分别是9,6,7,6,8,8和9,于是可得路径“E1->E3->E6->E7”的分数是(9+7+8+9)/4=8.25,“E1->E2->E5->E7”的分数是(9+6+3+9)/4=6.75。最后找出分数最高的路径“E1->E3->E6->E7”作为引擎序列的自动选择的结果。另外还可以将出入度之和作为引擎的分数,例如引擎E1的出度和入度分别是2和0,于是路径“E1->E3->E6->E7”的分数是(2+5+3+2)/4=3。另外还可以将用户使用频率作为引擎的分数,例如引擎E1在知识提取过程历史库中出现了3次,于是路径“E1->E3->E6->E7”的分数是(3+3+2+2)/4=2.5。另外还可以将出入度、频率和质量评价的加权平均作为引擎的分数,例如在对出入度、频率和质量评价赋予相同的权重后,引擎E1的分数是(2+3+9)/3=4.67,于是路径“E1->E3->E6->E7”的分数是(4.67+5+4.3+4.3)/4=4.57。
在S605,参数值获取单元120根据选择的引擎序列获得其每个引擎在所有历史知识提取过程中配置的参数的参数值。
在S606,参数值排序单元122根据知识提取过程历史库14中的引擎序列的质量,对每个引擎的各参数值进行排序,此外,还可以采用其它已知的排序方式。
在S607,候选参数值选择单元124从排序后的参数值中选择前n个质量最高的作为候选参数值,从而得到调整了参数值的引擎序列。
在S608,候选参数值验证单元126为该引擎序列中的每个引擎配置任意候选参数值,然后运行该引擎序列,运行结束后检查运行的知识提取结果是否满足目标质量(方法与知识提取结果分析装置所采用的方法相同),如果不满足,则将引擎的参数配置为下一个候选参数值,再运行该引擎序列,直到知识提取结果满足目标质量为止,并将满足知识目标质量的候选参数值作为引擎序列调整的参数值。
例如假设自动选择的引擎序列为“Web Site->WebCrawler->Content Filtering->Product Extractor”,在知识提取过程历史库中有三个与该引擎序列有相同引擎的高质量的知识提取过程:
a)POS Tagging Process(词性标注过程),用于词性标注,其引擎序列为“Document Reader(文档读取器)->Content Filtering(removeAdvertisement=true)->Tokenization(符号化)”。该过程运行后得到的提取结果的质量很高。
b)Company Extractor Process(公司提取器过程),用于提取公司信息,其引擎序列为“Web Site(URL=companywebsites)->Web Crawler->Content Filtering(removeAdvertisement=false)->Company Extractor”。该过程运行后得到的提取结果的质量一般。
c)Product Extractor Process(产品提取器过程),用于提取产品信息,其引擎序列为“Web Site(URL=product websites andcompany websites)->Web Crawler->Product Extractor”。该过程运行后得到的提取结果的质量一般。
那么根据上面三个知识提取过程,得到Web Site(网站)的参数URL有两个候选值“company websites(公司网站)”和“product websitesand company websites(产品网站和公司网站)”,Content Filtering的参数removeAdvertisement有两个候选值“false(假)”和“true(真)”,由于参数值为“company websites”的知识提取过程company ExtractorProcess与参数值为“product websites and company websites”的知识提取过程的质量都是一般,所以,候值“company websites”和“productwebsites and company websites”处于同一级别。
Company Extractor Process由于参数值为“true”的知识提取过程POS Tagging Process比参数值为“false”的知识提取过程CompanyExtractor Process的质量高,因此将“true”排在前面。
然后可以进行参数验证。对自动选择的引擎序列“Web Site->WebCrawler->Content Filtering->Product Extractor”进行不同的参数配置,得到以下4种有着不同参数配置的引擎序列,然后依次运行并检查其知识提取结果是否满足目标质量“Number(Product)>110 &AverageNumber(Property)>=3.4”,最后发现第③种引擎序列的知识提取结果满足目标质量,这是因为数据源不但包含了公司网站还包含了产品网站,所以提取出的产品数目得到了增加,而且对无用广告的过滤也提高了产品提取的准确度。
①第一种参数配置的引擎序列为“Web Site(URL=companywebsites)->Web Crawler->Content Filtering(removeAdvertisement=true)->Product Extractor”,其物理意义是只从公司网站中获取网页,并过滤掉网页中的广告后再进行产品提取;
②第二种参数配置的引擎序列为“Web Site(URL=companywebsites)->Web Crawler->Content Filtering(removeAdvertisement=false)->Product Extractor”,其物理意义是只从公司网站中获取网页,不过滤广告直接进行产品提取;
③第三种参数配置的引擎序列为“Web Site(URL=product websitesand company websites)->Web Crawler->Content Filtering(removeAdvertisement=true)->Product Extractor”,其物理意义是从产品网站和公司网站中获取网页,并过滤掉网页中的广告后再进行产品提取;
第四种参数配置的引擎序列为“Web Site(URL=product websitesand company websites)->Web Crawler->Content Filtering(removeAdvertisement=false)->Product Extractor”,其物理意义是从产品网站和公司网站中获取网页,不过滤广告直接进行产品提取。
图12示出了调整知识提取过程的一个示例,其中左侧的图示出了用户手工创建的产品提取过程,右侧的图示出了通过引擎选择和参数调整后的质量得到提升的产品提取过程。
尽管已经参照具体实施例,对本发明进行了描述,但本发明不应当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚,在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对实施例进行改变或修改。

Claims (36)

1.一种知识提取过程生成设备,包括:
引擎选择装置,用于根据知识提取任务选择引擎序列;以及
参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
2.如权利要求1所述的知识提取过程生成设备,其中引擎选择装置根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序列。
3.如权利要求1所述的知识提取过程生成设备,其中引擎选择装置包括:
历史知识提取过程获取单元,用于从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;
路径图建立单元,用于将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;
路径得分计算单元,用于计算路径图中的各个路径的得分;以及
引擎选择单元,用于选择得分最高的路径所对应的引擎序列。
4.如权利要求3所述的知识提取过程生成设备,其中路径得分计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
5.如权利要求3所述的知识提取过程生成设备,其中路径得分计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
6.如权利要求1所述的知识提取过程生成设备,其中参数值调整装置包括:
参数值获取单元,用于从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;
参数值排序单元,用于对获取的每个引擎的参数的参数值进行排序:以及
候选参数值选择单元,用于从排序的参数值中选择候选参数值。
7.如权利要求6所述的知识提取过程生成设备,其中参数值调整装置还包括候选参数值验证单元,用于对候选参数值进行验证,从引擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
8.如权利要求6所述的知识提取过程生成设备,其中参数值排序单元根据知识提取过程历史库中的引擎序列的质量,对每个引擎的参数值进行排序。
9.一种知识提取过程生成方法,包括:
引擎选择步骤,根据知识提取任务选择引擎序列;以及
参数值调整步骤,对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。
10.如权利要求9所述的知识提取过程生成方法,其中引擎选择步骤包括根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序列的步骤。
11.如权利要求9所述的知识提取过程生成方法,其中引擎选择步骤包括:
历史知识提取过程获取步骤,从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;
路径图建立步骤,将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;
路径得分计算步骤,计算路径图中的各个路径的得分;以及
引擎选择步骤,选择得分最高的路径所对应的引擎序列。
12.如权利要求11所述的知识提取过程生成方法,其中路径得分计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
13.如权利要求11所述的知识提取过程生成方法,其中路径得分计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
14.如权利要求9所述的知识提取过程生成方法,其中参数值调整步骤包括:
参数值获取步骤,从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;
参数值排序步骤,对获取的每个引擎的参数的参数值进行排序;以及
候选参数值选择步骤,从排序的参数值中选择候选参数值。
15.如权利要求14所述的知识提取过程生成方法,其中参数值调整步骤还包括候选参数值验证步骤,对候选参数值进行验证,从引擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
16.如权利要求14所述的知识提取过程生成方法,其中参数值排序步骤包括根据知识提取过程历史库中的引擎序列的质量,对每个引擎的参数值进行排序的步骤。
17.一种知识提取过程调整设备,包括:
知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;
引擎选择装置,用于在知识提取结果不满足目标质量时根据知识提取任务选择引擎序列;以及
参数值调整装置,用于对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
18.如权利要求17所述的知识提取过程调整设备,还包括:
知识提取过程构建装置,用于根据知识提取任务从引擎库中选择多个引擎,构成作为知识提取过程的引擎序列。
19.如权利要求17所述的知识提取过程调整设备,其中引擎选择装置根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序列。
20.如权利要求17所述的知识提取过程调整设备,其中引擎选择装置包括:
历史知识提取过程获取单元,用于从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;
路径图建立单元,用于将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;
路径得分计算单元,用于计算路径图中的各个路径的得分;以及
引擎选择单元,用于选择得分最高的路径所对应的引擎序列。
21.如权利要求20所述的知识提取过程调整设备,其中路径得分计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
22.如权利要求20所述的知识提取过程调整设备,其中路径得分计算单元计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
23.如权利要求17所述的知识提取过程调整设备,其中参数值调整装置包括:
参数值获取单元,用于从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;
参数值排序单元,用于对获取的每个引擎的参数的参数值进行排序;以及
候选参数值选择单元,用于从排序的参数值中选择候选参数值。
24.如权利要求23所述的知识提取过程调整设备,其中参数值调整装置还包括候选参数值验证单元,用于对候选参数值进行验证,从引擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
25.如权利要求23所述的知识提取过程生成设备,其中参数值排序单元根据知识提取过程历史库中的引擎序列的质量,对每个引擎的参数值进行排序。
26.一种知识提取过程调整方法,包括:
知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;
引擎选择步骤,在知识提取结果不满足目标质量时根据知识提取任务选择引擎序列;以及
参数值调整步骤,对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
27.如权利要求26所述的知识提取过程调整方法,还包括:
知识提取过程构建步骤,根据知识提取任务从引擎库中选择多个引擎,构成作为知识提取过程的引擎序列。
28.如权利要求26所述的知识提取过程调整方法,其中引擎选择步骤包括根据知识提取任务从一个包括多个引擎序列的模板库中选择引擎序列。
29.如权利要求26所述的知识提取过程调整方法,其中引擎选择步骤包括:
历史知识提取过程获取步骤,从知识提取过程历史库中获得知识提取任务与当前知识提取任务相同的历史知识提取过程;
路径图建立步骤,将历史知识提取过程中的每个引擎作为结点,引擎之间的顺序关系作为边以建立知识提取过程的路径图;
路径得分计算步骤,计算路径图中的各个路径的得分;以及
引擎选择步骤,选择得分最高的路径所对应的引擎序列。
30.如权利要求29所述的知识提取过程调整方法,其中路径得分计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价之一计算每个引擎的分数。
31.如权利要求29所述的知识提取过程调整方法,其中路径得分计算步骤包括计算与路径对应的引擎序列中的每个引擎的分数的求和平均,作为路径的得分的步骤,其中根据该引擎在路径图中的出入度,用户使用该引擎的频率以及该引擎的质量评价的加权平均计算每个引擎的分数。
32.如权利要求26所述的知识提取过程调整方法,其中参数值调整步骤包括:
参数值获取步骤,从知识提取过程历史库获取选择的引擎序列中的每个引擎的参数的参数值;
参数值排序步骤,对获取的每个引擎的参数的参数值进行排序;以及
候选参数值选择步骤,从排序的参数值中选择候选参数值。
33.如权利要求32所述的知识提取过程调整方法,其中参数值调整步骤还包括候选参数值验证步骤,对候选参数值进行验证,从引擎的候选参数值中选出使得引擎序列满足目标质量的候选参数值。
34.如权利要求32所述的知识提取过程生成方法,其中参数值排序步骤包括根据知识提取过程历史库中的引擎序列的质量,对每个引擎的参数值进行排序的步骤。
35.一种知识提取过程调整设备,包括:
知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及
参数值调整装置,用于在知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
36.一种知识提取过程调整方法,包括:
知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及
参数值调整步骤,在知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。
CN200810210068.7A 2008-08-21 2008-08-21 知识提取过程生成设备和知识提取过程调整设备及其方法 Expired - Fee Related CN101655850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810210068.7A CN101655850B (zh) 2008-08-21 2008-08-21 知识提取过程生成设备和知识提取过程调整设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810210068.7A CN101655850B (zh) 2008-08-21 2008-08-21 知识提取过程生成设备和知识提取过程调整设备及其方法

Publications (2)

Publication Number Publication Date
CN101655850A true CN101655850A (zh) 2010-02-24
CN101655850B CN101655850B (zh) 2014-08-27

Family

ID=41710143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810210068.7A Expired - Fee Related CN101655850B (zh) 2008-08-21 2008-08-21 知识提取过程生成设备和知识提取过程调整设备及其方法

Country Status (1)

Country Link
CN (1) CN101655850B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945079A (zh) * 2016-10-12 2018-04-20 普天信息技术有限公司 一种扶贫对象选择方法及装置
CN109819167A (zh) * 2019-01-31 2019-05-28 维沃移动通信有限公司 一种图像处理方法、装置和移动终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1258163A (zh) * 1998-12-14 2000-06-28 日本电气株式会社 用于输出静止图象的万维网浏览器及程序存储介质
CN1716258A (zh) * 2004-05-14 2006-01-04 微软公司 用于web数据库模型匹配的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1258163A (zh) * 1998-12-14 2000-06-28 日本电气株式会社 用于输出静止图象的万维网浏览器及程序存储介质
CN1716258A (zh) * 2004-05-14 2006-01-04 微软公司 用于web数据库模型匹配的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945079A (zh) * 2016-10-12 2018-04-20 普天信息技术有限公司 一种扶贫对象选择方法及装置
CN109819167A (zh) * 2019-01-31 2019-05-28 维沃移动通信有限公司 一种图像处理方法、装置和移动终端
CN109819167B (zh) * 2019-01-31 2020-11-03 维沃移动通信有限公司 一种图像处理方法、装置和移动终端

Also Published As

Publication number Publication date
CN101655850B (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
CN102279851B (zh) 一种智能导航方法、装置和系统
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
CN104035927B (zh) 一种基于用户行为的搜索方法及系统
CN107507016A (zh) 一种消息推送方法和系统
US20150205580A1 (en) Method and System for Sorting Online Videos of a Search
CN104361063B (zh) 用户兴趣发现方法和装置
CN1716244A (zh) 智能搜索、智能文件系统和自动智能助手的方法
KR102082208B1 (ko) 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN112579852B (zh) 一种互动式网页数据精确采集方法
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN105426514A (zh) 个性化的移动应用app推荐方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN108090228B (zh) 一种通过文化云平台进行互动的方法及装置
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN107180078A (zh) 一种基于用户兴趣学习的垂直搜索方法
CN102156747A (zh) 一种引入社会化标签的协作过滤评分预测方法及装置
CN103106234A (zh) 一种网页内容搜索方法和装置
CN108153754B (zh) 一种数据处理方法及其装置
CN104992318A (zh) 行事历主动推荐事件的方法
CN110046294A (zh) 一种基于电力大数据的能源资讯系统
CN101655850B (zh) 知识提取过程生成设备和知识提取过程调整设备及其方法
EP2518668A1 (en) Apparatus and method for visualizing technology transition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140827

Termination date: 20160821