CN101794282B - 知识标注结果检查方法和系统 - Google Patents

知识标注结果检查方法和系统 Download PDF

Info

Publication number
CN101794282B
CN101794282B CN200910005716XA CN200910005716A CN101794282B CN 101794282 B CN101794282 B CN 101794282B CN 200910005716X A CN200910005716X A CN 200910005716XA CN 200910005716 A CN200910005716 A CN 200910005716A CN 101794282 B CN101794282 B CN 101794282B
Authority
CN
China
Prior art keywords
knowledge
label
engine
registration database
mark engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910005716XA
Other languages
English (en)
Other versions
CN101794282A (zh
Inventor
丰强泽
福岛俊一
齐红威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Hall (Beijing) Polytron Technologies Inc
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN200910005716XA priority Critical patent/CN101794282B/zh
Priority to US12/634,337 priority patent/US8423503B2/en
Priority to JP2009279845A priority patent/JP5137936B2/ja
Publication of CN101794282A publication Critical patent/CN101794282A/zh
Application granted granted Critical
Publication of CN101794282B publication Critical patent/CN101794282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种知识标注结果检查系统和方法。该知识标注结果检查系统包括:接收单元,用于接收知识标注结果;检查单元,用于将所接收的知识标注结果与标签注册数据库内的信息相比较以获得比较信息。根据本发明,能够检查出不一致的标签信息。

Description

知识标注结果检查方法和系统
技术领域
本发明涉及知识提取领域,更具体地,本发明涉及知识标注结果检查系统和方法。
背景技术
知识提取从非结构化的信息中提取出结构化的信息,例如从一个HTML文件中提取出公司信息、产品信息等。一个知识提取任务可能涉及一个或多个知识标注引擎,每个知识标注引擎可以将源信息标注为相关的一个或多个标签。例如公司标注引擎可以将文本“NEC推出了最新的存储产品Storage D系列”中的“NEC”标注为“公司”标签,产品标注引擎可以将其中的“Storage D”标注为“产品”标签。
但知识标注引擎的准确率不可能是100%,其可能输出不一致的标签信息,例如,公司标注引擎可能输出本应该由产品标注引擎输出的“价格”标签。
因此,需要一种知识标注结果检查方案,其能够检查出不一致的标签信息。
已经存在一些相关的专利和研究技术。
US20040243554描述了一个非结构化信息管理和文本分析系统。它侧重于文本的标注方法,给出了一组知识标注引擎。
JP2003167879描述了一个标注信息的检索和显示设备。它侧重于标注结果的呈现方法,具体是根据用户的查询请求,从一个带标注的文档中提取和显示相应的标注结果。
JP2008021139描述了一个语义标注的模型构建设备。它侧重于文本的标注方法,具体是利用本体和统计的方法来准确地对文本进行语义标注。
但目前的技术偏重于文本的标注方法和标注结果的呈现方法,而缺乏对标注结果的自动检查方案。
发明内容
本发明提供了一种知识标注结果检查方案,其能够检查出不一致的标签信息。
根据本发明的一个方面,提供了一种知识标注结果检查系统,包括:接收单元,用于接收知识标注结果;检查单元,用于将所接收的知识标注结果与标签注册数据库内的信息相比较以获得比较信息。
根据本发明的另一个方面,提供了一种知识标注结果检查方法,包括步骤:接收知识标注结果;将所接收的知识标注结果与标签注册数据库内的信息相比较以获得比较信息。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1A示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的系统的框图;
图1B示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的系统的框图;
图1C示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的系统的框图;
图2示出了存储在数据库中的包括标签与知识标注引擎的条目;
图3示出了一个知识标注结果检查的例子;
图4示出了本体库的一个例子;
图5示出了根据本发明的一个实施方式的注册界面;
图6示出了一个纠正数据库和本体库的例子;
图7A示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的方法的流程图;
图7B示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的方法的流程图;
图7C示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的方法的流程图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
图1A示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的系统的框图。
如图1A所示,知识标注结果检查系统100A包括接收单元105,用于接收知识标注结果,标签注册数据库110,用于存储相应的信息以及检查单元120,用于将所接收的知识标注结果与标签注册数据库110中的信息相比较,以获得比较信息。其中,知识标注结果至少包括标签和知识标注引擎,而标签注册数据库110包括标签以及使用这些标签的知识标注引擎。而检查单元120至少通过比较知识标注结果中的标签和知识标注引擎以及标签注册数据库110中的标签和知识标注引擎获得比较信息。其中所述比较信息为不一致的标签信息。
图2示出了存储在标签注册数据库110中的包括标签与使用这些标签的知识标注引擎的信息。每个条目(每行)包括“标签”(列210)和“知识标注引擎”(列212),分别表示标签名称和使用该标签的知识标注引擎。例如,使用“公司”标签的知识标注引擎为“公司标注引擎”,使用“产品”标签的知识标注引擎为“产品标注引擎”,等等。
检查单元120的任务是检查知识标注结果中相对于标签注册数据库110中的标签与知识标注引擎的条目是否具有不一致的标签信息。
如果知识标注结果中的标签在标签注册数据库110中没有出现,则具有不一致的标签信息,其不一致类型是“新标签”。
如果知识标注结果中的标签在标签注册数据库110中对应的知识标注引擎,不包含该标签在知识标注结果中对应的知识标注引擎,则具有不一致的标签信息,其不一致类型是“标签使用错误”。
图3示出了一个知识标注结果检查的例子。
在知识标注结果310中,产品标注引擎输出了三个标签:产品、产品和重量,公司标注引擎输出了三个标签:公司、价格和总裁。“产品”标签在标签注册数据库110中对应的知识标注引擎也是“产品标注引擎”,因此检查单元120确定这是一致标签。“重量”在标签注册数据库110中对应的知识标注引擎是“公司标注引擎”,因此检查单元120确定这是不一致标签,不一致类型是“标签使用错误”。“公司”在标签注册数据库110中对应的知识标注引擎也是“公司标注引擎”,因此检查单元120确定这是一致标签。“价格”在标签注册数据库110中对应的知识标注引擎是“产品标注引擎”,因此检查单元120确定这是不一致标签,不一致类型是“标签使用错误”。“总裁”在标签注册数据库110中没有对应的知识标注引擎,因此检查单元120确定这也是不一致标签,不一致类型是“新标签”。
检查单元120可以将不一致的标签信息通知给用户。
图1B示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的系统的框图。
在该实施方式中的知识标注结果检查系统100B与前面所述的知识标注结果检查系统100A的区别在于:知识标注结果检查系统100B还包括一个注册单元130,用于将各知识标注引擎使用的标签注册至标签注册数据库110中,一个本体库140,用于存储领域知识。
图4示出了本体库的一个例子。本体库140包括五部分:类部分410、属性部分420、关系部分430、个体部分440和公理部分450。
类部分410包括所有的领域类别,如公司、产品。类不是一个实际存在的实体,而是一个抽象概念。每个类有一个项“是一个”用来表明该类的父类。例如“公司”的父类是“地物”,即“公司是一个地物”。再如“产品”的父类是“物品”,即“产品是一个物品”。
属性部分420中的属性定义了类的性质。每个属性至少有两个项“定义域”和“值域”。“定义域”表示属性适用于哪些类,即哪些类具有该属性,“值域”表示属性的取值类型。例如属性“地址”适用于类“公司”,属性值是一个字符串。再如属性“价格”适用于类“产品”,属性值是一个数值型。
关系部分430中的关系描述了类间的各种关联。每个关系也至少有两个项“定义域”和“值域”,用来表明关系的双方可以是哪些类。例如任意类或个体与任意类之间可以有“是一个”关系,产品和公司之间可以有“被制造”关系。
个体部分440中的个体是一个实际存在的实体。每个个体都属于某个类,并描述了各属性和关系的值。例如“IBM T61 7664-BB1”属于产品类,被IBM制造,价格是12000~15000元。
公理部分450是基于类、个体以及关系的规则,可进行进一步的推理。如“是一个(x,y)&是一个(y,z)→是一个(x,z)”,例如IBMT61 7664-BB1是一个产品,并且产品是一个物品,那么能推理出IBMT61 7664-BB1也是一个物品。公理部分中的规则一般是有限的,可以根据需要进行扩充。
本体库140由领域开发者来自动或手动建立和维护。
在本发明的该实施方式中,注册单元130自动地通过根据知识标注引擎的功能描述或名称(由知识标注引擎开发者提供),将知识标注引擎映射到本体库140中对应的类(例如一个知识标注引擎的功能描述是标注“产品”信息,则映射到本体库140中的“产品”类;又例如,一个知识标注引擎的名称为“公司标注引擎”,则映射到本体库140中的“公司”类),并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎可以输出的标签集合,来将各知识标注引擎使用的标签注册至标签注册数据库110中。
在本发明的又一个实施方式中,注册单元130通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库140中对应的类,并且提取本体库140中该对应的类以及该对应的类的所有属性,作为该知识标注引擎可以输出的候选标签集合,提供给用户,并根据用户对该候选标签集合中的标签的选择,来将各知识标注引擎使用的标签注册至标签注册数据库110中。图5示出了根据该实施方式的注册界面。在注册产品标注引擎时,系统先向用户给出了符合本体库的两个候选标签:产品、价格。然后用户可以从中选择该产品标注引擎适合的标签,最后点击“确定”按钮来提交注册信息。
在本发明的又一个实施方式中,注册单元130根据用户通过参考本体库140而提供的知识标注引擎可以输出的标签集合,来将各知识标注引擎使用的标签注册至标签注册数据库110中。
图1C示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的系统的框图。
在该实施方式中的知识标注结果检查系统100C与前面所述的知识标注结果检查系统100B的区别在于,知识标注结果检查系统100C还包括一个纠正单元150,用于根据用户对比较信息的反馈,来纠正标签注册数据库110中的标签与知识标注引擎的对应关系或/和本体库140。
如果用户认为不一致标签信息是正确的,也就是说,标签注册数据库110和本体库140是正确的,则无需纠正标签注册数据库110和本体库;如果用户认为不一致标签信息是错误的,也就是说,标签注册数据库110和本体库140不正确,则应该纠正标签注册数据库110和本体库140。
图6示出了一个纠正标签注册数据库110和本体库140的例子。对不一致标签信息“(公司标注引擎,价格)”、“(公司标注引擎,总裁)”、“(产品标注引擎,重量)”,用户认为后面两个是正确的,不应该出现在不一致标签信息中。于是,纠正单元150在本体库140中增加“公司”类的新的属性“总裁”,在标签注册数据库110中增加新条目“总裁,公司标注引擎”,在本体库140中将属性“重量”的定义域从“公司”修改成“产品”,以及在标签注册数据库110中将标签“重量”所对应的知识标注引擎从“公司标注引擎”修改成“产品标注引擎”。
图7A示出了根据本发明的一个实施方式的用于对知识标注结果进行检查的方法的流程图。
如图7A所示,该方法700A包括接收知识标注结果(步骤S710),以及将所接收的知识标注结果与标签注册数据库内的信息相比较,以获得比较信息(步骤S720)。其中所述知识标注结果至少包括标签和知识标注引擎;所述标签注册数据库包括标签以及使用这些标签的知识标注引擎。其中至少通过比较知识标注结果中的标签和知识标注引擎以及标签注册数据库中的标签和知识标注引擎获得比较信息。其中所述比较信息为不一致的标签信息。
图7B示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的方法的流程图。
在该实施方式中的知识标注结果检查方法700B与前面所述的知识标注结果检查方法700A的区别在于,知识标注结果检查方法700B在步骤S710之前,还包括将各知识标注引擎使用的标签注册至所述标签注册数据库中(步骤S705)。
在本发明的该实施方式中,通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中。
在本发明的又一个实施方式中,通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的候选标签集合,提供给用户,并根据用户对该候选标签集合中的标签的选择,来将各知识标注引擎使用的标签注册至所述标签注册数据库中。
在本发明的又一个实施方式中,根据用户通过参考本体库而提供的知识标注引擎可以输出的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中。
图7C示出了根据本发明的另一个实施方式的用于对知识标注结果进行检查的方法的流程图。
在该实施方式中的知识标注结果检查方法700C与前面所述的知识标注结果检查方法700B的区别在于,知识标注结果检查方法700C还包括:根据用户对比较信息的反馈,纠正标签注册数据库中的标签与知识标注引擎的对应关系或/和本体库(步骤S740)。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。本领域技术人员还应该理解,可以通过软件、硬件、固件或者它们的结合的方式,来实现本发明实施例中的方法和装置。例如,本发明可以实现为一种计算机程序产品,包含存储在计算机可读的介质上的程序代码,其在被计算机执行时执行本发明实施例中所述的方法。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims (10)

1.一种知识标注结果检查系统,包括:
接收单元,用于接收知识标注结果;
检查单元,用于将所接收的知识标注结果与标签注册数据库内的信息相比较以获得比较信息;
本体库,用于存储领域知识;
注册单元,用于将各知识标注引擎使用的标签注册至所述标签注册数据库中;
其中,所述注册单元通过以下方法之一将各知识标注引擎使用的标签注册至所述标签注册数据库中:
所述注册单元通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中;
所述注册单元通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的候选标签集合,提供给用户,并根据用户对该候选标签集合中的标签的选择,来将各知识标注引擎使用的标签注册至所述标签注册数据库中;
所述注册单元根据用户通过参考本体库而确定的知识标注引擎可以输出的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中。
2.根据权利要求1所述的系统,
其中所述知识标注结果至少包括标签和知识标注引擎;
所述标签注册数据库包括标签以及使用这些标签的知识标注引擎。
3.根据权利要求2所述的系统,
其中检查单元至少通过将知识标注结果中的标签和知识标注引擎与标签注册数据库中的标签和知识标注引擎进行比较获得比较信息。
4.根据权利要求1或3所述的系统,其中所述比较信息为不一致的标签信息。
5.根据权利要求1所述的系统,还包括:
纠正单元,用于根据用户对比较信息的反馈,纠正标签注册数据库中的标签与知识标注引擎的对应关系或/和本体库。
6.一种知识标注结果检查方法,包括步骤:
接收知识标注结果;
将所接收的知识标注结果与标签注册数据库内的信息相比较以获得比较信息;
将各知识标注引擎使用的标签注册至所述标签注册数据库中;
其中,通过以下方法之一将各知识标注引擎使用的标签注册至所述标签注册数据库中:
通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中;
通过根据知识标注引擎的功能描述或名称,将知识标注引擎映射到本体库中对应的类,并且提取本体库中该对应的类以及该对应的类的所有属性,作为该知识标注引擎的候选标签集合,提供给用户,并根据用户对该候选标签集合中的标签的选择,来将各知识标注引擎使用的标签注册至所述标签注册数据库中;
其中根据用户通过参考本体库而确定的知识标注引擎可以输出的标签集合,来将各知识标注引擎使用的标签注册至所述标签注册数据库中。
7.根据权利要求6所述的方法,
其中所述知识标注结果至少包括标签和知识标注引擎;
所述标签注册数据库包括标签以及使用这些标签的知识标注引擎。
8.根据权利要求7所述的方法,
其中至少通过将知识标注结果中的标签和知识标注引擎与标签注册数据库中的标签和知识标注引擎进行比较获得比较信息。
9.根据权利要求6或8所述的方法,其中所述比较信息为不一致的标签信息。
10.根据权利要求6所述的方法,还包括:
根据用户对比较信息的反馈,纠正标签注册数据库中的标签与知识标注引擎的对应关系或/和本体库。
CN200910005716XA 2009-02-03 2009-02-03 知识标注结果检查方法和系统 Active CN101794282B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200910005716XA CN101794282B (zh) 2009-02-03 2009-02-03 知识标注结果检查方法和系统
US12/634,337 US8423503B2 (en) 2009-02-03 2009-12-09 Knowledge annotation result checking method and system
JP2009279845A JP5137936B2 (ja) 2009-02-03 2009-12-09 知識注釈結果検査方法および知識注釈結果検査システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910005716XA CN101794282B (zh) 2009-02-03 2009-02-03 知识标注结果检查方法和系统

Publications (2)

Publication Number Publication Date
CN101794282A CN101794282A (zh) 2010-08-04
CN101794282B true CN101794282B (zh) 2013-11-06

Family

ID=42398546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910005716XA Active CN101794282B (zh) 2009-02-03 2009-02-03 知识标注结果检查方法和系统

Country Status (3)

Country Link
US (1) US8423503B2 (zh)
JP (1) JP5137936B2 (zh)
CN (1) CN101794282B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US9959326B2 (en) 2011-03-23 2018-05-01 International Business Machines Corporation Annotating schema elements based on associating data instances with knowledge base entities
CN108229772A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 标注处理方法及装置
CN107491479B (zh) * 2017-07-05 2020-11-24 上海大学 一种基于本体库的标签管理方法
US11586820B2 (en) * 2020-08-10 2023-02-21 Ebay Inc. Techniques for enhancing the quality of human annotation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936885A (zh) * 2005-09-21 2007-03-28 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN101281525A (zh) * 2007-11-23 2008-10-08 北京九城网络软件有限公司 一种互联网上基于知识库的搜索系统和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321258B1 (en) * 1997-12-11 2001-11-20 Hewlett-Packard Company Administration of networked peripherals using particular file system
JP2003162518A (ja) 2001-11-26 2003-06-06 Canon Inc 文書種別判定方法
JP4251804B2 (ja) 2001-12-04 2009-04-08 富士通株式会社 情報表示方法、情報表示プログラム及び情報表示装置
US20040243554A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis
JP3961993B2 (ja) 2003-07-16 2007-08-22 株式会社東芝 文書変換装置及び文書変換方法
US7865356B2 (en) * 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
JP2006215823A (ja) 2005-02-03 2006-08-17 Advanced Telecommunication Research Institute International 辞書作成システム
JP4521343B2 (ja) * 2005-09-29 2010-08-11 株式会社東芝 文書処理装置及び文書処理方法
JP2008021139A (ja) 2006-07-13 2008-01-31 National Institute Of Information & Communication Technology 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936885A (zh) * 2005-09-21 2007-03-28 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN101281525A (zh) * 2007-11-23 2008-10-08 北京九城网络软件有限公司 一种互联网上基于知识库的搜索系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cheng-Yu Lee.The conflictdetection and resolution in knowledgemerging for image annotation.《Information Processing Management》.2006,第42卷(第4期),摘要、第1031页第1段、第1038页第4.3部分第1段.
The conflictdetection and resolution in knowledgemerging for image annotation;Cheng-Yu Lee;《Information Processing Management》;20060731;第42卷(第4期);摘要、第1031页第1段、第1038页第4.3部分第1段 *

Also Published As

Publication number Publication date
US20100198831A1 (en) 2010-08-05
CN101794282A (zh) 2010-08-04
US8423503B2 (en) 2013-04-16
JP2010182291A (ja) 2010-08-19
JP5137936B2 (ja) 2013-02-06

Similar Documents

Publication Publication Date Title
Ritze et al. Profiling the potential of web tables for augmenting cross-domain knowledge bases
US7562088B2 (en) Structure extraction from unstructured documents
US20160321358A1 (en) Character-based attribute value extraction system
CN105243129A (zh) 商品属性特征词聚类方法
CN107330613A (zh) 一种舆情监控方法、设备及计算机可读存储介质
CN101794282B (zh) 知识标注结果检查方法和系统
CN103748584A (zh) 网页中的项目列表的自动检测
Hong Data extraction for deep web using wordnet
CN105224648A (zh) 一种实体链接方法与系统
Heist et al. Uncovering the semantics of Wikipedia categories
US20160110471A1 (en) Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data
US11568011B2 (en) System and method for improved searching across multiple databases
CN105095381A (zh) 新词识别方法和装置
Ujwal et al. Classification-based adaptive web scraper
CN105653547A (zh) 一种提取文本关键词的方法和装置
CN116680162B (zh) 一种测试用例复用方法、装置、介质、设备及产品
CN108536664A (zh) 商品领域的知识融合方法
US20220019742A1 (en) Situational awareness by fusing multi-modal data with semantic model
CN111159204B (zh) 一种通过配置的方式生成标签的方法及系统
Ko et al. Natural language processing–driven model to extract contract change reasons and altered work items for advanced retrieval of change orders
Iqbal et al. Bias-aware lexicon-based sentiment analysis
US8380493B2 (en) Association of semantic meaning with data elements using data definition tags
Gottschalk et al. Tab2KG: Semantic table interpretation with lightweight semantic profiles
US20200019547A1 (en) Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within
KR20170087367A (ko) 범언어적 시맨틱 웹 데이터 품질평가 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171228

Address after: 100190 Zhongguancun street, Haidian District, Beijing, No. 18, block B, block 18

Patentee after: Data Hall (Beijing) Polytron Technologies Inc

Address before: 100007 room 12, room B, South Xin Bin International Building, No. 22, Dongsishitiao a Dongcheng District, Dongcheng District, Beijing

Patentee before: NEC (China) Co., Ltd.