CN110414680A - 基于众包标注的知识加工系统 - Google Patents
基于众包标注的知识加工系统 Download PDFInfo
- Publication number
- CN110414680A CN110414680A CN201910667447.7A CN201910667447A CN110414680A CN 110414680 A CN110414680 A CN 110414680A CN 201910667447 A CN201910667447 A CN 201910667447A CN 110414680 A CN110414680 A CN 110414680A
- Authority
- CN
- China
- Prior art keywords
- mark
- knowledge
- task
- processing
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于众包标注的知识加工系统,包括:粗知识管理模块,其用于导入待标注知识;任务发布模块,其用于生成标注任务并发布,所述标注任务包括待标注知识、标注员、审核员和标注字段;知识标注模块,其用于对所述标注任务进行标注处理,并将已处理的标注任务生成审核任务;知识审核模块,其用于对所述审核任务对应的标注结果进行审核处理。本发明采用众包标注的形式进行知识加工,加工过程辅以机器学习进行自动抽取,通过人机结合的知识加工过程,形成有效的综合知识库。
Description
技术领域
本发明涉及知识的加工和标注。更具体地说,本发明涉及基于众包标注的知识加工系统。
背景技术
大数据和互联网的发展相辅相成,互联网产业的快速发展,离不开数据的支撑,以知识为支撑的数据挖掘在当下成为技术和业务发展的主要方向,因此作为知识服务的重要支撑,知识加工已成为一项重要的任务。然而目前对知识的加工和标注主要还是由人工针对单一的任务来进行处理,当任务较多时,目前的系统无法很好的实现基于任务的灵活管理和多人协同工作。
发明内容
本发明的一个目的是提供一种基于众包标注的知识加工系统,克服了现有技术的缺陷,采用众包标注的形式进行知识加工,加工过程辅以机器学习进行自动抽取,通过人机结合的知识加工过程,形成有效的综合知识库。
为了实现根据本发明的这些目的和其它优点,提供了基于众包标注的知识加工系统,包括:
粗知识管理模块,其用于导入待标注知识;
任务发布模块,其用于生成标注任务并发布,所述标注任务包括待标注知识、标注员、审核员和标注字段;
知识标注模块,其用于对所述标注任务进行标注处理,并将已处理的标注任务生成审核任务;
知识审核模块,其用于对所述审核任务对应的标注结果进行审核处理。
优选的是,所述的基于众包标注的知识加工系统,所述粗知识管理模块包括多类知识库,每类知识库预设有标注字段;
在导入待标注知识之前,判断知识类别,根据知识类别将待标注知识导入相应的知识库。
优选的是,所述的基于众包标注的知识加工系统,对于同一待标注知识,选择多个标注员,对应生成多个标注任务。
优选的是,所述的基于众包标注的知识加工系统,对于同一待标注知识的多个标注字段,分别选择多个标注员,对应生成多个标注任务。
优选的是,所述的基于众包标注的知识加工系统,对标注任务进行处理包括:
根据待标注知识,填写标注字段的值,并添加标注字段的值的来源。
优选的是,所述的基于众包标注的知识加工系统,当对同一待标注知识,已处理的标注员数量大于设定比例,则生成审核任务,并将相同的标注结果合并。
优选的是,所述的基于众包标注的知识加工系统,若经过审核,标注结果不正确,则将对应的标注任务重新发布。
优选的是,所述的基于众包标注的知识加工系统,在对标注任务进行标注处理之前,提取待标注知识的特征词,并将与标注字段的属性值匹配的特征词作为标注字段的初始值。
优选的是,所述的基于众包标注的知识加工系统,还包括:
知识管理模块,其用于将通过审核的审核任务对应的待标注知识与标注字段关联存储。
优选的是,所述的基于众包标注的知识加工系统,还包括:
获取存储的标注字段的值,得到原始词集,对原始词集内的词在设定来源站点内进行搜索,得到搜索词集,将原始词集与搜索词集合并,得到拓展词集;
在对标注任务进行标注处理之前,对待标注知识进行分词,用Skip-gram模型将得到的词语转化为词向量,然后用TF-IDF算法提取关键词;
分别计算各关键词与拓展词集中各词的语义相似度,若相似度大于设定阈值,则将对应的关键词作为相应标注字段的可选值;
根据标注员选择的可选值,按设定规则减少从相应来源站点获得的搜索词占搜索词集的比例。
本发明至少包括以下有益效果:
本发明采用众包标注和审核的形式,支持同时发布多条任务,同时也支持对多个待标注知识、多个字段发布多个标注员的任务(任务集);在知识标注、知识审核功能模块中,对标注任务集进行操作,可提高标注和审核的效率;标注审核完成后的结果结构化留存,使专家知识得到有效汇聚,从而形成高可靠的知识库。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的架构图;
图2为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
在一种技术方案中,如图1、2所示,基于众包标注的知识加工系统,包括:
粗知识管理模块,其用于导入待标注知识;
任务发布模块,其用于生成标注任务并发布,所述标注任务包括待标注知识、标注员、审核员和标注字段;
知识标注模块,其用于对所述标注任务进行标注处理,并将已处理的标注任务生成审核任务;
知识审核模块,其用于对所述审核任务对应的标注结果进行审核处理。
在上述技术方案中,粗知识管理模块用于导入粗知识,即待标注的知识,可以手工导入、使用模板导入或接入第三方数据。粗知识管理模块还可以对粗知识进行删除、展示。任务发布模块用于将待标注知识生成标注任务,标注任务至少需要选择标注员、审核员、标注字段、规定完成时间,标注字段能够表达粗知识的关键信息即可,比如对人物粗知识进行标注,标注字段可以选择生日、政治面貌、民族、职业等,比如对事件进行标注,标注字段可以是发生时间、发生地点、事件名称以及其它关键词。对于同一粗知识,可以选择一个或多个标注员,对于一个字段也可以选择一个或多个标注员。知识标注模块用于选定的标注员对粗知识进行标注。知识审核模块用于选定的审核员对标注结果进行审核。可以看出,本技术方案中,能够同时发布多条任务,同时也支持对多个待标注知识、多个字段发布多个标注员的任务(任务集),标注员和审核员对标注任务集进行操作,可提高标注和审核的效率,避免了现有技术中粗知识由单一的标注员进行标注的缺陷。
在另一种技术方案,所述的基于众包标注的知识加工系统,所述粗知识管理模块包括多类知识库,每类知识库预设有标注字段;
在导入待标注知识之前,判断知识类别,根据知识类别将待标注知识导入相应的知识库。这里,将粗知识进行初步分类后导入相应的知识库,各知识库预设有标注字段,知识库可以有人物知识库、组织知识库、事件知识库、专题知识库、语料知识库,比如人物知识库可预设生日、政治面貌、民族、职业,方便发布标注任务。
在另一种技术方案,所述的基于众包标注的知识加工系统,对于同一待标注知识,选择多个标注员,对应生成多个标注任务。这里,多个标注员对同一粗知识进行标注,提高标注准确性。
在另一种技术方案,所述的基于众包标注的知识加工系统,对于同一待标注知识的多个标注字段,分别选择多个标注员,对应生成多个标注任务。这里,对于各字段分别由不同的标注员进行标注,比如某一标注员只标注政治面貌字段,这样能提高标注的效率。
在另一种技术方案,所述的基于众包标注的知识加工系统,对标注任务进行处理包括:
根据待标注知识,填写标注字段的值,并添加标注字段的值的来源。这里,可以是添加标注字段的来源URL,方便审核员审核。
在另一种技术方案,所述的基于众包标注的知识加工系统,当对同一待标注知识,已处理的标注员数量大于设定比例,则生成审核任务,并将相同的标注结果合并。这里,对于同一待标注知识具有多个标注员的情况,当设定比例的标注员完成,即可生成审核任务,提高标注和审核效率。对于相同的标注结结果进行合并,方便审核。
在另一种技术方案,所述的基于众包标注的知识加工系统,若经过审核,标注结果不正确,则将对应的标注任务重新发布。这里,将标注结果没有通过审核的待标注知识重新选择标注员、审核员,重新发布任务。
在另一种技术方案,所述的基于众包标注的知识加工系统,在对标注任务进行标注处理之前,提取待标注知识的特征词,并将与标注字段的属性值匹配的特征词作为标注字段的初始值。这里,提供了自动生成标注字段初始值的方式,针对特征性的标注字段,比如出生日期为时间格式,提取时间格式的字符作为出生日期字段的值,将减少标注员的任务量。
在另一种技术方案,所述的基于众包标注的知识加工系统,还包括:
知识管理模块,其用于将通过审核的审核任务对应的待标注知识与标注字段关联存储。这里,提供了知识管理模块,将标注审核完成后的结果结构化留存,方便查询和使用。
在另一种技术方案,所述的基于众包标注的知识加工系统,还包括:
获取存储的标注字段的值,得到原始词集,对原始词集内的词在设定来源站点内进行搜索,得到搜索词集,将原始词集与搜索词集合并,得到拓展词集;
在对标注任务进行标注处理之前,对待标注知识进行分词,用Skip-gram模型将得到的词语转化为词向量,然后用TF-IDF算法提取关键词;
分别计算各关键词与拓展词集中各词的语义相似度,若相似度大于设定阈值,则将对应的关键词作为相应标注字段的可选值;
根据标注员选择的可选值,按设定规则减少从相应来源站点获得的搜索词占搜索词集的比例。
在上述技术方案中,进一步为标注字段提供了可选择的值,主要针对事件类的粗知识。首先获取相应标注字段的值,并在设定来源站点进行搜索,建立拓展词集,来源站点可以是各新闻站点、政府部门网站等,搜索可以是同义搜索、语义搜索、联想搜索等。然后对粗知识进行分词,用TF-IDF算法提取关键词。随后,计算各关键词与拓展词集的语义相似度,选出语义相似度大于设定阈值的关键词作为对应标注字段的可选值。最后,根据标注员的选择,减少未被选择的关键词对应的拓展词的词量,比如未被选择一次,减少5%。本技术方案能够进一步减轻标注员负担,提高标注速度。
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明基于众包标注的知识加工系统的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (10)
1.基于众包标注的知识加工系统,其特征在于,包括:
粗知识管理模块,其用于导入待标注知识;
任务发布模块,其用于生成标注任务并发布,所述标注任务包括待标注知识、标注员、审核员和标注字段;
知识标注模块,其用于对所述标注任务进行标注处理,并将已处理的标注任务生成审核任务;
知识审核模块,其用于对所述审核任务对应的标注结果进行审核处理。
2.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,所述粗知识管理模块包括多类知识库,每类知识库预设有标注字段;
在导入待标注知识之前,判断知识类别,根据知识类别将待标注知识导入相应的知识库。
3.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,对于同一待标注知识,选择多个标注员,对应生成多个标注任务。
4.如权利要求1或3所述的基于众包标注的知识加工系统,其特征在于,对于同一待标注知识的多个标注字段,分别选择多个标注员,对应生成多个标注任务。
5.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,对标注任务进行处理包括:
根据待标注知识,填写标注字段的值,并添加标注字段的值的来源。
6.如权利要求3所述的基于众包标注的知识加工系统,其特征在于,当对同一待标注知识,已处理的标注员数量大于设定比例,则生成审核任务,并将相同的标注结果合并。
7.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,若经过审核,标注结果不正确,则将对应的标注任务重新发布。
8.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,在对标注任务进行标注处理之前,提取待标注知识的特征词,并将与标注字段的属性值匹配的特征词作为标注字段的初始值。
9.如权利要求1所述的基于众包标注的知识加工系统,其特征在于,还包括:
知识管理模块,其用于将通过审核的审核任务对应的待标注知识与标注字段关联存储。
10.如权利要求9所述的基于众包标注的知识加工系统,其特征在于,还包括:
获取存储的标注字段的值,得到原始词集,对原始词集内的词在设定来源站点内进行搜索,得到搜索词集,将原始词集与搜索词集合并,得到拓展词集;
在对标注任务进行标注处理之前,对待标注知识进行分词,用Skip-gram模型将得到的词语转化为词向量,然后用TF-IDF算法提取关键词;
分别计算各关键词与拓展词集中各词的语义相似度,若相似度大于设定阈值,则将对应的关键词作为相应标注字段的可选值;
根据标注员选择的可选值,按设定规则减少从相应来源站点获得的搜索词占搜索词集的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667447.7A CN110414680A (zh) | 2019-07-23 | 2019-07-23 | 基于众包标注的知识加工系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667447.7A CN110414680A (zh) | 2019-07-23 | 2019-07-23 | 基于众包标注的知识加工系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110414680A true CN110414680A (zh) | 2019-11-05 |
Family
ID=68362574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667447.7A Pending CN110414680A (zh) | 2019-07-23 | 2019-07-23 | 基于众包标注的知识加工系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414680A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110865654A (zh) * | 2019-12-06 | 2020-03-06 | 河南送变电建设有限公司 | 一种电网无人机巡检缺陷处理方法 |
CN112418665A (zh) * | 2020-11-23 | 2021-02-26 | 南京邮电大学 | 基于众包的交通违法行为标注质量评估系统及评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
CN103678281A (zh) * | 2013-12-31 | 2014-03-26 | 北京百度网讯科技有限公司 | 对文本进行自动标注的方法和装置 |
CN106951963A (zh) * | 2017-03-29 | 2017-07-14 | 苏州大学 | 一种知识精炼的方法以及装置 |
CN107609084A (zh) * | 2017-09-06 | 2018-01-19 | 华中师范大学 | 一种基于群智汇聚收敛的资源关联方法 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
-
2019
- 2019-07-23 CN CN201910667447.7A patent/CN110414680A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
CN103678281A (zh) * | 2013-12-31 | 2014-03-26 | 北京百度网讯科技有限公司 | 对文本进行自动标注的方法和装置 |
CN106951963A (zh) * | 2017-03-29 | 2017-07-14 | 苏州大学 | 一种知识精炼的方法以及装置 |
CN107609084A (zh) * | 2017-09-06 | 2018-01-19 | 华中师范大学 | 一种基于群智汇聚收敛的资源关联方法 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110865654A (zh) * | 2019-12-06 | 2020-03-06 | 河南送变电建设有限公司 | 一种电网无人机巡检缺陷处理方法 |
CN112418665A (zh) * | 2020-11-23 | 2021-02-26 | 南京邮电大学 | 基于众包的交通违法行为标注质量评估系统及评估方法 |
CN112418665B (zh) * | 2020-11-23 | 2022-08-16 | 南京邮电大学 | 基于众包的交通违法行为标注质量评估系统及评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765306B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN108268600B (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN106095762A (zh) | 一种基于本体模型库的新闻推荐方法及装置 | |
CN110399515B (zh) | 图片检索方法、装置及图片检索系统 | |
WO2021120627A1 (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
CN102831131A (zh) | 构建标注网页语料库的方法及装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN110414680A (zh) | 基于众包标注的知识加工系统 | |
JP2018180789A (ja) | クエリクラスタリング装置、方法、及びプログラム | |
Zheng et al. | Entity set expansion with meta path in knowledge graph | |
CN110413882B (zh) | 信息推送方法、装置及设备 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN102609455B (zh) | 一种实现汉语同音字检索的方法 | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN111753042A (zh) | 一种基于人工智能辅助写作系统 | |
JP2022187507A (ja) | 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN107491524B (zh) | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 | |
CN115146030A (zh) | 一种基于知识图谱的公务文书写作方法及系统 | |
Li et al. | FlashSchema: achieving high quality XML schemas with powerful inference algorithms and large-scale schema data | |
CN106649883A (zh) | 一种跨语言的主题网站自动发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |