CN110516252B - 数据标注方法、装置、计算机设备和存储介质 - Google Patents
数据标注方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110516252B CN110516252B CN201910814100.0A CN201910814100A CN110516252B CN 110516252 B CN110516252 B CN 110516252B CN 201910814100 A CN201910814100 A CN 201910814100A CN 110516252 B CN110516252 B CN 110516252B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- marking
- labeled
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000002372 labelling Methods 0.000 claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 27
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 57
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000010422 painting Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数据标注方法、装置、计算机设备和计算机可读存储介质,其中方法包括:基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对待标注数据进行数据清洗和预标注,得到预标注数据;对预标注数据进行标注校正。该方法在保证标记数据质量的前提下,自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种数据标注方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着人工智能和知识图谱的新起与相关技术的突破,自然语言处理(NaturalLanguage Processing,简称NLP)技术在更多的领域显现其重要的作用。具体到艺术领域知识图谱的搭建来说,实体关系抽取构建知识图谱的重要环节,而命名实体识别是关系抽取的第一步。现有的实体识别方法大多都采用深度学习,这就自然而然离不开标注好的实体数据。
目前,通常采用人工在标注平台上来进行实体数据标注,而这会大大影响标注效率,而且需要极高的人力成本。
发明内容
本申请的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本申请的第一个目的在于提出一种数据标注方法,该方法在保证标记数据质量的前提下,自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。
本申请的第二个目的在于提出一种数据标注装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种数据标注方法,包括:基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对所述待标注数据进行数据清洗和预标注,得到预标注数据;对所述预标注数据进行标注校正。
本申请实施例的数据标注方法,通过基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对所述待标注数据进行数据清洗和预标注,得到预标注数据;对所述预标注数据进行标注校正,该方法在保证标记数据质量的前提下,自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。
为达上述目的,本申请第二方面实施例提出了一种数据标注装置,包括:获取模块,用于基于艺术领域知识图谱,采用远程监督方法获取待标注数据;预标注模块,用于对所述待标注数据进行数据清洗和预标注,得到预标注数据;标注校正模块,用于对所述预标注数据进行标注校正。
本申请实施例的数据标注装置,通过基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对所述待标注数据进行数据清洗和预标注,得到预标注数据;对所述预标注数据进行标注校正,该装置可实现在保证标记数据质量的前提下,自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,以用于实现本申请第一方面实施例所述的数据标注方法。
为达上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,以用于实现本申请第一方面实施例所述的数据标注方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1是根据本申请一个实施例的数据标注方法的流程图;
图2是根据本申请另一个实施例的数据标注方法的流程图;
图3是根据本申请又一个实施例的数据标注方法的流程图;
图4是根据本申请一个实施例的数据标注装置的结构示意图;
图5是根据本申请另一个实施例的数据标注装置的结构示意图。
图6是根据本申请一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的数据标注方法、装置及其相关设备。
图1为根据本申请一个实施例的数据标注方法的流程示意图。
如图1所示,该数据标注方法包括以下步骤:
步骤101,基于艺术领域知识图谱,采用远程监督方法获取待标注数据。
具体地,数据可为语料,语料可以理解为语言材料,可包括口语材料和文本材料。其来源可以是网站、教材、报纸、综合刊物、新闻材料、图书等。
在本申请实施例中,待标注数据的获取可根据艺术领域知识图谱获取包含待标注的实体三元组实体对;确定艺术领域所对应的垂直网站;之后,基于艺术领域知识图谱的三元组实体对,采用远程监督方法从垂直网站上获取包含三元组实体对的待标注数据。
举例而言,在获取待标注数据的过程中,可先通过知识图谱获取包含待标注实体的三元组集合S={tuple1,tuple2,...tuple},tuplei是一个类似<e1,r12,e2>的三元组,其中,e1和e2为待标注实体,r12为e1与e2的关系,例如<达芬奇,作品,蒙娜丽莎>。另外,<e1,r12,e2>三元组还可以进一步细化出子集合,如达芬奇的全名为列奥纳多达芬奇,那么就有<列奥纳多达芬奇,作品,蒙娜丽莎>这一子集,相应的三元组可以表示成<S_e1,r12,S_e2>,其中,S_e1和S_e2表示同一个实体的集合。
在本申请的一个实施例中,所述待标注数据可以从搜索引擎上得到,也可以从相应艺术领域网站上获取。作为一种示例,在确定出目标垂直领域为艺术领域后,可根据该艺术领域知识图谱获取包含待标注实体的三元组,并确定该艺术领域所对应的垂直网站,并基于艺术领域知识图谱的三元组实体对及其对应实体关系,通过检索的方式,从垂直网站上的文本内容中找出包含有三元组实体对的句子;将找到的包含有三元组实体对的句子,作为对应实体关系的待标注数据。例如,关于画作、画家信息的待标注数据文本信息可以从艺术网站上的作家简介或者画作描述的文本中获取,可使获得的待标注数据在一定程度上具有较高的置信度。另外,基于艺术领域知识图谱的三元组,相应的待标注数据可通过检索的方式从艺术网站上获取。例如,三元组实体对为<达芬奇,作品,蒙娜丽莎>,<蒙娜丽莎,收藏地,卢浮宫>,基于上述实体对,可从艺术网站上检索获取到待标注数据为《蒙娜丽莎》是意大利文艺复兴时期画家达芬奇创作的油画,现收藏于法国卢浮宫博物馆。
在本申请实施例中,获取到待标注数据之后,可获取艺术领域知识图谱的实体词表,其中,实体词表可包括多个实体词和多个实体词的实体类型。可选地,通过获取艺术领域知识图谱的三元组中所包含的待标注实体;之后,根据三元组中所包含的待标注实体生成实体词表。其中,实体类型可为:Artist(画家)、Paintings(画作)等。
举例而言,待标注实体的三元组集合S={tuple1,tuple2,...tuple},tuplei是一个类似<e1,r12,e2>的三元组,其中,e1和e2为待标注实体,r12为e1与e2的关系。例如,以艺术领域为例,可确该艺术领域知识图谱的三元组实体为<达芬奇,作品,蒙娜丽莎>,其中,达芬奇、蒙娜丽莎为待标注实体,三元组实体对中所有待标注实体可构成实体词表。例如,三元组实体对<达芬奇,作品,蒙娜丽莎>,<蒙娜丽莎,收藏地,卢浮宫>,实体词表为达芬奇、蒙娜丽莎、卢浮宫。
步骤102,对待标注数据进行数据清洗和预标注,得到预标注数据。
在本申请实施例中,在获取到待标注数据之后,如图2所示,可对待标注数据进行数据清洗和预标注,得到预标注数据。具体步骤如下:
步骤201,判断待标注数据中是否包含代词。
在本申请实施例中,可先对待标注数据进行文本信息清洗,将格式有误或多余的数据进行更正和删除,然后对清洗过后的待标注数据进行句子划分,并采用NLP工具包(比如Jieba或者Stanford CoreNLP)对划分后得到的句子进行分词,得到该待标注数据所对应的多个分词,并判断得到的分词中是否包含代词,其中,该代词可包括但不限于人称代词、指示代词、疑问代词、反身代词和不定代词等,比如“他”、“其”、“她”、“他们”等词语。
步骤202,若是,根据待标注数据的句子间含义,将待标注数据中的代词替换成对应的实体词,并根据多个实体词和多个实体词的实体类型对经过代词替换的待标注数据进行预标注以得到预标注数据。
进一步地,如果待标注数据中包含代词,可根据待标注数据的句子间含义,将待标注数据中的代词替换成对应的实体词,并根据多个实体词和多个实体词的实体类型对经过代词替换的待标注数据进行预标注以得到预标注数据。由此,通过对待标注数据中的代词进行指代消解,以便于更好的匹配三元组实体对。
步骤203,若否,则根据多个实体词和多个实体词的实体类型对待标注数据进行预标注,得到预标注数据。
在本申请实施例中,如果待标注数据中不包含代词,则根据多个实体词和多个实体词的实体类型对待标注数据进行预标注,得到预标注数据。
也就是说,在采用NLP工具包对待标注数据进行分词,并将该待标注数据中的代词替换成对应的实体词之后,可根据实体词表中的实体词及其实体类型对待标注数据进行预标注以得到预标注数据,例如,可将实体词表中的实体词与得到的待标注数据所对应的分词进行匹配,以确定出该待标注数据中所包含的实体词,并根据实体词表中的实体词的实体类型,确定出该待标注数据中所包含的实体词所对应的实体类型,以完成对待标注数据的预标注,得到该待标注数据的预标注数据。
举例而言,根据三元组实体对为<梵高,流派,新印象主义>,<梵高,代表作,食土豆者>,<梵高,代表作,塞纳滨河>,通过垂直网站获取到待标注数据,然后对该待标注数据进行清洗,句子划分,根据多个实体词和多个实体词的实体类型对待标注数据进行预标注,得到预标注数据为<Person>@梵高</Person>早期的作品受<Class>@印象主义</Class>和<Class>@新印象主义</Class>画派影响,代表作有《<Paintings>@食土豆者</Paintings>》、《<Paintings>@塞纳滨河</Paintings>》等。
步骤103,对预标注数据进行标注校正。
上述步骤101-102自动标记实体数据的方法会存在漏标和错标问题,如在“《<ART>希望</ART>》是维也纳画派画家<PER>克里姆特</PER>1903年创作的一幅画布油画”中“希望”被标记成一个画作,而在“<PER>马奈</PER>是地道的巴黎人,出身于上流社会。父亲是法官,<ART>希望<ART><PER>马奈</PER>也能成为律师或官员,但他执意学画。”中的“希望”同样会被标记成画作,这就出现了错标现象,因此标记后的数据需要进行标注校正,比如:通过机器或人工审核进行数据标注校正,改正错标实体和重新标注漏标的实体数据。
在本申请实施例中,为了进一步确认数据标注的准确性,防止数据中存在漏标和错标问题,因此,可将预标注数据提供给数据标注专家,以使数据标注专家对预标注数据进行审核。
可选地,从预标注数据中确定出全部标注的实体;将预标注数据提供给数据标注专家,其中,可利用正则表达式将预标注数据中的全部标注的实体以高亮显示的方式进行显示。例如,正则表达式“r’\<.*?\>\@.*?\<.*?\>’”可以匹配出所有被<*>Entity</*>标记的实体Entity。
在本申请实施例中,将预标注数据提供给数据标注专家后,为减轻人工审核的工作量,可采用自动推荐标注和打分机制来辅助人工审核任务,具体地,监测针对预标注数据中实体的标记动作,并根据监测到的实体标记动作对预标注数据进行标注校正。作为一种示例,根据监测到的实体标记动作,确定预标注数据中的漏标新实体和错标实体,并根据漏标新实体和错标实体对预标注数据进行标注校正。其中,实体标记动作包括新实体标注动作和取消错误标注动作。可选地,如图3所示,根据监测到的实体标记动作,确定预标注数据中的漏标新实体和错标实体,并根据漏标新实体和错标实体对预标注数据进行标注校正具体步骤如下:
步骤301,当监测到的实体标记动作为新实体标注动作时,确定新实体标注动作所对应的第一实体为漏标新实体,并对位于预标注数据中其他位置上的第一实体进行标注。
步骤302,当监测到的实体标记动作为取消错误标注动作时,确定取消错误标注动作所对应的第二实体为错标实体,并统计第二实体被取消标记次数,根据第二实体被取消标记次数,对位于预标注数据中其他位置上的第二实体进行标记取消操作。
在本申请实施例中,在数据标注专家审核已标注的实体时,可采用监督键盘指令的方式标记漏标的新实体和取消错误标记的实体。当监测到的实体标记动作为新实体标注动作时,也就是实体审核为漏标时,数据标注专家将漏标记的实体进行标记时,服务器后台会检测到该标记,并将新的实体按照标记类型加入相应的实体词表中,自动推荐并标记预标注数据中其他位置上所有该实体为相应的实体类型。当监测到的实体标记动作为取消标注动作时,也就是实体审核成错误标时,数据标注专家取消该实体的标注,服务器后台会检测到该标记,并将预标注数据中其他位置上所有该实体的标注都被取消。
另外,可选地,根据第二实体被取消标记次数对位于预标注数据中其他位置上的第二实体进行标记取消操作,包括:统计针对第二实体的标记动作总数;计算第二实体被取消标记次数与标记动作总数的比值;当比值大于预设阈值时,对位于预标注数据中其他位置上的第二实体进行标记取消操作。
也就是说,实体审核成错误标时,数据标注专家取消该实体的标注,服务器后台会检测到该标记并记录该实体,并统计该实体被取消标记次数占标记动作总数的比值,当比值大于预设阈值时,可利用正则匹配,自动取消预标注数据中其他位置上该实体所有标记,而且该实体在后期的标注过程中不会再被自动标注。
本申请实施例的数据标注方法,通过基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对待标注数据进行数据清洗和预标注,得到预标注数据;对预标注数据进行标注校正,该方法在保证标记数据质量的前提下,采用NLP技术自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。
与上述几种实施例提供的数据标注方法相对应,本申请的一种实施例还提供一种数据标注装置,由于本申请实施例提供的数据标注装置与上述几种实施例提供的数据标注方法相对应,因此在前述数据标注方法的实施方式也适用于本实施例提供的数据标注装置,在本实施例中不再详细描述。图4为根据本申请一个实施例的数据标注装置的结构示意图。如图4所示,该数据标注装置包括:获取模块410、预标注模块420、标注校正模块430。
具体地,获取模块410,用于基于艺术领域知识图谱,采用远程监督方法获取待标注数据;预标注模块430,用于对待标注数据进行数据清洗和预标注,得到预标注数据;标注校正模块430,用于对预标注数据进行标注校正。
作为本申请实施例的一种可能的实现方式,标注校正模块430具体用于:监测针对预标注数据中实体的标记动作,并根据监测到的实体标记动作对预标注数据进行标注校正。
作为本申请实施例的一种可能的实现方式,标注校正模块430具体用于:根据监测到的实体标记动作,确定预标注数据中的漏标新实体和错标实体,并根据漏标新实体和错标实体对预标注数据进行标注校正。
作为本申请实施例的一种可能的实现方式,实体标记动作包括新实体标注动作和取消标注动作;其中,如图5所示,在图4所示基础上,标注校正模块430包括:第一标注校正单元431、第二标注校正单元432。
具体地,第一标注校正单元431,用于在监测到的实体标记动作为新实体标注动作时,确定新实体标注动作所对应的第一实体为漏标新实体,并对位于预标注数据中其他位置上的第一实体进行标注。第二标注校正单元432,用于在监测到的实体标记动作为取消错误标注动作时,确定取消标注动作所对应的第二实体为错标实体,并统计第二实体被取消标记次数,根据第二实体被取消标记次数,对位于预标注数据中其他位置上的第二实体进行标记取消操作。
作为本申请实施例的一种可能的实现方式,第二标注校正单元432具体用于:统计针对第二实体的标记动作总数;计算第二实体被取消标记次数与标记动作总数的比值;当比值大于预设阈值时,对位于预标注数据中其他位置上的第二实体进行标记取消操作。
本申请实施例的数据标注装置,通过基于艺术领域知识图谱,采用远程监督方法获取待标注数据;对待标注数据进行数据清洗和预标注,得到预标注数据;对预标注数据进行标注校正,该装置可实现在保证标记数据质量的前提下,采用NLP技术自动标记数据中的实体,然后通过标注校正,处理漏标和错标问题,在一定程度上降低了人工标注数据的负担,提高实体数据标注的效率。需要说明的是,该数据标注装置中的获取模块410、预标注模块420和标注校正模块430、第一标注校正单元、第二标注校正单元均可以通过计算机、中央处理器(CPU)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)等硬件实现。
为了实现上述实施例,本申请实施例还提出一种计算机设备,图6为本申请实施例提供的计算机设备的结构示意图。包括存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。处理器1002执行所述程序时实现上述实施例中提供的数据标注方法。
进一步地,该计算机设备还包括:通信接口1003,用于存储器1001和处理器1002之间的通信。存储器1001,用于存放可在处理器1002上运行的计算机程序。存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。处理器1002,用于执行所述程序时实现上述实施例所述的数据标注方法。如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
为了实现上述实施例,本申请实施例还提出一种性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的数据标注方法。
在本领域技术人员在考虑说明书及实践这里申请的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (7)
1.一种数据标注方法,其特征在于,包括:
基于艺术领域知识图谱,采用远程监督方法获取待标注数据;
对所述待标注数据进行数据清洗和预标注,得到预标注数据;
监测针对所述预标注数据中实体的标记动作,所述实体的标记动作包括新实体标注动作和取消错误标注动作,其中,
当监测到的实体标记动作为所述新实体标注动作时,确定所述新实体标注动作所对应的第一实体为漏标新实体,并对位于所述预标注数据中其他位置上的所述第一实体进行标注;
当监测到的实体标记动作为所述取消错误标注动作时,确定所述取消错误标注动作所对应的第二实体为错标实体,并统计所述第二实体被取消标记次数,以及统计针对所述第二实体的标记动作总数,并计算所述第二实体被取消标记次数与所述标记动作总数的比值,以及当所述比值大于预设阈值时,对位于所述预标注数据中其他位置上的所述第二实体进行标记取消操作,且所述第二实体在后期的标注过程中不再被自动标注。
2.根据权利要求1所述的方法,其特征在于,所述基于艺术领域知识图谱,采用远程监督方法获取待标注数据,包括:
根据艺术领域知识图谱获取包含待标注的实体三元组实体对;
确定所述艺术领域所对应的垂直网站;
基于所述艺术领域知识图谱的三元组实体对,采用远程监督方法从所述垂直网站上获取包含三元组实体对的所述待标注数据。
3.根据权利要求2所述的方法,其特征在于,基于所述艺术领域知识图谱的三元组实体对,采用远程监督方法从所述垂直网站上获取包含三元组实体对的所述待标注数据,包括:
获取所述垂直网站上的文本内容;
针对所述艺术领域知识图谱的三元组实体对及其对应实体关系,通过检索的方式,从所述垂直网站上的文本内容中找出包含有所述三元组实体对的句子;
将找到的包含有所述三元组实体对的句子,作为对应实体关系的待标注数据。
4.根据权利要求1所述的方法,其特征在于,对所述待标注数据进行数据清洗和预标注,得到预标注数据,包括:
判断所述待标注数据中是否包含代词;
若是,根据所述待标注数据的句子间含义,将所述待标注数据中的代词替换成对应的实体词,并根据多个实体词和所述多个实体词的实体类型对经过代词替换的待标注数据进行预标注以得到预标注数据;
若否,则根据所述多个实体词和所述多个实体词的实体类型对所述待标注数据进行预标注,得到预标注数据。
5.一种数据标注装置,其特征在于,包括:
获取模块,用于基于艺术领域知识图谱,采用远程监督方法获取待标注数据;
预标注模块,用于对所述待标注数据进行数据清洗和预标注,得到预标注数据;
标注校正模块,用于监测针对所述预标注数据中实体的标记动作,所述实体的标记动作包括新实体标注动作和取消错误标注动作;其中,所述标注校正模块包括:
第一标注校正单元,用于在监测到的实体标记动作为所述新实体标注动作时,确定所述新实体标注动作所对应的第一实体为漏标新实体,并对位于所述预标注数据中其他位置上的所述第一实体进行标注;
第二标注校正单元,用于在监测到的实体标记动作为所述取消错误标注动作时,确定所述取消错误 标注动作所对应的第二实体为错标实体,并统计所述第二实体被取消标记次数,以及统计针对所述第二实体的标记动作总数,并计算所述第二实体被取消标记次数与所述标记动作总数的比值,以及当所述比值大于预设阈值时,对位于所述预标注数据中其他位置上的所述第二实体进行标记取消操作,且所述第二实体在后期的标注过程中不再被自动标注。
6.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至4中任一项所述的数据标注方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的数据标注方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814100.0A CN110516252B (zh) | 2019-08-30 | 2019-08-30 | 数据标注方法、装置、计算机设备和存储介质 |
PCT/CN2020/110718 WO2021036968A1 (zh) | 2019-08-30 | 2020-08-24 | 数据标注方法、设备和存储介质 |
US17/423,835 US11954439B2 (en) | 2019-08-30 | 2020-08-24 | Data labeling method and device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814100.0A CN110516252B (zh) | 2019-08-30 | 2019-08-30 | 数据标注方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516252A CN110516252A (zh) | 2019-11-29 |
CN110516252B true CN110516252B (zh) | 2022-12-09 |
Family
ID=68629445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910814100.0A Active CN110516252B (zh) | 2019-08-30 | 2019-08-30 | 数据标注方法、装置、计算机设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11954439B2 (zh) |
CN (1) | CN110516252B (zh) |
WO (1) | WO2021036968A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516252B (zh) * | 2019-08-30 | 2022-12-09 | 京东方科技集团股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
US8407165B2 (en) * | 2011-06-15 | 2013-03-26 | Ceresis, Llc | Method for parsing, searching and formatting of text input for visual mapping of knowledge information |
US9075796B2 (en) * | 2012-05-24 | 2015-07-07 | International Business Machines Corporation | Text mining for large medical text datasets and corresponding medical text classification using informative feature selection |
US9216835B2 (en) * | 2012-09-17 | 2015-12-22 | Intel Corporation | Translating application labels |
CN104298714B (zh) * | 2014-09-16 | 2017-12-08 | 北京航空航天大学 | 一种基于异常处理的海量文本自动标注方法 |
CN105068999A (zh) * | 2015-08-14 | 2015-11-18 | 浪潮集团有限公司 | 一种修正实体词识别的方法和装置 |
US20180203916A1 (en) | 2017-01-19 | 2018-07-19 | Acquire Media Ventures Inc. | Data clustering with reduced partial signature matching using key-value storage and retrieval |
CN109697537A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 数据审核的方法和装置 |
US11386266B2 (en) * | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
CN108959248A (zh) | 2018-06-21 | 2018-12-07 | 北京明略软件系统有限公司 | 一种实体标注方法和装置、计算机可读存储介质 |
CN108959255B (zh) | 2018-06-28 | 2019-09-10 | 北京百度网讯科技有限公司 | 实体标注数据集构建方法、装置及设备 |
CN109190110B (zh) * | 2018-08-02 | 2023-08-22 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109472033B (zh) * | 2018-11-19 | 2022-12-06 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN110516252B (zh) | 2019-08-30 | 2022-12-09 | 京东方科技集团股份有限公司 | 数据标注方法、装置、计算机设备和存储介质 |
-
2019
- 2019-08-30 CN CN201910814100.0A patent/CN110516252B/zh active Active
-
2020
- 2020-08-24 WO PCT/CN2020/110718 patent/WO2021036968A1/zh active Application Filing
- 2020-08-24 US US17/423,835 patent/US11954439B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11954439B2 (en) | 2024-04-09 |
CN110516252A (zh) | 2019-11-29 |
US20220075950A1 (en) | 2022-03-10 |
WO2021036968A1 (zh) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680634B (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN109299233B (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN109670494B (zh) | 一种附带识别置信度的文本检测方法及系统 | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
KR20100031800A (ko) | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 | |
CN107145584A (zh) | 一种基于n‑gram模型的简历解析方法 | |
CN110046261A (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN108959566A (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
JP2009151777A (ja) | 音声言語パラレルコーパスのアライメント方法及び装置 | |
CN114610892A (zh) | 知识点标注方法、装置、电子设备和计算机存储介质 | |
CN110516252B (zh) | 数据标注方法、装置、计算机设备和存储介质 | |
CN102033866A (zh) | 用于校验化学名称的方法及系统 | |
CN111859854A (zh) | 一种数据标注方法、装置、设备及计算机可读存储介质 | |
CN111177414A (zh) | 一种实体预标注方法和装置以及设备 | |
CN107590132B (zh) | 一种自动更正部分文字的方法-由英文词性判断 | |
CN113420116B (zh) | 医疗文档的分析方法、装置、设备及介质 | |
CN106815592B (zh) | 文本数据处理方法及装置和错别字识别方法及装置 | |
CN114398402A (zh) | 结构化信息提取和检索方法、装置、电子设备和存储介质 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
CN108205542A (zh) | 一种歌曲评论的分析方法和系统 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 | |
CN112149428A (zh) | 基于语义分析和深度学习的智能写作辅助系统 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN117010349B (zh) | 基于神经网络模型的表单填充方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |