CN113742444A - 文本标注方法、装置、存储介质及计算机设备 - Google Patents
文本标注方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN113742444A CN113742444A CN202110775972.8A CN202110775972A CN113742444A CN 113742444 A CN113742444 A CN 113742444A CN 202110775972 A CN202110775972 A CN 202110775972A CN 113742444 A CN113742444 A CN 113742444A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- labeled
- list
- city
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008520 organization Effects 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 6
- 241000208125 Nicotiana Species 0.000 description 4
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013535 sea water Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本标注方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高文本标注的效率和准确度。其中方法包括:获取待标注文本对应的标注标签;对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;基于被标注的实体,确定所述待标注文本对应的预设关键词列表;根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。本发明适用于对文本进行标注。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种文本标注方法、装置及计算机设备。
背景技术
文本标注是自然语言处理中的一项基本任务,通过文本标注为后续自然语言处理提供基础,因此,高效准确地进行文本标注对自然语言处理有着重要的意义。
目前,通常由操作人员手工对文本中需要标注的内容进行标注。然而,这种方式需要操作人员自己识别文本中需要标注的内容并进行标注,文本标注的效率较低,与此同时,如果文本中需要标注的内容较多,很可能由于操作人员的疏忽出现遗漏标注或者标注错误的情况,从而导致文本标注的准确度不高。
发明内容
本发明提供了一种文本标注方法、装置、存储介质及计算机设备,主要在于能够提高文本标注的效率和准确度。
根据本发明的第一个方面,提供一种文本标注方法,包括:
获取待标注文本对应的标注标签;
对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
根据本发明的第二个方面,提供一种文本标注装置,包括:
获取单元,用于获取待标注文本对应的标注标签;
识别单元,用于对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
确定单元,用于基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
提示单元,用于根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待标注文本对应的标注标签;
对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待标注文本对应的标注标签;
对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
根据本发明提供的一种文本标注方法、装置、存储介质及计算机设备,与目前操作人员手工对文本中需要标注的内容进行标注的方式相比,本申请通过获取待标注文本对应的标注标签,并对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注,与此同时,基于被标注的实体,确定所述待标注文本对应的预设关键词列表,最终根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注,由此通过对待标注文本进行实体识别,并根据标注标签对识别出的实体进行标注,实现了对待标注文本的自动预处理标注,减轻了用户文本标注的工作量,在此基础上,根据被标注的实体,确定待标注文本对应的预设关键词列表,并根据预设关键词列表对待标注文本中未进行标注的剩余文本进行标记提示,能够方便用户对剩余文本进行标注,提高了文本标注的效率和准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种文本标注方法流程图;
图2示出了本发明实施例提供的另一种文本标注方法流程图;
图3示出了本发明实施例提供的一种对文本进行标记提示的操作界面;
图4示出了本发明实施例提供的一种对文本进行全文检索标注的操作界面;
图5示出了本发明实施例提供的一种文本标注装置的结构示意图;
图6示出了本发明实施例提供的另一种文本标注装置的结构示意图;
图7示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,操作人员手工对文本中需要标注的内容进行标注的方式,会导致文本标注的效率和准确度较低。
为了解决上述问题,本发明实施例提供了一种文本标注方法,如图1所示,所述方法包括:
101、获取待标注文本对应的标注标签。
其中,待标注文本可以是单个文本,同时也可以是批量文本,标注标签具体可以为:公司、地区、人物、机构等。为了克服现有技术中文本标注准确度不高,且文本标注效率低的缺陷,本发明实施例中的预设文本标注工具能够根据实体识别结果对待标注文本进行自动标注,与此同时,还能够利用预设关键词列表对未被标注的剩余文本中可能遗漏标注的文本进行标记提示,以便用户根据标记提示信息来对剩余文本进行标注,从而能够对待标注文本进行预处理标注,帮助用户减轻文本标注的工作量,进而能够提高文本标注的效率和准确度。本发明实施例主要适用于对文本进行标注的场景,本发明实施例的执行主体为能够对文本进行标注的装置或者设备,具体可以设置在客户端或者服务器一侧。
对于本发明实施例,在进行文本标注时,用户将文本上传至预设文本标注工具中,用户可以仅上传单个文本,也可以通过excel/csy文件上传批量文本,对批量文本进行标注,同时,用户通过左侧栏可以看到已经上传的批量文本,通过切换页面,选择当前待标注的文本。进一步地,在用户确定当前待标注的文本之后,还需要选定标注标签,文本标注工具的右侧栏可以对标注标签进行管理,用户可以在此处选择相应的标注标签,还可以添加自定义的标签,该标注标签具体可以为实体标签,如公司、地区、人物、机构等。
102、对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注。
其中,实体可以包括公司、人物、地区和机构等。
对于本发明实施例,在对待标注文本进行实体识别之前,需要利用预设自然语言模型对待标注文本进行分词处理,得到待标注文本对应的各个分词,并将各个分词转化为相应的词向量,然后将待标注文本对应的各个分词输入至预设实体识别模型中进行实体识别,再根据实体识别结果确定待标注文本中包含的实体,最终预设文本标注工具根据用户选好的标注标签对识别出的实体进行自动标注,以实现对待标注文本的自动预处理标注,进而能够减轻用户文本标注的工作量。
例如,预设实体识别模型可以对公司、人物、地区、机构等进行识别,用户选择的标注标签是“公司”和“地区”,待标注文本中的一句话是“根据李青华女士与上海市海通证券股份有限公司的约定”,首先利用预设自然语言模型对“根据李青华女士与上海市海通证券股份有限公司的约定”进行分词处理,得到分词处理结果为:“根据/李青华/女士/与/上海市/海通证券股份有限公司/的/约定”,之后利用预设实体识别模型对分词“根据/李青华/女士/与/上海市/海通证券股份有限公司/的/约定”进行实体识别,确定该文本中包含实体“李青华”、“女士”、“上海市”、“海通证券股份有限公司”,进一步地,根据用户选择的标签“公司”和“地区”对识别出的实体进行标注,具体可以将地区“上海市”标注成红色,然后将“海通证券股份有限公司”标注成黄色,由于用户没有选择人物标签,因此不会对实体“李青华”和“女士”进行颜色标注,需要说明的是,本发明实施例中对实体的标注方式不仅仅局限于颜色标注,也可以为其他方式,本发明实施例不做具体限定。
需要说明的是,在本发明实施例中除了通过实体识别对文本进行自动标注外,还可以根据用户的历史操作数据,对待标注文本进行自动标注,例如,用户在历史文本中将“梅山公司”标注为“公司”,则根据此种历史操作,文本标注工具将待标注文本中所有出现的“梅山公司”自动标注为“公司”。
103、基于被标注的实体,确定所述待标注文本对应的预设关键词列表。
其中,若用户选择的标注标签包含地区,则预设关键词列表可以具体指地区清单,即预先收集中国地区不同省份下的所有城市,以及不同城市下的所有区,如:中国-省-市-区,需要说明的是,本申请中的预设关键词列表不仅仅局限于地区清单。
对于本发明实施例,如步骤102所述可以对待标注文本进行实体识别,并根据用户设定的标注标签对识别出的实体进行标注,即自动完成待标注文本的预处理标注,但是实体识别的过程中有可能会遗漏文本中的部分实体,或者受预设实体识别模型精度的限制,可能无法识别出待标注文本中的全部实体,为了进一步提高文本标注的准确度,减轻操作人员的工作量,可以根据预设关键词列表,对未进行标注的剩余文本中可能需要进行标注的文本进行标记提示,以便用户根据标记提示对剩余文本进行标注。针对确定待标注文本对应的预设关键词列表的具体过程,所述方法包括:若所述被标注的实体包含地区实体,则确定所述待标注文本中所述地区实体的集中区域;若所述集中区域为省份,则获取所述省份对应的城市清单,并将所述省份对应的城市清单作为预设关键词列表;若所述集中区域为城市,则获取所述城市对应的区清单,并将所述城市对应的区清单作为预设关键词列表。
其中,集中区域具体可以为省和市等,地区实体如:东营市、青岛市、城阳区和红岛区等。
对于本发明实施例,如果待标注文本中被标注的实体包含地区实体,则需要确定地区实体的集中区域,以便根据地区实体的集中区域确定相应的地区清单。例如,待标注文本中被标注的地区实体为东营市、青岛市和济南市,可以确定东营市、青岛市和济南市都属于山东省,则需要获取山东省对应的城市清单,其中,山东省对应的城市清单中包含山东省的各个城市,所述山东省对应的城市清单就是本发明实施例中待标注文本对应的预设关键词列表,再比如,待标注文本中被标注的地区实体为东营市、青岛市、广州市和深圳市,可以确定东营市和青岛市都属于山东省,广州市和深圳市都属于广东省,则除了需要获取山东省对应的城市清单外,还需要获取广东省对应的城市清单,其中,广东省对应的城市清单中包含广东省的各个城市,所述山东省对应的城市清单和所述广东省对应的城市清单就是本发明实施例中待标注文本对应的预设关键词列表。
在具体应用场景中,待标注文本的地区实体除了包括城市,还可能包括区,此时还需要确定待标注文本中各个区集中的城市,例如,待标注文本中被标注的地区实体除了东营市和青岛市,还包括河口区和牛庄区,可以确定河口区和牛庄区都集中在东营市,则除了获取山东省对应的城市清单外,还需要获取东营市对应的区清单,其中,东营市对应的区清单中包含东营市的各个区,如果被标注的实体,除了城市,区,还包括机构或者公司,则除了获取城市清单和区清单外,还需要获取公司或者机构所在城市的公司清单或者机构清单,以便利用城市清单、区清单、公司清单和机构清单等对待标注文本中未进行标注的剩余文本进行检测标注,提高文本标注的准确度,减轻工作人员的工作量。
104、根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
其中,标记提示信息可以指对剩余文本中需要标注的内容进行高亮提示或者添加下划线提示。
对于本发明实施例,为了利用地区清单对剩余文本进行标记提示,步骤104具体包括:利用所述城市清单和/或所述区清单对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述城市清单中的城市和/或所述区清单中的区;若所述剩余文本对应的各个分词中包含所述城市清单中的城市和/或所述区清单中的区,则对所述剩余文本中包含的城市和/或区进行标记提示,生成所述剩余文本对应的标记提示信息。
例如,城市清单是指山东省对应的城市清单,区清单是指山东省东营市对应的区清单,利用山东省对应的城市清单和东营市对应的区清单对待标注文本中未进行标注的剩余文本对应的各个分词进行识别,若识别出剩余文本对应的分词含有淄博市、烟台市和东营区,由于淄博市和烟台市在山东省对应的城市清单中,东营区在山东省东营市的区清单中,因此对淄博市、烟台市和东营区进行红色高亮提示,生成标记提示信息,也可以在淄博市、烟台市和东营市的字体下面添加红色下划线进行提示,生成标记提示信息,方便用户看到该标记提示信息,自行判断是否需要手动进行标注,提高了文本标注的工作效率。
本发明实施例提供的一种文本标注方法,与目前操作人员手工对文本中需要标注的内容进行标注的方式相比,本申请通过获取待标注文本对应的标注标签,并对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注,与此同时,基于被标注的实体,确定所述待标注文本对应的预设关键词列表,最终根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注,由此通过对待标注文本进行实体识别,并根据标注标签对识别出的实体进行标注,实现了对待标注文本的自动预处理标注,减轻了用户文本标注的工作量,在此基础上,根据被标注的实体,确定待标注文本对应的预设关键词列表,并根据预设关键词列表对待标注文本中未进行标注的剩余文本进行标记提示,能够方便用户对剩余文本进行标注,提高了文本标注的效率和准确度。
进一步的,为了更好的说明上述文本标注的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种文本标注方法,如图2所示,所述方法包括:
201、获取待标注文本对应的标注标签。
其中,标注标签具体指实体标签,如公司、人物和机构等。
对于本发明实施例,首先用户将需要标注的文本上传至预设文本标注工具中,并在预设文本标注工具的右侧栏中选择需要的标注标签,若右侧栏中没有用户需要的标注标签,用户还可以添加自定义标注标签,由此通过获取的标注标签对待标注文本中的实体进行自动预处理标注。
202、对所述待标注文本进行分词处理,得到所述待标注文本对应的各个分词。
具体地,可以利用预设自然语言模型对用户输入的待标注文本进行分词处理,得到待标注文本对应的各个分词,并将各个分词转化为相应的词向量,其中,预设自然语言模型具体可以为但不局限于bert自然语言模型,进行分词处理的具体过程,以待标注文本中的一句话“渤海水业股份有限公司收到公司持股5%以上股东李菁华女士的告知函”为例,将其利用bert自然语言模型进行分词处理后,得到分词处理结果为:渤海水业股份有限公司/收到/公司/持股/5%/以上/股东/李菁华/女士/的告知函。
203、将所述各个分词输入至预设实体识别模型中进行实体识别,得到所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注。
其中,预设实体识别模型中包括第一递归神经网络、第二递归神经网络和条件随机场网络,预设实体识别模型可以对公司、人物、地区、机构和其他类型的实体进行识别。
对于本发明实施例,为了得到待标注文本中包含的实体,步骤203具体包括:将所述各个分词按照其在所述待标注文本中的顺序输入至第一递归神经网络中进行特征提取,得到所述各个分词共同对应的第一特征向量;将所述各个分词按照其在待标注文本中的顺序逆序输入至第二递归神经网络中进行特征提取,得到所述各个分词共同对应的第二特征向量;将所述第一特征向量和所述第二特征向量进行合并,得到合并后的特征向量,并根据所述合并后的特征向量,确定所述待标注文本中各个分词对应的实体类别。进一步地,根据所述合并后的特征向量,确定所述待标注文本中各个分词对应的实体类别,包括:根据所述合并后的特征向量,确定所述待标注文本中各个分词属于不同实体类别的概率值;利用所述条件随机场网络对所述各个分词属于不同实体类别的概率值进行修正,得到修正后的各个分词属于不同实体类别的概率值;基于所述修正后的各个分词属于不同实体类别的概率值,确定所述待标注文本中各个分词对应的实体类别。
具体地,该实体识别模型包括第一递归神经网络和第二递归神经网络,通过第一递归神经网络和第二递归神经网络组成一个双向LSTM网络,在利用预设实体识别模型进行实体识别时,将各个分词对应的词向量按照各个分词在待标注文本中的顺序输入至第一递归神经网络进行特征提取,得到各个分词共同对应的第一特征向量,再将各个分词对应的词向量按照各个分词在待标注文本中的顺序逆序输入至第二递归神经网络进行特征提取,得到各个分词共同对应的第二特征向量,接着将第一特征向量和第二特征向量进行合并,得到合并后的特征向量,例如,将两个32维的特征向量拼接成64维的特征向量,之后将合并后的特征向量输入softmax网络,得到各个分词属于不同实体类别的概率值。
对于本发明实施例,为了提高实体识别的准确率,利用条件随机网络CRF对softmax网络的输出结果进行约束,CRF网络能够对各个分词属于不同实体类别的概率值进行修正,并基于修正后的各个分词属于不同实体类别的概率值,确定各个分词对应的实体类别。
204、基于被标注的实体,确定所述待标注文本对应的预设关键词列表。
其中,预设关键词列表除了可以为地区清单,还可以为实体关键词列表。
对于本发明实施例,为了获取待标注文本对应的实体关键词列表,步骤204具体包括:基于所述被标注的实体对应的实体类型,确定所述待标注文本对应的实体关键词;基于所述实体关键词,生成所述待标注文本对应的实体关键词列表,并将所述实体关键词列表作为所述预设关键词列表。
其中,实体类型包括机构、公司、地区等。对于本发明实施例,首先确定文本中每个标注的实体对应的实体类型,之后根据该实体类型,确定其对应的实体关键词,进而构建实体关键词列表,以便利用预设关键词列表中的各个实体关键词对未标注的剩余文本进行检测。
例如,被标注的实体分别是“梅山公司”、“淄博市”、“XX女士或者XX男士”,首先确定“梅山公司”对应的实体类型是公司,“淄博市”对应的实体类型是地区,“XX女士或者XX男士”对应的实体类型是人物,之后根据确定的实体类型公司、地区和人物,能够确定实体关键词为公司、市、区、女士、男士,进而构建预设实体关键词列表,以便利用该预设实体关键列表对剩余文本进行检测。
205、根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
对于本发明实施例,为了利用实体关键词列表对剩余文本进行标记提示,步骤205具体包括:利用所述实体关键词列表对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述实体关键词列表中的实体关键词;若所述剩余文本对应的各个分词中包含所述实体关键词,则对所述剩余文本中包含的实体关键词进行标记提示,生成所述剩余文本对应的标记提示信息。
例如,实体关键词列表中的各个实体关键词为公司、城市、区、省、机构,之后利用该实体关键词列表中的各个实体关键词对剩余文本对应的各个分词进行检测,判断剩余文本对应的各个分词中是否包含上述实体关键词,如果包含,则对相应的文本进行标记提示,生成相应的标记提示信息,如图3所示,进一步地,用户根据该标记提示信息会判断是否需要进行标注,如果需要,用户可以手动进行标注,由此通过实体识别与预设关键词列表检测相结合的方式,能够实现对待标注文本的自动预处理标注,大大的减轻了操作人员的工作量。需要说明的是,本发明实施例中的标记提示方式可以通过颜色高亮提示,也可以通过添加下划线的方式进行提示,还可以采用其他提示方式,本发明实施例不做具体限定。
进一步地,若还需要对剩余文本中的隐私信息进行标注,则可以通过构建正则表达式的方式对剩余文本中的隐私信息进行识别,并进行标记提示,基于此,所述方法包括:根据所述需要标注的隐私信息,构建预设正则表达式;根据所述预设正则表达式对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。其中,隐私信息包括电话号、日期和邮箱等信息。
对于本发明实施例,可以根据隐私信息中电话号、日期和邮箱等信息的特殊格式,构建相应的正则表达式,并利用该正则表达式,对待标注文本中未进行标注的剩余文本进行标记提示,具体过程如,若需要标注的内容是日期,则可添加预设正则表达式如下:
/^[1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1])$/
用于识别诸如2014-01-01等格式的日期,并对识别到的日期进行高亮提示或者添加下划线提示,方便用户根据标记提示信息选择是否需要对其进行标注。需要说明的是,也可以对正则表达式识别出的隐私信息直接进行标注,从而能够避免用户再进行手动操作。
在具体应用场景中,为了便于用户对文本进行标注,提高文本标注效率,本发明实施例中的预设文本标注工具还提供了全文操作功能,基于此,所述方法包括:根据所述标记提示信息,点击拖动选中文本,则在待标注文本界面中出现弹层工具;选择所述弹层工具中的全文操作选项,基于所述选中的文本,对待标注文本进行全文检索标注。
例如,用户根据待标注文本中的标记提示信息,将城市“东营市”标注为地区,且标注颜色为红色,在检测到用户的上述标记操作后,本申请中的预设文本标注工具会在待标注文本界面中弹出弹层工具,当用户选择弹层工具中的全文操作选项时,文本标注工具会将待标注文本中所有出现的“东营市”自动标记为红色,如图4所示。
本发明实施例提供的另一种文本标注方法,与目前操作人员手工对文本中需要标注的内容进行标注的方式相比,本申请通过获取待标注文本对应的标注标签,并对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注,与此同时,基于被标注的实体,确定所述待标注文本对应的预设关键词列表,最终根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注,由此通过对待标注文本进行实体识别,并根据标注标签对识别出的实体进行标注,实现了待标注文本的自动预处理标注,减轻了用户文本标注的工作量,在此基础上,根据被标注的实体,确定待标注文本对应的预设关键词列表,并根据预设关键词列表对待标注文本中未进行标注的剩余文本进行标记提示,能够方便用户对剩余文本进行标注,提高了文本标注的效率和准确度。
进一步地,作为图1的具体实现,本发明实施例提供了一种文本标注装置,如图5所示,所述装置包括:获取单元31、识别单元32、确定单元33和提示单元34。
所述获取单元31,可以用于获取待标注文本对应的标注标签。
所述识别单元32,可以用于对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注。
所述确定单元33,可以用于基于被标注的实体,确定所述待标注文本对应的预设关键词列表。
所述提示单元34,可以用于根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
在具体应用场景中,为了对待标注文本进行实体识别,确定待标注文本中包含的实体,如图6所示,所述识别单元32,包括分词模块321和识别模块322。
所述分词模块321,可以用于对所述待标注文本进行分词处理,得到所述待标注文本对应的各个分词。
所述识别模块322,可以用于将所述各个分词输入至预设实体识别模型中进行实体识别,得到所述待标注文本中包含的实体。
在具体应用场景中,所述预设实体识别模型包括第一递归神经网络和第二递归神经网络,所述识别模块322,包括第一特征提取子模块、第二特征提取子模块和合并子模块。
所述第一特征提取子模块,可以用于将所述各个分词按照其在所述待标注文本中的顺序输入至第一递归神经网络中进行特征提取,得到所述各个分词共同对应的第一特征向量。
所述第二特征提取子模块,可以用于将所述各个分词按照其在待标注文本中的顺序逆序输入至第二递归神经网络中进行特征提取,得到所述各个分词共同对应的第二特征向量。
所述合并子模块,可以用于将所述第一特征向量和所述第二特征向量进行合并,得到合并后的特征向量,并根据所述合并后的特征向量,确定所述待标注文本中各个分词对应的实体类别。
在具体应用场景中,为了确定待标注文本对应的预设关键词列表,所述确定单元33,包括确定模块331和获取模块332。
所述确定模块331,可以用于若所述被标注的实体包含地区实体,则确定所述待标注文本中所述地区实体的集中区域。
所述获取模块332,可以用于若所述集中区域为省份,则获取所述省份对应的城市清单,并将所述省份对应的城市清单作为预设关键词列表。
所述获取模块332,还可以用于若所述集中区域为城市,则获取所述城市对应的区清单,并将所述城市对应的区清单作为预设关键词列表。
在具体应用场景中,为了对剩余文本进行标记提示,所述提示单元34,包括识别模块341和提示模块342。
所述识别模块341,可以用于利用所述城市清单和/或所述区清单对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述城市清单中的城市和/或所述区清单中的区。
所述提示模块342,可以用于若所述剩余文本对应的各个分词中包含所述城市清单中的城市和/或所述区清单中的区,则对所述剩余文本中包含的城市和/或区进行标记提示,生成所述剩余文本对应的标记提示信息。
在具体应用场景中,为了确定预设关键词列表,所述确定单元33,还包括生成模块333。
所述确定模块331,还可以用于基于所述被标注的实体对应的实体类型,确定所述待标注文本对应的实体关键词。
所述生成模块333,可以用于基于所述实体关键词,生成所述待标注文本对应的实体关键词列表,并将所述实体关键词列表作为所述预设关键词列表。
在具体应用场景中,为了对待标注文本中未进行标注的剩余文本进行标记提示,所述识别模块341,还可以用于利用所述实体关键词列表对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述实体关键词列表中的实体关键词。
所述提示模块342,还可以用于若所述剩余文本对应的各个分词中包含所述实体关键词,则对所述剩余文本中包含的实体关键词进行标记提示,生成所述剩余文本对应的标记提示信息。
需要说明的是,本发明实施例提供的一种文本标注装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待标注文本对应的标注标签;对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;基于被标注的实体,确定所述待标注文本对应的预设关键词列表;根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
基于上述如图1所示方法和如图5所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图7所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待标注文本对应的标注标签;对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;基于被标注的实体,确定所述待标注文本对应的预设关键词列表;根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
通过本发明的技术方案,本发明通过获取待标注文本对应的标注标签,并对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注,与此同时,基于被标注的实体,确定所述待标注文本对应的预设关键词列表,最终根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注,由此通过对待标注文本进行实体识别,并根据标注标签对识别出的实体进行标注,实现了对待标注文本的自动预处理标注,减轻了用户文本标注的工作量,在此基础上,根据被标注的实体,确定待标注文本对应的预设关键词列表,并根据预设关键词列表对待标注文本中未进行标注的剩余文本进行标记提示,能够方便用户对剩余文本进行标注,提高了文本标注的效率和准确度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种文本标注方法,其特征在于,包括:
获取待标注文本对应的标注标签;
对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
2.根据权利要求1所述的方法,其特征在于,所述对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,包括:
对所述待标注文本进行分词处理,得到所述待标注文本对应的各个分词;
将所述各个分词输入至预设实体识别模型中进行实体识别,得到所述待标注文本中包含的实体。
3.根据权利要求2所述的方法,其特征在于,所述预设实体识别模型包括第一递归神经网络和第二递归神经网络,所述将所述各个分词输入至预设实体识别模型中进行实体识别,得到所述待标注文本中包含的实体,包括:
将所述各个分词按照其在所述待标注文本中的顺序输入至第一递归神经网络中进行特征提取,得到所述各个分词共同对应的第一特征向量;
将所述各个分词按照其在待标注文本中的顺序逆序输入至第二递归神经网络中进行特征提取,得到所述各个分词共同对应的第二特征向量;
将所述第一特征向量和所述第二特征向量进行合并,得到合并后的特征向量,并根据所述合并后的特征向量,确定所述待标注文本中各个分词对应的实体类别。
4.根据权利要求1所述的方法,其特征在于,所述基于被标注的实体,确定所述待标注文本对应的预设关键词列表,包括:
若所述被标注的实体包含地区实体,则确定所述待标注文本中所述地区实体的集中区域;
若所述集中区域为省份,则获取所述省份对应的城市清单,并将所述省份对应的城市清单作为预设关键词列表;
若所述集中区域为城市,则获取所述城市对应的区清单,并将所述城市对应的区清单作为预设关键词列表。
5.根据权利要求4所述的方法,其特征在于,所述根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,包括:
利用所述城市清单和/或所述区清单对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述城市清单中的城市和/或所述区清单中的区;
若所述剩余文本对应的各个分词中包含所述城市清单中的城市和/或所述区清单中的区,则对所述剩余文本中包含的城市和/或区进行标记提示,生成所述剩余文本对应的标记提示信息。
6.根据权利要求1所述的方法,其特征在于,所述基于被标注的实体,确定所述待标注文本对应的预设关键词列表,包括:
基于所述被标注的实体对应的实体类型,确定所述待标注文本对应的实体关键词;
基于所述实体关键词,生成所述待标注文本对应的实体关键词列表,并将所述实体关键词列表作为所述预设关键词列表。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,包括:
利用所述实体关键词列表对所述剩余文本对应的各个分词进行识别,判断所述剩余文本对应的各个分词中是否包含所述实体关键词列表中的实体关键词;
若所述剩余文本对应的各个分词中包含所述实体关键词,则对所述剩余文本中包含的实体关键词进行标记提示,生成所述剩余文本对应的标记提示信息。
8.一种文本标注装置,其特征在于,包括:
获取单元,用于获取待标注文本对应的标注标签;
识别单元,用于对所述待标注文本进行实体识别,确定所述待标注文本中包含的实体,根据所述标注标签对所述实体进行标注;
确定单元,用于基于被标注的实体,确定所述待标注文本对应的预设关键词列表;
提示单元,用于根据所述预设关键词列表,对所述待标注文本中未进行标注的剩余文本进行标记提示,得到所述剩余文本对应的标记提示信息,以便用户根据所述标记提示信息进行文本标注。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775972.8A CN113742444B (zh) | 2021-07-08 | 2021-07-08 | 文本标注方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775972.8A CN113742444B (zh) | 2021-07-08 | 2021-07-08 | 文本标注方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742444A true CN113742444A (zh) | 2021-12-03 |
CN113742444B CN113742444B (zh) | 2024-05-28 |
Family
ID=78728688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110775972.8A Active CN113742444B (zh) | 2021-07-08 | 2021-07-08 | 文本标注方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742444B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346408A (zh) * | 2013-08-08 | 2015-02-11 | 中国移动通信集团公司 | 一种对网络用户进行标注的方法与设备 |
CN104572735A (zh) * | 2013-10-23 | 2015-04-29 | 华为技术有限公司 | 一种图片标注词推荐方法及装置 |
CN109918662A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种电子资源的标签确定方法、装置和可读介质 |
CN111177414A (zh) * | 2019-12-31 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种实体预标注方法和装置以及设备 |
CN112035675A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗文本标注方法、装置、设备及存储介质 |
-
2021
- 2021-07-08 CN CN202110775972.8A patent/CN113742444B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346408A (zh) * | 2013-08-08 | 2015-02-11 | 中国移动通信集团公司 | 一种对网络用户进行标注的方法与设备 |
CN104572735A (zh) * | 2013-10-23 | 2015-04-29 | 华为技术有限公司 | 一种图片标注词推荐方法及装置 |
CN109918662A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种电子资源的标签确定方法、装置和可读介质 |
CN111177414A (zh) * | 2019-12-31 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种实体预标注方法和装置以及设备 |
CN112035675A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗文本标注方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113742444B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
US9558295B2 (en) | System for data extraction and processing | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN111291566A (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN110390324A (zh) | 一种融合视觉与文本特征的简历版面分析算法 | |
CN112926313A (zh) | 一种槽位信息的提取方法与系统 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN111177401A (zh) | 一种电网自由文本知识抽取方法 | |
CN113420116B (zh) | 医疗文档的分析方法、装置、设备及介质 | |
CN110826318A (zh) | 物流信息识别的方法、设备、计算机设备和存储介质 | |
CN112989043A (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN111597302A (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN113742444B (zh) | 文本标注方法、装置、存储介质及计算机设备 | |
CN111737951A (zh) | 一种文本语言关联关系标注方法和装置 | |
CN110489739B (zh) | 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |