CN112784588A - 用于标注文本的方法、装置、设备以及存储介质 - Google Patents
用于标注文本的方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN112784588A CN112784588A CN202110081185.3A CN202110081185A CN112784588A CN 112784588 A CN112784588 A CN 112784588A CN 202110081185 A CN202110081185 A CN 202110081185A CN 112784588 A CN112784588 A CN 112784588A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- target
- relationship
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 82
- 230000004044 response Effects 0.000 claims abstract description 36
- 238000012544 monitoring process Methods 0.000 claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用于标注文本的方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及知识图谱、大数据领域。具体实现方案为:获取待标注文本;基于待标注文本和预训练的分类模型,确定目标文本;响应于监测到目标文本被选中,显示目标文本对应的可选实体标签;从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签;响应于监测到任意两个实体标签被选中,显示任意两个实体标签存在的关系;响应于监测到存在的关系中的目标关系被选中,连接两个实体标签与目标关系,并显示连接后的标注结果。本实现方式可以有效提高用户文本标注的效率,并使得标注结果更简洁易看,提高用户留存率。
Description
技术领域
本申请涉及人工智能领域,具体涉及知识图谱、大数据领域,尤其涉及用于标注文本的方法、装置、设备以及存储介质。
背景技术
最近几年深度学习引发的人工智能浪潮席卷全球,在海量数据资源和摩飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。随着自然语言处理在越来越多的业务场景应用,对模型的准确率,召回率的要求也越来越高,为了训练出准确率和召回率都达到要求的模型,单纯依靠算力投入无法解决本质问题,需要足够的已标注数据集才能达到这样的效果,现在主流人工进行数据标注的效率低。
市场上的同类技术,标注结果呈现方式比较混乱,会干扰用户顺利操作,且标注效率不高,影响用户留存率。
发明内容
本公开提供了一种用于标注文本的方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种用于标注文本的方法,包括:获取待标注文本;基于待标注文本和预训练的分类模型,确定目标文本;响应于监测到目标文本被选中,显示目标文本对应的可选实体标签;从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签;响应于监测到任意两个实体标签被选中,显示任意两个实体标签存在的关系;响应于监测到存在的关系中的目标关系被选中,连接两个实体标签与目标关系,并显示连接后的标注结果。
根据本公开的另一方面,提供了一种用于标注文本的装置,包括:获取单元,被配置成获取待标注文本;目标文本确定单元,被配置成基于待标注文本和预训练的分类模型,确定目标文本;可选实体标签显示单元,被配置成响应于监测到目标文本被选中,显示目标文本对应的可选实体标签;实体标签确定单元,被配置成从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签;关系显示单元,被配置成响应于监测到任意两个实体标签被选中,显示任意两个实体标签存在的关系;标注单元,被配置成响应于监测到存在的关系中的目标关系被选中,连接两个实体标签与目标关系,并显示连接后的标注结果。
根据本公开的再一方面,提供了一种用于标注文本的电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述用于标注文本的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如上述用于标注文本的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现如上述用于标注文本的方法。
根据本申请的技术解决了用户文本标注效率不高的问题,可以有效提高用户文本标注的效率,并使得标注结果更简洁易看,提高用户留存率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于标注文本的方法的一个实施例的流程图;
图3是根据本申请的用于标注文本的方法的一个应用场景的示意图;
图4是根据本申请的用于标注文本的方法的另一个实施例的流程图;
图5是根据本申请的用于标注文本的装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的用于标注文本的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于标注文本的方法或用于标注文本的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本标注类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103自动选中或者监测到的用户划选的目标文本的操作进行响应,以对用户划选的目标文本进行标注的后台服务器。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于标注文本的方法一般由服务器105执行。相应地,用于标注文本的装置一般设置于服务器105中。
继续参考图2,示出了根据本申请的用于标注文本的方法的一个实施例的流程200。本实施例的用于标注文本的方法,包括以下步骤:
步骤201,获取待标注文本。
本实施例中,用于标注文本的方法的执行主体,例如图1中的服务器105,可以从本地或云端获取待标注文本。待标注文本例如可以是一句话、一个词或一个字,也可以是一个或多个英文单词,或者是一个或多个汉语拼音,本申请对待标注文本的具体内容不做限定。待标注文本,例如可以是“本来A剧组希望B出演全部剧集,在3部剧中分别饰演不同角色”。
步骤202,基于待标注文本和预训练的分类模型,确定目标文本。
执行主体在获取待标注文本后,可以基于待标注文本和预训练的分类模型,确定目标文本。其中,预训练的分类模型用于表征待标注文本和目标文本的对应关系。
其中,预训练的分类模型可以是ELMo(Embeddings from Language Models)、BERT(Bidirectional Encoder Representation from Transformers)等模型。当然,本申请基于待标注文本确定目标文本还可以通过基于word2vec预训练的文本分类来实现。本申请对确定目标文本的方式不做具体限定。
步骤203,响应于监测到目标文本被选中,显示目标文本对应的可选实体标签。
本实施例中,用于标注文本的方法的执行主体(例如可以是图1中的服务器105)可以监测用户在终端设备101、102、103上的操作。执行主体响应于监测到目标文本被选中,例如可以是执行主体自动对目标文本进行选中并进行标注,还可以是检测到用户划选目标文本的操作,例如,执行主体监测到用户划选文本“本来A剧组希望B出演全部剧集,在3部剧中分别饰演不同角色”中的目标文本“A剧组”的操作,可以在终端设备的显示屏上显示目标文本“A剧组”对应的可选实体标签,例如可以是可选的“剧组”、“人物”、“日期”、“国家”等实体标签。
步骤204,从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签。
执行主体在显示屏上显示目标文本对应的可选实体标签后,响应于监测到用户点击目标文本对应的实体标签的操作,确定该实体标签为用户划选的目标文本对应的实体标签。例如,执行主体响应于监测到用户点击“A剧组”对应的可选实体标签中的“剧组”实体标签,则确定该“剧组”实体标签为目标文本“A剧组”对应的实体标签。执行主体在确定好目标文本对应的实体标签后,可以将该确定好的实体标签显示于该目标文本的侧方,例如可以是位于目标文本的左方,也可以是右方。执行主体可以将确定好的实体标签的字号大小设置为比目标文本的字号小或者设置为比目标文本的字号大,本申请对此不做具体限定。
步骤205,响应于监测到任意两个实体标签被选中,显示任意两个实体标签存在的关系。
执行主体在确定好每个目标文本对应的实体标签后,响应于监测到任意两个实体标签自动被选中,或者监测到用户分别点击两个实体标签的操作,可以显示该两个实体标签存在的关系。具体地,两个实体标签可以相同也可以不同,本申请对此不做限定。示例的,对于文本“本来《大XX》剧标签1组希望由D标签2出演全部剧集,在3部剧中分别饰演不同角色”中的标签1和标签2,执行主体响应于监测到用户分别点击该标签1和标签2的操作,可以在终端设备的显示屏上显示该标签1和标签2存在的关系,例如可以是:关系1、关系2、关系3。示例的,标签1可以是剧名,标签2可以是演员,关系1可以是女主角,关系2可以是女配角,关系3可以是友情出演。本申请对标签1、标签2、关系1、关系2、关系3所代表的含义不做具体限定。
可以理解的是,如果用户点击的两个实体标签之间不存在关系,则执行主体可以弹窗提示“暂无存在的关系”语句。
步骤206,响应于监测到存在的关系中的目标关系被选中,连接两个实体标签与目标关系,并显示连接后的标注结果。
执行主体在显示出两个实体标签存在的关系后,响应于监测到该存在的关系中的目标关系自动被选中,或者响应于监测到用户点击存在的关系中的目标关系的操作,可以连接两个实体标签与用户所选择的目标关系,并可以在终端设备的显示屏上显示连接后的标注结果。目标关系可以是与实体标签相匹配的关系。例如,两个实体标签:主角、配角之间的目标关系可以是姐妹,也可以是兄妹。
具体地,执行主体在连接两个实体标签与目标关系时,可以将目标关系放置于两个实体标签的连线上方或下方,也可以将目标关系放置于两个实体标签的连线中的任一位置。当然,可以理解的是目标关系可以包括一个或多个,当目标关系中存在多个关系时,执行主体可以将该两个实体标签与该目标关系中的多个关系一并连接起来。例如,标签1和标签2之间的目标关系可以包括关系1、关系2(示例的,小A和小B之间的关系可以是母女关系,也可以是师徒关系,当然也可以是其他的关系),则执行主体可以将标签1、标签2、关系1、关系2用连线连接起来。本申请对目标关系中所包含的关系的个数不做具体限定。
在本实施例的一些可选的实现方式中,对于本实施例中的显示连接后的标注结果,执行主体可以将终端设备的显示屏上的显示区域划分为三部分,具体可以分别为文本标注区、已标注关系展示区域和可标注关系展示区域,本申请对这三个区的位置顺序不做具体限定。
其中,已标注关系区即为连接后的标注结果显示区域。标注结果,可以包含目标关系和对应的各实体标签对应的各目标文本,示例的,标注结果可以是将两个或多个实体标签对应的各目标文本连接,并将该两个或多个实体标签对应的目标关系与连接后的各目标文本的连线进行连接。例如,执行主体可以将A国与小C进行连接,并将国籍与连接后的A国与小C的连线进行连接。
在文本标注区,例如可以展示待标注的文本和已标注后的文本(即将实体标签与对应的关系进行连线后的文本)。
可标注关系展示区域,例如,可以是进行添加/修改实体标签的区域,该区域中可以包括标签栏,该标签栏中可以包含各种已添加的标签,例如可以是导演、主演、出生日期、毕业院校、国籍等可选实体标签。在该区域中添加或修改实体标签后,当执行主体监测到在文本标注区中用户划选目标文本的操作后,可以以弹窗的形式显示包含可标注关系展示区域中的已添加或刚添加或修改后的实体标签并作为可选实体标签供用户选择使用,以对所划选的目标文本进行标注。
本实现方式通过将终端设备的显示屏上的显示区域划分为三部分,可以根据每个部分设定的展示功能来展示与已标注文本相关的信息以及展示可标注关系,将一些具体的标注信息移到已标注关系展示区进行展现,以节省文本标注区的标注空间,实现在文本标注区更简洁地展现文本标注结果,有助于用户查看对文本的标注。
继续参考图3,其示出了根据本申请的用于标注文本的方法的一个应用场景的示意图。在图3的应用场景中,服务器(图中未示出)获取待标注文本a。服务器基于待标注文本a和预训练的分类模型(图中未示出),确定目标文本301。服务器响应于监测到目标文本301被选中,显示目标文本301对应的可选实体标签302。服务器从可选实体标签302中确定并在目标文本301侧方显示目标文本301对应的实体标签303。服务器响应于监测到任意两个实体标签304、305被选中,显示该任意两个实体标签304、305存在的关系306。服务器响应于监测到存在的关系306中的目标关系(例如可以是图3中划横线的关系3)被选中,连接两个实体标签304(标签1)、305(标签1)与目标关系(例如可以是图3中划横线的关系3),并显示连接后的标注结果307。
本实施例的文本标注实现简单,可以有效提高用户文本标注的效率,并使得标注结果更简洁易看,提高用户留存率。
继续参考图4,其示出了根据本申请的用于标注文本的方法的另一个实施例的流程400。如图4所示,本实施例的用于标注文本的方法,可以包括以下步骤:
步骤401,获取待标注文本。
步骤402,基于待标注文本和预训练的分类模型,确定目标文本。
步骤403,响应于监测到目标文本被选中,显示目标文本对应的可选实体标签。
步骤404,从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签。
步骤405,响应于监测到用户分别点击两个实体标签,显示两个实体标签存在的关系。
步骤406,响应于监测到用户点击存在的关系中的目标关系,连接两个实体标签与目标关系,并显示连接后的标注结果。
步骤401~步骤406的原理与步骤201~步骤206的原理类似,此处不再赘述。
步骤407,响应于监测到标注结果中的关系被选中,连线显示该关系对应的实体标签。
执行主体在对用户划选的目标文本进行标注后,可以将各实体标签与对应的关系的连线进行隐藏,只显示各目标文本对应的各实体标签以及各实体标签已连接关系的数量,以便于用户在文本标注区更简洁地查看标注结果。
执行主体响应于监测(也可以是检测,全文同,本申请对此不做具体限定)到标注结果中的关系被自动选中,或者监测到用户点击已标注关系展示区域中的标注结果中的关系,可以在文本标注区中连线显示该自动选中的关系对应的实体标签或者显示该被点击的关系对应的实体标签。示例的,当标注结果为“A国”与“小A”连接的“国籍”的关系时,当执行主体监测到用户点击该标注结果中的关系“国籍”时,在文本标注区的已标注文本上将“A国”与“小A”连线显示,并将关系“国籍”也加入该连线中进行显示。本申请对关系“国籍”在连线上的位置不做具体限定。
本实施例通过将标注结果与已标注文本进行联动更新,通过点击标注结果中的关系,即可在已标注文本上展示该关系以及该关系所连接的两个实体标签,从而使得对文本进行标注后的查看更直观、更简洁,提高用户文本标注的效率,提高用户留存率。
步骤408,显示每个实体标签已连接关系的数量。
本实施例中,当为每个目标文本确定好实体标签,并对各实体标签连接关系后,可以显示每个实体标签已连接关系的数量。具体地,执行主体可以在每个实体标签侧方(例如可以是上方、下方、左方、右方)显示已连接关系的数量。已连接关系的数量可以用①、②、③…,或者可以用1、2、3…,或者可以用一、二、三…等来表示,本申请对已连接关系的数量的表示方式不做具体限定。本实施例中,通过显示每个实体标签已连接关系的数量,而将每个实体标签存在的所有具体地关系进行隐藏,可以极大地优化文本标注区中的待标注文本在标注完成后的显示效果,将一些暂时不必要的文本标注的相关信息进行隐藏,将一些具体的标注信息移到已标注关系展示区进行展现,以节省文本标注区的标注空间,实现在文本标注区更简洁地展现文本标注结果。
步骤409,响应于监测到鼠标悬停在已标注关系的实体标签上,显示该实体标签存在的所有关系,并显示用于对所有关系进行操作的操作框。
步骤410,响应于监测到所有关系中的目标删除关系对应的操作框被勾选,删除目标删除关系以及目标删除关系对应的标注结果。
执行主体响应于监测到用户的鼠标悬停在已标注关系的实体标签(例如,标签1)上的操作,可以显示该实体标签存在的所有关系(例如,包括关系1和关系2),并可以显示用于对该所有关系进行操作(例如,“删除关系”)的操作框。并且,执行主体响应于监测到用户在显示出来的关系中的目标删除关系(例如,关系2)前方对应的操作框(或称勾选框)中勾选并确认删除关系的操作,执行主体可以删除目标删除关系(例如,关系2)以及已标注关系展示区域中目标删除关系(例如,关系2)对应的标注结果。
示例的,当执行主体监测到用户的鼠标悬停在文本“本来《大XX》剧标签1②组希望由D标签2③出演全部剧集,在3部剧中分别饰演不同角色”中的已标注关系的标签1上,则可以显示包含该标签1所存在的关系1和关系2的操作框,在该操作框的关系1和关系2前方还可以包含有勾选框,以供用户进行选择,从而可以对所选择的关系进行操作,例如,可以是“删除关系”操作,则用户可以在关系2前方的勾选框中勾选,并点击该操作框中的“删除关系”按钮并确认删除,执行主体监测到用户对标签1的上述操作后,删除对标签1所标注的关系2。并在已标注关系展示区域中也阐述对应标签1的该关系2所对应的标注结果。
本实施例通过根据用户的鼠标悬停情况,确定要对文本进行操作的实体标签,并根据监测到的用户的操作删除对应的实体标签所存在的一个或多个关系,从而实现对标注的文本中的实体标签存在的关系进行灵活的删除操作,减少对应实体标签的冗余的关系,从而可以使得对文本的标注更精简,使得标注后的文本显示效果更简洁,并且在所连接的关系较多的时候,可以很明确地区分各关系所指示的实体标签,提升用户体验,提高用户留存率。
步骤411,接收添加/删除实体标签的操作指令。
本实施例中,执行主体还可以接收添加/删除实体标签的操作指令。
步骤412,根据操作指令,添加/删除对应的实体标签,并同步更新添加/删除的实体标签至实体关系的选择项,并保存。
本实施例中,执行主体在接收到添加/删除实体关系标签的操作指令后,可以根据操作指令,添加/删除对应的实体标签,并同步更新添加/删除的实体标签至实体关系的选择项,并保存。示例的,当用户在可标注关系展示区域进行添加/删除实体标签的操作时,可以点击可标注关系展示区域右上方的“+添加/修改”按钮来发送添加/删除对应的实体标签的操作指令,并在弹出的操作框的创建实体类别标签下的“请输入文本标签名称”框中输入想要添加的实体标签5,以添加该标签5;当用户想要删除已经添加的实体标签2时,可以点击该标签2右方的删除按钮,即可将其删除。执行主体在接收到用户的上述添加/删除实体标签的操作指令之后,可以对应地进行实体标签的添加或者删除,以实现灵活且精确地进行文本标注。
此外,在本实施例的一些可选的实现方式中,执行主体还可以接收添加或者删除关系的操作指令;并根据该操作指令进行关系标签的添加或者删除。示例的,在可标注关系展示区域中还可以创建关系标签,用户可以点击可标注关系展示区域右上方的“+添加/修改”按钮发送添加或者删除关系的操作指令,并在弹出的操作框的创建关系标签下的“请输入关系标签名称”框中输入想要添加的关系名称,并在该添加的关系右方的两个“请指定文本标签”选择框中选择添加的关系对应的两个实体标签。当用户想要删除已经添加的关系3时,可以点击该关系3右侧的删除按钮,即可将其删除。执行主体在监测到用户的上述添加或者删除关系的操作指令之后,可以对应地进行关系的添加或者删除,以实现灵活且精确地进行文本标注。
本实施例中,在用户添加实体标签和关系后,执行主体可以将二者的添加或删除后的内容进行关联更新。也就是说用户新添加的实体标签在创建新的关系时,在所创建的新的关系右侧的文本标签选择框中可以选择到该新添加的实体标签。执行主体在新建或删除实体或者关系后,实时保存,无须用户再次点击保存,减少用户操作步骤。
步骤413,在从可选实体标签中确定目标文本对应的实体标签时,响应于监测到鼠标右键点击取消标注或者更改已选实体标签的操作,对应取消已选实体标签或对应更改已选实体标签。
在本实施例的一些可选的实现方式中,在从可选实体标签中确定目标文本对应的实体标签时,当执行主体监测到用户点击鼠标右键的操作时,可以显示取消标注弹窗,以供用户取消选择的实体标签或者更改选择的实体标签。可以理解的是,取消标签弹窗中可以包括各个可选的标签选择项按钮以及取消标注按钮。
步骤414,响应于确定目标文本已标注实体标签且该已标注的实体标签已存在关系,不显示取消标注和更改标注的操作框。
本实施例中,当文本标注区中的文本中用户要标注的目标文本已经存在实体标签,并且该实体标签已经连接有对应关系时,当执行主体监测到用户点击鼠标右键的操作时,不显示取消标注和更改标注的操作框,可以显示“该实体存在关系,不允许改变或取消标注”的弹窗。
本实施例通过在对目标文本进行标注时,当用户发现标注错误后可以右键点击取消或者直接更改,执行主体检测到用户的上述取消或更改的操作后,可以对用户所选择的实体标签进行对应的取消或者更改,以实现文本标注的良好的容错性,方便用户使用;并且在目标文本已经被标注的情况下,执行主体不提供修改标注的操作框,并提示不允许修改,可以避免用户因不熟练文本标注而导致的错误修改,提升文本标注的准确性,提升用户体验,提高用户留存率。
在本实施例的一些可选的实现方式中,在本申请的代码实现方面,执行主体可以使用有向图存储实体关系,通过事件的分发来监测用户的操作,降低各模块直接的耦合度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于标注文本的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于标注文本的装置500包括:获取单元501、目标文本确定单元502、可选实体标签显示单元503、实体标签确定单元504、关系显示单元505和标注单元506。
获取单元501,被配置成基于待标注文本和预训练的分类模型,确定目标文本。
目标文本确定单元502,被配置成基于待标注文本和预训练的分类模型,确定目标文本。
可选实体标签显示单元503,被配置成响应于监测到目标文本被选中,显示目标文本对应的可选实体标签。
实体标签确定单元504,被配置成从可选实体标签中确定并在目标文本侧方显示目标文本对应的实体标签。
关系显示单元505,被配置成响应于监测到任意两个实体标签被选中,显示任意两个实体标签存在的关系。
标注单元506,被配置成响应于监测到存在的关系中的目标关系被选中,连接两个实体标签与目标关系,并显示连接后的标注结果。
在本实施例的一些可选的实现方式中,装置还包括图5中未示出的:实体标签显示单元,被配置成响应于监测到标注结果中的关系被选中,连线显示该关系对应的实体标签。
在本实施例的一些可选的实现方式中,装置还包括图5中未示出的:已连接关系数量显示单元,被配置成显示每个实体标签已连接关系的数量;以及操作框显示单元,被配置成响应于监测鼠标悬停在已标注关系的实体标签上,显示该实体标签存在的所有关系,并显示用于对所有关系进行操作的操作框;删除单元,被配置成响应于监测到所有关系中的目标删除关系对应的操作框被勾选,删除目标删除关系以及目标删除关系对应的标注结果。
在本实施例的一些可选的实现方式中,装置还包括图5中未示出的:接收单元,被配置成接收添加/删除实体标签的操作指令;更新单元,被配置成根据操作指令,添加/删除对应的实体标签,并同步更新添加/删除的实体标签至实体关系的选择项,并保存。
在本实施例的一些可选的实现方式中,装置还包括图5中未示出的:取消/更改单元,被配置成在从可选实体标签中确定目标文本对应的实体标签时,响应于监测到鼠标右键点击取消标注或者更改已选实体标签的操作,对应取消已选实体标签或对应更改已选实体标签;响应于确定目标文本已标注实体标签且该已标注的实体标签已存在关系,不显示取消标注和更改标注的操作框。
应当理解,用于标注文本的装置500中记载的单元501至单元506分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于标注文本的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如用于标注文本的方法。例如,在一些实施例中,用于标注文本的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的用于标注文本的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行如上述用于标注文本的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现如上述的用于标注文本的方法。
根据本申请实施例的技术方案,可以有效提高用户文本标注的效率,并使得标注结果更简洁易看,提高用户留存率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种用于标注文本的方法,包括:
获取待标注文本;
基于所述待标注文本和预训练的分类模型,确定目标文本;
响应于监测到所述目标文本被选中,显示所述目标文本对应的可选实体标签;
从所述可选实体标签中确定并在所述目标文本侧方显示所述目标文本对应的实体标签;
响应于监测到任意两个实体标签被选中,显示所述任意两个实体标签存在的关系;
响应于监测到所述存在的关系中的目标关系被选中,连接所述两个实体标签与所述目标关系,并显示连接后的标注结果。
2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于监测到所述标注结果中的关系被选中,连线显示该关系对应的实体标签。
3.根据权利要求1所述的方法,其中,所述方法还包括:
显示每个实体标签已连接关系的数量;以及
响应于监测到鼠标悬停在已标注关系的实体标签上,显示该实体标签存在的所有关系,并显示用于对所述所有关系进行操作的操作框;
响应于监测到所述所有关系中的目标删除关系对应的操作框被勾选,删除所述目标删除关系以及所述目标删除关系对应的标注结果。
4.根据权利要求1所述的方法,其中,所述方法还包括:
接收添加/删除实体标签的操作指令;
根据所述操作指令,添加/删除对应的实体标签,并同步更新添加/删除的实体标签至实体关系的选择项,并保存。
5.根据权利要求1所述的方法,其中,所述方法还包括:
在从所述可选实体标签中确定所述目标文本对应的实体标签时,响应于监测到鼠标右键点击取消标注或者更改已选实体标签的操作,对应取消已选实体标签或对应更改已选实体标签;
响应于确定所述目标文本已标注实体标签且该已标注的实体标签已存在关系,不显示取消标注和更改标注的操作框。
6.一种用于标注文本的装置,包括:
获取单元,被配置成获取待标注文本;
目标文本确定单元,被配置成基于所述待标注文本和预训练的分类模型,确定目标文本;
可选实体标签显示单元,被配置成响应于监测到所述目标文本被选中,显示所述目标文本对应的可选实体标签;
实体标签确定单元,被配置成从所述可选实体标签中确定并在所述目标文本侧方显示所述目标文本对应的实体标签;
关系显示单元,被配置成响应于监测到任意两个实体标签被选中,显示所述任意两个实体标签存在的关系;
标注单元,被配置成响应于监测到所述存在的关系中的目标关系被选中,连接所述两个实体标签与所述目标关系,并显示连接后的标注结果。
7.根据权利要求6所述的装置,其中,所述装置还包括:
实体标签显示单元,被配置成响应于监测到所述标注结果中的关系被选中,连线显示该关系对应的实体标签。
8.根据权利要求6所述的装置,其中,所述装置还包括:
已连接关系数量显示单元,被配置成显示每个实体标签已连接关系的数量;以及
操作框显示单元,被配置成响应于监测到鼠标悬停在已标注关系的实体标签上,显示该实体标签存在的所有关系,并显示用于对所述所有关系进行操作的操作框;
删除单元,被配置成响应于监测到所述所有关系中的目标删除关系对应的操作框被勾选,删除所述目标删除关系以及所述目标删除关系对应的标注结果。
9.根据权利要求6所述的装置,其中,所述装置还包括:
接收单元,被配置成接收添加/删除实体标签的操作指令;
更新单元,被配置成根据所述操作指令,添加/删除对应的实体标签,并同步更新添加/删除的实体标签至实体关系的选择项,并保存。
10.根据权利要求6所述的装置,其中,所述装置还包括:
取消/更改单元,被配置成在从所述可选实体标签中确定所述目标文本对应的实体标签时,响应于监测到鼠标右键点击取消标注或者更改已选实体标签的操作,对应取消已选实体标签或对应更改已选实体标签;响应于确定所述目标文本已标注实体标签且该已标注的实体标签已存在关系,不显示取消标注和更改标注的操作框。
11.一种用于标注文本的电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110081185.3A CN112784588B (zh) | 2021-01-21 | 2021-01-21 | 用于标注文本的方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110081185.3A CN112784588B (zh) | 2021-01-21 | 2021-01-21 | 用于标注文本的方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784588A true CN112784588A (zh) | 2021-05-11 |
CN112784588B CN112784588B (zh) | 2023-09-22 |
Family
ID=75757814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110081185.3A Active CN112784588B (zh) | 2021-01-21 | 2021-01-21 | 用于标注文本的方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784588B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408290A (zh) * | 2021-06-29 | 2021-09-17 | 山东亿云信息技术有限公司 | 一种针对中文文本的智能标注方法及系统 |
CN113919287A (zh) * | 2021-12-06 | 2022-01-11 | 北京来也网络科技有限公司 | 结合rpa及ai的实体关系标注方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN109325213A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法和装置 |
CN109413056A (zh) * | 2018-10-15 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN110377743A (zh) * | 2019-07-25 | 2019-10-25 | 北京明略软件系统有限公司 | 一种文本标注方法及装置 |
CN111128323A (zh) * | 2019-12-18 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 医疗电子病例的标注方法、装置、设备及存储介质 |
-
2021
- 2021-01-21 CN CN202110081185.3A patent/CN112784588B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108902B1 (en) * | 2017-09-18 | 2018-10-23 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques |
CN109325213A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法和装置 |
CN109413056A (zh) * | 2018-10-15 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN110377743A (zh) * | 2019-07-25 | 2019-10-25 | 北京明略软件系统有限公司 | 一种文本标注方法及装置 |
CN111128323A (zh) * | 2019-12-18 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 医疗电子病例的标注方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408290A (zh) * | 2021-06-29 | 2021-09-17 | 山东亿云信息技术有限公司 | 一种针对中文文本的智能标注方法及系统 |
CN113919287A (zh) * | 2021-12-06 | 2022-01-11 | 北京来也网络科技有限公司 | 结合rpa及ai的实体关系标注方法、装置及电子设备 |
CN113919287B (zh) * | 2021-12-06 | 2022-02-25 | 北京来也网络科技有限公司 | 结合rpa及ai的实体关系标注方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112784588B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750654A (zh) | 知识图谱获取方法、装置、设备和介质 | |
CN113836877B (zh) | 一种文本标注方法、装置、设备以及存储介质 | |
CN111078825A (zh) | 结构化处理方法、装置、计算机设备及介质 | |
US20220237376A1 (en) | Method, apparatus, electronic device and storage medium for text classification | |
CN112784588B (zh) | 用于标注文本的方法、装置、设备以及存储介质 | |
KR20230007268A (ko) | 임무 처리 방법, 임무 처리 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN108958731B (zh) | 一种应用程序界面生成方法、装置、设备和存储介质 | |
CN112835579A (zh) | 确定界面代码的方法、装置、电子设备和存储介质 | |
CN114330249A (zh) | 信息的编辑方法、装置、设备以及存储介质 | |
CN113656533A (zh) | 一种树形控件处理方法、装置及电子设备 | |
CN114860995A (zh) | 视频脚本生成方法、装置、电子设备及介质 | |
CN113704058B (zh) | 一种业务模型的监控方法、装置及电子设备 | |
CN114398023A (zh) | 生成文件的方法、配置页面的方法和装置 | |
CN116737928B (zh) | 平台用户需求的文本挖掘方法、系统及云平台 | |
CN117312546A (zh) | 内容的发布方法、装置、电子设备及存储介质 | |
CN116069319A (zh) | 一种表单渲染方法、装置、电子设备及存储介质 | |
CN114860753A (zh) | 一种sql语句生成方法、装置、设备、介质及产品 | |
CN115774712A (zh) | 元数据管理方法、系统、设备及存储介质 | |
CN113642295A (zh) | 页面排版方法、装置及计算机程序产品 | |
CN113657325A (zh) | 用于确定标注样式信息的方法、装置、介质及程序产品 | |
CN115310016B (zh) | 一种网页界面展示方法、装置、设备和存储介质 | |
CN113723120B (zh) | 参考信息的展示方法、装置和电子设备 | |
CN112560462A (zh) | 事件抽取服务的生成方法、装置、服务器以及介质 | |
CN117193739A (zh) | 一种脚本编辑方法和装置 | |
CN114816372A (zh) | 代码生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |