CN110688844A - 一种文本标注方法及装置 - Google Patents

一种文本标注方法及装置 Download PDF

Info

Publication number
CN110688844A
CN110688844A CN201910779970.9A CN201910779970A CN110688844A CN 110688844 A CN110688844 A CN 110688844A CN 201910779970 A CN201910779970 A CN 201910779970A CN 110688844 A CN110688844 A CN 110688844A
Authority
CN
China
Prior art keywords
text
labeled
labeling
word
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910779970.9A
Other languages
English (en)
Inventor
马泽祥
杨潇峰
蔡耀华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910779970.9A priority Critical patent/CN110688844A/zh
Publication of CN110688844A publication Critical patent/CN110688844A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本说明书实施例公开了一种文本标注方法及装置。其中,该方法包括:在展示待标注文本时,根据词典库,将其他标注人员标注过的、用于待标注文本中的词语的标签作为候选标签在待标注文本中进行展示,以供当前的标注人员选择,并响应于标注人员针对候选标签的点击操作,将候选标签添加为词语的当前标签。

Description

一种文本标注方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种文本标注方法及装置。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理中常见的一项任务,使用的范围非常广。NER文本标注就是识别文本中具有特定意义的词语,主要包括人名、地名、机构名、专有名词等,并对该词语进行标注。
发明内容
本说明书实施例的一个目的是提供一种文本标注的新技术方案。
根据本说明书实施例的第一方面,提供一种文本标注方法,所述方法包括:
在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;
根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;
从所述词典库中获取与匹配成功的词语对应的标签;
将所获取的所述标签确定为所述词语的候选标签进行展示;
响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
可选地,所述方法还包括:
接收针对所述待标注文本中的词语而添加的新标签;
将所述词语及对应的新标签添加至词典库中。
可选地,所述方法还包括:
在所述词典库中对所述词语对应的标签的标记次数进行累计;
其中,所述展示用于所述待标注文本中的词语的候选标签包括:
根据标记次数对标签进行排序;以及
将标记次数最多的预设数量个标签作为所述待标注文本中词语的候选标签进行展示。
可选地,所述方法还包括:
在词典库中合并相同的词语及对应的新标签。
可选地,在展示待标注文本之前,所述方法还包括:
获取文本标注任务,其中所述文本标注任务至少包括待标注文本;以及
将所述标注任务拆分成多个标注子任务,以进行分发,其中每个所述标注子任务中至少包括所述待标注文本的一部分。
可选地,所述将所述标注任务拆分成多个标注子任务包括:
根据指定字段,将所述文本标注任务拆分成不同的所述标注子任务;或者,
将所述文本标注任务拆分为指定数量个标注子任务。
可选地,所述将所述标注任务拆分成多个标注子任务还包括:
通过分词算法对所述待标注文本进行分词处理。
可选地,所述方法还包括:
对于所述待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
根据本说明书实施例的第二方面,还提供一种用于文本标注的装置,所述装置包括:
展示模块,用于在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;从所述词典库中获取与匹配成功的词语对应的标签;将所获取的所述标签确定为所述词语的候选标签进行展示;
添加模块,用于响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
根据本说明书实施例的第三方面,还提供一种用于文本标注的装置,包括:存储器和处理器;所述存储器用于存储指令,所述指令用于控制所述处理器进行操作,以执行如本说明书实施例的第一方面中任意一项所述的文本标注方法。
本说明书的一个有益效果在于,根据本发明实施例的方法及装置,在展示待标注文本时,根据词典库,将其他标注人员标注过的、用于待标注文本中的词语的标签作为候选标签在待标注文本中进行展示,以供当前的标注人员选择,并响应于标注人员针对候选标签的点击操作,将候选标签添加为词语的当前标签。从而在标注过程中实现了根据词典库自动提供词语的推荐标签,提高了文本标注效率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本说明书实施例的电子设备1000的硬件配置的框图。
图2示出了根据本说明书实施例的文本标注方法的示意性流程图。
图3示出了根据本说明书实施例的文本标注方法中展示候选标签的示意图。
图4示出了根据本说明书实施例的文本标注方法中自动分词结果的示意图。
图5示出了根据本说明书实施例一的用于文本标注的装置的结构示意图。
图6示出了根据本说明书实施例二的用于文本标注的装置的结构示意图。
图7示出了根据本说明书实施例三的用于文本标注的装置的结构示意图。
图8示出了根据本说明书实施例四的用于文本标注的装置的结构示意图。
图9示出了根据本说明书实施例五的用于文本标注的装置的结构示意图。
图10示出了根据本说明书实施例六的用于文本标注的装置的结构示意图。
图11示出了根据本说明书实施例的文本标注方法的例子的流程示意图。
图12示出了根据本说明书实施例的文本标注方法的场景示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面,参照附图描述根据本发明实施例的各个实施例和例子。
<硬件配置>
数据标注时人工智能进行模型训练必不可少的一环,这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后基于标注数据对模型进行训练。输送到人工智能算法和模型里进行调用。
对文本数据进行标注,主要内容是对文本标注标签,标记该文本描述了一个我们预定义的种类标签。基于标注平台可以实现多人协同标注,每个标注人员负责待标注文本中的至少一部分,合作完成对文本的标注。
因此,本说明书实施例为了提高标注人员的标注效率,如图12所示,电子设备1000在向标注人员展示待标注文本时,根据词典库将其他标注人员标注过的、用于待标注文本中的词语的标签作为候选标签在待标注文本中进行展示,以供当前的标注人员选择,如页面A中所示。标注人员可以选择使用推荐的候选标签添加为词语的当前标签,也可以选择为词语添加新的标签。例如页面B中,标注人员选择候选标签1添加为词语的当前标签。标注人员在点击候选标签1后,如页面C中所示,将该候选标签1添加为词语的当前标签。由于在标注过程中实现了根据词典库自动提供词语的推荐标签,因而提高了文本标注效率。
图1是显示可用于实现本说明书实施例的电子设备1000的硬件配置的框图。
根据图1所示,本实施例的电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。
如图1所示,电子设备1000可以包括处理器1010、存储器1020、接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080,等等。
其中,处理器1010可以是中央处理器CPU、微处理器MCU等。存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。
接口装置1030例如包括USB接口、耳机接口等。
通信装置1040例如能够进行有线或无线通信。
显示装置1050例如是液晶显示屏、触摸显示屏等。
输入装置1060例如可以包括触摸屏、键盘等。用户可以通过扬声器1070和麦克风1080输入/输出语音信息。
该实施例中,电子设备1000的存储器1020用于存储指令,该指令用于控制处理器1010进行操作以至少执行根据本说明书任意实施例的文本标注方法。
本领域技术人员应当理解,尽管在图1中示出了电子设备1000的多个装置,但是,本说明书可以仅涉及其中的部分装置,例如,电子设备1000只涉及存储器1020、处理器1010以及显示装置1050。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
本实施例的文本标注方法具体可以由图1所示的电子设备1000执行。
根据图2所示,本实施例的文本标注方法可以包括步骤2000~步骤2200:
步骤2000,在展示待标注文本时,通过分词算法对该待标注文本进行分词处理。
其中,该待标注文本是需要标注人员进行标注的文本。该待标注文本例如可以是文章、新闻、论文、广告等文本内容。
步骤2200,根据分词结果,将该待标注文本中的词语与词典库中的词语进行匹配。
步骤2400,从该词典库中获取与匹配成功的词语对应的标签。
步骤2600,将所获取的该标签确定为该词语的候选标签进行展示。
步骤2800,响应于针对该候选标签的点击操作,将该候选标签添加为该词语的当前标签。
在实际应用中,从该词典库中获取的与匹配成功的词语对应的标签的数量可以是一个或多个。当获取的标签的数量是多个时,在将所获取的该标签确定为该词语的候选标签进行展示时,可以仅展示多个中的一个,也可以展示多个中的预设数量个。本实施例对此不作具体限定。
例如,如图3所示,待标注文本是“A公司与B公司是什么关系?”其中,在词语“A公司”的上方,展示了针对该词语的两个候选标签“推荐1:公司名”和“推荐2:产品名”。
需要说明的是,该词典库是根据多个协同标注的标注人员对词语添加的标签自动生成的,并随着每个标注人员对词语添加的标签不断更新。该词典库可以是基于单个标注任务生成的,或者,该词典库可以是基于单个用户生成的,或者,该词典库也可以是基于单个标注平台生成的。在此不作具体限定。
在步骤2800中,标注人员可以从所展示的候选标签中选择一个,作为词语的当前标签进行添加。这样,在标注人员的标注过程中根据词典库自动提供词语的候选标签,标注人员仅需从中选择一个即可完成对词语的标注,因此提高了文本标注的效率。
进一步地,标注人员还可以选择开启自动分词功能的选项,如图4所示,在该场景中,所展示的待标注文本中会自动将其他标注人员已经标注过的词语的标签作为候选标签推荐给标注人员,标注人员也可以选择使用该候选标签作为词语的当前标签。
可选地,若标注人员认为所展示的候选标签并不合适,则该标注人员也可以选择为该词语填写新的标签。即,该电子设备1000接收针对该待标注文本中的词语而添加的新标签;并将该词语及对应的新标签添加至词典库中。
也就是说,在标注人员为该词语添加新的标签后,该词语及该新的标签以组合的形式被添加至该词典库中,以将该词语及对应的标签作为候选标签提供给其他标注人员进行选择,从而实现了多人协同标注以生成并更新词典库,以达到多个标注人员间相互协作的目的。
实际应用中,词典库中每个词语可能对应于多个标签,为了确定展示时对词语的哪个候选标签进行展示,进一步地,在本实施例中,还可以在该词典库中对该词语对应的标签的标记次数进行累计,以根据标记次数的多少决定所要展示的候选标签。
相应的,在上述步骤2600中,可以根据标记次数对标签进行排序;以及将标记次数最多的预设数量个标签作为该待标注文本中词语的候选标签进行展示。
例如,某个词语的标签A的标记次数为10次,标签B的标记次数为20次,标签C的标记次数为1次,该词语的标签根据标记次数的排序为标签B、标签A、标签C。若预设展示数量为1个,用于展示的该待标注文本中词语的候选标签为标签B。若预设展示数量为2个,则用于展示的该待标注文本词语的候选标签为标签B及标签A。
进一步地,若该词典库中已经存在某个词语及其标签,但标注人员仍然重新输入了标签,对于这种情况,可以在词典库中合并相同的词语及对应的新标签。以避免对某个词语推荐多个相同的标签。
在上述本实施例的基础上,在上述步骤2000之前,本实施例的方法还可以包括:获取文本标注任务,其中该文本标注任务至少包括待标注文本;以及将该标注任务拆分成多个标注子任务,以进行分发,其中每个该标注子任务中至少包括该待标注文本的一部分。
其中,在将该标注任务拆分成多个标注子任务时,具体可以根据指定字段,将该文本标注任务拆分成不同的该标注子任务;或者,将该文本标注任务拆分为指定数量个标注子任务。
例如,可以指定字段类型,将该文本标注任务根据所指定的字段类型,拆分为不同的标注子任务A文本、B文本等。又例如,将该文本标注任务作为整体,指定将其拆为分10个标注子任务。又例如,假设该文本标注任务包含100个文本数据,可以指定将该文本标注任务中的100个文本数据中的每个文本数据作为一个标注子任务,指定给一个标注人员处理。
需要说明的是,在上述步骤2000~步骤2600中描述了在展示用于该待标注文本中的词语的候选标签时,对该待标注文本进行分词处理,并根据分词结果以及将待标注文本中的词语与该词典库中的词语进行匹配,从而从该词典库中获取与匹配成功的词语对应的标签作为候选标签进行展示的实现方式。
在本实施例的另一种可行的实现方式中,对于该待标注文本进行分词处理的操作,还可以在展示待标注文本之前完成。具体的,可以在将该文本标注任务拆为成多个标注子任务时,通过分词算法对该待标注文本进行分词处理。
在该实现方式中,由于在将该文本标注任务拆分为多个标注子任务时就完成了对该待标注文本的分词处理,则在展示该待标注文本时,可以不用对该待标注文本进行分词处理,而是可以直接根据分词结果以及将待标注文本中的词语与该词典库中的词语进行匹配的匹配结果,从该词典库中获取与匹配成功的词语对应的标签作为该候选标签进行展示,这样,可以进一步提升处理速度。
为了进一步提升标注人员的标注效率,在本实施例中,对于同一该待标注文本中多次出现的相同词语,标注人员只需要主动为该词语添加一次标签,在该待标注文本中的其他位置出现的该词语,会自动补齐同样的标签,即,对于该待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。从而可以显著提高文本标注效率。
根据本说明书实施例的文本标注方法,在展示待标注文本时,根据词典库,将其他标注人员标注过的、用于待标注文本中的词语的标签作为候选标签在待标注文本中进行展示,以供当前的标注人员选择,并响应于标注人员针对候选标签的点击操作,将候选标签添加为词语的当前标签。从而在标注过程中实现了根据词典库自动提供词语的推荐标签,提高了文本标注效率。
<装置实施例>
图5示出了根据本说明书实施例一的用于文本标注的装置的结构示意图。如图5所示,该用于文本标注的装置5000可以包括:展示模块5100和添加模块5200。
其中,展示模块5100用于在展示待标注文本时,通过分词算法对该待标注文本进行分词处理;根据分词结果,将该待标注文本中的词语与词典库中的词语进行匹配;从该词典库中获取与匹配成功的词语对应的标签;将所获取的该标签确定为该词语的候选标签进行展示。添加模块5200用于响应于针对该候选标签的点击操作,将该候选标签添加为该词语的当前标签。
进一步地,如图6所示,该用于文本标注的装置5000还可以包括:接收模块6100,接收针对该待标注文本中的词语而添加的新标签。该添加模块5200还可以用于将该词语及对应的新标签添加至词典库中。
进一步地,如图7所示,该用于文本标注的装置5000还可以包括:累计模块7100,用于在该词典库中对该词语对应的标签的标记次数进行累计。该展示模块5100还可以用于根据标记次数对标签进行排序;以及将标记次数最多的预设数量个标签作为该待标注文本中词语的候选标签进行展示。
进一步地,如图8所示,该用于文本标注的装置5000还可以包括:合并模块8100,用于在该词典库中合并相同的词语及对应的新标签。
进一步地,如图9所示,该用于文本标注的装置5000还可以包括:获取模块9100,用于获取文本标注任务,其中该文本标注任务至少包括待标注文本;以及拆分模块9200,用于将该标注任务拆分成多个标注子任务,以进行分发,其中每个该标注子任务中至少包括该待标注文本的一部分。
其中,该拆分模块9200具体用于根据指定字段,将该文本标注任务拆分成不同的该标注子任务;或者,将该文本标注任务拆分为指定数量个标注子任务。
进一步地,该拆分模块9200还可以用于通过分词算法对该待标注文本进行分词处理。
进一步地,该添加模块5200还可以用于对于该待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
本实施例的用于文本标注的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10示出了根据本说明书实施例六的用于文本标注的装置的结构示意图。如图10所示,该用于文本标注的装置100具体可以包括存储器110和处理器120。其中,该存储器110用于存储指令,该指令用于控制该处理器120进行操作,以执行如上述方法实施例中该的文本标注方法。
<例子>
图11示出了根据本说明书实施例的文本标注方法的例子的流程示意图。
根据图11所示,本实施例的文本标注方法可以包括:
步骤1100,获取文本标注任务。
其中,该文本标注任务至少包括待标注文本。
步骤1102,将该文本标注任务拆分成多个标注子任务,通过分词算法对该待标注文本进行分词,分发该多个标注子任务。
其中,每个该标注子任务中至少包括该待标注文本的一部分。
在将该文本标注任务拆分成多个标注子任务时,可以根据指定字段,将该文本标注任务拆分成不同的该标注子任务;或者,可以将该文本标注任务拆分为指定数量个标注子任务。本实施例对此不作具体。
步骤1104,在展示待标注文本时,展示用于该待标注文本中的词语的候选标签。
其中,该候选标签可以是在词典库中累计被标记次数最多的标签,从而提高候选标签被采纳的可能性,减少标注人员手动输入标签的可能性,进而提高文本标注效率。
步骤1106,响应于针对该候选标签的点击操作,将该候选标签添加为该词语的当前标签。
完成针对该词语的标签添加操作。
步骤1108,接收针对该待标注文本中的词语而添加的新标签。
在本例中,接收针对该待标注文本中的词语而添加的新标签后,为进一步提升文本标注效率,还可以对于该待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
步骤1110,将该词语及对应的新标签添加至词典库中。
这样,可以实现多个标注人员可以通过共同协作的方式生成并更新该词典库,可以很大限度的提高文本标注效率。
步骤1112,在该词典库中合并相同的词语及对应的新标签。
避免针对某个词语推荐多个相同标签的情况,能够提高推荐候选标签的准确度。
本例提供的文本标注方法,可以提高文本标注效率。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中秒回的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有力的。
本领域技术人员应当理解,在电子技术领域中,可以通过软件、硬件以及软件和硬件结合的方式,将上述方法体现在产品中本领域技术人员很容易基于上面发明实施例的方法,产生一种信息处理装置,该信息处理装置包括用于执行根据上述实施例的信息处理方法中的各个操作的模块。
本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。对于技术人员来说,软件实现方式和硬件实现方式是等同的。技术人员可以根据需要选择软件或硬件来实现上述方案。因此,这里不对具体的软件或硬件进行限制。
本发明可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种文本标注方法,其特征在于,所述方法包括:
在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;
根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;
从所述词典库中获取与匹配成功的词语对应的标签;
将所获取的所述标签确定为所述词语的候选标签进行展示;
响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收针对所述待标注文本中的词语而添加的新标签;
将所述词语及对应的新标签添加至词典库中。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述词典库中对所述词语对应的标签的标记次数进行累计;
其中,所述展示用于所述待标注文本中的词语的候选标签包括:
根据标记次数对标签进行排序;以及
将标记次数最多的预设数量个标签作为所述待标注文本中词语的候选标签进行展示。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
在所述词典库中合并相同的词语及对应的新标签。
5.根据权利要求1所述的方法,其特征在于,在展示待标注文本之前,所述方法还包括:
获取文本标注任务,其中所述文本标注任务至少包括待标注文本;以及
将所述文本标注任务拆分成多个标注子任务,以进行分发,其中每个所述标注子任务中至少包括所述待标注文本的一部分。
6.根据权利要求5所述的方法,其特征在于,所述将所述标注任务拆分成多个标注子任务包括:
根据指定字段,将所述文本标注任务拆分成不同的所述标注子任务;或者,
将所述文本标注任务拆分为指定数量个标注子任务。
7.根据权利要求5所述的方法,其特征在于,所述将所述文本标注任务拆分成多个标注子任务还包括:
通过分词算法对所述待标注文本进行分词处理。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于所述待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
9.一种用于文本标注的装置,其特征在于,所述装置包括:
展示模块,用于在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;从所述词典库中获取与匹配成功的词语对应的标签;将所获取的所述标签确定为所述词语的候选标签进行展示;
添加模块,用于响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
10.一种用于文本标注的装置,其特征在于,包括:存储器和处理器;所述存储器用于存储指令,所述指令用于控制所述处理器进行操作,以执行如权利要求1-8中任意一项所述的文本标注方法。
CN201910779970.9A 2019-08-22 2019-08-22 一种文本标注方法及装置 Pending CN110688844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910779970.9A CN110688844A (zh) 2019-08-22 2019-08-22 一种文本标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910779970.9A CN110688844A (zh) 2019-08-22 2019-08-22 一种文本标注方法及装置

Publications (1)

Publication Number Publication Date
CN110688844A true CN110688844A (zh) 2020-01-14

Family

ID=69108496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779970.9A Pending CN110688844A (zh) 2019-08-22 2019-08-22 一种文本标注方法及装置

Country Status (1)

Country Link
CN (1) CN110688844A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN113723062A (zh) * 2021-08-31 2021-11-30 远光软件股份有限公司 报表标签的编辑方法、装置、存储介质及终端设备
CN115238049A (zh) * 2022-06-17 2022-10-25 北京优酷科技有限公司 剧本标注方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN203882590U (zh) * 2013-12-18 2014-10-15 株式会社东芝 图像处理设备和图像显示设备
CN104391739A (zh) * 2014-11-05 2015-03-04 刘帅 一种能够在实时互动沟通平台中共同分享一个文件并跟随对方操作的交流方法
CN105897989A (zh) * 2015-10-27 2016-08-24 乐视移动智能信息技术(北京)有限公司 联系人的创建方法及装置
CN106412199A (zh) * 2016-09-30 2017-02-15 北京小米移动软件有限公司 用于编辑联系人信息的方法、装置、移动终端和服务器
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108875020A (zh) * 2018-06-20 2018-11-23 第四范式(北京)技术有限公司 用于实现标注的方法、装置、设备及存储介质
CN108897869A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 语料标注方法、装置、设备和存储介质
CN109325213A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于标注数据的方法和装置
CN109348161A (zh) * 2018-09-21 2019-02-15 联想(北京)有限公司 显示标注信息方法和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN203882590U (zh) * 2013-12-18 2014-10-15 株式会社东芝 图像处理设备和图像显示设备
CN104391739A (zh) * 2014-11-05 2015-03-04 刘帅 一种能够在实时互动沟通平台中共同分享一个文件并跟随对方操作的交流方法
CN105897989A (zh) * 2015-10-27 2016-08-24 乐视移动智能信息技术(北京)有限公司 联系人的创建方法及装置
CN106412199A (zh) * 2016-09-30 2017-02-15 北京小米移动软件有限公司 用于编辑联系人信息的方法、装置、移动终端和服务器
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108875020A (zh) * 2018-06-20 2018-11-23 第四范式(北京)技术有限公司 用于实现标注的方法、装置、设备及存储介质
CN108897869A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 语料标注方法、装置、设备和存储介质
CN109348161A (zh) * 2018-09-21 2019-02-15 联想(北京)有限公司 显示标注信息方法和电子设备
CN109325213A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于标注数据的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN113723062A (zh) * 2021-08-31 2021-11-30 远光软件股份有限公司 报表标签的编辑方法、装置、存储介质及终端设备
CN115238049A (zh) * 2022-06-17 2022-10-25 北京优酷科技有限公司 剧本标注方法及电子设备
CN115238049B (zh) * 2022-06-17 2023-08-04 北京优酷科技有限公司 剧本标注方法及电子设备

Similar Documents

Publication Publication Date Title
EP3244312B1 (en) A personal digital assistant
US10216382B2 (en) Virtual cultural attache
US10565280B2 (en) Website content identification in a content management system
US10242094B2 (en) Generating word clouds
CN110688844A (zh) 一种文本标注方法及装置
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN108449255B (zh) 评论交互方法、设备、客户端装置及电子设备
CN110532487B (zh) 标签的生成方法及装置
CN113657113A (zh) 文本处理方法、装置和电子设备
US10706312B2 (en) Automated filtering of item comments
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN111506775A (zh) 标签处理方法、装置、电子设备及可读存储介质
CN111104545A (zh) 背景音乐的配置方法、设备、客户端装置及电子设备
CN111782850A (zh) 一种基于手绘图的物品搜索方法和装置
CN115080039A (zh) 前端代码生成方法、装置、计算机设备、存储介质和产品
CN113703638A (zh) 数据管理页面处理方法、装置、电子设备及存储介质
CN109978645B (zh) 一种数据推荐方法和装置
CN112307723A (zh) 生成代码文档的方法、装置和电子设备
US10217019B2 (en) Associating a comment with an object in an image
CN111723177A (zh) 信息提取模型的建模方法、装置及电子设备
CN113704593B (zh) 一种运营数据处理方法及相关装置
US20180121404A1 (en) Determining and assisting with document or design code completeness
CN109857838B (zh) 用于生成信息的方法和装置
CN113609370B (zh) 数据处理方法、装置、电子设备及存储介质
US20220318702A1 (en) Dynamically modifying a platform based on user feedback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114