CN111611779B - 辅助文本标注方法、装置、设备及其存储介质 - Google Patents
辅助文本标注方法、装置、设备及其存储介质 Download PDFInfo
- Publication number
- CN111611779B CN111611779B CN202010266600.8A CN202010266600A CN111611779B CN 111611779 B CN111611779 B CN 111611779B CN 202010266600 A CN202010266600 A CN 202010266600A CN 111611779 B CN111611779 B CN 111611779B
- Authority
- CN
- China
- Prior art keywords
- phrase
- initial
- modified
- word
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了辅助文本标注方法、装置、设备及其存储介质。该方法包括:获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个所述初始词组一一对应的初始词性;调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;接收根据校验提示信息针对待修改词组输入的操作指令;响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。根据本申请实施例的技术方案,在调用标准词库对初始分词结果进行校验审查的基础上,通过用户输入的操作指令实现对待修改词组的调整,有效地提高人工标注的效率。
Description
技术领域
本申请一般涉及数据管理技术领域,尤其涉及辅助文本标注方法、装置、设备及其存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在自然语言处理中,分词是自然语言处理的基础,分词准确度直接决定词性标注、句法分析、词向量以及文本分析的质量。但是,目前分词标准存在不一致的问题,导致分词结果的质量不高,分词的效率较低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种辅助文本标注方法、装置、设备及其存储介质,来有效地提高文本标注的效率。
一方面,本申请实施例提供了一种辅助文本标注方法,该方法包括:
获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;
接收根据校验提示信息针对待修改词组输入的操作指令;
响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
一方面,本申请实施例提供了一种辅助文本标注装置,该装置包括:
获取单元,用于获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
调用单元,用于调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;
接收单元,用于接收根据校验提示信息针对待修改词组输入的操作指令;
调整单元,用于响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
一方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于:
该计算机程序被处理器执行时实现如本申请实施例描述的方法。
本申请实施例提供的辅助文本标注方法、装置、设备及其存储介质,该方法通过获取对待标注文本进行预标注处理后的初始分词结果,然后调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;再接收根据校验提示信息针对待修改词组输入的操作指令,响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。本申请实施例,在调用标准词库校验初始分词结果的基础上,通过用户输入的操作指令实现对待修改词组的调整,有效地提高人工标注的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请实施例提供的辅助文本标注方法的实施环境架构图;
图2示出了本申请一实施例提供的辅助文本标注方法的流程示意图;
图3示出了本申请一实施例提供的辅助文本标注方法的流程示意图;
图4示出了本申请一实施例提供的辅助文本标注方法的流程示意图;
图5示出了本申请实施例提供的辅助文本标注界面的示意图;
图6示出了本申请一实施例提供的辅助文本标注方法的流程示意图;
图7示出了本申请实施例提供的辅助文本标注界面的示意图;
图8示出了本申请实施例提供的辅助文本标注的原理示意图;
图9示出了本申请实施例提供的辅助文本标注界面的操作示意图;
图10示出了根据本申请实施例提供的辅助文本标注装置的示例性结构框图;
图11示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提出的辅助文本标注方法具体实施环境参见图1。图1示出了本申请实施例提供的辅助文本标注方法的实施环境架构图。
如图1所示,该实施环境架构包括:终端设备101和服务器102。
终端设备101用于向用户提供文本标注的操作界面,并接收用户通过人机交互装置输入的操作指令,响应于操作指令,对文本进行标准。终端设备可以是台式电脑、笔记本电脑、智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表等设备,但并不局限于此。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中,服务器102向终端设备101提供标准词库。
终端设备101与服务器102之间通过有线或无线通信方式进行直接或间接地连接。可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网,也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
本申请提供的辅助文本标注方法可以由辅助文本标注装置来实施。辅助文本标注装置可以安装在终端设备或者服务器上。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作指令步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作指令步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
请参考图2,图2示出了本申请一实施例提供的辅助文本标注方法的流程示意图。如图2所示,该方法包括:
步骤201,获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性。
步骤202,调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息。
步骤203,接收根据校验提示信息针对待修改词组输入的操作指令。
步骤204,响应于操作指令对待修改词组进行调整,得到待标注文本的标注结果。
在上述步骤中,待标注文本是指一句话或一段中文文本。获取对待标注文本进行预标注处理后的初始分词结果,可以通过分词工具对待标注文本进行初次分词、标注处理。例如,通过结巴分词工具。结巴分词工具是用于对中文分词的分词工具。结巴分词工具的分词模式包括精确模式、全模式和搜索引擎模式等。调用结巴分词工具先将待标注文本进行分词、标注处理得到初始分词结果。初始分词结果包括将待标注文本进行分词处理后得到的多个初始词组,和对每个初始词组进行词性标注得到的初始词性。如图7所示,在标注界面的原文显示区域内,显示调用结巴分词工具进行分词、标注处理得到的初始分词结果。
然后,调用标准词库对初始分词结果进行校验审查。标准词库可以是预先存储在本地或通过向服务器请求获取的标准词典。例如,定义匹配规则的词典,该词典例如可以《现代汉语语法信息词典》等。
调用标准词库对初始分词结果进行校验审查,得到匹配成功或者匹配失败的结果。
在匹配成功的情况下,无需对初始词组和初始词性做任何调整。
在匹配失败的情况下,为提高人工标注的效率,本申请实施例可以通过针对待修改词组输入操作指令,来对待修改词组进行调整,得到与待标注文本对应的最终标注结果。接收针对待修改词组输入的操作指令,包括对待修改词组输入的词组调整指令,和对待修改词组对应的初始词性输入的词性调整指令。通过直接对待修改词组和与之对应的初始词性进行调整,得到符合人工语义分析的标准结果,有效地提高了文本标注的效率。
输入的操作指令可以是根据提示消息输入的操作指令。提示消息可以是在匹配失败情况,用于提示对待修改词组的词组本身和词性两个维度进行调整。例如,调用标准词库对初始分词结果进行校验审查得到待修改词组,对待修改词组调用多个不同与字粒度相关的N元gram模型进行分词,得到与待修改词组对应的多个第一重组分词;再调用标准词库对每个第一重组分词进行校验审查,得到二次匹配结果,二次匹配结果包括匹配成功或者匹配成功。若二次匹配结果为匹配成功,则将第一重组分词作为待修改词组的修改策略。若二次匹配结果为匹配失败,则不对重组分词做任何调整。
或者,对初始分词结果中初始词组按照多个不同与词粒度相关的N元gram模型进行分词处理,得到与待标注文本对应的多个第二重组分词;然后,调用标准词库对每个第二重组分词进行校验审查,得到二次匹配结果,二次匹配结果包括匹配成功或者匹配成功。若二次匹配结果为匹配成功,则将第二重组分词作为待修改词组的修改策略。若二次匹配结果为匹配失败,则不对重组分词做任何调整。
本申请实施例通过调用标准词库对初始分词结果进行校验审查,有效地统一分词标准,再结合输入的操作指令对待修改词组进行调整,提高分词标准的效率和分词质量。
在上述实施例基础上,本申请还提供了一种辅助文本标注方法。请参考图3,图3示出了本申请一实施例提供的辅助文本标注方法的流程示意图。该方法包括:
步骤301,获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
步骤302,调用标准词库对初始分词结果中每个初始词组和初始词组对应的初始词性进行校验,得到待修改词组和与待修改词组对应的修改策略;
步骤303,显示与修改策略对应的校验提示信息;
步骤304,接收根据校验提示信息针对待修改词组输入的操作指令;
步骤305,响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
在上述步骤中,调用标准词库对初始分词结果中每个初始词组和初始词组对应的初始词性进行校验,得到待修改词组和与待修改词组对应的修改策略,可以先将每个初始词组和初始词组对应的初始词性与标准词库中的标准词组和标准词组对应的标准词性进行匹配,得到匹配结果。将每个初始词组和初始词组对应的初始词性与标准词库中的标准词组和标准词组对应的标准词性进行匹配,包括以下几种情形:
若初始词组与标准词组相同且初始词性与标准词性相同,则表示词组和词性均匹配成功。其表示初始词组被收录在标准词库中,且初始词性与标准词组对应的标准词性一致。其不需要人工辅助对该初始词组进行修改,也不会生成任何特殊标记。
若初始词组与标准词组相同且初始词性与标准词性不同,则表示词性匹配失败。其表示初始词组被收录在标准词库中,但初始词组对应的初始词性与标准词组对应的标准词性不同。其需要人工辅助对该初始词组的词性进行修改。
若初始词组与标准词组不同,则表示词组匹配失败,其表示初始词组未被收录在标准词库中。其需要人工辅助对该初始词组进行修改。
在词组匹配失败的情况下,将词组匹配失败对应的初始词组作为待修改词组;将待修改词组按照字粒度进行重组,得到多个第一重组分词;调用标准词库对每个第一重组分词进行校验;若第一重组分词与标准词库所包含的标准分词一致,则生成与待修改词组对应的校验提示信息,校验提示信息用于指示将待修改词组按照重组分词进行调整的修改策略。
其中,将待修改词组按照字粒度进行重组,可以包括:
将待修改词组按照多个不同的字粒度N元gram模型进行拆分,得到多个第一重组分词。
然后,调用标准词库对每个第一重组分词进行校验,得到匹配成功的结果,或者匹配失败的结果。
若匹配成功,即第一重组分词与标准词库所包含的标准分词一致,则生成与待修改词组对应的校验提示信息,该校验提示信息用于指示将待修改词组按照重组分词进行调整的修改策略。
可选地,调用标准词库对初始分词结果所包含的每个初始词组和与之对应的初始词性进行校验还可以包括:
将初始分词结果按照词粒度进行重组,得到多个第二重组分词;
调用标准词库对每个第二重组分词进行校验审核;
若第二重组分词与标准词库所包含的标准分词一致,则将与第二重组分词相关的初始词组作为待修改词组;并生成与第二重组分词对应的校验提示信息,该校验提示信息用于指示按照第二重组分词对初始分词结果进行调整的修改策略。
其中,修改策略是指按照重组分词对待修改词组进行拆分或者合并处理的方式。修改策略可以包括短词合并、长词切短和词性纠错等类型。根据修改策略对待修改词组进行调整,使其符合标准词库所包含的标准词组的要求。
生成与待修改词组对应的校验提示信息,即对该待修改词组添加第一指示标识,和将二元重组分词和其对应的词性作为修改提示消息。校验提示信息用于指示将待修改词组按照重组分词进行调整的修改策略。其用于向用户提示对待修改词组进行修改。本申请实施例通过校验提示信息,向用户提供准确的标注提示,有效地提高了人工标注效率,且其校验提示信息是经过标准词库校验审核的一致性结果,有效地提高了标注的准确性,进而提高标注质量。
为了更准确地对待修改词组进行修改,本申请实施例还提供了一种辅助文本标注方法。请参考图4,图4示出了本申请一实施例提供的辅助文本标注方法的流程示意图。该方法包括:
步骤401,获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
步骤402,调用标准词库对初始分词结果中每个初始词组和初始词组对应的初始词性进行校验,得到待修改词组和与待修改词组对应的修改策略;
步骤403,获取待修改词组所对应的修改策略和修改策略所对应的修改类型;
步骤404,确定与修改策略的修改类型对应的第一指示标识,该第一指示标识用于指示修改策略所对应的修改类型;
步骤405,在标注界面的词典审查区域内显示添加第一指示标识后的待修改词组;
步骤406,接收根据校验提示信息针对待修改词组输入的操作指令;
步骤407,响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
在上述步骤中,获取待修改词组所对应的修改策略和修改策略所对应的类型。修改策略可以包括短词合并、长词切短和词性纠错等类型。获取与修改策略所对应的类型对应的第一指示标识,第一指示标识用于指示修改策略所对应的类型。用户可以对第一指示标识输入操作指令来获取修改策略,或者用户可以根据第一指示标识提示信息在与第一指示标识对应的待修改词组上输入操作指令直接对待修改词组进行调整。第一指示标识可以是颜色标识,也可以是其他具有指示作用的标识,例如图形标识。
下面以颜色标识为例,结合图5进一步展开描述。如图5所示,标注界面50至少包括词典审查区域501和标注区域502。在词典审查区域501内,短词合并对应的蓝色标识5011,图中用单线删除表示。长词切短对应的红色标识5012,图中用双下划线表示。词性纠错对应的绿色标识5013,图中用双线删除表示。
用户可以根据颜色标识对待修改词组进行调整,例如用户可以点击图5中词典审查区域501内显示的不同的第一指示标识,来获得提示信息。然后,根据提示信息在标注区域502内对待修改词组进行调整,整个操作过程清晰明确,有效地提高了人工标注的效率。
在上述实施例基础上,本申请实施例还提供了一种辅助文本标注方法。请参考图6,图6示出了本申请一实施例提供的辅助文本标注方法的流程示意图。该方法包括:
步骤601,获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
步骤602,调用标准词库对初始分词结果中每个初始词组和初始词组对应的初始词性进行校验,得到待修改词组和与待修改词组对应的修改策略;
步骤603,获取待修改词组所对应的修改策略和修改策略所对应的修改类型;
步骤604,确定与修改策略的修改类型对应的第一指示标识,该第一指示标识用于指示修改策略所对应的修改类型;
步骤605,对修改策略进行归类处理,得到多个修改提示消息,每个修改提示消息包括至少一个待修改词组和与每个待修改词组对应的修改策略。其中,每个修改提示消息用于提示与待修改词组对应的修改策略。
步骤606,在标注界面的词典审查区域内显示添加第一指示标识后的待修改词组;
步骤607,在标注界面的提示区域内显示修改提示消息;
步骤608,接收根据修改提示信息针对待修改词组输入的操作指令;
步骤609,响应于操作指令对待修改词组进行调整,得到与待标注文本对应的标注结果。
在上述步骤中,本申请实施例可以在标注界面上显示第一指示标识和修改提示消息,从而向用户提供清晰的指示消息,指导用户完成人工标注,极大地提高人工标注的效率,并确保人工标注结果的一致性。
如图7所示,标注界面可以包括词典审查区域501,标注区域502和提示区域503。在提示区域503中将多个修改策略按照修改策略对应的类型进行归类。如,短词合并项,其与词典审查区域501内的蓝色标识5011相关,长词切短项,其与词典审查区域501内的红色标识5012相关,其包括多个修改策略a,b,c。词性纠错项,其与词典审查区域501内的绿色标识5013相关。用户可以根据提示区域显示的修改提示消息,对每个待修改词组逐个进行人工判断进行调整。
可选地,控制显示与修改策略对应的校验提示信息还可以包括:
获取与待修改词组对应的第二指示标识,该第二指示标识用于提示待修改词组在待标注文本中的原始位置;
在标注界面的原文显示区域内显示添加第二指示标识后的待修改分词。
如图7所示,标注界面还可以包括原文显示区域504,为了便于用户查看对原始待标注文本的初始分词结果所包含的初始词组,在原文显示区域504内对待修改词组添加第二指示标识5041,第二指示标识5041用于提示待修改词组在待标注文本中的原始位置。便于用户查看修改前的历史分词记录,在同一界面内显示多维信息,辅助用户对文本进行人工标注。
在调用标准词库对初始分词结果进行校验审查之后,用户可以根据生成的校验提示信息对待修改词组进行调整。其中,待修改词组包括至少一个待修改的初始词组和每个待修改的初始词组所对应的初始词性。
在本申请提供的实施例中,接收根据校验提示信息针对待修改词组输入的操作指令可以包括:接收根据校验提示信息针对每个待修改的初始词组输入的分词调整指令,响应于分词调整指令对待修改的初始词组进行调整。或者,接收根据校验提示信息针对与每个待修改的初始词组对应的初始词性输入的词性调整指令,响应于词性调整指令对与每个待修改的初始词组对应的初始词性进行调整。
可选地,利用凸显方式将待修改的初始词组展示在相应的显示区域内,提示用户针对该初始词组直接进行调整,或者,在初始词组显示条上显示输入光标,提示用于针对光标对应的初始词组进行调整。
可选地,接收针对每个待修改的初始词组输入的分词调整指令,响应于分词调整指令对待修改的初始词组进行调整,可以在标注界面的初始词组显示条上显示初始分词结果所包含的初始词组;并在标注界面的提示区域显示至少一个修改提示消息;根据修改提示消息在初始词组显示条上接收针对与修改提示消息对应的初始词组输入的分词调整指令,响应于分词调整指令对与修改提示消息对应的初始词组进行调整;并控制在初始词组显示条上显示调整后的结果。优选地,当在标注界面的标注区域内显示的初始词组显示条上,接收到针对待修改的初始词组的操作指令时,确定操作指令的指令标识;获取指令标识对应的分词调整指令。指令标识,可以是键盘的标识,也可以是触摸屏上的操作类型标识。键盘的标识,例如Enter。操作类型标识,例如双击动作。其操作类型可以根据实际需求设置。
如图7所示,在标注界面的标注区域502内的初始词组显示条5021上接收针对与修改提示消息对应的初始词组输入的分词调整指令。在初始词组显示条5021上先显示原始文本区域内显示的初始词组。用户可以直接在初始词组显示条中显示的初始词组的对应位置,输入词组调整指令,对初始词组进行调整。例如,接收通过人机交互接口中对应的快捷键输入的分词调整指令。人机交互接口,可以是触摸显示屏,或者触摸显示屏上显示的虚拟键盘,或者其他显示界面呈现的虚拟键盘,或者通过外部接口接入的键盘。通过在设置相应的快捷键,接收用户针对快捷键输入的操作指令,或者直接在触摸显示屏上输入双击指令,来实现对待修改词组的调整。例如,与短词合并对应的快捷键可以是Backspace键。用户直接在两个短词之间通过输入对Backspace键的操作指令,例如点击该Backspace键。即可完成两个短词的合并处理。又例如,与长词切短对应的快捷键可以是Enter键。用户直接在待修改词组上通过输入对Enter键的操作指令,例如点击Enter键,既可完成对待修改词组的切短处理,使得待修改词组切短成两个短的新词组。可选地,接收针对与每个待修改的初始词组对应的初始词性输入的词性调整指令,响应于词性调整指令对与每个待修改的初始词组对应的初始词性进行调整,可以在标注界面的初始词性显示条上显示初始分词结果所包含的与每个初始词组一一对应的初始词性;在标注界面的提示区域显示至少一个修改提示消息;根据修改提示消息,在初始词性显示条上接收针对修改提示消息对应的初始词性输入的词性调整指令,响应于词性调整指令对与修改提示消息对应的初始词组进行调整;并控制在初始词性显示条上显示调整后的结果。
可选地,接收在初始词性显示条上直接输入的词性。或者,在初始词性显示条上输入触控指令,响应于触控指令在初始词性显示条上显示词性选择区域,该词性选择区域包括多个词性标识,基于词性选择区域接收词性标识选择指令,根据词性标识选择指令生成待修改词组的词性调整指令。触控指令可以是在触摸显示屏上输入的,也可以是通过鼠标在初始词性显示条上进行点击输入的。或者,当在标注界面中标注区域内与待修改的初始词组对应的词性按钮被点击时,显示包含多个词性标识的词性展示菜单;基于词性展示菜单接收词性标识选择指令;根据词性标识选择指令生成待修改词组的词性调整指令。词性按钮可以是设置在初始词性显示条上的按钮,也可以是隐藏在初始词性显示条上的触控区域。前者例如可以是词性下拉按钮,后者,例如可以是词性显示位置,触控词型显示位置,则弹出词性下拉菜单。词性展示菜单,也可以词性下拉菜单,也可以是词性显示区域。
如图7所示,在标注界面的标注区域502内的初始词性显示条5022上接收针对修改提示消息对应的初始词性输入的词性调整指令,可以包括接收通过人机交互接口针对词性选项输入的词性调整指令,该词性选项是预先设置在初始词性显示条上,或者是通过人机交互接口在初始词性显示条上接收输入的触发指令,响应于触发指令显示的操作区域。操作区域的可以是词性下拉菜单,也可以是词性选择区域,词性选择区域可以屏幕大小适应性调整。
例如,在初始词性显示条上预先设置下拉框选项,用户可以在下拉框选项上输入的词性调整指令。如图7所示,在每个初始词组显示区域的下方设置一个或多个初始词性显示条5022,初始词性显示条5022包括词性显示区域50221,和词性下拉框选项50222。与初始词组对应的初始词性显示在词性显示区域50221中,用户可以在词性下拉框选项50222中输入词性调整指令,实现对词性的调整。其中,词性显示区域50221和词性下拉框选项50222也可以合成为一个触控区域,即实现显示功能又实现接收操作指令的功能。
又例如,用户通过人机交互接口,例如键盘,虚拟键盘,触摸屏等,在初始词性显示条上输入触发指令,响应于触发指令,在初始词性显示条的上层或者周围区域弹出的词性选项对应的操作区域。例如可以是浮窗或者类似活动的操作条。用户在词性选项对应的操作区域内输入选择指令来实现词性调整。
本申请实施例通,过将多个操作界面融合在一个界面上,直观显示整个标注过程,节省用户调用查看不同操作界面所需的时间,提高人工标注的效率。本申请实施例,还通过对初始词组和初始词性进行快捷处理,有效地提高了人工标注的效率。
下面结合图8-9对本申请实施例提供的辅助文本标注方法进行说明。图8示出了本申请实施例提供的辅助文本标注的原理示意图。
假设待标注文本为:据美国杂志《外交政策》5月7日报导,预备于5月9日举办一场讨论美国中情局渗透他国问题的研讨会。
调用分词工具对待标注文本进行预标注处理后得到初始分词结果;初始分词结果显示在如图(9a)所示的原文显示区域内。
初始分词结果为:
据/p美国/n杂志/n《/w外交政策/n》/w 5/q月/n 7/q日/n报导/n,/w预备/v于/p5/q月/n 9/q日/n举办/v一场/q讨论/v美国/n中情局/n渗透/v他/r国/n问题/n的/u研讨会/n。/w
再调用标准词库对初始分词结果进行校验审查得到待修改词组和与之对应校验提示信息。被切开的多个初始词组通过调用与词粒度对应的N元gram模型重组,发现重组后的分词在词库中成词。相应的将多个初始词组标记蓝色(即图9b中用单删除线标识)。在词库中未收录的词标记红色(即图9b中用双下划线标识),词库中成词,但词性错误标记绿色(即图9b中用双删除线标识)。对于初次未被标记任何特殊颜色的初始词组(图中未示意特殊标记),还可以通过调用与词粒度对应的N元gram模型识别交集型、组合型歧义、词性标注错误等问题。
如图(9b)所示,在词典审查区域内对待修改词组添加第一指示标识,在原文显示区域内对待修改词组添加第二指示标识,同时在提示区域内显示与第一指示标识对应的修改策略。
调用标准词库对初始分词结果进行校验审查,得到待修改词组。待修改词组属于没有收录的词组,可以调用多个不同的与字粒度对应的N元gram模型对待修改词组进行二次拆分。与字粒度对应的N元gram模型包括quadri-gram模型,tri-gram模型,bi-gram模型等。根据未被收录的待修改词组的字数从多个不同的与字粒度对应的N元gram模型选择部分模型,对待修改词组进行分词处理,得到多个第一重组分词。
例如,待修改词组包括5个字,则可以依次调用quadri-gram模型,tri-gram模型,bi-gram模型对待修改词组分别进行分词处理,然后调用标准词库对每个模型输出的重组分词进行逐个校验检查。若第一重组分词收录在标准词库中,则将该标准词组和与之对应的标准词性作为提示消息,建议用户按照标准词组对待修改词组进行调整。
以上述“外交政策/n”为例,该词被未收录在标准词库中。该词包括4个字,则依次调用tri-gram模型,bi-gram模型对待修改词组分别进行分词处理。
调用tri-gram模型输出的结果:
外交政交政策
即将“外交政策”拆分成两部分,这两部分均未在标准词库中收录,因此不做任何调整。
调用bi-gram模型输出的结果:
外交交政政策
即将“外交政策”拆分成三部分,其中“外交”和“政策”两部分均在词典中收录,建议在长词切短处展示“外交政策”对应的提示信息,该提示信息包括外交/n,政策/n。
上述调用多个不同维度的与字粒度对应的N元gram模型(即N-gram模型)对待修改词组进行拆分,得到多个第一重组分词,之后生成与之对应的校验提示信息,假设先调用bi-gram模型对待修改词组进行拆分得到多个二元重组分词。例如,“外交政策/n”可以拆分为“外交/n”,“交政/”,“政策/n”。
调用标准词库对每个二元重组分词进行校验审核,得到匹配结果。若匹配结果为匹配成功,则表示该二元重组分词被收录在标准词库中,此种情形,生成校验提示信息。校验提示信息包括二元重组分词和按照标准词库中标准词组对应的标准词性对该二元重组分词进行标准的与之对应的词性。例如“外交/n”和“政策/n”的匹配结果为匹配成功,而“交政”这个二元重组分词的匹配结果为匹配失败,则此种情况无需对“交政”做任何处理。生成与“外交政策/n”对应的校验提示信息为对“外交政策/n”添加红色标记(即图中用双下划线标识),显示“外交政策/n”的修改策略为:“外交/n”和“政策/n”。
然后,调用tri-gram模型对待修改词组进行拆分得到多个三元重组分词。例如,“外交政策/n”可以拆分成“外交政/”和“交政策”,调用标准词库对三元重组分词机型校验审核,结果为匹配失败,则表示上述三元重组分词均未收录在标准词库中。此种情形无需做任何调整。
同理,对上述“一场”和“研讨会”做相似的处理。“一场”虽被收录在标准词库中,但是该词在标准词库中没有对应的词性,“一场/q”标记红色标记(即图中用双下划线标识)。“研讨会”未被收录在词库中,则标记红色(即图中用双下划线标识),再按照与字粒度对应的N元gram模型对词组进行二次拆分,得到“研讨/n”,该词被收录在标准词库中,生成与“研讨会”对应的校验提示信息。
初始分词结果中“外交政策/n”,“一场/p”,“研讨会/n”在标准词库中没有收录,则在词典审查区域将这三个待修改词组添加红色标记,表示这三个待修改词组未收录在标准词库中。同时,还可以在提示区域生成与这三个待修改词组一一对应的修改提示消息。
然后,调用与词粒度对应的N元gram模型对初始分词结果进行二次拆分,得到多个第二重组分词。然后调用标准词库对每个第二重组分词进行校验审查。
例如,调用与词粒度对应的bi-gram模型对初始分词结果进行分词处理得到:
据美国美国杂志杂志外交政策外交政策5 5月月7 7日日报导报导预备预备于于55月月9 9日日举办举办一场一场讨论讨论美国美国中情局中情局渗透渗透他他国国问题问题的的研讨会。
对上述结果调用标准词库进行校验检查时,发现“他国”这个词在标准词库中被收录,则在词典审查区域的“他/r国/n”上添加蓝色标识,并在提示区域生成与“他/r国/n”对应的修改策略,该修改策略的类型为短词合并,修改策略指示的是标准词库中收录的标准词组和标准词性“他国/r”。这里的词性可以是两个待修改词组按照词序的首个待修改词组对应的词性。
然后,再调用与词粒度对应的tri-gram模型对初始分词结果进行分词处理得到:
据美国杂志美国杂志外交政策杂志外交政策5外交政策5月5月7月7日7日报导日报导预备报导预备于预备于5于5月5月9月9日9日举办日举办一场举办一场讨论一场讨论美国讨论美国中情局美国中情局渗透中情局渗透他渗透他国他国问题国问题的问题的研讨会。
对上述结果调用标准词库进行校验检查时,没有命中标准词库中收录的任何词,则不做任何调整。
在经过上述处理后,已完成对初始分词结果的校验审查。用户可以根据提示区的修改提示消息,接收用户通过键盘的快捷键输入的操作指令来对图(9b)示出的多个待修改词组进行调整。
图(9c)示出了对“他/r国/n”进行调整的结果。直接通过点击在词组显示条上显示的“他/r国/n”,然后点击键盘的“Backspcace”键,输入操作指令,则将“他”和“国”进行短词合并,得到“他国/r”。短词合并后对应的词性,可以默认为合并前的两个词组中的首个词组对应的词性。
图(9d)示出了对“外交政策/n”“一场/q”“研讨会/n”进行调整的结果。其中“研讨会/n”通过在键盘的某个方向箭头上输入的操作指令,将该词添加收录到标准词库中。为了通过界面显示清楚地展示操作过程,可以如图7所示的初始词性显示条5022的背景颜色的变化来指示修改(图中未示出颜色变化)。例如初始词性显示条5022的背景色修改前为黑色,在用户输入操作指令后,将“研讨会/n”添加到标准词库后,背景色调整为红色,表示修改完成。用户也可以通过输入与之前的方向箭头相反的方向箭头上输入操作指令,来撤销添加操作。其背景色相应的从红色变回黑色。
图(9e)示出了对“中情局/n”进行调整的示意图。调用标准词库对初始分词结果进行校验审查,得到待修改词组。待修改词组属于初始词组被收录在标准词库中,但是初始词性与标准词库中的词性不一致,则匹配结果为匹配失败。这种情况下,对待修改词组添加第一指示标识,并生成与之对应的修改提示消息。不用调用与字粒度对应的N元gram模型对其进行分词处理。
用户根据修改提示消息,对待修改词组对应的初始词性进行调整。例如,“中情局/n”对应的修改提示消息为“中情局/j”。用户可以通过触控在初始词性显示条上显示的向下箭头上输入第一操作指令,响应于第一操作指令,显示下拉菜单,在下拉菜单中罗列标准词库中收录的词性选项。用户在下拉菜单中显示的对应词性上输入第二操作指令,响应于第二操作指令,在词性显示区域内显示用户选中的词性对应的标识。
本申请实施例中通过在标注界面中通过添加标识和显示修改提示消息,来辅助用户对待修改词组进行调整,且通过设置的快捷键有效地减少用户调整操作的时间,有效地提高了人工标注的效率。
进一步地请参考图10,图10示出了根据本申请实施例提供的辅助文本标注装置的示例性结构框图。如图10所示,该装置包括:
获取单元1001,用于获取对待标注文本进行预标注处理后的初始分词结果,该初始分词结果包括多个初始词组和与每个初始词组一一对应的初始词性;
调用单元1002,用于调用标准词库对初始分词结果进行校验审查,得到待修改词组和待修改词组的校验提示信息;
接收单元1003,用于接收根据校验提示信息针对待修改词组输入的操作指令;
调整单元1004,用于响应于操作指令对待修改词组进行调整,得到待标注文本的标注结果。
调用单元包括:
调用子单元,用于调用标准词库对初始分词结果中每个初始词组和初始词组对应的初始词性进行校验,得到待修改词组和与待修改词组对应的修改策略;
显示子单元,用于显示与修改策略对应的校验提示信息。
调用子单元,还用于对初始分词结果中每个初始词组和初始词组对应的初始词性,与标准词库中的标准分词和标准分词对应的标准词性进行匹配,得到匹配结果;
根据匹配结果将匹配失败的初始词组作为待修改词组;
将待修改词组按照字粒度进行重组,得到多个第一重组分词;
调用标准词库对每个第一重组分词进行校验审核;
若第一重组分词与标准词库中的标准分词一致,则生成与待修改词组对应的校验提示信息,该校验提示信息用于指示将待修改词组按照第一重组分词进行调整的修改策略。
调用子单元,还用于:
将初始分词结果中的初始词组按照词粒度进行重组,得到多个第二重组分词;
调用标准词库对每个第二重组分词进行校验审核;
若第二重组分词与标准词库中的标准分词一致,则将与第二重组分词相关的初始词组作为待修改词组;并生成与第二重组分词对应的校验提示信息,该校验提示信息用于指示按照第二重组分词对初始分词结果进行调整的修改策略。
校验提示信息包括指示标识,指示标识用于指示与修改策略对应的修改类型,则显示子单元用于:
获取待修改词组所对应的修改策略和修改策略所对应的修改类型;
确定与修改策略的修改类型对应的第一指示标识;
在标注界面的词典审查区域内显示添加第一指示标识后的待修改词组。
校验提示信息还包括修改提示消息,该修改提示消息用于提示与待修改词组对应的修改策略,则显示子单元还用于:
获取与待修改词组对应的修改策略;
对修改策略进行归类处理,得到多个修改提示消息,每个修改提示消息包括至少一个待修改词组和与每个待修改词组对应的修改策略;
在标注界面的提示区域内显示修改提示消息。
显示子单元还用于:
获取与待修改词组对应的第二指示标识,该第二指示标识用于提示待修改词组在待标注文本中的原始位置;
在标注界面的原文显示区域内显示添加第二指示标识后的待修改词组。
待修改词组包括至少一个待修改的初始词组和每个待修改的初始词组所对应的初始词性,则接收单元可以包括:
第一接收子单元,用于接收根据校验提示信息针对每个待修改的初始词组输入的分词调整指令;或者,
第二接收子单元,用于接收根据校验提示信息针对与每个待修改的初始词组对应的初始词性输入的词性调整指令。
第一接收子单元,还用于当在标注界面的标注区域内显示的初始词组显示条上,接收到针对待修改的初始词组的操作指令时,确定操作指令的指令标识;获取指令标识对应的分词调整指令。
第二接收子单元,还用于当在标注界面中标注区域内与待修改的初始词组对应的词性按钮被点击时,显示包含多个词性标识的词性展示菜单;基于词性展示菜单,接收词性标识选择指令;根据词性标识选择指令生成待修改词组的词性调整指令。
应当理解,装置中记载的诸单元或模块与上述描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作指令和特征同样适用于装置及其中包含的单元,在此不再赘述。装置可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面参考图11,图11示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。
如图11所示,计算机系统包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有系统的操作指令所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线504。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本公开的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、调用单元、接收单元以及调整单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取单元,还可以被描述为“用于获取对待标注文本进行预标注处理后的初始分词结果的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的辅助文本标注方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种辅助文本标注方法,其特征在于,该方法包括:
获取对待标注文本进行预标注处理后的初始分词结果,所述初始分词结果包括多个初始词组和与每个所述初始词组一一对应的初始词性;
调用标准词库对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性进行校验,得到待修改词组和与所述待修改词组对应的修改策略;
显示与所述修改策略对应的校验提示信息;
接收根据所述校验提示信息针对所述待修改词组输入的操作指令,所述操作指令用于对所述待修改词组的词组本身和/或所述待修改词组的词性进行调整;
响应于所述操作指令对所述待修改词组进行调整,得到与所述待标注文本对应的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述调用标准词库对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性进行校验包括:
对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性,与所述标准词库中的标准分词和所述标准分词对应的标准词性进行匹配,得到匹配结果;
根据所述匹配结果将匹配失败的初始词组作为待修改词组;
将所述待修改词组按照字粒度进行重组,得到多个第一重组分词;
调用所述标准词库对每个所述第一重组分词进行校验审核;
若所述第一重组分词与所述标准词库中标准分词一致,则生成与所述待修改词组对应的校验提示信息,所述校验提示信息用于指示将所述待修改词组按照所述第一重组分词进行调整的修改策略。
3.根据权利要求1所述的方法,其特征在于,所述调用标准词库对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性进行校验包括:
将所述初始分词结果中的初始词组按照词粒度进行重组,得到多个第二重组分词;
调用所述标准词库对每个所述第二重组分词进行校验审核;
若所述第二重组分词与所述标准词库中的标准分词一致,则将与所述第二重组分词相关的初始词组作为待修改词组;并生成与所述第二重组分词对应的校验提示信息,所述校验提示信息用于指示按照所述第二重组分词对所述初始分词结果进行调整的修改策略。
4.根据权利要求1所述的方法,其特征在于,所述校验提示信息包括第一指示标识,所述第一指示标识用于指示与修改策略对应的修改类型,则所述显示与所述修改策略对应的校验提示信息包括:
获取所述待修改词组所对应的修改策略和所述修改策略所对应的修改类型;
确定与所述修改策略的修改类型对应的第一指示标识;
在标注界面的词典审查区域内显示添加所述第一指示标识后的所述待修改词组。
5.根据权利要求1所述的方法,其特征在于,所述校验提示信息还包括修改提示消息,所述修改提示消息用于提示与所述待修改词组对应的修改策略,则所述显示与所述修改策略对应的校验提示信息包括:
获取与所述待修改词组对应的修改策略;
对所述修改策略进行归类处理,得到多个修改提示消息,每个所述修改提示消息包括至少一个待修改词组和与每个所述待修改词组对应的修改策略;
在标注界面的提示区域内显示所述修改提示消息。
6.根据权利要求1所述的方法,其特征在于,所述显示与所述修改策略对应的校验提示信息还包括:
获取与所述待修改词组对应的第二指示标识,所述第二指示标识用于提示所述待修改词组在所述待标注文本中的原始位置;
在标注界面的原文显示区域内显示添加所述第二指示标识后的所述待修改词组。
7.根据权利要求1所述的方法,其特征在于,所述待修改词组包括至少一个待修改的初始词组和每个所述待修改的初始词组所对应的初始词性,所述接收根据所述校验提示信息针对所述待修改词组输入的操作指令包括:
接收根据所述校验提示信息针对每个所述待修改的初始词组输入的分词调整指令;或者,
接收根据所述校验提示信息针对与每个所述待修改的初始词组对应的初始词性输入的词性调整指令。
8.根据权利要求7所述的方法,其特征在于,所述接收根据所述校验提示信息针对每个所述待修改的初始词组输入的分词调整指令包括:
当在标注界面的标注区域内显示的初始词组显示条上,接收到针对所述待修改的初始词组的操作指令时,确定所述操作指令的指令标识;
获取所述指令标识对应的分词调整指令。
9.根据权利要求7所述的方法,其特征在于,所述接收根据所述校验提示信息针对与每个所述待修改的初始词组对应的初始词性输入的词性调整指令包括:
当在标注界面中标注区域内与待修改的初始词组对应的词性按钮被点击时,显示包含多个词性标识的词性展示菜单;
基于所述词性展示菜单,接收词性标识选择指令;
根据所述词性标识选择指令生成所述待修改词组的词性调整指令。
10.一种辅助文本标注装置,其特征在于,该装置包括:
获取单元,用于获取对待标注文本进行预标注处理后的初始分词结果,所述初始分词结果包括多个初始词组和与每个所述初始词组一一对应的初始词性;
调用单元,用于调用标准词库对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性进行校验,得到待修改词组和与所述待修改词组对应的修改策略;
显示单元,用于显示与所述修改策略对应的校验提示信息;
接收单元,用于接收根据所述校验提示信息针对所述待修改词组输入的操作指令,所述操作指令用于对所述待修改词组的词组本身和/或所述待修改词组的词性进行调整;
调整单元,用于响应于操作指令对所述待修改词组进行调整,得到与所述待标注文本对应的标注结果。
11.根据权利要求10所述的装置,其特征在于,所述调用单元,还用于:
对所述初始分词结果中每个所述初始词组和所述初始词组对应的初始词性,与所述标准词库中的标准分词和所述标准分词对应的标准词性进行匹配,得到匹配结果;
根据所述匹配结果将匹配失败的初始词组作为待修改词组;
将所述待修改词组按照字粒度进行重组,得到多个第一重组分词;
调用所述标准词库对每个所述第一重组分词进行校验审核;
若所述第一重组分词与所述标准词库中标准分词一致,则生成与所述待修改词组对应的校验提示信息,所述校验提示信息用于指示将所述待修改词组按照所述第一重组分词进行调整的修改策略。
12.根据权利要求10所述的装置,其特征在于,所述调用单元,还用于:
将所述初始分词结果中的初始词组按照词粒度进行重组,得到多个第二重组分词;
调用所述标准词库对每个所述第二重组分词进行校验审核;
若所述第二重组分词与所述标准词库中的标准分词一致,则将与所述第二重组分词相关的初始词组作为待修改词组;并生成与所述第二重组分词对应的校验提示信息,所述校验提示信息用于指示按照所述第二重组分词对所述初始分词结果进行调整的修改策略。
13.根据权利要求10所述的装置,其特征在于,所述校验提示信息包括第一指示标识,所述第一指示标识用于指示与修改策略对应的修改类型,则所述显示单元,还用于:
获取所述待修改词组所对应的修改策略和所述修改策略所对应的修改类型;
确定与所述修改策略的修改类型对应的第一指示标识;
在标注界面的词典审查区域内显示添加所述第一指示标识后的所述待修改词组。
14.根据权利要求10所述的装置,其特征在于,所述校验提示信息还包括修改提示消息,所述修改提示消息用于提示与所述待修改词组对应的修改策略,则所述显示单元,还用于:
获取与所述待修改词组对应的修改策略;
对所述修改策略进行归类处理,得到多个修改提示消息,每个所述修改提示消息包括至少一个待修改词组和与每个所述待修改词组对应的修改策略;
在标注界面的提示区域内显示所述修改提示消息。
15.根据权利要求10所述的装置,其特征在于,所述显示单元,还用于:
获取与所述待修改词组对应的第二指示标识,所述第二指示标识用于提示所述待修改词组在所述待标注文本中的原始位置;
在标注界面的原文显示区域内显示添加所述第二指示标识后的所述待修改词组。
16.根据权利要求10所述的装置,其特征在于,所述待修改词组包括至少一个待修改的初始词组和每个所述待修改的初始词组所对应的初始词性,所述接收单元包括:
第一接收子单元,用于接收根据所述校验提示信息针对每个所述待修改的初始词组输入的分词调整指令;或者,
第二接收子单元,用于接收根据所述校验提示信息针对与每个所述待修改的初始词组对应的初始词性输入的词性调整指令。
17.根据权利要求16所述的装置,其特征在于,所述第一接收子单元,还用于:
当在标注界面的标注区域内显示的初始词组显示条上,接收到针对所述待修改的初始词组的操作指令时,确定所述操作指令的指令标识;
获取所述指令标识对应的分词调整指令。
18.根据权利要求16所述的装置,其特征在于,所述第二接收子单元,还用于:
当在标注界面中标注区域内与待修改的初始词组对应的词性按钮被点击时,显示包含多个词性标识的词性展示菜单;
基于所述词性展示菜单,接收词性标识选择指令;
根据所述词性标识选择指令生成所述待修改词组的词性调整指令。
19.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266600.8A CN111611779B (zh) | 2020-04-07 | 2020-04-07 | 辅助文本标注方法、装置、设备及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266600.8A CN111611779B (zh) | 2020-04-07 | 2020-04-07 | 辅助文本标注方法、装置、设备及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611779A CN111611779A (zh) | 2020-09-01 |
CN111611779B true CN111611779B (zh) | 2023-10-13 |
Family
ID=72203652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010266600.8A Active CN111611779B (zh) | 2020-04-07 | 2020-04-07 | 辅助文本标注方法、装置、设备及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611779B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051401A (zh) * | 2021-04-06 | 2021-06-29 | 明品云(北京)数据科技有限公司 | 一种文本结构化标注方法、系统、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
CN109299296A (zh) * | 2018-11-01 | 2019-02-01 | 郑州云海信息技术有限公司 | 一种交互式图像文本标注方法与系统 |
CN110610003A (zh) * | 2019-08-15 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 用于辅助文本标注的方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183195B2 (en) * | 2013-03-15 | 2015-11-10 | Disney Enterprises, Inc. | Autocorrecting text for the purpose of matching words from an approved corpus |
US10891428B2 (en) * | 2013-07-25 | 2021-01-12 | Autodesk, Inc. | Adapting video annotations to playback speed |
US9690771B2 (en) * | 2014-05-30 | 2017-06-27 | Nuance Communications, Inc. | Automated quality assurance checks for improving the construction of natural language understanding systems |
-
2020
- 2020-04-07 CN CN202010266600.8A patent/CN111611779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402916A (zh) * | 2017-07-17 | 2017-11-28 | 广州特道信息科技有限公司 | 中文文本的分词方法及装置 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
CN109299296A (zh) * | 2018-11-01 | 2019-02-01 | 郑州云海信息技术有限公司 | 一种交互式图像文本标注方法与系统 |
CN110610003A (zh) * | 2019-08-15 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 用于辅助文本标注的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111611779A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565282B1 (en) | Automatic entry of suggested translated terms in an online application program | |
US20210295095A1 (en) | Event extraction method, event extraction device, and electronic device | |
US8984348B2 (en) | Semi-automatic conversion and execution of functional manual tests | |
US10861437B2 (en) | Method and device for extracting factoid associated words from natural language sentences | |
US11709893B2 (en) | Search method, electronic device and storage medium | |
US10977155B1 (en) | System for providing autonomous discovery of field or navigation constraints | |
US11727213B2 (en) | Automatic conversation bot generation using input form | |
US20230023789A1 (en) | Method for identifying noise samples, electronic device, and storage medium | |
US11301643B2 (en) | String extraction and translation service | |
CN109408834B (zh) | 辅助机器翻译方法、装置、设备及存储介质 | |
US9697194B2 (en) | Contextual auto-correct dictionary | |
CN111611779B (zh) | 辅助文本标注方法、装置、设备及其存储介质 | |
CN111581971B (zh) | 词库的更新方法、装置、终端及存储介质 | |
CN113672699A (zh) | 基于知识图谱的nl2sql生成方法 | |
CN108932225A (zh) | 用于将自然语言需求转换成为语义建模语言语句的方法和系统 | |
CN111488743A (zh) | 一种文本辅助处理方法和系统 | |
CN117130593A (zh) | 代码处理方法、系统和电子设备 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
Veizaga et al. | Automated smell detection and recommendation in natural language requirements | |
US20200265117A1 (en) | System and method for language independent iterative learning mechanism for nlp tasks | |
US9311295B2 (en) | Procedure extraction and enrichment from unstructured text using natural language processing (NLP) techniques | |
KR20190130905A (ko) | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 | |
KR101786019B1 (ko) | 지능형 문장 자동 완성 방법 및 장치 | |
CN111104118A (zh) | 一种基于aiml的自然语言指令执行方法及系统 | |
US20230325613A1 (en) | Smart translation systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028453 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |