CN115658885A - 文本智能标注方法、系统、智能终端及存储介质 - Google Patents
文本智能标注方法、系统、智能终端及存储介质 Download PDFInfo
- Publication number
- CN115658885A CN115658885A CN202211026245.2A CN202211026245A CN115658885A CN 115658885 A CN115658885 A CN 115658885A CN 202211026245 A CN202211026245 A CN 202211026245A CN 115658885 A CN115658885 A CN 115658885A
- Authority
- CN
- China
- Prior art keywords
- text
- real
- sample data
- labeling
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了文本智能标注方法、系统、智能终端及存储介质,其中,上述方法包括:获取待标注文本;根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。与现有技术相比,本发明中使用的文本分类模型可以预先结合真实样本数据和模拟样本数据训练获得。即使在真实样本数据较少或难以采集到真实样本数据时,也可以基于采集的少量真实样本数据生成大量模拟样本数据,从而提高文本分类模型的训练效果,进而提高文本标注的效果和准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种文本智能标注方法、系统、智能终端及存储介质。
背景技术
随着科学技术的发展,各个领域的文本数据不断增多,在进行文本数据处理或分析之前,需要先对各个文本进行标注。
现有技术中的一种方案是直接基于预先真实采集和标注的样本数据训练用于进行文本分类的模型,基于模型实现文本标注。现有技术的问题在于,模型在训练过程中需要大量的样本数据,对于样本数据不足(即难以采集到大量文本)的领域或场景则模型的训练效果不好,不利于提高文本标注的效果。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种文本智能标注方法、系统、智能终端及存储介质,旨在解决现有技术中直接基于预先真实采集和标注的样本数据训练训练模型并进行文本标注时,在样本数据不足的情况下模型的训练效果不好,不利于提高文本标注效果的问题。
为了实现上述目的,本发明第一方面提供一种文本智能标注方法,其中,上述文本智能标注方法包括:
获取待标注文本;
根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
可选的,上述文本分类模型根据如下步骤进行预先训练:
获取目标对象输入的真实样本数据,其中,上述真实样本数据包括至少一个真实文本;
根据上述真实样本数据生成上述模拟样本数据,向上述目标对象展示未标注文本,根据上述目标对象输入的真实标注信息对对应的未标注文本进行类别标注以将对应的未标注文本转换为已标注文本,其中,上述模拟样本数据包括多个模拟文本,上述未标注文本包括未标注的真实文本和未标注的模拟文本,上述已标注文本包括已标注的真实文本和已标注的模拟文本;
将上述已标注文本输入上述文本分类模型,根据上述文本分类模型生成上述已标注文本对应的预测标注信息,根据上述已标注文本对应的真实标注信息和预测标注信息,对上述文本分类模型的模型参数进行调整,并继续执行上述根据上述真实样本数据生成上述模拟样本数据的步骤,直至满足预设训练条件,以得到训练好的文本分类模型。
可选的,上述根据上述真实样本数据生成上述模拟样本数据,包括:
对于上述真实样本数据中的每一个真实文本,基于预先训练的多个文本直接生成模型通过直接生成的步骤生成多个对应的模拟文本;
对于上述真实样本数据中的每一个已标注的真实文本,基于预先训练的多个文本受控生成模型通过受控生成的步骤生成多个对应的模拟文本;
其中,一个上述文本直接生成模型或一个上述文本受控生成模型根据输入的一个真实文本生成一个对应的模拟文本。
可选的,上述直接生成的步骤包括:将上述真实文本输入上述文本直接生成模型,将上述文本直接生成模型输出的文本作为该真实文本对应的模拟文本;
上述受控生成的步骤包括:将上述已标注的真实文本输入上述文本分类模型,获取上述已标注的真实文本对应的预测标注信息,将上述已标注的真实文本、上述已标注的真实文本对应的真实标注信息和预测标注信息输入上述文本受控生成模型进行受控文本生成,将上述文本受控生成模型输出的文本作为该已标注的真实文本对应的模拟文本。
可选的,上述向上述目标对象展示未标注文本,包括:
分别获取各上述未标注文本的目标特征,其中,上述目标特征包括类别标志和目标隐向量,上述类别标志用于区分上述未标注文本的来源,上述未标注的真实文本的目标隐向量是预先设置的默认隐向量,上述未标注的模拟文本的目标隐向量是文本直接生成模型或文本受控生成模型生成该未标注的模拟文本的过程中产生的隐向量;
根据上述目标特征,通过预先设置的多层全连接网络获取各上述未标注文本的排序分数;
根据上述排序分数向上述目标对象依次展示各上述未标注文本。
可选的,上述根据上述排序分数向上述目标对象依次展示各上述未标注文本,包括:将各上述未标注文本输入上述文本分类模型,根据上述文本分类模型输出的预测标注信息获得各上述未标注文本对应的候选标签;
根据上述排序分数生成多个展示页面,其中,一个上述展示页面中包括多个上述未标注文本以及各上述未标注文本对应的候选标签;
向上述目标对象依次展示各上述展示页面。
可选的,上述方法还包括:
在上述文本分类模型的训练过程中,每一次更新上述文本分类模型的模型参数之后,将所有上述已标注文本输入上述文本分类模型并获得对应的预测标注信息,根据上述已标注文本对应的真实标注信息和预测标注信息计算获取上述文本分类模型的分类准确度;
根据上述文本分类模型在训练过程中获得的所有分类准确度生成分类效果展示图,向上述目标对象展示上述分类效果展示图,并获取上述目标对象基于上述分类效果展示图反馈的训练指令;
其中,上述预设训练条件是上述训练指令为训练结束指令。
本发明第二方面提供一种文本智能标注系统,其中,上述文本智能标注系统包括:
待标注文本获取模块,用于获取待标注文本;
标注模块,用于根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的文本智能标注程序,上述文本智能标注程序被上述处理器执行时实现任意一项上述文本智能标注方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有文本智能标注程序,上述文本智能标注程序被处理器执行时实现任意一项上述文本智能标注方法的步骤。
由上可见,本发明方案中,获取待标注文本;根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
与现有技术中只能根据预先真实采集和标注的样本数据进行模型训练从而根据训练后的模型进行文本标注的方案相比,本发明中使用的文本分类模型可以预先结合真实样本数据和模拟样本数据训练获得。即使在真实样本数据较少或难以采集到真实样本数据的领域中,也可以基于采集的少量真实样本数据生成大量模拟样本数据,从而提高文本分类模型的训练效果,进而提高文本标注的效果和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种文本智能标注方法的流程示意图;
图2是本发明实施例提供的一种展示页面示意图;
图3是本发明实施例提供的一种分类效果展示图;
图4是本发明实施例提供的一种数据集对应的分类效果展示图;
图5是本发明实施例提供的一种文本分类模型的具体训练过程示意图;
图6是本发明实施例提供的一种文本智能标注系统的组成模块示意图;
图7是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于分类到”。类似的,短语“如果确定”或“如果分类到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦分类到[所描述的条件或事件]”或“响应于分类到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着科学技术的发展,各个领域的文本数据不断增多,在进行文本数据处理或分析之前,需要先对各个文本进行标注。
现有技术中的一种方案是通过用户对文本进行逐一手动标注,但需要用户一一操作,耗费的时间长且工作量大,不利于提高文本标注的效率。
随着人工智能(AI,Artificial Intelligence)技术和理论的日益成熟,AI算法的应用领域也越来越广,因此也可以利用AI算法进行文本分类。例如,可以使用预训练模型执行文本分类相关任务。现有技术中的另一种方案是直接基于预先真实采集和标注的样本数据训练用于进行文本分类的模型,基于模型实现文本标注。现有技术的问题在于,模型在训练过程中需要大量的样本数据,对于样本数据不足(即难以采集到大量文本)的领域或场景则模型的训练效果不好,不利于提高文本标注的效果。
同时,对于采集获得的每一个样本数据,都需要用户手动一一标注,现有技术中通常按照采集顺序展示给用户进行标注,缺乏对于样本数据的重要性的区分,在有限的标注时间内用户可能会标注大量不重要的样本而没有标注到重要的样本,也不利于提高模型训练效率和效果。
具体的,常规的文本分类算法需要获取相关具体任务的一定量的有标注的数据,但是很多文本分类的应用场景处在冷启动的阶段,没有办法获取充分的数据,同时也有些业务场景虽然具备一定量的数据,但是很多数据并没有进行合理有效的人工标注从而无法直接使用进行文本分类模型的构建。即可能出现在部分业务场景下训练模型时需求的数据超出了实际可以提供的数据,无法使用该模型进行有效的分类。或者该业务场景中有大量文本数据没有进行人工标注,不能直接用于训练模型,而一一人工标注需要耗费大量时间且效率很低。
为了解决上述多个问题中的至少一个问题,本发明方案中,获取待标注文本;根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
与现有技术中只能根据预先真实采集和标注的样本数据进行模型训练从而根据训练后的模型进行文本标注的方案相比,本发明中使用的文本分类模型可以预先结合真实样本数据和模拟样本数据训练获得。即使在真实样本数据较少或难以采集到真实样本数据的领域中,也可以基于采集的少量真实样本数据生成大量模拟样本数据,从而提高文本分类模型的训练效果,进而提高文本标注的效果和准确性。
同时,本发明中进行文本分类模型训练时,对于未标注的文本会根据其重要程度进行排序后再输出给用户(即目标对象)进行标注,使得用户可以按照排序顺序对先标注重要(即业务价值更高)的文本,有利于提高文本分类模型的训练效率和效果,从而达到更有更加高效的提升分类效果的目的。
示例性方法
如图1所示,本发明实施例提供一种文本智能标注方法,具体的,上述方法包括如下步骤:
步骤S100,获取待标注文本。
其中,上述待标注文本是需要进行标注的文本,可以由用户(例如目标对象)输入,也可以由其它智能设备输入,在此不作具体限定。
本实施例方法中,根据预先训练好的文本分类模型对上述待标注文本进行分类,获得其对应的类别标签(即预测标注信息),然后将该待标注文本标记上对应的类别。
需要说明的是,文本分类模型在训练过程中使用的训练数据与该待标注文本是相同领域的数据或相同场景,且文本分类模型输出的类别标签取决在训练过程中使用的用户输入的真实标注信息。例如,训练过程中用户把对应的训练样本数据中的文本标注成财经、娱乐等类别,则在对待标注文本标注时也会将其标注成财经、娱乐等类别。本实施例中,上述待标注文本是医学领域的文本,且训练过程中用户把对应的训练样本数据中的文本标注成脑出血、高血压等病症类别,则使用分类模型对上述待标注文本进行标注时也将其标注成对应的病症类别。
步骤S200,根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
具体的,在标注时将待标注文本作为训练好的文本分类模型的输入数据,将对应输出的预测标注信息作为该待标注文本的类别并标注。
本实施例中对用户上传的待标注文本数据,基于预先训练好的文本分类模型在具体的下游文本分类任务上进行相应的文本分类。其中,上述文本分类模型可以是预训练模型bert,基于训练数据集对预训练模型bert进行分类训练,并在测试数据集上进行测试得到分类准确度的结果,对预训练模型bert的模型参数进行迭代更新,最终将训练完成的bert模型作为上述预先训练好的文本分类模型cls-model。其中,训练数据集和测试数据集可以根据训练样本数据划分获得,具体划分方式不做限定。
需要说明的是,相对于对通用文本语料进行模型的预训练而言,仅仅对某个具体领域数据集的自然语言文本理解或者自然语言文本生成的具体任务即为下游任务。
本实施例中,上述文本分类模型根据如下步骤进行预先训练:
获取目标对象输入的真实样本数据,其中,上述真实样本数据包括至少一个真实文本;
根据上述真实样本数据生成上述模拟样本数据,向上述目标对象展示未标注文本,根据上述目标对象输入的真实标注信息对对应的未标注文本进行类别标注以将对应的未标注文本转换为已标注文本,其中,上述模拟样本数据包括多个模拟文本,上述未标注文本包括未标注的真实文本和未标注的模拟文本,上述已标注文本包括已标注的真实文本和已标注的模拟文本;
将上述已标注文本输入上述文本分类模型,根据上述文本分类模型生成上述已标注文本对应的预测标注信息,根据上述已标注文本对应的真实标注信息和预测标注信息,对上述文本分类模型的模型参数进行调整,并继续执行上述根据上述真实样本数据生成上述模拟样本数据的步骤,直至满足预设训练条件,以得到训练好的文本分类模型。
本实施例中,上述目标对象是控制文本智能标注过程的操作人员。其中,上述真实文本是用户预先采集的真实的语句文本,且本实施例中用户输入的真实样本数据中至少包括一条已经标注的真实文本,以训练对应的文本分类模型。在一种应用场景中,如果用户输入的真实样本数据中所有的文本都是未标注过的,则先向用户展示对应的真实文本以供用户进行标注。
具体的,上述根据上述真实样本数据生成上述模拟样本数据,包括:
对于上述真实样本数据中的每一个真实文本,基于预先训练的多个文本直接生成模型通过直接生成的步骤生成多个对应的模拟文本;
对于上述真实样本数据中的每一个已标注的真实文本,基于预先训练的多个文本受控生成模型通过受控生成的步骤生成多个对应的模拟文本;
其中,一个上述文本直接生成模型或一个上述文本受控生成模型根据输入的一个真实文本生成一个对应的模拟文本。
需要说明的是,上述模拟样本数据是由预先训练好的文本生成模型生成的,文本生成模型包括文本直接生成模型和文本受控生成模型,分别用于实现直接生成文本和受控生成文本。在一种应用场景中,可以仅采用直接生成文本的方式或受控生成文本的方式。本实施例中,结合两种方式,既可以通过直接生成文本的方式快速生成较多文本,又可以结合受控生成文本的方式提高生成的文本与原始的真实文本的相似性,从而使文本分类模型的训练效果更好。
进一步的,上述文本直接生成模型和文本受控生成模型可以是对相同或不同的模型结构采用不同的方式训练获得的。本实施例中,文本生成模型是通过预先设置的离线过程训练获得的,具体的,根据预先设置的大量通用文本语料,利用基于预训练大模型的基础文本生成技术(例如ELMO、MASS、GPT、VAE),针对此任务进行充分的训练得到多个文本生成模型base-model(例如ELMO-base,MASS-base,GPT-base,VAE-base),这些base model的作用都是接收一句输入文本,然后可以根据此文本生成一句近似文本。需要说明的是,文本直接生成模型和文本受控生成模型在训练和使用时对应的输入数据不同,文本直接生成模型只需要输入原始的真实文本,而文本受控生成还需要输入针对真实文本的标注数据等其它数据。本实施例中,将真实文本记为text-o,将生成的模拟文本记为text-g。
具体的,本实施例中会反复执行文本生成的步骤,在进行文本直接生成时可以将没有标注的文本都返回以进行文本生成。而进行文本受控生成时则会将用户已经标注过的数据返回以进行文本生成。
进一步的,上述直接生成的步骤包括:将上述真实文本输入上述文本直接生成模型,将上述文本直接生成模型输出的文本作为该真实文本对应的模拟文本;
上述受控生成的步骤包括:将上述已标注的真实文本输入上述文本分类模型,获取上述已标注的真实文本对应的预测标注信息,将上述已标注的真实文本、上述已标注的真实文本对应的真实标注信息和预测标注信息输入上述文本受控生成模型进行受控文本生成,将上述文本受控生成模型输出的文本作为该已标注的真实文本对应的模拟文本。
具体的,在进行文本直接生成时,利用多个base-model进行文本生成,每一个text-o文本将对应生成多句相对应的text-g文本。在一种应用场景中,一个真实文本text-o为:“我想成为亿万富翁。”对应的一种直接生成的模拟文本text-g为:“我要从现在开始节约每一分钱。”通过另一个文本生成模型生成的另一个模拟文本为:“我定下许多目标,不停地努力工作。”
具体的,在进行文本受控生成的步骤时需要使用的是已标注的真实文本(可以包括预先已经标注好的真实文本,也可以包括展示给用户后由用户标注好的真实文本)。具体的,使用本实施例中的文本分类模型(可以是训练过程中的当前文本分类模型)对真实文本的类别进行预测,获得预测标注信息。然后将对应的真实标注信息与预测标注信息不一致的部分和对应的真实文本选择出来组成数据集F,利用数据集F根据受控文本生成技术对真实文本进行文本受控的生成以获得对应的模拟文本。本实施例中,基于受控文本生成可以获得更贴近真实文本的模拟文本,从而提高文本分类模型的训练效果。
在一种应用场景中,可以直接将未标注文本展示给目标对象以便目标对象进行标注。本实施例中,还针对所有未标注文本按照重要程度进行排序后再按照排序结果展示给用户,以便用户先对更重要的未标注文本进行标注。
具体的,上述向上述目标对象展示未标注文本,包括:分别获取各上述未标注文本的目标特征,其中,上述目标特征包括类别标志和目标隐向量,上述类别标志用于区分上述未标注文本的来源,上述未标注的真实文本的目标隐向量是预先设置的默认隐向量,上述未标注的模拟文本的目标隐向量是文本直接生成模型或文本受控生成模型生成该未标注的模拟文本的过程中产生的隐向量;
根据上述目标特征,通过预先设置的多层全连接网络获取各上述未标注文本的排序分数;
根据上述排序分数向上述目标对象依次展示各上述未标注文本。
具体的,本实施例中,排序时的未标注文本包括生成的模拟文本和用户上传的未标注的真实文本。
本实施例中,对所有未标注的文本进行排序,其中,排序时使用的具体的目标特征可以根据实际需求进行设置和调整,在此不作具体限定。
在一种应用场景中,先对未标注的模拟文本text-g进行特征提取,提取的目标特征包括:类别标志,类别标志用于区分对应的文本是通过生成模型生成的还是输入的未标注的真实文本;目标隐向量,若未标注文本是文本生成模型生成的模拟文本,则在其生成的过程中,将在文本生成模型base-model输出层产生的隐向量作为目标隐向量;若未标注文本是用户提供的未标注的真实文本,则用一个默认隐向量用作占位,其中,默认隐向量的值可以根据实际需求设置和调整。
在另一种应用场景中,进行特征提取时还可以提取其它特征。例如,将text-g输入到分类模型cls-model中得到文本在每个类别中的概率分布向量V,计算V的统计特征(包括方差、熵、最大值、top-N值的差别);以及V与对应text-o的类别标签之间的交叉熵。其中,top-N值的差别代表概率分布向量V中排序后选取的最大或最小的N个数据的差别。
进一步的,还可以提取text-g在cls-model中对应cls位的向量,其中,cls位的向量是bert类型分类模型会输出的一种中间向量,具体代表bert类型分类模型中自注意力介质将所有文本词隐向量加权求和后获得的向量。
进一步的,提取上述目标特征之后,通过多层全连接网络MLP-s得到相应的排序分数rank-score,以便根据排序分数进行排序和展示。本实施例中,还可以将每条未标注文本和其对应的rank-score组成二元组作为排序组结果,以便于进行排序,提高处理效率。
其中,上述多层全连接网络MLP-s是预先离线训练获得的。具体的,可以预先在线下对大量相关文本分类任务构建全连接网络MLP-s的线下训练集,训练集中包括提取的目标特征,以及对应的标注,标注具体为是否有益于提升文本分类效果。将其训练集中多个特征合并输入到多层全连接网络MLP-s中,对其网络进行充分训练得到最终合适的网络参数。
本实施例中,生成展示页面,以进行更好的展示并方便用户进行标注。具体的,上述根据上述排序分数向上述目标对象依次展示各上述未标注文本,包括:将各上述未标注文本输入上述文本分类模型,根据上述文本分类模型输出的预测标注信息获得各上述未标注文本对应的候选标签;
根据上述排序分数生成多个展示页面,其中,一个上述展示页面中包括多个上述未标注文本以及各上述未标注文本对应的候选标签;
向上述目标对象依次展示各上述展示页面。
图2是本发明实施例提供的一种展示页面示意图,如图2所示,本实施例中,一个展示页面中可以包括未标注文本、该未标注文本对应的全部标签和候选标签,其中,上述全部标签通过下拉键打开,候选标签则用于提示用户该未标注文本最有可能的标签类别。同时,上述展示页面还可以设置上一页、下一页、重置标注、结束标注、效果显示、保存任务等按钮,以方便用户操作。进一步的,上述展示页面还可以显示当前在第几页,一共有多少页,并且设置跳页按钮。需要说明的是,在一个展示页面中,未标注文本按照排序分数由高到低的顺序从上到下排列,且一个展示页面中未标注文本的排序分数大于其下一个展示页面中未标注文本的排序分数。
具体的,上述展示页面可以通过网页、app、电脑终端等途径进行展示。展示页面中的候选标签可以选用未标注文本对应的真实文本的真实标注信息,也可以选用将对应的未标注文本(或未标注的模拟文本)通过分类模型cls-model初步预测的类别标签,在此不作具体限定。
需要说明的是,在对分类模型进行训练的过程中,预设的训练条件可以是分类模型在测试集上计算获得的损失小于预设的损失阈值、分类模型的分类准确度大于预设的准确度阈值、迭代次数达到预设的迭代阈值或者接收到用户输入的停止训练的指令。
本实施例中,上述方法还包括:在上述文本分类模型的训练过程中,每一次更新上述文本分类模型的模型参数之后,将所有上述已标注文本输入上述文本分类模型并获得对应的预测标注信息,根据上述已标注文本对应的真实标注信息和预测标注信息计算获取上述文本分类模型的分类准确度;
根据上述文本分类模型在训练过程中获得的所有分类准确度生成分类效果展示图,向上述目标对象展示上述分类效果展示图,并获取上述目标对象基于上述分类效果展示图反馈的训练指令;其中,上述预设训练条件是上述训练指令为训练结束指令。
具体的,在进行文本分类模型的训练时,根据已标注的真实文本和已标注的模拟文本对预训练模型bert进行分类训练,从而根据其输出数据对其模型参数进行调整,以提高该模型的分类准确度,直到分类准确度可以满足用户的要求。本实施例中,每进行一次模型更新之后,会计算更新后的文本分类模型的准确度,具体的,准确度可以根据该模型预测出的预测标注信息与真实标注信息之间的偏差来计算,例如,可以将预测出错的文本条数除以总的文本条数的值作为准确度。
需要说明的是,随着用户标注的文本越来越多,以及根据文本生成模型生成的模拟文本的数目越来越多,用于对文本分类模型进行训练的已标注文本的条数也越来越多,但由于模拟文本会带来误差,因此并不是已标注文本的条数越多就代表训练效果越好(即准确度越高)。因此本实施例中将计算获得的准确度都进行存储并根据准确度与参与训练的数据条数绘制分类效果展示图。
图3是本发明实施例提供的一种分类效果展示图,如图3所示,随着参与训练的文本的条数不同,和/或模型训练次数的不同,获得的文本分类模型的准确度也不同,准确度在不断发生变化,说明文本分类模型的分类效果(即准确性)也在不断变化。将上述分类效果展示图展示给用户,用户可以通过点击上述分类效果展示图来输入训练指令,根据训练指令来决定是否需要继续进行训练。如果选择继续则返回至模拟文本的生成步骤并进行循环,否则结束训练,且用户在结束训练之后可以根据分类效果展示图选择合适的训练数据批次和该批次对应的文本分类模型参数并下载,从而是的用户可以使用最优效果的节点对应的数据和模型,从而获得更好的文本智能标注效果。
需要说明的是,在不同的数据集上获得的分类效果展示图并不完全相同,本实施例中基于上述文本智能标注方法在中文标准分类任务FewCLUE上进行测试,获得了不同的数据集中随着标注数据的增加分类准确度的变化情况,总体来说准确度呈上升趋势。图4是本发明实施例提供的一种数据集(具体为tnews数据集)对应的分类效果展示图,其它数据集对应的分类效果展示图不再一一展示。
本发明实施例中,还基于一种具体应用场景对上述文本分类模型的训练过程进行具体描述,图5是本发明实施例提供的一种文本分类模型的具体训练过程示意图,如图5所示,预先训练有文本生成模型和排序模型,其中,文本生成模型和排序模型是根据大规模预训练语料训练的。在用户上传真实文本之后,根据预先训练好的文本生成模型进行文本直接生成或受控生成,然后进行排序、未标注文本展示、用户标注、文本分类模型参数更新、准确度计算、效果展示等步骤,直到用户选择结束训练。需要说明的是,文本生成模型和排序模型的训练过程可以基于离线训练系统进行。未标注文本展示、用户标注和效果展示等过程则可以基于前端展示系统实现,以提升用户的交互使用体验。
由上可见,本发明实施例提供的文本智能标注方法中,使用的文本分类模型可以预先结合真实样本数据和模拟样本数据训练获得。即使在真实样本数据较少或难以采集到真实样本数据的领域中,也可以基于采集的少量真实样本数据生成大量模拟样本数据,从而提高文本分类模型的训练效果,进而提高文本标注的效果和准确性。
具体的,本实施例中,可以利用预训练的文本生成模型针对文本数据进行生成,然后使用人工智能相关的前沿技术进行文本优选,之后再提供给用户进行文本标注,并且人工标注的结果可以有效的反馈给文本生成模型,进一步优化生成的效率从而达到持续优化文本分类结果的目的。
同时,本发明中进行文本分类模型训练时,对于未标注的文本会根据其重要程度进行排序后再输出给用户(即目标对象)进行标注,使得用户可以按照排序顺序对先标注重要(即业务价值更高)的文本,有利于提高文本分类模型的训练效率和效果,从而达到更有更加高效的提升分类效果的目的。
具体的,可以利用机器学习技术对未标注的文本进行优选排序,达到提升用户标注效率和效果的目的,进而提升文本分类和标注效果。并且,用户的标注可以对文本生成方向进行受控指导,进一步提升分类效果。
示例性设备
如图6中所示,对应于上述文本智能标注方法,本发明实施例还提供一种文本智能标注系统,上述文本智能标注系统包括:
待标注文本获取模块310,用于获取待标注文本;
标注模块320,用于根据预先训练好的文本分类模型获取上述待标注文本的预测标注信息,并根据上述预测标注信息对上述待标注文本进行标注,其中,上述文本分类模型预先根据训练样本数据进行训练,上述训练样本数据包括真实样本数据和根据上述真实样本数据生成的模拟样本数据。
需要说明的是,上述文本智能标注系统及其各个模块或单元的具体结构和实现方式可以参照上述方法实施例中的对应描述,在此不再赘述。
需要说明的是,上述文本智能标注系统的各个模块的划分方式并不唯一,在此也不作为具体限定。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图7所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和文本智能标注程序。该内存储器为非易失性存储介质中的操作系统和文本智能标注程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该文本智能标注程序被处理器执行时实现上述任意一种文本智能标注方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图7中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的文本智能标注程序,上述文本智能标注程序被上述处理器执行时实现本发明实施例提供的任意一种文本智能标注方法的步骤。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有文本智能标注程序,上述文本智能标注程序被处理器执行时实现本发明实施例提供的任意一种文本智能标注方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的系统/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本智能标注方法,其特征在于,所述文本智能标注方法包括:
获取待标注文本;
根据预先训练好的文本分类模型获取所述待标注文本的预测标注信息,并根据所述预测标注信息对所述待标注文本进行标注,其中,所述文本分类模型预先根据训练样本数据进行训练,所述训练样本数据包括真实样本数据和根据所述真实样本数据生成的模拟样本数据。
2.根据权利要求1所述的文本智能标注方法,其特征在于,所述文本分类模型根据如下步骤进行预先训练:
获取目标对象输入的真实样本数据,其中,所述真实样本数据包括至少一个真实文本;
根据所述真实样本数据生成所述模拟样本数据,向所述目标对象展示未标注文本,根据所述目标对象输入的真实标注信息对对应的未标注文本进行类别标注以将对应的未标注文本转换为已标注文本,其中,所述模拟样本数据包括多个模拟文本,所述未标注文本包括未标注的真实文本和未标注的模拟文本,所述已标注文本包括已标注的真实文本和已标注的模拟文本;
将所述已标注文本输入所述文本分类模型,根据所述文本分类模型生成所述已标注文本对应的预测标注信息,根据所述已标注文本对应的真实标注信息和预测标注信息,对所述文本分类模型的模型参数进行调整,并继续执行所述根据所述真实样本数据生成所述模拟样本数据的步骤,直至满足预设训练条件,以得到训练好的文本分类模型。
3.根据权利要求2所述的文本智能标注方法,其特征在于,所述根据所述真实样本数据生成所述模拟样本数据,包括:
对于所述真实样本数据中的每一个真实文本,基于预先训练的多个文本直接生成模型通过直接生成的步骤生成多个对应的模拟文本;
对于所述真实样本数据中的每一个已标注的真实文本,基于预先训练的多个文本受控生成模型通过受控生成的步骤生成多个对应的模拟文本;
其中,一个所述文本直接生成模型或一个所述文本受控生成模型根据输入的一个真实文本生成一个对应的模拟文本。
4.根据权利要求3所述的文本智能标注方法,其特征在于,所述直接生成的步骤包括:将所述真实文本输入所述文本直接生成模型,将所述文本直接生成模型输出的文本作为该真实文本对应的模拟文本;
所述受控生成的步骤包括:将所述已标注的真实文本输入所述文本分类模型,获取所述已标注的真实文本对应的预测标注信息,将所述已标注的真实文本、所述已标注的真实文本对应的真实标注信息和预测标注信息输入所述文本受控生成模型进行受控文本生成,将所述文本受控生成模型输出的文本作为该已标注的真实文本对应的模拟文本。
5.根据权利要求2所述的文本智能标注方法,其特征在于,所述向所述目标对象展示未标注文本,包括:
分别获取各所述未标注文本的目标特征,其中,所述目标特征包括类别标志和目标隐向量,所述类别标志用于区分所述未标注文本的来源,所述未标注的真实文本的目标隐向量是预先设置的默认隐向量,所述未标注的模拟文本的目标隐向量是文本直接生成模型或文本受控生成模型生成该未标注的模拟文本的过程中产生的隐向量;
根据所述目标特征,通过预先设置的多层全连接网络获取各所述未标注文本的排序分数;
根据所述排序分数向所述目标对象依次展示各所述未标注文本。
6.根据权利要求5所述的文本智能标注方法,其特征在于,所述根据所述排序分数向所述目标对象依次展示各所述未标注文本,包括:将各所述未标注文本输入所述文本分类模型,根据所述文本分类模型输出的预测标注信息获得各所述未标注文本对应的候选标签;
根据所述排序分数生成多个展示页面,其中,一个所述展示页面中包括多个所述未标注文本以及各所述未标注文本对应的候选标签;
向所述目标对象依次展示各所述展示页面。
7.根据权利要求2所述的文本智能标注方法,其特征在于,所述方法还包括:
在所述文本分类模型的训练过程中,每一次更新所述文本分类模型的模型参数之后,将所有所述已标注文本输入所述文本分类模型并获得对应的预测标注信息,根据所述已标注文本对应的真实标注信息和预测标注信息计算获取所述文本分类模型的分类准确度;
根据所述文本分类模型在训练过程中获得的所有分类准确度生成分类效果展示图,向所述目标对象展示所述分类效果展示图,并获取所述目标对象基于所述分类效果展示图反馈的训练指令;
其中,所述预设训练条件是所述训练指令为训练结束指令。
8.一种文本智能标注系统,其特征在于,所述文本智能标注系统包括:
待标注文本获取模块,用于获取待标注文本;
标注模块,用于根据预先训练好的文本分类模型获取所述待标注文本的预测标注信息,并根据所述预测标注信息对所述待标注文本进行标注,其中,所述文本分类模型预先根据训练样本数据进行训练,所述训练样本数据包括真实样本数据和根据所述真实样本数据生成的模拟样本数据。
9.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本智能标注程序,所述文本智能标注程序被所述处理器执行时实现如权利要求1-7任意一项所述文本智能标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本智能标注程序,所述文本智能标注程序被处理器执行时实现如权利要求1-7任意一项所述文本智能标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211026245.2A CN115658885A (zh) | 2022-08-25 | 2022-08-25 | 文本智能标注方法、系统、智能终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211026245.2A CN115658885A (zh) | 2022-08-25 | 2022-08-25 | 文本智能标注方法、系统、智能终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115658885A true CN115658885A (zh) | 2023-01-31 |
Family
ID=85024522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211026245.2A Pending CN115658885A (zh) | 2022-08-25 | 2022-08-25 | 文本智能标注方法、系统、智能终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894192A (zh) * | 2023-09-11 | 2023-10-17 | 浙江大华技术股份有限公司 | 大模型训练方法及相关方法、装置、设备、系统和介质 |
-
2022
- 2022-08-25 CN CN202211026245.2A patent/CN115658885A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894192A (zh) * | 2023-09-11 | 2023-10-17 | 浙江大华技术股份有限公司 | 大模型训练方法及相关方法、装置、设备、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN111177374A (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN111159414B (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN111078881B (zh) | 细粒度情感分析方法、系统、电子设备和存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN112508609A (zh) | 人群扩量的预测方法、装置、设备及存储介质 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN110929119A (zh) | 数据标注方法、装置、设备及计算机存储介质 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN110717090A (zh) | 一种旅游景点网络口碑评价方法、系统及电子设备 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN112434134A (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN112287656A (zh) | 文本比对方法、装置、设备和存储介质 | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
CN117725191B (zh) | 大语言模型的引导信息生成方法、装置及电子设备 | |
CN115658885A (zh) | 文本智能标注方法、系统、智能终端及存储介质 | |
CN111062216B (zh) | 命名实体识别方法、装置、终端及可读介质 | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN106022389A (zh) | 一种主动选择多示例多标记数字图像的相关反馈方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |