CN117235260A - 基于人工智能的文本标注方法、装置、设备及存储介质 - Google Patents
基于人工智能的文本标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117235260A CN117235260A CN202311187099.6A CN202311187099A CN117235260A CN 117235260 A CN117235260 A CN 117235260A CN 202311187099 A CN202311187099 A CN 202311187099A CN 117235260 A CN117235260 A CN 117235260A
- Authority
- CN
- China
- Prior art keywords
- labeling
- text
- text data
- model
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 290
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 52
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000001960 triggered effect Effects 0.000 claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 111
- 238000012545 processing Methods 0.000 claims description 64
- 238000012360 testing method Methods 0.000 claims description 40
- 238000012937 correction Methods 0.000 claims description 31
- 238000013508 migration Methods 0.000 claims description 19
- 230000005012 migration Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 44
- 238000005516 engineering process Methods 0.000 abstract description 26
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013140 knowledge distillation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请属于人工智能领域与金融科技领域,涉及一种基于人工智能的文本标注方法,包括:接收用户触发的文本标注请求;对文本标注请求进行数据解析,以从文本标注请求中获取文本数据;对文本数据进行预处理得到目标文本数据;调用预设的标注模型;将目标文本数据输入至标注模型内,通过标注模型对目标文本数据进行标注处理,生成与目标文本数据对应的目标标注结果。本申请还提供一种基于人工智能的文本标注装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标标注结果可存储于区块链中。本申请可应用于金融领域的文本标注场景,基于标注模型对待标注的文本数据进行自动标注处理,可以有效提高文本标注的准确率,以及提高文本标注效果。
Description
技术领域
本申请涉及人工智能开发技术领域与金融科技领域,尤其涉及基于人工智能的文本标注方法、装置、计算机设备及存储介质。
背景技术
随着大数据与人工智能技术的快速发展,越来越多的金融科技公司,例如保险公司、银行等公司需要处理大规模的文本数据。文本数据的标注处理是金融科技公司进行文本分析的业务流程中的重要步骤。
相关技术中,目前较为普遍的文本标注方法通常是采用基于规则的文本标注方法,具体通过人工编写相应的文本标注规则来实现对文本的自动标注,由于编写的标注规则难以覆盖文本的多样性和复杂性,导致文本的标注效果较差,标注准确率低下。
发明内容
本申请实施例的目的在于提出一种基于人工智能的文本标注方法、装置、计算机设备及存储介质,以解决现有的通过人工编写相应的文本标注规则来实现对文本的自动标注,但由于编写的标注规则难以覆盖文本的多样性和复杂性,导致文本的标注效果较差,标注准确率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种基于人工智能的文本标注方法,采用了如下所述的技术方案:
接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
对所述文本数据进行预处理,得到对应的目标文本数据;
调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
进一步的,在所述调用预设的标注模型的步骤之前,还包括:
获取预先采集的标注文本数据集,并基于所述标注文本数据集构建训练集与测试集;
使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型;
基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果;
基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果;
基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型;
基于所述第二语言模型生成所述标注模型。
进一步的,所述使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型的步骤,具体包括:
从所述训练集中获取训练文本,以及获取与所述训练文本对应的文本标注结果;
构建与所述训练文本对应的文本标注任务;
获取预先定义的标注规则;
基于所述标注规则与所述文本标注结果,使用所述标注任务对所述语言模型进行微调训练,得到所述第一语言模型。
进一步的,所述基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果的步骤,具体包括:
获取预设的纠正提醒信息;
获取目标审核人员的通讯信息;
基于所述通讯信息,将所述纠正提醒信息与所述初始标注结果推送给所述目标审核人员;
接收所述审核人员基于所述纠正提醒信息,返回的与所述初始标注结果对应的纠正后的标注结果;
将所述纠正后的标注结果作为所述指定标注结果。
进一步的,所述基于所述第二语言模型生成所述标注模型的步骤,具体包括:
获取预设的知识迁移策略;
基于所述知识迁移策略对所述第二语言模型进行知识迁移处理,得到对应的第三语言模型;
将所述第三语言模型作为所述标注模型。
进一步的,所述基于所述标注文本数据集构建训练集与测试集的步骤,具体包括:
获取预设的数据划分比例;
基于所述数据划分比例对所述标注文本数据集进行数据划分,得到对应的划分结果;
从所述划分结果中确定出所述训练集与所述测试集。
进一步的,所述对所述文本数据进行预处理,得到对应的目标文本数据的步骤,具体包括:
对所述文本数据进行分词处理,得到对应的第一文本数据;
对所述第一文本数据进行特定符号去除处理,得到对应的第二文本数据;
将所述第二文本数据作为所述目标文本数据。
为了解决上述技术问题,本申请实施例还提供一种基于人工智能的文本标注装置,采用了如下所述的技术方案:
接收模块,用于接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
第一获取模块,用于对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
第一处理模块,用于对所述文本数据进行预处理,得到对应的目标文本数据;
调用模块,用于调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
第二处理模块,用于将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
对所述文本数据进行预处理,得到对应的目标文本数据;
调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
对所述文本数据进行预处理,得到对应的目标文本数据;
调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,首先接收用户触发的文本标注请求;然后对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;之后对所述文本数据进行预处理,得到对应的目标文本数据;后续调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;最后将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。本申请实施例通过采用基于语言模型构建的标注模型对待标注的文本数据进行自动化标注,有效地提高了对于待标注的文本数据的标注效率。且训练生成的标注模型具有泛化能力与鲁棒性,从而使用标注模型对待标注的文本数据进行标注处理,可以有效提高文本标注的准确率,以及提高文本标注效果。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的基于人工智能的文本标注方法的一个实施例的流程图;
图3是根据本申请的基于人工智能的文本标注装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于人工智能的文本标注方法一般由服务器/终端设备执行,相应地,基于人工智能的文本标注装置一般设置于服务器/终端设备中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于人工智能的文本标注方法的一个实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。本申请实施例提供的基于人工智能的文本标注方法能够应用于任意一种需要进行文本数据标注的场景中,则该基于人工智能的文本标注方法能够应用于这些场景的产品中,例如,金融保险领域中的金融文本数据标注。所述的基于人工智能的文本标注方法,包括以下步骤:
步骤S201,接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据。
在本实施例中,基于人工智能的文本标注方法运行于其上的电子设备(例如图1所示的服务器/终端设备),可以通过有线连接方式或者无线连接方式获取待处理的文本数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。上述文本标注请求为用户触发的用于对输入的待处理的文本数据进行文本标注的请求。在金融科技领域的应用场景下,上述历史文本数据可为业务文本数据、交易文本数据、支付文本数据,等等。
步骤S202,对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据。
在本实施例中,可通过对所述文本标注请求进行数据解析以得到文本标注请求中携带的文本数据
步骤S203,对所述文本数据进行预处理,得到对应的目标文本数据。
在本实施例中,上述对所述文本数据进行预处理,得到对应的目标文本数据的具体实施过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
步骤S204,调用预设的标注模型;
在本实施例中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的。上述语言模型可指大语言模型,具体可采用GPT、ChatGLM等模型。基于语言模型训练生成的标注模型具有如下优点:无需额外的训练数据,适合零样本和小样本场景;鲁棒性强,支持多种文本表达形式;显著提高标注效率。其中,对于上述标注模型的训练生成过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
步骤S205,将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
在本实施例中,本申请中的基于语言模型的文本标注方法可以适用于多种标注任务,例如文本扩写、命名实体识别、情感分析、事件抽取等。相比传统的针对单一类别任务的文本标注方法,本申请提出的文本标注方法可以更加灵活和高效地进行文本标注处理。
本申请首先接收用户触发的文本标注请求;然后对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;之后对所述文本数据进行预处理,得到对应的目标文本数据;后续调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;最后将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。本申请通过采用基于语言模型构建的标注模型对待标注的文本数据进行自动化标注,有效地提高了对于待标注的文本数据的标注效率。且训练生成的标注模型具有泛化能力与鲁棒性,从而使用标注模型对待标注的文本数据进行标注处理,可以有效提高文本标注的准确率,以及提高文本标注效果。
在一些可选的实现方式中,在步骤S204之前,上述电子设备还可以执行以下步骤:
获取预先采集的标注文本数据集,并基于所述标注文本数据集构建训练集与测试集。
在本实施例中,上述标注文本数据集为预先采集的对历史文本数据进行标注处理后得到的标注文本数据集。在金融科技领域的应用场景下,上述历史文本数据可为业务文本数据、交易文本数据、支付文本数据,等等。其中,上述基于所述标注文本数据集构建训练集与测试集的具体实施过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型。
在本实施例中,上述使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型的具体实施过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果。
在本实施例中,可通将所述测试集输入至所述第一语言模型内,通过所述第一语言模型对测试集进行标准处理,以输出与所述测试集对应的初始标注结果。
基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果。
在本实施例中,上述基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果的具体实施过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型。
在本实施例中,通过使用指定标注结果度对所述第一语言模型进行模型参数的更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型,可以有效提高生成的第二语言模型的标注准确性、泛化能力以及鲁棒性。其中,上述训练预期条件可包括预设的标注效果与标注准确率,对于标注效果与标注准确率的具体数值不做限定,可根据实际的测试需求进行设置。
基于所述第二语言模型生成所述标注模型。
在本实施例中,上述基于所述第二语言模型生成所述标注模型的具体实施过程,本申请将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
本申请通过获取预先采集的标注文本数据集,并基于所述标注文本数据集构建训练集与测试集;然后使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型;之后基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果;后续基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果;最后基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型,并基于所述第二语言模型生成所述标注模型。本申请在使用预先采集的标注文本数据集对预设的语言模型进行微调训练,得到对应的第一语言模型后,然后在测试过程中基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果,后续会智能地基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果,进而基于所述指定标注结果度对所述第一语言模型进行模型更新以生成最终的满足预设的训练预期条件的标注模型,可以有效提高生成的标注模型的泛化能力以及鲁棒性,有利于后续提高使用标注模型对目标文本数据进行标注处理的准确性。
在本实施例的一些可选的实现方式中,所述使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型,包括以下步骤:
从所述训练集中获取训练文本,以及获取与所述训练文本对应的文本标注结果。
在本实施例中,上述训练集由训练文本,以及与所述训练文本对应的文本标注结果构成。
构建与所述训练文本对应的文本标注任务。
在本实施例中,上述文本标注任务为构建的用于辅助语言模型学习识别文本标注任务中的训练文本对应的文本标注结果的任务。通过使用文本标注任务,将语言模型在训练文本上进行微调训练,以令语言模型适应该文本标注任务。示例性的,文本标注任务可包括命名实体识别任务中的实体类别、情感分析任务中的情感极性等任务。
获取预先定义的标注规则。
在本实施例中,上述标注规则为语言模型进行标注的指导和约束。对于标注规则的内容不做限定,可根据实际的使用需求来设置。
基于所述标注规则与所述文本标注结果,使用所述标注任务对所述语言模型进行微调训练,得到所述第一语言模型。
在本实施例中,通过将所述标注规则与所述文本标注结果作为上述语言模型进行标注的指导和约束,并使用所述标注任务对所述语言模型进行微调训练,从而得到训练后的具有用于识别文本标注任务中的训练文本对应的文本标注结果的功能的所述第一语言模型。
本申请通过从所述训练集中获取训练文本,以及获取与所述训练文本对应的文本标注结果;然构建与所述训练文本对应的文本标注任务;之后获取预先定义的标注规则;后续基于所述标注规则与所述文本标注结果,使用所述标注任务对所述语言模型进行微调训练,得到所述第一语言模型。本申请通过构建与训练集中的训练文本对应的文本标注任务,进而通过将所述标注规则与所述文本标注结果作为语言模型进行标注的指导和约束,使用标注任务对所述语言模型进行微调训练,从而得到训练后的具有用于识别文本标注任务中的训练文本对应的文本标注结果的功能的所述第一语言模型,有效的提高了生成的第一语言模型进行标注处理的的标注效果与标注准确率。
在一些可选的实现方式中,所述基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果,包括以下步骤:
获取预设的纠正提醒信息。
在本实施例中,上述纠正提醒信息为预先构建的用于提醒相关人员对文本标注结果进行审核与纠正处理的提醒信息。对于纠正提醒信息的内容不做限定,可根据实际的业务需求进行编写。
获取目标审核人员的通讯信息。
在本实施例中,通讯信息可包括邮件地址或电话号码。
基于所述通讯信息,将所述纠正提醒信息与所述初始标注结果推送给所述目标审核人员。
在本实施例中,基于所述通讯信息,可实现将所述纠正提醒信息与所述初始标注结果发送至所述目标审核人员的通讯信息对应的通讯终端,以完成对于目标审核人员的信息推送。
接收所述审核人员基于所述纠正提醒信息,返回的与所述初始标注结果对应的纠正后的标注结果。
在本实施例中,审核人员在接收到所述纠正提醒信息与初始标注结果后,会对第一语言模型预测得到的测试集对应的初始标注结果中存在预测错误和不准确的标注结果进行审核与纠正,从而生成并返回与所述初始标注结果对应的纠正后的标注结果。
将所述纠正后的标注结果作为所述指定标注结果。
本申请通过获取预设的纠正提醒信息;然后获取目标审核人员的通讯信息;之后基于所述通讯信息,将所述纠正提醒信息与所述初始标注结果推送给所述目标审核人员;后续接收所述审核人员基于所述纠正提醒信息,返回的与所述初始标注结果对应的纠正后的标注结果,并将所述纠正后的标注结果作为所述指定标注结果。本申请在基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果后,还会智能地提醒目标审核人员对该初始标注结果进行纠正以得到纠正后的指定标注结果,保证了生成的测试集的指定标注结果准确度,有利于后续可以基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,从而得到最终的标注模型,有效地提高了生成的标注模型的标注处理的准确度,提高标注模型的泛化能力。
在一些可选的实现方式中,所述基于所述第二语言模型生成所述标注模型,包括以下步骤:
获取预设的知识迁移策略。
在本实施例中,上述知识迁移策略为预先构建的对模型进行知识蒸馏处理的策略。上述训练生成的第二语言模型为采用了模型复杂度较高且推理能力较强、预测准确度较高的复杂模型,从而对电子设备的性能需求较高,所需计算资源的成本较高。
基于所述知识迁移策略对所述第二语言模型进行知识迁移处理,得到对应的第三语言模型。
在本实施例中,在得到了训练好的第二语言模型后,基于知识迁移策略对第二语言模型进行知识蒸馏,以完成对于第二语言模型的知识迁移处理,从而得到第三语言模型。其中,知识蒸馏是指通过引入与教师网络相关的软目标作为模型整体损失的一部分,以诱导学生网络的训练,实现知识迁移的过程,教师网络结构复杂但推理性能优越。生成的学生网络结构精简且具有较低的复杂度。本实施例中的第二语言模型即为教师模型,第三语言模型即为学生模型。在完成对于第二语言模型的知识迁移处理后,可以得到结构精简但具有与二语言模型相当的模型推理能力的第三语言模型,从而在后续的应用阶段可以直接通过使用第三语言模型对文本数据进行自动标注处理。其中,第三语言模型为相比于第二语言模型的结构较为简化的,例如具有较少网络层数的模型。
将所述第三语言模型作为所述标注模型。
本申请通过使用知识迁移策略对训练得到的第二语言模型进行知识迁移处理,从而可以得到结构精简但具有与第二语言模型相当的模型推理能力的标注模型,可以有效降低标注模型在进行文本标注处理时对于电子设备的性能需求,以及节省文本标注处理所需的计算资源的成本,提高文本标注处理的处理效率与处理智能性。
在本实施例的一些可选的实现方式中,所述基于所述标注文本数据集构建训练集与测试集,包括以下步骤:
获取预设的数据划分比例。
在本实施例中,对于上述数据划分比例的取值不做具体限定,可根据实际的使用需求进行设置,例如设置为7:3,即训练集的比例为7,测试集的比例为3.
基于所述数据划分比例对所述标注文本数据集进行数据划分,得到对应的划分结果。
从所述划分结果中确定出所述训练集与所述测试集。
在本实施例中,可将划分结果中与训练集的比例匹配的文本数据作为上述训练集,将划分结果中与测试集的比例匹配的文本数据作为上述测试集。
本申请通过获取预设的数据划分比例;然后基于所述数据划分比例对所述标注文本数据集进行数据划分,得到对应的划分结果;后续从所述划分结果中确定出所述训练集与所述测试集。本申请通过使用数据划分比例对所述标注文本数据集进行数据划分,从而可以实现快速地基于标注文本数据集构建出相对应的训练集与测试集,提高了训练集与测试集的构建效率与构建智能性。
在本实施例的一些可选的实现方式中,步骤S203包括以下步骤:
对所述文本数据进行分词处理,得到对应的第一文本数据。
在本实施例中,可采用分词工具对所述文本数据进行分词处理,以得到对应的第一文本数据。其中,对于上述分词工具的选取不做具体限定,可根据实际的使用需求进行设置。分词工具可包括Jieba分词工具、HanLP工具、SnowNLP工具,等等。
对所述第一文本数据进行特定符号去除处理,得到对应的第二文本数据。
在本实施例中,上述特定符号是指文本中无意义的符号,例如可包括emoji等符号。
将所述第二文本数据作为所述目标文本数据。
本申请通过对所述文本数据进行分词处理,得到对应的第一文本数据;然后对所述第一文本数据进行特定符号去除处理,得到对应的第二文本数据;后续将所述第二文本数据作为所述目标文本数据。本申请通过对文本数据进行分词处理与特定符号去除处理,以实现快速地完成对于文本数据的预处理,从而得到符合后续的标注模型的处理格式的目标文本数据,保证了生成的第二文本的准确度,有利于提高后续使用标注模型进行对于目标文本数据的标准处理的标注效果,提高生成的目标文本数据的目标标注结果的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
需要强调的是,为进一步保证上述目标标注结果的私密和安全性,上述目标标注结果还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于人工智能的文本标注装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于人工智能的文本标注装置300包括:接收模块301、第一获取模块302、第一处理模块303、调用模块304以及第二处理模块305。其中:
接收模块301,用于接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
第一获取模块302,用于对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
第一处理模块303,用于对所述文本数据进行预处理,得到对应的目标文本数据;
调用模块304,用于调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
第二处理模块305,用于将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,基于人工智能的文本标注装置还包括:
第二获取模块,用于获取预先采集的标注文本数据集,并基于所述标注文本数据集构建训练集与测试集;
训练模块,用于子模块,用于使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型;
第三处理模块,用于基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果;
第四处理模块,用于基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果;
更新模块,用于基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型;
生成模块,用于基于所述第二语言模型生成所述标注模型。
在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,训练模块包括:
第一获取子模块,用于从所述训练集中获取训练文本,以及获取与所述训练文本对应的文本标注结果;
构建子模块,用于构建与所述训练文本对应的文本标注任务;
第二获取子模块,用于获取预先定义的标注规则;
训练子模块,用于基于所述标注规则与所述文本标注结果,使用所述标注任务对所述语言模型进行微调训练,得到所述第一语言模型。
本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,第四处理模块包括:
第三获取子模块,用于获取预设的纠正提醒信息;
第四获取子模块,用于获取目标审核人员的通讯信息;
推送子模块,用于基于所述通讯信息,将所述纠正提醒信息与所述初始标注结果推送给所述目标审核人员;
接收子模块,用于接收所述审核人员基于所述纠正提醒信息,返回的与所述初始标注结果对应的纠正后的标注结果;
第一确定子模块,用于将所述纠正后的标注结果作为所述指定标注结果。
在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,生成模块包括:
第五获取子模块,用于获取预设的知识迁移策略;
第一处理子模块,用于基于所述知识迁移策略对所述第二语言模型进行知识迁移处理,得到对应的第三语言模型;
第二确定子模块,用于将所述第三语言模型作为所述标注模型。在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,第二获取模块包括:
第六获取子模块,用于获取预设的数据划分比例;
划分子模块,用于基于所述数据划分比例对所述标注文本数据集进行数据划分,得到对应的划分结果;
第三确定子模块,用于从所述划分结果中确定出所述训练集与所述测试集。
在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
在本实施例的一些可选的实现方式中,第一处理模块303包括:
第二处理子模块,用于对所述文本数据进行分词处理,得到对应的第一文本数据;
第三处理子模块,用于对所述第一文本数据进行特定符号去除处理,得到对应的第二文本数据;
第四确定子模块,用于将所述第二文本数据作为所述目标文本数据。
在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的基于人工智能的文本标注方法的步骤一一对应,在此不再赘述。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于人工智能的文本标注方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于人工智能的文本标注方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,首先接收用户触发的文本标注请求;然后对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;之后对所述文本数据进行预处理,得到对应的目标文本数据;后续调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;最后将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。本申请实施例通过采用基于语言模型构建的标注模型对待标注的文本数据进行自动化标注,有效地提高了对于待标注的文本数据的标注效率。且训练生成的标注模型具有泛化能力与鲁棒性,从而使用标注模型对待标注的文本数据进行标注处理,可以有效提高文本标注的准确率,以及提高文本标注效果。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于人工智能的文本标注方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,首先接收用户触发的文本标注请求;然后对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;之后对所述文本数据进行预处理,得到对应的目标文本数据;后续调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;最后将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。本申请实施例通过采用基于语言模型构建的标注模型对待标注的文本数据进行自动化标注,有效地提高了对于待标注的文本数据的标注效率。且训练生成的标注模型具有泛化能力与鲁棒性,从而使用标注模型对待标注的文本数据进行标注处理,可以有效提高文本标注的准确率,以及提高文本标注效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于人工智能的文本标注方法,其特征在于,包括下述步骤:
接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
对所述文本数据进行预处理,得到对应的目标文本数据;
调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
2.根据权利要求1所述的基于人工智能的文本标注方法,其特征在于,在所述调用预设的标注模型的步骤之前,还包括:
获取预先采集的标注文本数据集,并基于所述标注文本数据集构建训练集与测试集;
使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型;
基于所述第一语言模型对所述测试集进行预标注处理,得到与所述测试集对应的初始标注结果;
基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果;
基于所述指定标注结果度对所述第一语言模型进行模型更新,直至所述第一语言模型满足预设的训练预期条件,得到训练好的第二语言模型;
基于所述第二语言模型生成所述标注模型。
3.根据权利要求2所述的基于人工智能的文本标注方法,其特征在于,所述使用所述训练集对预设的语言模型进行微调训练,得到对应的第一语言模型的步骤,具体包括:
从所述训练集中获取训练文本,以及获取与所述训练文本对应的文本标注结果;
构建与所述训练文本对应的文本标注任务;
获取预先定义的标注规则;
基于所述标注规则与所述文本标注结果,使用所述标注任务对所述语言模型进行微调训练,得到所述第一语言模型。
4.根据权利要求2所述的基于人工智能的文本标注方法,其特征在于,所述基于预设的纠正规则对所述初始标注结果进行纠正处理,得到对应的指定标注结果的步骤,具体包括:
获取预设的纠正提醒信息;
获取目标审核人员的通讯信息;
基于所述通讯信息,将所述纠正提醒信息与所述初始标注结果推送给所述目标审核人员;
接收所述审核人员基于所述纠正提醒信息,返回的与所述初始标注结果对应的纠正后的标注结果;
将所述纠正后的标注结果作为所述指定标注结果。
5.根据权利要求2所述的基于人工智能的文本标注方法,其特征在于,所述基于所述第二语言模型生成所述标注模型的步骤,具体包括:
获取预设的知识迁移策略;
基于所述知识迁移策略对所述第二语言模型进行知识迁移处理,得到对应的第三语言模型;
将所述第三语言模型作为所述标注模型。
6.根据权利要求2所述的基于人工智能的文本标注方法,其特征在于,所述基于所述标注文本数据集构建训练集与测试集的步骤,具体包括:
获取预设的数据划分比例;
基于所述数据划分比例对所述标注文本数据集进行数据划分,得到对应的划分结果;
从所述划分结果中确定出所述训练集与所述测试集。
7.根据权利要求1所述的基于人工智能的文本标注方法,其特征在于,所述对所述文本数据进行预处理,得到对应的目标文本数据的步骤,具体包括:
对所述文本数据进行分词处理,得到对应的第一文本数据;
对所述第一文本数据进行特定符号去除处理,得到对应的第二文本数据;
将所述第二文本数据作为所述目标文本数据。
8.一种基于人工智能的文本标注装置,其特征在于,包括:
接收模块,用于接收用户触发的文本标注请求;其中,所述文本标注请求携带待处理的文本数据;
第一获取模块,用于对所述文本标注请求进行数据解析,以从所述文本标注请求中获取所述文本数据;
第一处理模块,用于对所述文本数据进行预处理,得到对应的目标文本数据;
调用模块,用于调用预设的标注模型;其中,所述标注模型为基于预先采集的标注文本数据集对预设的语言模型进行训练生成的;
第二处理模块,用于将所述目标文本数据输入至所述标注模型内,通过所述标注模型对所述目标文本数据进行标注处理,生成与所述目标文本数据对应的目标标注结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于人工智能的文本标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的文本标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187099.6A CN117235260A (zh) | 2023-09-13 | 2023-09-13 | 基于人工智能的文本标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187099.6A CN117235260A (zh) | 2023-09-13 | 2023-09-13 | 基于人工智能的文本标注方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235260A true CN117235260A (zh) | 2023-12-15 |
Family
ID=89083751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311187099.6A Pending CN117235260A (zh) | 2023-09-13 | 2023-09-13 | 基于人工智能的文本标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235260A (zh) |
-
2023
- 2023-09-13 CN CN202311187099.6A patent/CN117235260A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112395390B (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN117195886A (zh) | 基于人工智能的文本数据处理方法、装置、设备及介质 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN114240672A (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN114780701A (zh) | 自动问答匹配方法、装置、计算机设备及存储介质 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN112434746B (zh) | 基于层次化迁移学习的预标注方法及其相关设备 | |
CN117217684A (zh) | 指标数据的处理方法、装置、计算机设备及存储介质 | |
CN112182157A (zh) | 在线序列标注模型的训练方法、在线标注方法及相关设备 | |
CN116956326A (zh) | 权限数据的处理方法、装置、计算机设备及存储介质 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN117235260A (zh) | 基于人工智能的文本标注方法、装置、设备及存储介质 | |
CN116702751A (zh) | 基于人工智能的公式处理方法、装置、设备及存储介质 | |
CN118227491A (zh) | 测试用例的生成方法、装置、计算机设备及存储介质 | |
CN117076775A (zh) | 资讯数据的处理方法、装置、计算机设备及存储介质 | |
CN117057362A (zh) | 基于人工智能的意图识别方法、装置、设备及存储介质 | |
CN117271790A (zh) | 标注数据的扩充方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |