CN117172248B - 一种文本数据标注方法、系统和介质 - Google Patents
一种文本数据标注方法、系统和介质 Download PDFInfo
- Publication number
- CN117172248B CN117172248B CN202311452672.1A CN202311452672A CN117172248B CN 117172248 B CN117172248 B CN 117172248B CN 202311452672 A CN202311452672 A CN 202311452672A CN 117172248 B CN117172248 B CN 117172248B
- Authority
- CN
- China
- Prior art keywords
- data
- text
- emotion
- tag
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 125
- 230000008451 emotion Effects 0.000 claims abstract description 212
- 238000012545 processing Methods 0.000 claims abstract description 108
- 230000011218 segmentation Effects 0.000 claims abstract description 107
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims description 47
- 238000012795 verification Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000011056 performance test Methods 0.000 claims description 6
- 238000010187 selection method Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003370 grooming effect Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供了一种文本数据标注方法、系统和介质。该方法包括:对经过数据清洗后的待标注文本进行分词处理,获得标准分词数据,并进行词性识别,获得词属性数据,根据标准分词数据提取实体数据,再根据预设类别识别模型、标准关系识别模型、优化情感标签训练模型和预设语义识别模型分别处理生成文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据,最后根据标注需求特征数据进行标注类型的选择,根据选择结果进行文本标注,还包括对文本进行事件标注并进行事件安全的分析和预警。本申请可实现根据用户需求进行文本标注类型的自适应选择,并根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。
Description
技术领域
本申请涉及大数据及文本处理技术领域,具体而言,涉及一种文本数据标注方法、系统和介质。
背景技术
文本标注是对文本进行特征标记的过程,对其打上具体的类别、语义、关系、情感等数据标签,通过标注好的训练数据,计算机就可以智能识别文本中所隐含的含义或者情感,使计算机可以更加人性化的理解自然语言,实现人与计算机之间用自然语言进行有效通信。目前,现有的文本自动标注方法只能根据用户提前选择的标注类型进行文本标注,无法根据用户的不同需求进行文本类别、实体关系、情感、语义等标注类型的自适应选择,也无法根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警。
针对上述问题,目前亟待有效的技术解决方案。
发明内容
本申请的目的在于提供一种文本数据标注方法、系统和介质,可以根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,还可以对文本进行事件标注,并可以实现根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。
本申请还提供了一种文本数据标注方法,包括以下步骤:
获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。
可选地,在本申请所述的文本数据标注方法中,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:
对所述第一文本数据进行分词处理,获得分词结果;
获取所述待标注文本对应应用场景下的预设标准词库;
将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
对所述标准分词数据进行词性识别,获得词属性数据。
可选地,在本申请所述的文本数据标注方法中,所述根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,包括:
获取人工标注数据,包括:标注实体数据和关系标签数据;
使用预设机器学习算法对所述标注实体数据以及所述关系标签数据进行训练,得到关系识别模型;
获取测试数据集,并将测试数据集输入所述关系识别模型进行处理,获得测试关系标签数据;
根据所述测试关系标签数据对所述关系识别模型进行性能测试并改进,生成标准关系识别模型;
将所述实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
可选地,在本申请所述的文本数据标注方法中,所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,包括:
获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;
提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;
将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;
将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;
根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;
将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;
获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;
将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;
根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;
将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据。
可选地,在本申请所述的文本数据标注方法中,所述根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注,包括:
将所述标注需求特征数据进行分析处理,生成标注选择因子;
根据所述标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果;
根据所述标注选择结果对所述待标注文本进行标注。
可选地,在本申请所述的文本数据标注方法中,还包括:
将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;
根据所述事件标签数据对所述待标注文本进行事件标注。
可选地,在本申请所述的文本数据标注方法中,还包括:
根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;
将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;
若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
第二方面,本申请提供了一种文本数据标注系统,该系统包括:存储器及处理器,所述存储器中包括文本数据标注方法的程序,所述文本数据标注方法的程序被所述处理器执行时实现以下步骤:
获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。
可选地,在本申请所述的文本数据标注系统中,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:
对所述第一文本数据进行分词处理,获得分词结果;
获取所述待标注文本对应应用场景下的预设标准词库;
将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
对所述标准分词数据进行词性识别,获得词属性数据。
第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括文本数据标注方法程序,所述文本数据标注方法程序被处理器执行时,实现如上述任一项所述的文本数据标注方法的步骤。
由上可知,本申请提供的一种文本数据标注方法、系统和介质,可以根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,还可以对文本进行事件标注,并可以实现根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的文本数据标注方法的流程图;
图2为本申请实施例提供的文本数据标注方法的获得标准分词数据和词属性数据的流程图;
图3为本申请实施例提供的文本数据标注方法的获得文本关系标签数据的流程图;
图4为本申请实施例提供的文本数据标注方法的获得文本情感标签数据的流程图;
图5为本申请实施例提供的文本数据标注方法的进行标注选择的流程图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的文本数据标注方法的流程图。该文本数据标注方法用于终端设备中,例如电脑、手机终端等。该文本数据标注方法,包括以下步骤:
S11、获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
S12、获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
S13、对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
S14、将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
S15、根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
S16、将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
S17、将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
S18、根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。
需要说明的是,为了根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,首先获取待标注文本,并对待标注文本进行数据清洗,剔除无效数据,进而获得第一文本数据,获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据,将第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括名次、动词、形容词等,将标准分词数据以及词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据,该文本类别标签指的是针对不同的应用场景所设置的文本类别,如新闻类、情感疏导类、就医咨询类等,然后根据标准分词数据提取实体数据,实体数据指的是时间日期、人名、地名、组织机构名称、金额以及专有名词等有实际指代意义的数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,该文本关系标签指的是两个实体之间所存在的实际关系,包括人与人之间的关系、人与物品之间的关系等,然后将实体数据以及应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,再将实体数据结合文本关系标签数据、文本情感标签数据以及应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据,该预设语义识别模型是通过获取大量历史样本的实体数据、文本关系标签数据、文本情感标签数据、应用场景特征数据和文本语义标签数据进行训练获得的模型,可通过输入相关信息进行处理获得对应输出的文本语义标签数据,最后根据标注需求对文本类别、文本关系、文本情感和文本语义等文本标注类型进行自适应选择,以确定对文本进行何种类型的标注。
请参照图2,图2是本申请一些实施例中的文本数据标注方法的获得标准分词数据和词属性数据的流程图。根据本发明实施例,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,具体为:
S21、对所述第一文本数据进行分词处理,获得分词结果;
S22、获取所述待标注文本对应应用场景下的预设标准词库;
S23、将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
S24、对所述标准分词数据进行词性识别,获得词属性数据。
需要说明的是,为了对文本句子拆分成词语并进行词语属性的判定,首先对第一文本数据进行分词处理,获得分词结果,获取待标注文本对应应用场景下的预设标准词库,然后将分词结果与预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据,最后对标准分词数据进行词性识别,获得词属性数据。
请参照图3,图3是本申请一些实施例中的文本数据标注方法的获得文本关系标签数据的流程图。根据本发明实施例,所述根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,具体为:
S31、获取人工标注数据,包括:标注实体数据和关系标签数据;
S32、使用预设机器学习算法对所述标注实体数据以及所述关系标签数据进行训练,得到关系识别模型;
S33、获取测试数据集,并将测试数据集输入所述关系识别模型进行处理,获得测试关系标签数据;
S34、根据所述测试关系标签数据对所述关系识别模型进行性能测试并改进,生成标准关系识别模型;
S35、将所述实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
需要说明的是,为了实现对文本的关系标注,首先获取人工标注数据,包括:标注实体数据和关系标签数据,再使用预设机器学习算法对标注实体数据以及关系标签数据进行训练,得到关系识别模型,然后获取测试数据集,以便于根据测试数据对前期训练获得的模型进行测试改进,将测试数据集输入关系识别模型进行处理,获得测试关系标签数据,再根据测试关系标签数据对关系识别模型进行性能测试并改进,生成标准关系识别模型,最后将实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
请参照图4,图4是本申请一些实施例中的文本数据标注方法的获得文本情感标签数据的流程图。根据本发明实施例,所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,具体为:
S41、获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;
S42、提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;
S43、将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;
S44、将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;
S45、根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;
S46、将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;
S47、获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;
S48、将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;
S49、根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;
S410、将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据。
需要说明的是,为了实现对文本的情感标注,在本实施例中,情感标注指的是对文本进行“正面”、“负面”、“一般负面”、“严重负面”或者“中性”标注,首先获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据,提取已标注样本数据的情感标签,并对已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据,其中已标注特征数据和未标注特征数据均包含实体数据和应用场景特征数据,然后根据已标注特征数据以及情感标签进行训练,生成情感标签训练模型,再根据未标注特征数据对模型进行测试改进,获取社交媒体网站的评论内容,捕捉当前比较流行的词汇及其情感标签作为训练数据集的补充,以生成更加优化的情感标签训练模型,最后将实体数据以及应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据。
请参照图5,图5是本申请一些实施例中的文本数据标注方法的进行标注选择的流程图。根据本发明实施例,所述根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注,具体为:
S51、将所述标注需求特征数据进行分析处理,生成标注选择因子;
S52、根据所述标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果;
S53、根据所述标注选择结果对所述待标注文本进行标注。
需要说明的是,为了根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,首先将标注需求特征数据进行分析处理,生成标注选择因子,在本实施例中,不同标签对应的标注选择因子为0或者1,0代表不需要对该文本进行此种类型的标注,1代表需要对该文本进行对应类型的标注,然后根据标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果,根据标注选择结果选择对待标注文本进行文本类别、文本实体关系、文本情感、文本语义当中一种或者几种类型的标注。
根据本发明实施例,还包括:
将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;
根据所述事件标签数据对所述待标注文本进行事件标注。
需要说明的是,为了实现对文本当中出现的事件进行标注,将实体数据以及文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据,根据事件标签数据对待标注文本进行事件标注,该预设事件标签模型是通过获取大量历史样本的实体数据、文本关系标签数据、文本语义标签数据、文本情感标签数据和事件标签数据进行训练获得的模型,可通过输入相关信息进行处理获得对应输出的事件标签数据。
根据本发明实施例,还包括:
根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;
将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;
若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
需要说明的是,为了根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警,首先根据事件标签数据以及文本情感标签数据对事件进行分析处理,获得事件安全系数,再将事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果,若阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
本发明还公开了一种文本数据标注系统,包括存储器和处理器,所述存储器中包括文本数据标注方法程序,所述文本数据标注方法程序被所述处理器执行时实现如下步骤:
获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。
需要说明的是,为了根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,首先获取待标注文本,并对待标注文本进行数据清洗,剔除无效数据,进而获得第一文本数据,获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据,将第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括名次、动词、形容词等,将标准分词数据以及词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据,该文本类别标签指的是针对不同的应用场景所设置的文本类别,如新闻类、情感疏导类、就医咨询类等,然后根据标准分词数据提取实体数据,实体数据指的是时间日期、人名、地名、组织机构名称、金额以及专有名词等有实际指代意义的数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,该文本关系标签指的是两个实体之间所存在的实际关系,包括人与人之间的关系、人与物品之间的关系等,然后将实体数据以及应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,再将实体数据结合文本关系标签数据、文本情感标签数据以及应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据,该预设语义识别模型是通过获取大量历史样本的实体数据、文本关系标签数据、文本情感标签数据、应用场景特征数据和文本语义标签数据进行训练获得的模型,可通过输入相关信息进行处理获得对应输出的文本语义标签数据,最后根据标注需求对文本类别、文本关系、文本情感和文本语义等文本标注类型进行自适应选择,以确定对文本进行何种类型的标注。
根据本发明实施例,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,具体为:
对所述第一文本数据进行分词处理,获得分词结果;
获取所述待标注文本对应应用场景下的预设标准词库;
将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
对所述标准分词数据进行词性识别,获得词属性数据。
需要说明的是,为了对文本句子拆分成词语并进行词语属性的判定,首先对第一文本数据进行分词处理,获得分词结果,获取待标注文本对应应用场景下的预设标准词库,然后将分词结果与预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据,最后对标准分词数据进行词性识别,获得词属性数据。
根据本发明实施例,所述根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,具体为:
获取人工标注数据,包括:标注实体数据和关系标签数据;
使用预设机器学习算法对所述标注实体数据以及所述关系标签数据进行训练,得到关系识别模型;
获取测试数据集,并将测试数据集输入所述关系识别模型进行处理,获得测试关系标签数据;
根据所述测试关系标签数据对所述关系识别模型进行性能测试并改进,生成标准关系识别模型;
将所述实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
需要说明的是,为了实现对文本的关系标注,首先获取人工标注数据,包括:标注实体数据和关系标签数据,再使用预设机器学习算法对标注实体数据以及关系标签数据进行训练,得到关系识别模型,然后获取测试数据集,以便于根据测试数据对前期训练获得的模型进行测试改进,将测试数据集输入关系识别模型进行处理,获得测试关系标签数据,再根据测试关系标签数据对关系识别模型进行性能测试并改进,生成标准关系识别模型,最后将实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
根据本发明实施例,所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,具体为:
获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;
提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;
将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;
将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;
根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;
将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;
获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;
将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;
根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;
将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据。
需要说明的是,为了实现对文本的情感标注,在本实施例中,情感标注指的是对文本进行“正面”、“负面”、“一般负面”、“严重负面”或者“中性”标注,首先获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据,提取已标注样本数据的情感标签,并对已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据,其中已标注特征数据和未标注特征数据均包含实体数据和应用场景特征数据,然后根据已标注特征数据以及情感标签进行训练,生成情感标签训练模型,再根据未标注特征数据对模型进行测试改进,获取社交媒体网站的评论内容,捕捉当前比较流行的词汇及其情感标签作为训练数据集的补充,以生成更加优化的情感标签训练模型,最后将实体数据以及应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据。
根据本发明实施例,所述根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注,具体为:
将所述标注需求特征数据进行分析处理,生成标注选择因子;
根据所述标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果;
根据所述标注选择结果对所述待标注文本进行标注。
需要说明的是,为了根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,首先将标注需求特征数据进行分析处理,生成标注选择因子,在本实施例中,不同标签对应的标注选择因子为0或者1,0代表不需要对该文本进行此种类型的标注,1代表需要对该文本进行对应类型的标注,然后根据标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果,根据标注选择结果选择对待标注文本进行文本类别、文本实体关系、文本情感、文本语义当中一种或者几种类型的标注。
根据本发明实施例,还包括:
将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;
根据所述事件标签数据对所述待标注文本进行事件标注。
需要说明的是,为了实现对文本当中出现的事件进行标注,将实体数据以及文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据,根据事件标签数据对待标注文本进行事件标注,该预设事件标签模型是通过获取大量历史样本的实体数据、文本关系标签数据、文本语义标签数据、文本情感标签数据和事件标签数据进行训练获得的模型,可通过输入相关信息进行处理获得对应输出的事件标签数据。
根据本发明实施例,还包括:
根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;
将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;
若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
需要说明的是,为了根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警,首先根据事件标签数据以及文本情感标签数据对事件进行分析处理,获得事件安全系数,再将事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果,若阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
本发明第三方面提供了一种可读存储介质,所述可读存储介质中包括文本数据标注方法程序,所述文本数据标注方法程序被处理器执行时,实现如上述任一项所述的文本数据标注方法的步骤。
本发明公开的一种文本数据标注方法、系统和介质,可以根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,还可以对文本进行事件标注,并可以实现根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (7)
1.一种文本数据标注方法,其特征在于,包括以下步骤:
获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注;
所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,包括:
获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;
提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;
将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;
将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;
根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;
将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;
获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;
将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;
根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;
将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据;
还包括:
将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;
根据所述事件标签数据对所述待标注文本进行事件标注;
还包括:
根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;
将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;
若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
2.根据权利要求1所述的文本数据标注方法,其特征在于,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:
对所述第一文本数据进行分词处理,获得分词结果;
获取所述待标注文本对应应用场景下的预设标准词库;
将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
对所述标准分词数据进行词性识别,获得词属性数据。
3.根据权利要求2所述的文本数据标注方法,其特征在于,所述根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,包括:
获取人工标注数据,包括:标注实体数据和关系标签数据;
使用预设机器学习算法对所述标注实体数据以及所述关系标签数据进行训练,得到关系识别模型;
获取测试数据集,并将测试数据集输入所述关系识别模型进行处理,获得测试关系标签数据;
根据所述测试关系标签数据对所述关系识别模型进行性能测试并改进,生成标准关系识别模型;
将所述实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。
4.根据权利要求3所述的文本数据标注方法,其特征在于,所述根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注,包括:
将所述标注需求特征数据进行分析处理,生成标注选择因子;
根据所述标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果;
根据所述标注选择结果对所述待标注文本进行标注。
5.一种文本数据标注系统,其特征在于,该系统包括:存储器和处理器,所述存储器中包括文本数据标注方法的程序,所述文本数据标注方法的程序被所述处理器执行时实现如下步骤:
获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;
获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;
对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;
将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;
根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;
将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;
将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;
根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注;
所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,包括:
获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;
提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;
将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;
将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;
根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;
将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;
获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;
将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;
根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;
将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据;
还包括:
将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;
根据所述事件标签数据对所述待标注文本进行事件标注;
还包括:
根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;
将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;
若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。
6.根据权利要求5所述的文本数据标注系统,其特征在于,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:
对所述第一文本数据进行分词处理,获得分词结果;
获取所述待标注文本对应应用场景下的预设标准词库;
将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;
对所述标准分词数据进行词性识别,获得词属性数据。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括文本数据标注方法程序,所述文本数据标注方法程序被处理器执行时,实现如权利要求1至4中任一项所述的一种文本数据标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311452672.1A CN117172248B (zh) | 2023-11-03 | 2023-11-03 | 一种文本数据标注方法、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311452672.1A CN117172248B (zh) | 2023-11-03 | 2023-11-03 | 一种文本数据标注方法、系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117172248A CN117172248A (zh) | 2023-12-05 |
CN117172248B true CN117172248B (zh) | 2024-01-30 |
Family
ID=88930301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311452672.1A Active CN117172248B (zh) | 2023-11-03 | 2023-11-03 | 一种文本数据标注方法、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117172248B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN108205522A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 情感标注的方法及其系统 |
CN111582360A (zh) * | 2020-05-06 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法、装置、设备和介质 |
CN112163424A (zh) * | 2020-09-17 | 2021-01-01 | 中国建设银行股份有限公司 | 数据的标注方法、装置、设备和介质 |
WO2021114634A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 文本标注方法、设备及存储介质 |
CN115391570A (zh) * | 2022-10-28 | 2022-11-25 | 聊城大学 | 一种基于方面的情感知识图谱构建方法及装置 |
WO2023071745A1 (zh) * | 2021-10-25 | 2023-05-04 | 中兴通讯股份有限公司 | 信息标注方法、模型训练方法、电子设备及存储介质 |
-
2023
- 2023-11-03 CN CN202311452672.1A patent/CN117172248B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN105930411A (zh) * | 2016-04-18 | 2016-09-07 | 苏州大学 | 一种分类器训练方法、分类器和情感分类系统 |
CN108205522A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 情感标注的方法及其系统 |
CN111582360A (zh) * | 2020-05-06 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 用于标注数据的方法、装置、设备和介质 |
WO2021114634A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 文本标注方法、设备及存储介质 |
CN112163424A (zh) * | 2020-09-17 | 2021-01-01 | 中国建设银行股份有限公司 | 数据的标注方法、装置、设备和介质 |
WO2023071745A1 (zh) * | 2021-10-25 | 2023-05-04 | 中兴通讯股份有限公司 | 信息标注方法、模型训练方法、电子设备及存储介质 |
CN115391570A (zh) * | 2022-10-28 | 2022-11-25 | 聊城大学 | 一种基于方面的情感知识图谱构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117172248A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN111738011A (zh) | 违规文本的识别方法及装置、存储介质、电子装置 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111222837A (zh) | 智能化面试的方法、系统、设备及计算机存储介质 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN117351336A (zh) | 图像审核方法和相关设备 | |
CN115687621A (zh) | 一种短文本标签标注方法及装置 | |
CN114722837A (zh) | 一种多轮对话意图识别方法、装置及计算机可读存储介质 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN112487795A (zh) | 上下文讽刺检测方法、装置、电子设备及存储介质 | |
CN117172248B (zh) | 一种文本数据标注方法、系统和介质 | |
CN114417001B (zh) | 基于多模态模式的中文写作智能分析方法、系统及介质 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN112561714B (zh) | 基于nlp技术的核保风险预测方法、装置及相关设备 | |
CN114881012A (zh) | 基于自然语言处理的文章标题及内容的智能改写系统及方法 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |