CN112364131A - 一种语料处理方法及其相关装置 - Google Patents

一种语料处理方法及其相关装置 Download PDF

Info

Publication number
CN112364131A
CN112364131A CN202011251603.0A CN202011251603A CN112364131A CN 112364131 A CN112364131 A CN 112364131A CN 202011251603 A CN202011251603 A CN 202011251603A CN 112364131 A CN112364131 A CN 112364131A
Authority
CN
China
Prior art keywords
corpus
classification result
classification
label
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011251603.0A
Other languages
English (en)
Other versions
CN112364131B (zh
Inventor
谢舒翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011251603.0A priority Critical patent/CN112364131B/zh
Publication of CN112364131A publication Critical patent/CN112364131A/zh
Application granted granted Critical
Publication of CN112364131B publication Critical patent/CN112364131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种语料处理方法及其相关装置,所述语料处理方法包括:获取第一语料,将所述第一语料进行数据清洗,得到第二语料;根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料分别输入第一分类结果预测模型和第二分类结果预测模型进行分类,得到第一多标签分类结果和第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理精准度。

Description

一种语料处理方法及其相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种语料处理方法及其相关装置。
背景技术
宣传是一种信息交流,其目的是为信息提供者服务,使用心理和修辞技巧来达到目的,形成一个预定的议程。例如:运用逻辑谬误来吸引观众情感、利用情绪化的语言来诱导听众同意说话者的观点等。命名实体识别旨在识别文本中特定实体信息,如人名、地名、机构名等,在信息抽取,信息检索,智能问答,机器翻译中都有广泛应用,是自然语言处理的基础之一。
由于在以前的宣传分类工作中尝试在粗级分类而产生的噪声问题。目前业界通常使用命名实体识别的方式(Named Entity Recognition,NER)来处理这一类噪声问题,NER是神经语言程序学(Neuro-Linguistic Programming,NLP)领域的研究热点,从早期基于词典和规则的方法,到传统的机器学习的方法,再到近期基于深度学习的方法都可以解决这类问题。传统基于神经网络处理NER的方法是将标记(token)从离散独热编码(one-hot)表示映射到低维空间中成为稠密的嵌入(embedding),随后将句子的embedding序列输入到循环神经网络(Recurrent Neural Network,RNN)中,用神经网络自动提取特征,分类函数(softmax)来预测每个token的标签,此类方法网络种类繁多,对参数设置依赖大,模型可解释性差,且对每一个token打标签的过程都是独立进行的,不能直接利用上下文已预测的标签,进而导致预测出的标签序列可能是无效的,无法实现多标签信息的预测。
发明内容
本申请实施例的主要目的在于提供一种语料处理方法及其相关装置,能够有效地提高语料数据处理精准度。
第一方面,本申请实施例提供了一种语料处理方法,应用于电子设备,所述语料处理方法包括:
获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;
将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
可选的,所述第一分类结果预测模型包括:第一双向变压编码(BidirectionalEncoder Representation from Transformers,BERT)语言模型、线性分类器;所述将所述第三语料输入第一分类结果预测模型,得到第一多标签分类结果,包括:将所述第三语料输入所述语料微调模块进行分类处理,得到第五语料;将所述第五语料输入所述第一BERT语言模型进行训练,得到第六五语料;将所述第五六语料输入所述线性分类器进行分类,得到所述第一多标签分类结果。
可选的,所述第二分类结果预测模型包括第二BERT语言模型、线性分类器;所述将所述第三语料输入第二分类结果预测模型,得到第二多标签分类结果,包括:将所述第三语料输入所述第二BERT语言模型进行训练,得到第七语料;将所述第七语料输入线性分类器进行分类,得到所述第二多标签分类结果。
可选的,所述第三分类结果预测模型包括一个或多个单一二分类模型;所述将所述第四语料输入第三分类结果预测模型,得到第三多标签分类结果,包括:将所述第四语料分别输入所述一个或多个单一二分类模型进行分类,得到一个或多个二分类结果;对所述一个或多个二分类结果进行整合,得到所述第三多标签分类结果。
可选的,所述获取第一语料,对所述第一语料进行数据清理,得到第二语料,包括:获取所述第一语料;将所述第一语料中的字符级标签转换成token级标签,得到第三语料;删除所述第三语料中语句中与预设符号相同的符号,得到第四语料;将所述第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;将所述第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;取出所述第六语料中的语句的停用词,得到所述第二语料。
可选的,所述将第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果,包括:根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到所述目标结果。
第二方面,本申请实施例提供了一种语料处理装置,所述语料处理装置包括:
数据清洗单元,用于获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
第一分类单元,用于根据所述第二语料中的语句的标记token级标签对所述第二语料进行分类,得到第三语料和第四语料;
第二分类单元,用于将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
第三分类单元,用于将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
第四分类单元,用于将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
融合单元,用于将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例通过获取第一语料,将所述第一语料进行数据清洗,得到第二语料;根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语料处理方法的流程示意图;
图2为本申请实施例提供的一种语料处理的流程示意图;
图3为本申请实施例提供的一种语料处理方法的流程示意图;
图4是本申请实施例提供的一种电子设备的结构示意图;
图5是本申请实施例提供的一种语料处理装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
为提高分类结果预测模型的准确性,本申请提供了一种语料处理方法,应用于电子设备,具体如图1所示,该语料处理方法可以包括但不限于如下步骤:
S101、电子设备获取第一语料,将第一语料进行数据清洗,得到第二语料;其中,该电子设备可以包括各种手持设备、车载设备、计算设备,例如智能手机、平板电脑、台式电脑、笔记本电脑等等。
其中,第一语料为将待处理的文字内容的语料经过预处理得到的语料,第一语料为将待处理的文字内容的语料按据句子拆分得到的语料。
具体实现中,获取第一语料,对第一语料进行数据清洗,得到第二语料,包括:获取所述第一语料;将第一语料中的字符级标签转换成token级标签,得到第三语料;删除第三语料中语句中与预设符号相同的符号,得到第四语料;将第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;将第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;取出所述第六语料中的语句的停用词,得到所述第二语料。
其中,预设符号可以是除问号、感叹号,百分号等带有语义含义的特殊符号,此处不做过多的限制,预设符号可以是动态添加的带有语义含义的特殊符号,此处不作过多的解释。
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(StopWords)。停用词可以是预设的字或词,停用词可以是通过动态停用词表进行存储。
需要进一步举例说明的是,将第四语料中的语句中的缩写短语转换成全写短语,可以是:将I’ll转换成I will,将she’s转化成she is等。
需要进一步举例说明的是,将第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,即将第五语料中的语句中的统意思的但不同写法的词或短语统一转换成一种写法,例如:USA和America都是表示美国的意思,则全部统一写成America。
S102、电子设备根据第二语料中的语句的标记(token)级标签对第二语料进行分类,得到第三语料和第四语料;
其中,token级标签分为16种token级标签,即14种宣传技术中的token级标签、背景token和辅助类token。例如14种宣传技术中的token级标签为:“诉诸权威(Appeal_to_Authority)”、“怀疑(Doubt)”、“鼓动性语言(Loaded_Language)”、诉诸恐惧偏见(Appeal_to_fear-prejudice)、流行谬论(Bandwagon,Reductio_ad_hitlerum)、黑白相间的谬论(Black-and-White_Fallacy)、因果关系的简化Causal_Oversimplification、夸张最小化(Exaggeration,Minimisation)、强烈表现Flag-Waving、谩骂标签(Name_Calling,Labeling)、重复(Repetition)、口号(Slogans)、认为终止陈词滥调(Thought-terminating_Cliches)、诉诸伪善(Whataboutism,Straw_Men,Red_Herring),另外一种为背景token,即不属于任何宣传技术的,即第二语料中的语句中表示是否是属于以上14种宣传技术手法,最后一种为辅助类token,辅助类token用于处理字符标记化(为充分利用给定信息,将官方给定的例子(example)语句作为训练语句输入到分类结果预测模型中进行训练)。例如:单词“Federalist”在标记化后转换为“Federal”和“ist”,“ist”被标记为辅助类token。
具体实现中,电子设备根据第二语料中的语句的token级标签对第二语料进行分类,得到第三语料和第四语料,包括:电子设备根据预设token级标签和第二语料中的语句的token级标签对第二语料进行分类。其中,预设token级标签可以是动态设置的token级标签,可以是固定的token级标签。
举例说明,若预设token级标签为Repetition时,将第二语料中的语句的token级标签为Repetition的语料分成第四语料,第二语料中的语句除token级标签为Repetition的语料为第三语料。
具体实现中,电子设备根据第二语料中的语句的token级标签对第二语料进行分类,得到第三语料和第四语料,包括:电子设备根据第二语料中的语句的token级标签确定第二语料中的不同token级标签对应语句的数量;根据该语句的数量和第一语句数量,对第二语料进行分类,得到第三语料和第四语料。
其中,第一语句数量可以是预设的语句数量,可以是根据第二语料中的16种token级标签中每种token级标签对应的语句的数量动态设定的,例如,第一种token级标签对应的语句的数量是200,其余token级标签对应的语句的数量均为上万,则第一语句数量为1000。
S103、电子设备将第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
其中,第一分类结果预测模型包括:第一双向变压编码(Bidirectional EncoderRepresentation from Transformers,BERT)语言模型、线性分类器;其中,第一BERT语言模型预先通过从各大新闻网站中爬取新闻语料进行训练得到的。其中,线性分类器用于对语料的token分类。
具体实现中,如图2,图2为本申请实施例提供的一种语料处理的流程示意图,将第三语料输入第一分类结果预测模型,得到第一多标签分类结果,包括:将所述第三语料输入所述第一BERT语言模型进行训练,得到第五语料;将所述第五语料输入所述线性分类器进行分类,得到所述第一多标签分类结果。
需要进一步解释的是,将所述第五语料输入所述线性分类器进行分类,得到所述第一多标签分类结果,包括:将第五语料输入所述线性分类器,根据第五语料中的token级标签,对第五语料中字或词的token标签进行分类,得到第六语料,对第六语料的token级标签转化成字符级标签。
需要进一步解释的是,将第六语料输入所述线性分类器进行分类,得到所述第一多标签分类结果,包括:将第六语料输入所述线性分类器,根据token级标签对第六语料进行分类,得到所述第一多标签分类结果。
其中,第一多标签分类结果为带有token级标签的字或词。
其中,根据token级标签对第六语料进行分类,得到所述第一多标签分类结果,可以是根据14种宣传技术中的token级标签对第六语料进行分类,得到所述第一多标签分类结果。根据token级标签对第六语料进行分类,得到所述第一多标签分类结果,可以是根据14种宣传技术中的token级标签和背景对第六语料进行分类,得到所述第一多标签分类结果。
S104、电子设备将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
其中,第二分类结果预测模型包括第一BERT语言模型、线性分类器;
其中,第一多标签分类结果为带有token级标签的字或词。
具体实现中,如图2,将所述第三语料输入第二分类结果预测模型,得到第二多标签分类结果,包括:将所述第三语料输入第一BERT语言模型进行训练,得到第七语料;将第七语料输入线性分类器进行分类,得到第二多标签分类结果。
需要进一步解释的是,将第七语料输入线性分类器进行分类,得到第二多标签分类结果,包括:将第七语料输入所述线性分类器,根据token级标签对第六语料进行分类,得到所述第一多标签分类结果。
其中,根据token级标签对第七语料进行分类,得到所述第一多标签分类结果,可以是根据14种宣传技术中的token级标签对第七语料进行分类,得到所述第一多标签分类结果。根据token级标签对第七语料进行分类,得到所述第一多标签分类结果,可以是根据14种宣传技术中的token级标签和背景对第七语料进行分类,得到所述第一多标签分类结果。
S105、电子设备将第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
其中,第三分类结果预测模型包括一个或多个单一二分类模型;
其中,第三多标签分类结果为带有token级标签的语句。
具体实现中,如图2,将第四语料输入第三分类结果预测模型,得到第三多标签分类结果,包括:将第四语料的语句分别输入一个或多个单一二分类模型进行分类,得到一个或多个二分类结果;对一个或多个二分类结果进行整合,得到第三多标签分类结果。
其中,一个或多个单一二分类模型为一个或多个二分类器。
其中,需要进一步解释的是,将第四语料的语句分别输入一个或多个单一二分类模型进行分类,得到一个或多个二分类结果,包括:将第四语料分别输入一个或多个二分类器中进行二分类训练,第四语料中的语句的标签为0或1,1表示包含该14中宣传技术中的token级标签,0表示不包含该14种宣传技术中的token级标签。将第四语料分别输入一个或多个二分类器中进行二分类训练,包括:采用句子对的方式将第四语料分别输入一个或多个二分类器中进行二分类训练,得到一个或多个二分类结果。
其中,句子对中的句子a表示宣传技巧词或短语,句子对中的句子b表示包含该宣传技巧词或短语的上下文信息。
需要进一步解释的是,对一个或多个二分类结果进行整合,得到第三多标签分类结果,包括:根据对一个或多个二分类结果对应的语句进行字或词的拆分整合,得到第三多标签分类结果。
S106、电子设备将第一多标签分类结果、第二多标签分类结果和第三多标签分类结果进行结果融合,得到目标结果。
具体实现中,所述将第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果,包括:根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到所述目标结果。
需要进一步说明的是,根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到所述目标结果,可以是:确定第一多标签分类结果、第二多标签分类结果和第三多标签分类结果中字或词相同以及该字或词对应的token级标签相同且数量最多的分类结果为上述的目标结果。
需要进一步说明的是,根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到所述目标结果,可以是:若第一多标签分类结果、第二多标签分类结果和第三多标签分类结果中多标签分类结果中的多个集合中的字或词的数量为最大的数量,多个集合中每个集合字或词相同但该字或词对应的token级标签不相同,则确定每个集合中字或词对应的token级标签的标签概率大的多标签分类结果为上述的目标结果。
可以看出,本申请实施例通过获取第一语料,将所述第一语料进行数据清洗,得到第二语料;根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理精准度。
下面通过一个具体的例子对本申请实施例进行详细介绍。
与上述图1所示的实施例一致,请参阅图3,图3是本申请实施例提供的一种语料处理方法的流程示意图,应用于电子设备,所述语料处理方法包括:
S301、电子设备获取所述第一语料;
S302、电子设备将第一语料中的字符级标签转换成token级标签,删除第一语料中语句中与预设符号相同的符号,将第一语料中的语句中的缩写短语转换成全写短语;
S303、电子设备将第一语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,取出第一语料中的语句的停用词,得到第二语料;
S304、电子设备根据所述第二语料中的语句的token级标签对所述第二语料进行分类,得到第三语料和第四语料;
S305、电子设备将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
S306、电子设备将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
S307、电子设备将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
S308、电子设备将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
可以看出,本申请实施例电子设备获取所述第一语料;将第一语料中的字符级标签转换成token级标签,删除第一语料中语句中与预设符号相同的符号,将第一语料中的语句中的缩写短语转换成全写短语;将第一语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,取出第一语料中的语句的停用词,得到第二语料;根据所述第二语料中的语句的token级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理精准度。
请参阅图4,图4是本申请实施例提供的一种电子设备400的结构示意图,如图所示,所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421,其中,所述一个或多个程序421被存储在上述存储器420中,并且被配置由上述应用处理器410执行,所述一个或多个程序421包括用于执行以下步骤:
获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;
将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
可以看出,本申请实施例获取第一语料,将所述第一语料进行数据清洗,得到第二语料;根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理精准度。
在一个可能的示例中,所述第一分类结果预测模型包括:第一双向变压编码(Bidirectional Encoder Representation from Transformers,BERT)语言模型、线性分类器;在所述将所述第三语料输入第一分类结果预测模型,得到第一多标签分类结果方面,所述一个或多个程序421包括具体用于执行以下步骤:将所述第三语料输入所述第一BERT语言模型进行训练,得到第五语料;将所述第五语料输入所述线性分类器进行分类,得到所述第一多标签分类结果。
在一个可能的示例中,所述第二分类结果预测模型包括第二BERT语言模型、线性分类器;在所述将所述第三语料输入第二分类结果预测模型,得到第二多标签分类结果方面,所述一个或多个程序421包括具体用于执行以下步骤:将所述第三语料输入所述第二BERT语言模型进行训练,得到第七语料;将所述第七语料输入线性分类器进行分类,得到所述第二多标签分类结果。
在一个可能的示例中,所述第三分类结果预测模型包括一个或多个单一二分类模型;在所述将所述第四语料输入第三分类结果预测模型,得到第三多标签分类结果方面,所述一个或多个程序421包括具体用于执行以下步骤:将所述第四语料分别输入所述一个或多个单一二分类模型进行分类,得到一个或多个二分类结果;对所述一个或多个二分类结果进行整合,得到所述第三多标签分类结果。
在一个可能的示例中,在所述获取第一语料,对所述第一语料进行数据清洗,得到第二语料方面,所述一个或多个程序421包括具体用于执行以下步骤:获取所述第一语料;将所述第一语料中的字符级标签转换成token级标签,得到第三语料;删除所述第三语料中语句中与预设符号相同的符号,得到第四语料;将所述第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;将所述第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;取出所述第六语料中的语句的停用词,得到所述第二语料。
在一个可能的示例中,在所述将第一多标签分类结果、第二多标签分类结果和第三多标签分类结果进行结果融合,得到目标结果方面,所述一个或多个程序421包括具体用于执行以下步骤:根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果对所述每个标签片段的预测结果进行结果融合,得到所述目标结果。上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是本申请实施例中所涉及的语料处理装置500的功能单元组成框图。该语料处理装置500包括:
数据清洗单元501,用于获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
第一分类单元502,用于根据所述第二语料中的语句的标记token级标签对所述第二语料进行分类,得到第三语料和第四语料;
第二分类单元503,用于将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
第三分类单元504,用于将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
第四分类单元505,用于将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
融合单元506,用于将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
其中,所述语料处理装置500还包括:存储单元507,所述存储单元可以是存储器。
可以看出,本申请实施例获取第一语料,将所述第一语料进行数据清洗,得到第二语料;根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。本申请实施例通过将语料数据通过不同模型,得到的分类结果进行融合提高语料数据处理精准度。
在一个可能的示例中,所述第一分类结果预测模型包括:第一双向变压编码(Bidirectional Encoder Representation from Transformers,BERT)语言模型、线性分类器;在所述将所述第三语料输入第一分类结果预测模型,得到第一多标签分类结果方面,所述第二分类单元503具体用于:将所述第三语料输入所述语料微调模块进行分类处理,得到第五语料;将所述第五语料输入所述第一BERT语言模型进行训练,得到第六五语料;将所述第五六语料输入所述线性分类器进行分类,得到所述第一多标签分类结果。
在一个可能的示例中,所述第二分类结果预测模型包括第二BERT语言模型、线性分类器;在所述将所述第三语料输入第二分类结果预测模型,得到第二多标签分类结果方面,所述第三分类单元504具体用于:将所述第三语料输入所述第二BERT语言模型进行训练,得到第七语料;将所述第七语料输入线性分类器进行分类,得到所述第二多标签分类结果。
在一个可能的示例中,所述第三分类结果预测模型包括一个或多个单一二分类模型;在所述将所述第四语料输入第三分类结果预测模型,得到第三多标签分类结果方面,所述第四分类单元505具体用于:将所述第四语料分别输入所述一个或多个单一二分类模型进行分类,得到一个或多个二分类结果;对所述一个或多个二分类结果进行整合,得到所述第三多标签分类结果。
在一个可能的示例中,在所述获取第一语料,对所述第一语料进行数据清洗,得到第二语料方面,所述数据清洗单元501具体用于:获取所述第一语料;将所述第一语料中的字符级标签转换成token级标签,得到第三语料;删除所述第三语料中语句中与预设符号相同的符号,得到第四语料;将所述第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;将所述第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;取出所述第六语料中的语句的停用词,得到所述第二语料。
在一个可能的示例中,在所述将第一多标签分类结果、第二多标签分类结果和第三多标签分类结果进行结果融合,得到目标结果方面,所述融合单元506具体用于:根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果对所述每个标签片段的预测结果进行结果融合,得到所述目标结果。本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种语料处理方法,其特征在于,应用于电子设备,所述语料处理方法包括:
获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
根据所述第二语料中的语句的标记(token)级标签对所述第二语料进行分类,得到第三语料和第四语料;
将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
2.根据权利要求1所述的方法,其特征在于,所述第一分类结果预测模型包括:第一双向变压编码(Bidirectional Encoder Representation from Transformers,BERT)语言模型、线性分类器;
所述将所述第三语料输入第一分类结果预测模型,得到第一多标签分类结果,包括:
将所述第三语料输入所述第一BERT语言模型进行训练,得到第五语料;
将所述第五语料输入所述线性分类器进行分类,得到所述第一多标签分类结果。
3.根据权利要求1所述的方法,其特征在于,所述第二分类结果预测模型包括第二BERT语言模型、线性分类器;
所述将所述第三语料输入第二分类结果预测模型,得到第二多标签分类结果,包括:
将所述第三语料输入所述第二BERT语言模型进行训练,得到第七语料;
将所述第七语料输入线性分类器进行分类,得到所述第二多标签分类结果。
4.根据权利要求1所述的方法,其特征在于,所述第三分类结果预测模型包括一个或多个单一二分类模型;
所述将所述第四语料输入第三分类结果预测模型,得到第三多标签分类结果,包括:
将所述第四语料分别输入所述一个或多个单一二分类模型进行分类,得到一个或多个二分类结果;
对所述一个或多个二分类结果进行整合,得到所述第三多标签分类结果。
5.根据权利要求1所述的方法,其特征在于,所述获取第一语料,对所述第一语料进行数据清洗,得到第二语料,包括:
获取所述第一语料;
将所述第一语料中的字符级标签转换成token级标签,得到第三语料;
删除所述第三语料中语句中与预设符号相同的符号,得到第四语料;
将所述第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;
将所述第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;
取出所述第六语料中的语句的停用词,得到所述第二语料。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述将第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果,包括:
根据少数服从多数的原则,对所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到所述目标结果。
7.一种语料处理装置,其特征在于,所述语料处理装置包括:
数据清洗单元,用于获取第一语料,将所述第一语料进行数据清洗,得到第二语料;
第一分类单元,用于根据所述第二语料中的语句的标记token级标签对所述第二语料进行分类,得到第三语料和第四语料;
第二分类单元,用于将所述第三语料输入第一分类结果预测模型进行分类,得到第一多标签分类结果;
第三分类单元,用于将所述第三语料输入第二分类结果预测模型进行分类,得到第二多标签分类结果;
第四分类单元,用于将所述第四语料输入第三分类结果预测模型进行分类,得到第三多标签分类结果;
融合单元,用于将所述第一多标签分类结果、所述第二多标签分类结果和所述第三多标签分类结果进行结果融合,得到目标结果。
8.根据权利要求7所述装置,其特征在于,所述数据清洗单元具体用于:
获取所述第一语料;
将所述第一语料中的字符级标签转换成token级标签,得到第三语料;
删除所述第三语料中语句中与预设符号相同的符号,得到第四语料;
将所述第四语料中的语句中的缩写短语转换成全写短语,得到第五语料;
将所述第五语料中的语句中的与第一词语或第一短语同意思的但不同写法的词或短语转换成预设的第二词语或第二短语,得到第六语料;
取出所述第六语料中的语句的停用词,得到所述第二语料。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6中任一项所述的方法。
CN202011251603.0A 2020-11-10 2020-11-10 一种语料处理方法及其相关装置 Active CN112364131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251603.0A CN112364131B (zh) 2020-11-10 2020-11-10 一种语料处理方法及其相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251603.0A CN112364131B (zh) 2020-11-10 2020-11-10 一种语料处理方法及其相关装置

Publications (2)

Publication Number Publication Date
CN112364131A true CN112364131A (zh) 2021-02-12
CN112364131B CN112364131B (zh) 2024-05-17

Family

ID=74514500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251603.0A Active CN112364131B (zh) 2020-11-10 2020-11-10 一种语料处理方法及其相关装置

Country Status (1)

Country Link
CN (1) CN112364131B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878793A (zh) * 2022-05-25 2023-03-31 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376240A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 一种文本分析方法及终端
CN110263161A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 一种信息的处理方法、装置及设备
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质
CN111008528A (zh) * 2019-12-05 2020-04-14 北京知道智慧信息技术有限公司 文本处理方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109376240A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 一种文本分析方法及终端
CN110263161A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 一种信息的处理方法、装置及设备
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质
CN111008528A (zh) * 2019-12-05 2020-04-14 北京知道智慧信息技术有限公司 文本处理方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878793A (zh) * 2022-05-25 2023-03-31 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质
CN115878793B (zh) * 2022-05-25 2023-08-25 北京中关村科金技术有限公司 多标签文档分类方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN112364131B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN111125354A (zh) 文本分类方法及装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN114547315A (zh) 一种案件分类预测方法、装置、计算机设备及存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN112560506A (zh) 文本语义解析方法、装置、终端设备及存储介质
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
Bharathi et al. Machine Learning Based Approach for Sentiment Analysis on Multilingual Code Mixing Text.
KR102166102B1 (ko) 개인 정보 보호를 위한 장치 및 기록 매체
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN112364131A (zh) 一种语料处理方法及其相关装置
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN115292495A (zh) 情绪分析方法、装置、电子设备及存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN114461806A (zh) 广告识别模型的训练方法及装置、广告屏蔽方法
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112765937A (zh) 文本正则方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant