CN111737476B - 文本处理方法、装置、计算机可读存储介质及电子设备 - Google Patents

文本处理方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN111737476B
CN111737476B CN202010775440.XA CN202010775440A CN111737476B CN 111737476 B CN111737476 B CN 111737476B CN 202010775440 A CN202010775440 A CN 202010775440A CN 111737476 B CN111737476 B CN 111737476B
Authority
CN
China
Prior art keywords
label
text
sample
unbalanced
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010775440.XA
Other languages
English (en)
Other versions
CN111737476A (zh
Inventor
张倩汶
闫昭
饶孟良
曹云波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010775440.XA priority Critical patent/CN111737476B/zh
Publication of CN111737476A publication Critical patent/CN111737476A/zh
Application granted granted Critical
Publication of CN111737476B publication Critical patent/CN111737476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本处理方法、装置、计算机存储介质和电子设备,涉及人工智能领域。方法包括:获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。本公开可以提高文本标签的准召率,降低成本。

Description

文本处理方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种文本处理方法、文本处理装置、计算机可读存储介质及电子设备。
背景技术
随着科学技术和人工智能的迅速发展,文本分类成为一个重要方面,对于文本而言,其所对应的标签不止一个,还可能有多个,如一篇介绍某个人物的文章,很可能对该人物的生平、家庭关系、社会贡献等方面进行描述,因此它应该至少包含父亲、母亲、出生地、居所等标签。由此可见,多标签分类可以提供更加丰富的分类信息,为后续可能的应用,如文本分类管理、监控、过滤等等,提供更大的帮助。
目前文本的多标签自动标注都是通过分类模型实现的,在训练分类模型时都是通过将样本(文本、图像或音频)转化为特征向量后进行多标签分类学习的,但是现有方法依赖完备的训练数据集,需要昂贵的人力标注作为支持,极大地限制了领域的扩展和项目的迭代速度,另外现有方法对数据的不平衡问题没有进行优化,导致训练得到的分类模型在对文本进行多标签分类时精准度较差。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的实施例提供了一种文本处理方法和文本处理装置,进而至少在一定程度上可以提高文本多标签分类的效率和精准度,降低成本。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种文本处理方法,包括:获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
根据本公开实施例的一个方面,提供了一种文本处理装置,包括:文本获取模块,用于获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;属性抽取模块,用于通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;知识构建模块,用于根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
在本公开的一些实施例中,所述多标签分类模型包括特征生成子模型和分类子模型;基于前述方案,所述属性抽取模块包括:特征生成单元,用于将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量;特征提取单元,用于将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值;标签确定单元,用于根据第一预设概率阈值和所述标签预测概率值确定与所述待处理文本对应的标签。
在本公开的一些实施例中,所述特征生成子模型包括字向量化网络层、词性编码层和拼接层;基于前述方案,所述特征生成单元配置为:通过所述字向量化网络层将所述待处理文本中的各个文字转换为字向量;通过所述词性编码层对所述待处理文本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息;通过所述拼接层对各所述文字对应的字向量和词性编码信息进行拼接,以获取与各所述文字对应的特征子向量;根据所述待处理文本中所有文字对应的特征子向量确定与所述待处理文本对应的特征向量。
在本公开的一些实施例中,基于前述方案,各所述文字对应的词性编码信息为与各所述文字的词性标注对应的独热编码,其中各所述文字的词性标注包括头位置编码和后续位置编码。
在本公开的一些实施例中,所述分类子模型包括第一高速公路网络层、第二高速公路网络层和基于卷积神经网络的特征强化子模型;基于前述方案,所述特征提取单元配置为:通过所述第一高速公路网络层和所述第二高速公路网络层依次对所述特征向量进行信息回流处理,以获取目标特征信息;通过所述基于卷积神经网络的特征强化子模型对所述目标特征信息进行特征提取,以获取所述标签预测概率值。
在本公开的一些实施例中,基于前述方案,所述文本处理装置还包括:样本获取模块,用于获取所述不平衡文本样本集以及与所述不平衡文本样本集中各文本样本对应的多标签样本;模型训练模块,用于根据所述不平衡文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型。
在本公开的一些实施例中,所述文本样本集包括多个文本样本,所述待训练多标签分类模型包括待训练特征生成子模型和待训练分类子模型;基于前述方案,所述模型训练模块包括:样本特征生成单元,用于通过所述待训练特征生成子模型对各所述文本样本进行向量化处理和词性拼接处理,以获取与各所述文本样本对应的特征向量样本;样本特征提取单元,用于通过所述待训练分类子模型对所述特征向量样本进行特征提取,以获取标签样本预测值;训练单元,用于根据各所述文本样本对应的标签样本预测值和多标签样本确定所述不平衡衰减损失函数,并根据所述不平衡衰减损失函数优化所述待训练多标签分类模型的参数,直至所述不平衡衰减损失函数的值最小或完成预设次数的训练。
在本公开的一些实施例中,基于前述方案,所述训练单元包括:第一参数获取单元,用于根据各所述文本样本对应的标签样本预测值、所述多标签样本中的标签真实值和第二预设概率阈值确定第一参数;第二参数获取单元,用于根据所述第一参数的正负属性确定第二参数;损失函数构建单元,用于根据所述第二参数、所述标签样本预测值、所述标签真实值、标签正样本权重、平衡系数和所述召回损失构建所述不平衡衰减损失函数。
在本公开的一些实施例中,基于前述方案,所述损失函数构建单元配置为:根据所述第二参数、所述标签样本预测值、所述标签真实值和所述标签正样本权重构建所述第一损失部;根据所述第二参数、所述标签样本预测值、所述标签真实值、所述标签正样本权重和所述平衡系数构建所述第二损失部;根据所述第一损失部、所述第二损失部和所述召回损失构建所述不平衡衰减损失函数。
在本公开的一些实施例中,基于前述方案,所述第二参数获取单元配置为:当所述第一参数为负时,所述第二参数为一;当所述第一参数不为负时,所述第二参数为零。
在本公开的一些实施例中,基于前述方案,所述文本处理装置还配置为:在通过所述待训练特征生成子模型对各所述文本样本进行向量化处理的同时,对所述文本样本对应的多个标签进行编码映射,并将所述文本样本中各文字对应的字向量和编码映射后的标签进行拼接。
在本公开的一些实施例中,基于前述方案,所述方法文本处理装置还配置为:根据所述待训练多标签分类模型的标签分类结果和所述多标签样本确定多标签标注精确率和多标签标注召回率;将所述文本样本以及所述文本样本对应的标签分类结果、多标签标注精确率和多标签标注召回率发送至人工复核池,以进行人工复核;根据人工复核后的标签分类结果和所述文本样本对当前待训练多标签分类模型进行再训练。
根据本公开实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述三方面的各种可选实现方式中提供的方法。
在本公开的一些实施例所提供的技术方案中,通过训练好的多标签分类模型对输入至其中的待处理文本进行属性抽取,并输出与待处理文本对应的标签,进而根据标签进行实体抽取,并根据标签和实体构成三元组,以对知识图谱进行更新。其中多标签分类模型是根据不平衡文本样本集和不平衡衰减损失函数对待训练多标签分类模型进行训练得到的。本公开的技术方案一方面能够避免人工标注,降低人工成本;另一方面能够基于不平衡文本样本集进行模型训练,通过构建不平衡衰减损失函数优化模型参数,提高了模型的精度和稳定性,进而提高了文本处理的效率和精准度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
图2示意性示出了根据本公开的一个实施例的文本处理方法的流程图。
图3示意性示出了根据本公开的一个实施例的训练待训练多标签分类模型的流程示意图。
图4示意性示出了根据本公开的一个实施例的获取多标签分类模型的流程示意图。
图5示意性示出了根据本公开的一个实施例的确定不平衡衰减损失函数的流程示意图。
图6示意性示出了根据本公开的一个实施例的多标签分类模型的结构示意图。
图7示意性示出了根据本公开的一个实施例的词性标注编码表。
图8示意性示出了根据本公开的一个实施例的对待处理文本进行多标签分类并更新知识图谱的流程示意图。
图9A示意性示出了根据本公开的一个实施例的输入至多标签分类模型的多个待处理文本。
图9B示意性示出了根据本公开的一个实施例的根据相关技术对待处理文本进行多标签分类得到的与各个待处理文本对应的多标签。
图9C示意性示出了根据本公开的一个实施例的根据本公开实施例中的文本处理方法对各个待处理文本进行处理得到的多个标签。
图10示意性示出了根据本公开的一个实施例的多标签分类模型的训练方法。
图11示意性示出了根据本公开的一个实施例的在BERT字向量生成中加入标签映射的流程示意图。
图12示意性示出了根据本公开的一个实施例的文本处理装置的框架示意图。
图13示意性示出了根据本公开的一个实施例的多标签分类模型的训练装置的框架示意图。
图14示出了适于用来实现本公开实施例的文本处理装置及文本处理模型的训练装置的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、网络102以及服务器103。其中,上述终端设备101可以是手机、便携式计算机、平板电脑等具有显示屏幕的终端设备;网络102用以终端设备101和服务器103之间提供通信链路的介质,网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等,在本公开实施例中,终端设备101和服务器103之间的网络102可以是无线通信链路,具体地可以是移动网络。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等,可用于存储与文本处理相关的信息。
在本公开的一个实施例中,终端设备101可以通过网络102将待处理文本发送至服务器103,服务器103接收到待处理文本后,可以调用多标签分类模型,通过多标签分类模型对待处理文本进行属性抽取,以获取与待处理文本对应的标签;接着根据标签从待处理文本中进行实体抽取获取对应的实体;最后根据标签和实体构建三元组,并根据三元组更新知识图谱。进一步地,在采用多标签分类模型对待处理文本进行多标签分类之前,需要对待训练多标签分类模型进行训练,以获取多标签分类模型。在训练多标签分类模型时,通过网络102将终端设备101中的不平衡文本样本集及与不平衡文本样本集中各文本样本对应的多标签样本发送至服务器103,通过待训练多标签分类模型对不平衡文本样本集中的各个文本样本进行处理,以获取标签集合中各个标签的标签样本预测值,接着根据该标签样本预测值和多标签样本中的标签真实值构建不平衡衰减损失函数,以对待训练多标签分类模型的参数进行优化,当模型训练至预设次数或不平衡衰减损失函数的值达到最小时,模型训练结束,即可获取多标签分类模型。
需要说明的是,本公开实施例所提供的文本处理方法一般由服务器执行,相应地,文本处理装置一般设置于服务器中。但是,在本公开的其它实施例中,也可以由终端设备执行本公开实施例所提供的文本处理方案。
相关技术中,多标签分类任务常见的方法包括考虑强化特征信息的类属属性算法(Label-Specific Features,LIFT),考虑数据最大概率的K临近多标签算法(Multi-LabelKNN,ML-KNN),以及直接将多标签分类任务转化为多个二分类任务的二元关联算法(BinaryRelevance,BR)等等,但是该些方法都需要依赖完备的训练数据集,需要昂贵的人力标注作为支持,另外也没有对文本数据的不平衡问题做出优化,例如某个标签在训练数据中只存在极少的标注为正例,其它的均为负例,这样根据该训练数据训练得到的模型则不能对该标签进行有效的分类,进而导致文本的多标签分类结果不准确。
鉴于相关技术中存在的问题,本公开实施例提供了一种文本处理方法,该文本处理方法是基于机器学习实现的,机器学习属于人工智能的一种,人工智能(ArtificialIntelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本公开实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
本公开实施例首先提出了一种文本处理方法,以下对本公开实施例的技术方案的实现细节进行详细阐述:
图2示意性示出了根据本公开的一个实施例的文本处理方法的流程图,该文本处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器103。参照图2所示,该文本处理方法至少包括步骤S210至步骤S230,详细介绍如下:
在步骤S210中,获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失。
在本公开的一个实施例中,待处理文本可以是用户手动输入的需要进行多标签分类的文本,也可以是在网络上下载得到的需要进行多标签分类的文本,并且待处理文本可以是一段文本或者多段文本,本公开实施例对此不做具体限定。在获取待处理文本之后,可以将待处理文本发送至服务器,通过配置于服务器中的多标签分类模型对待处理文本进行处理,以获取与待处理文本对应的标签。
在本公开的一个实施例中,在采用多标签分类模型对待处理文本进行处理之前,需要对待训练多标签分类模型进行训练,以获取稳定的多标签分类模型。接下来,对如何训练待训练多标签分类模型进行详细说明。
图3示出了训练待训练多标签分类模型的流程示意图,如图3所示,该流程至少包括步骤S301-S302,具体地:
在步骤S301中,获取不平衡文本样本集以及与不平衡文本样本集中各文本样本对应的多标签样本。
在本公开的一个实施例中,为了对待训练多标签分类模型进行有效训练,首先需要获取训练样本,该训练样本具体为不平衡文本样本集以及与不平衡文本样本集中各文本样本对应的多标签样本。模型的稳定性一定程度依赖于样本数量,所以在获取训练样本时,应尽可能搜集大量的文本样本,形成文本样本集,同时对文本样本对应的标签进行人工标注,以形成与文本样本对应的多标签样本。在本公开的实施例中,不平衡文本样本集为标签正样本的数量与标签负样本的数量不均衡的文本样本集,例如一个文本样本集是关于人物的,包含100个文本样本,假设关于人物的标签有6个:祖籍、父亲、母亲、出生地、子女、职业,其中标签“职业”对应的文本样本的数量为80个,而标签“子女”对应的文本样本的数量只有5个,数量相差较大,那么该文本样本集即为不平衡文本样本集。
在步骤S302中,根据不平衡文本样本集和多标签样本对待训练多标签分类模型进行训练,以获取多标签分类模型。
在本公开的一个实施例中,在获取不平衡文本样本集和多标签样本后,可以将不平衡文本样本集中各文本样本输入至待训练多标签分类模型中,通过待训练多标签分类模型对文本样本进行特征提取以获取与文本样本对应的标签样本预测值。在本公开的实施例中,待训练多标签分类模型包括待训练特征生成子模型和待训练分类子模型,图4示出了获取多标签分类模型的流程示意图,如图4所示,在步骤S401中,通过待训练特征生成子模型对各文本样本进行向量化处理和词性拼接处理,以获取与各文本样本对应的特征向量样本;在步骤S402中,通过待训练分类子模型对特征向量样本进行特征提取,以获取标签样本预测值;在步骤S403中,根据各文本样本对应的标签样本预测值和多标签样本确定不平衡衰减损失函数,并根据该不平衡衰减损失函数优化待训练多标签分类模型的参数,直至不平衡衰减损失函数的值最小或完成预设次数的训练。
其中,在步骤S401中,待训练特征生成子模型具体包括待训练字向量化网络层、待训练词性编码层和待训练拼接层,其中待训练字向量化网络层可以将文本样本中的各个文字转换为字向量,该待训练字向量网络层具体可以是BERT中文版基础网络结构;待训练词性编码层可以对文本样本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息样本;待训练拼接层可以对各文字对应的字向量和词性编码信息样本进行拼接,以获取与各文字对应的特征子向量样本;进一步地,可以根据文本样本中所有文字对应的特征子向量样本确定与文本样本对应的特征向量样本。
在步骤S402中,该标签样本预测值为与文本样本的类别对应的标签集合中各个标签被分类为文本样本的标签的预测概率值。例如文本样本是关于体育赛事的信息,那么对应的标签集合可能包括:比赛、时间、地点、参赛队伍、人名、名次、奖金等标签,通过多标签分类模型对文本样本进行特征提取,能够预测到每个标签与文本样本相关的概率值,若部分标签对应的标签样本预测值大于预设概率阈值,则说明该些标签为对应文本样本的标签。
在步骤S403中,可以根据标签样本预测值和与文本样本对应的多标签样本中各标签对应的标签真实值确定不平衡衰减损失函数,以根据该不平衡衰减损失函数优化待训练多标签分类模型的参数,进而获取稳定的多标签分类模型。与文本样本对应的多标签样本中包含与文本样本对应的标记标签,那么与该些标记标签对应的标签真实值即为1,而标签集合中未被标记的标签对应的标签真实值即为0。
图5示出了确定不平衡衰减损失函数的流程示意图,如图5所示,该流程至少包括步骤S501-S503,具体为:
在步骤S501中,根据各文本样本对应的标签样本预测值、多标签样本中各标签的标签真实值和第二预设概率阈值确定第一参数。
在本公开的一个实施例中,由于设置损失函数的目的是为了让多标签分类模型输出的预测标签与真实的标记标签相近甚至是一致,因此在本公开的实施例中,只需对预测标签和标记标签不同的情况计算损失。在本公开的实施例中,可以根据信号函数确定第一参数,该第一参数用于判断预测标签和标记标签是否相同,以及是否需要计算模型的损失,在确定第一参数时,可以根据文本样本对应的各个标签的标签样本预测值和标签真实值,以及第二预设概率阈值进行确定,表达式如公式(1)所示:
Figure DEST_PATH_IMAGE001
(1)
其中,αij为第一参数,signal(*)为信号函数,yij为第i个文本样本中第j个标签对应的标签样本预测值,tij为第i个文本样本中第j个标签对应的标签真实值,0.5为第二预设概率阈值,i,j为正整数。
在公式(1)中,tij和yij是同一标签对应同一文本样本的标签真实值和标签样本预测值,tij取值为0或1,若某个标签为文本样本的标签,则tij为1,若某个标签不是文本样本的标签,则tij为0,因此当tij为1时,若yij大于0.5,说明预测该标签为文本样本的标签,分类结果正确,则不需计算模型损失,若yij小于或等于0.5,说明预测该标签不是文本样本的标签,分类结果不正确,则需要计算模型损失,调节模型参数,以使模型能够正确分类;当tij为0时,若yij大于0.5,说明预测该标签为文本样本的标签,分类结果不正确,则需要计算模型损失,调节模型参数,以使模型能够正确分类,若yij小于或等于0.5,说明预测该标签不是文本样本的标签,分类结果正确,则不需要计算模型损失。
在步骤S502中,根据第一参数的正负属性确定第二参数。
在本公开的一个实施例中,如果yij-0.5和tij-0.5同号,则信号函数为正,即第一参数为正,如果yij-0.5和tij-0.5异号,则信号函数为负,即第一参数为负。当第一参数为正时,说明预测的分类结果与多标签样本中的标签相同,无需计算损失,当第一参数为负时,说明预测的分类结果与多标签样本中的标签不同,需要计算损失,对模型参数进行优化,进而提升模型对标签正样本的识别。
在本公开的一个实施例中,根据第一参数的正负属性可以确定第二参数,进而根据该第二参数确定不平衡衰减损失函数。第二参数用于表征是否将对应的损失纳入损失函数的计算,其表达式具体如公式(2)所示:
Figure 306835DEST_PATH_IMAGE002
(2)
其中,αij为第一参数,βij为第二参数。
在步骤S503中,根据第二参数、标签样本预测值、标签真实值、标签正样本权重、平衡系数和召回损失构建不平衡衰减损失函数。
在本公开的一个实施例中,在确定第二损失函数之后,可以构建不平衡衰减损失函数,具体地,可以根据第二参数、标签样本预测值、标签真实值和标签正样本权重构建第一损失部;根据第二参数、标签样本预测值、标签真实值、标签正样本权重和平衡系数构建第二损失部;根据第一损失部、第二损失部和召回损失构建不平衡衰减损失函数。其中,标签正样本权重为各个标签在不平衡文本样本集中所对应的正样本的数量在所有文本样本数量中所占比例的倒数,例如,标签A在整个不平衡文本样本集中对应5个文本样本,而整个不平衡文本样本集包括100个文本样本,那么标签A对应的标签正样本权重为20,也就是说,标签正样本的数量越少,标签正样本权重越大。平衡系数为通过多次试验所确定的系数值,用于调节标签对应的正样本数量和负样本数量的影响。召回损失为多标签标注召回率,训练待训练多标签分类模型的目的是为了提高标签的召回率,尽可能将文本对应的标签都能标注出来,因此可以根据召回损失优化待训练多标签分类模型的参数,提高对为学习到的样本的注意力,降低对已学习但可能存在的分类误差的关注。通过在不平衡衰减损失函数中引入标签正样本权重、平衡系数等参数,可以缓解不平衡文本样本集中标签对应文本样本数量不均衡所带来的模型性能较差的问题,进而提高多标签分类模型对各类文本的多标签分类结果的精准度。
标签正样本权重、不平衡衰减损失函数及召回损失的表达式如公式(3)、(4)、(5)所示:
Figure DEST_PATH_IMAGE003
(3)
Figure 161659DEST_PATH_IMAGE004
(4)
Figure DEST_PATH_IMAGE005
(5)
其中,Pj为第j个标签对应的标签正样本权重,IDL为不平衡衰减损失函数,βij为第二参数,tij为第i个文本样本中第j个标签对应的标签真实值,λ为平衡系数,recall_loss为召回损失,N为不平衡文本样本集中文本样本的总量,M为与不平衡文本样本集合对应的标签集合中标签的总量,TPij为把原来的标签正样本预测成标签正样本的数量,FNij为把原来的标签正样本预测为标签负样本的数量,并且i,j,M,N均为正整数。
从公式(4)分析可知,IDL由三部分组成,其中第一损失部用于表征标签正样本的损失,第二损失部用于表征标签负样本的损失,召回损失用于关注有的标签被正确分类,缓解正样本的标签没有在不平衡文本样本集中被标出的问题。
在确定不平衡衰减损失函数后,可以根据不平衡衰减损失函数对待训练多标签分类模型进行反向调参,以使待训练多标签分类模型对文本样本的预测分类结果与多标签样本接近或相同。在本公开的实施例中,可以采用一批一批的样本对待训练多标签分类模型进行训练,例如不平衡文本样本集中包含100个文本样本,那么可以以20、50等数量将不平衡文本样本集划分为多个批次的训练数据,然后分别通过各个批次的训练数据对待训练多标签分类模型进行训练,并根据不平衡衰减损失函数调节模型参数。同时还可以根据不平衡文本样本集对待训练多标签分类模型进行多次训练,直至不平衡衰减损失函数的值达到最小,或者对待训练多标签分类模型进行预设次数的训练,当完成预设次数的训练后,即认为模型训练完成,获取了稳定的多标签分类模型。
在本公开的一个实施例中,在完成对待训练多标签分类模型的训练后,可以采用测试集中的测试文本对多标签分类模型的性能进行测试,并通过计算多标签标注精确率和多标签标注召回率对模型性能进行评价。
在步骤S220中,通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签。
在本公开的一个实施例中,在训练得到稳定的多标签分类模型之后,可以将待处理文本输入至多标签分类模型,以使多标签分类模型对待处理文本进行属性抽取,获取与待处理文本对应的标签。
图6示出了多标签分类模型的结构示意图,如图6所示,与待训练多标签分类模型的结构相同,多标签分类模型包括特征生成子模型601和分类子模型602,其中特征生成子模型601用于对待处理文本进行向量化处理和词性拼接处理,以获取与待处理文本对应的特征向量;分类子模型602用于对特征向量进行特征提取,以获取标签预测概率值。进一步地,根据第一预设阈值和标签预测概率值可以确定与待处理文本对应的标签,具体地,若标签对应的标签预测概率值大于第一预设阈值,则该标签为与待处理文本对应的标签,若标签对应的标签预测概率值小于或等于第一预设阈值,则该标签不是与待处理文本对应的标签。该第一预设阈值与第二预设阈值相同,例如都可以设置为0.5,当然根据实际需要还可以设置为其它数值。
进一步地,如图6所示,特征生成子模型601包括字向量化网络层601-1、词性编码层601-2和拼接层601-3,分类子模型602包括第一高速公路网络层602-1、第二高速公路网络层602-2和基于卷积神经网络的特征强化子模型602-3。对待处理文本进行向量化处理和词性拼接处理,具体可以是,首先通过字向量化网络层601-1将待处理文本中的各个文字转换为字向量;接着通过词性编码层601-2对待处理文本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息;然后通过拼接层对各文字对应的字向量和词性编码信息进行拼接,以获取与各文字对应的特征子向量;最后根据待处理文本中所有文字对应的特征子向量可以确定与待处理文本对应的特征向量。
在本公开的一个实施例中,各文字对应的词性编码信息为与各文字的词性标注对应的独热编码,其中各文字的词性标注包括头位置编码和后续位置编码。图7示出了词性标注编码表,如图7所示,本公开实施例中的词性标签共有28个,对应57个编码位,其中第56-57编码位对应的词性标签为“none”,表示无意义位或异常位。在本公开的实施例中,词性标注对应2个编码,头位置编码和后续位置编码,例如待处理文本中存在人名“张三”,那么根据词性标注编码表可以确定其词性标签为nr,对应的编码位为8,那么可以将“张”对应的词性标注标记为8,“三”是人名的最后一个字,可以在“张”的词性标注基础上加一,用奇数表示,也就是说,“三”对应的词性标注可以标记为9,对于存在多个文字信息的情况,例如人名为三个字,那么头文字对应的词性标注可以标记为8,其它文字的词性标注均可以标记为9。通过设置头位置编码和后续位置编码可以区分每个字位置上的特征向量。在确定词性标注后,可以对词性标注进行独热编码(One-hot编码),独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。本公开实施例中编码位有57位,那么词性标注的独热编码,也就是词性编码信息,为一个由0和1组成的57维的向量,例如“张三”对应的词性标注为8 9,那么与“张”对应的词性编码信息为第8位为1,其它位为0的57维向量,与“三”对应的词性编码信息为第9位为1,其它位为0的57维向量。
在本公开的一个实施例中,在获取词性编码信息后,可以将各文字的字向量和词性编码信息在字维度上进行拼接,以获取与各文字对应的特征子向量,例如一文字的字向量为200维的向量,词性编码信息为57维的向量,那么拼接后可以得到257维的向量,该257维的向量即为该文字的特征子向量。在获取待处理文本中各文字对应的特征子向量后,即可根据各文字的特征子向量确定待处理文本对应的特征向量。
在本公开的一个实施例中,通过分类子模型对特征向量进行特征提取获取标签预测概率值,具体可以是,通过第一高速公路网络层602-1和第二高速公路网络层602-2依次对特征向量进行信息回流处理,以获取目标特征信息;接着通过基于卷积神经网络的特征强化子模型602-3对目标特征信息进行特征提取,以获取标签预测概率值。
第一高速公路网络层602-1和第二高速公路网络层602-2的结构相同,都是用于进行信息回流的。高速公路网络层对神经网络的前项传播进行处理,加入门机制,对一部分信息进行转换,一部分信息直接通过,通过高速公路网络层处理,可以将待处理文本中独立文字的信息转换为存在交叉验证关系的信息,加强了信息的回流富集。高速公路网络层的算法公式如公式(6)所示:
Figure 377614DEST_PATH_IMAGE006
(6)
其中,Q为经过高速公路网络层对特征向量x进行处理所获得的信息,H是传统神经网络前向传播变换,WH为与H对应的权重,T是transform gate,本质是一个激活函数,判断输入的特征向量x在权重WT作用下需要进行信息保留还是进行变换。
本公开实施例中设置了第一高速公路网络层和第二高速公路网络层,那么可以根据公式(6)对特征向量进行两次处理,以获取用于输入至基于卷积神经网络的特征强化子模型的特征信息。在本公开的实施例中,还可以将高速公路网络层的数量设置为其它数量,本公开实施例对此不作具体限定。
在本公开的一个实施例中,基于卷积神经网络的特征强化子模型602-3可以是CNN或RNN等神经网络模型,用于对第二高速公路网络层602-2输出的特征信息进行特征提取,进而获取与待处理文本对应的标签集中各个标签的概率分布,即标签预测概率值。
在步骤S230中,根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
在本公开的一个实施例中,根据标签预测概率值和第一预设概率阈值可以获取与待处理文本对应的一个或多个标签,例如基于卷积神经网络的特征强化子模型602-3输出的标签预测概率值分布为:标签A:0.6,标签B:0.8,标签C:0.3,标签D:0.2,标签E:0.8,第一预设概率阈值为0.5,那么与待处理文本对应的多个标签为标签A、标签B和标签E。
在本公开的一个实施例中,在获取与待处理文本对应的多个标签后,可以根据标签从待处理文本中获取对应的实体,进一步地可以根据标签和实体构建三元组,并根据三元组更新知识图谱。图8示出了对待处理文本进行多标签分类并更新知识图谱的流程示意图,如图8所示,在步骤S801中,将待处理文本输入至多标签分类模型;该待处理文本为“刘德华的妻子是朱丽倩,他们的孩子是刘向蕙”。在步骤S802中,通过多标签分类模型对待训练文本进行属性抽取,以获取与待处理文本对应的多个标签;例如可以获取标签:妻子、丈夫和子女。在步骤S803中,根据标签从待处理文本中抽取实体;例如与标签“妻子”相关的实体对为<刘德华,朱丽倩>,与标签“丈夫”相关的实体对为<朱丽倩,刘德华>,与标签“子女”相关的实体对为<刘德华,刘向蕙>和<朱丽倩,刘向蕙>。在步骤S804中,根据获取的标签和实体对构建三元组;例如可以得到三元组:<刘德华,妻子,朱丽倩>,<朱丽倩,丈夫,刘德华>,<刘德华,子女,刘向蕙>和<朱丽倩,子女,刘向蕙>。在步骤S805中,根据三元组更新知识图谱。
本公开中的文本处理方法通过训练好的多标签分类模型对待处理文本进行处理,首先通过特征生成子模型对待处理文本进行字维度的处理,将待处理文本中各文字对应的字向量和词性编码向量进行拼接,然后通过分类子模型对特征生成子模型输出的特征向量进行信息回流处理和特征提取,以获取与待处理文本对应的标签,本公开的方法提高了多标签分类的精准度和全面性,表1示出了多种方法进行多标签分类的Macro指标的对比表,如表1所示:
表1 多标签标注的Macro指标
Macro指标 BR LIFT ML-KNN BERT 本公开
多标签标注精确率 0.6513±0.0350 0.5763±0.0362 0.5689±0.0221 0.6142 0.7471
多标签标注召回率 0.4167±0.0314 0.3491±0.0250 0.3321±0.0220 0.5108 0.7083
从表1分析可知,相关技术中的各个算法在进行多标签分类时,标注精确率和标注召回率均较低,而本公开的文本处理方法在多标签标注精确率和多标签标注召回率方面表现非常优秀。
图9A、9B、9C示出了对待处理文本进行处理得到的多标签的界面示意图,图9A所示为输入至多标签分类模型的多个待处理文本,图9B所示为相关技术对待处理文本进行多标签分类得到的与各个待处理文本对应的多标签,图9C所示为根据本公开实施例中的文本处理方法对各个待处理文本进行处理得到的多个标签,通过比较可知,现有技术中对待处理文本进行分类时会出现少标签、错标签等情况,例如对于编号4的待处理文本“1997年与拍档关咏荷凭借《醉打金枝》在万千星辉颁奖典礼中夺得“最佳惹笑冤家大奖””,根据相关技术中多标签分类方法所确定的该文本的标签为“上映时间”和“主演”,而通过本公开实施例中的方法所确定的该文本的标签只有“主演”,分析可知,该文本中的1997年是奖项获取时间,而不是上映时间,因此相关技术存在标签标注错误的情况,而本公开的方法能够正确标注,提高了分类的精确度和召回率。
相应地,本公开实施例还公开了一种多标签分类模型的训练方法,图10示出了多标签分类模型的训练流程示意图,如图10所示,在步骤S1001:获取不平衡文本样本集和与不平衡文本样本集中各文本样本对应的多标签样本;步骤S1002:将各文本样本输入至待训练多标签分类模型,通过多标签分类模型对文本样本进行处理,以获取与各文本样本对应的标签样本预测值;步骤S1003:根据各文本样本对应的标签样本预测值和多标签样本确定不平衡衰减损失函数;步骤S1004:根据不平衡衰减损失函数优化待训练多标签分类模型的参数,直至不平衡衰减损失函数的值最小或完成预设次数的训练。
该多标签分类模型的训练方法与文本处理方法实施例中涉及的多标签分类模型训练流程相同,在此不再赘述。
在本公开的一个实施例中,为了强化多标签分类模型对文本和与文本对应的多标签的学习,可以在通过待训练特征生成子模型对文本样本进行处理时,在生成字向量的同时进行标签映射,具体地,可以采用BERT字表对文本样本中的文字进行向量转化,形成字向量,对标签进行与BERT字表相似的数字编码,例如标签集[‘祖籍’,‘父亲’,‘出生地’,‘目’,‘上映时间’,‘妻子’],可以将该标签集中的标签映射为[1,2,3,4,5,6],并在获取文本样本对应的字向量后,将字向量和标签映射进行字级别的拼接,并将拼接后的特征向量用于模型训练。
图11示出了在BERT字向量生成中加入标签映射的流程示意图,如图11所示,在步骤S1101中,对文本样本进行BERT分字,获取多个字信息Tok 1、Tok 2……Tok N;在步骤S1102中,对标签集中的各个标签进行标签映射,获取多个标签信息Tok’1、Tok’2、……Tok’M;在步骤S1103中,将字信息和标签信息输入至嵌入层,以获取与各输入信息对应的嵌入信息E0、E1、…、EM’;在步骤S1104中,通过依次连接的两层全连接层对嵌入信息进行全连接处理,以获取与每个字对应的向量信息T1、T2、……、TM’。图中的[CLS]和[SEP]为用于标记文本样本起始和结束的标识符。
在本公开的一个实施例中,在通过待训练多标签分类模型对不平衡文本样本集中的文本样本进行多标签分类后,可以根据标签分类结果和多标签样本确定多标签标注精确率和多标签标注召回率;然后将文本样本、标签分类结果、多标签标注精确率和多标签标注召回率发送至人工复核池,以进行人工复核;最后可以根据人工复核后的标签分类结果和文本样本对当前待训练多标签分类模型进行再训练。其中,多标签标注召回率的计算公式如公式(5)所示,多标签标注精确率的计算公式如公式(7)所示:
Figure DEST_PATH_IMAGE007
(7)
其中,M为与不平衡文本样本集合对应的标签集合中标签的总量,TPij为把原来的标签正样本预测成标签正样本的数量,FPij为把原来的标签负样本预测为标签正样本的数量。
本公开中多标签分类模型在训练的过程中,分为特征生成和特征提取两部分,在特征生成部分,采用了BERT结合词性首尾双编码的方式生成与文本样本对应的特征向量样本,自动化训练数据的生成过程,在特征提取部分,采用多层高速公路网络层对特征向量样本进行处理,使得信息富集,并且根据标签样本预测值和多分类样本构建不平衡衰减损失函数,优化不平衡文本样本集对模型训练带来的弊端,使得训练后的多标签分类模型能够自动、准确、全面的对待处理文本进行标签标注,提高了准召率,并避免了人工标记,降低了成本。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的文本处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的文本处理方法的实施例。
图12示意性示出了根据本公开的一个实施例的文本处理装置的框图。
参照图12所示,根据本公开的一个实施例的文本处理装置1200,包括:文本获取模块1201、标签抽取模块1202和知识构建模块1203。
其中,文本获取模块1201,用于获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;属性抽取模块1202,用于通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;知识构建模块1203,用于根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
在本公开的一个实施例中,所述多标签分类模型包括特征生成子模型和分类子模型;所述属性抽取模块1202包括:特征生成单元,用于将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量;特征提取单元,用于将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值;标签确定单元,用于根据第一预设概率阈值和所述标签预测概率值确定与所述待处理文本对应的标签。
在本公开的一个实施例中,所述特征生成子模型包括字向量化网络层、词性编码层和拼接层;所述特征生成单元配置为:通过所述字向量化网络层将所述待处理文本中的各个文字转换为字向量;通过所述词性编码层对所述待处理文本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息;通过所述拼接层对各所述文字对应的字向量和词性编码信息进行拼接,以获取与各所述文字对应的特征子向量;根据所述待处理文本中所有文字对应的特征子向量确定与所述待处理文本对应的特征向量。
在本公开的一个实施例中,各所述文字对应的词性编码信息为与各所述文字的词性标注对应的独热编码,其中各所述文字的词性标注包括头位置编码和后续位置编码。
在本公开的一个实施例中,所述分类子模型包括第一高速公路网络层、第二高速公路网络层和基于卷积神经网络的特征强化子模型;所述特征提取单元配置为:通过所述第一高速公路网络层和所述第二高速公路网络层依次对所述特征向量进行信息回流处理,以获取目标特征信息;通过所述基于卷积神经网络的特征强化子模型对所述目标特征信息进行特征提取,以获取所述标签预测概率值。
在本公开的一个实施例中,所述文本处理装置1200还包括:样本获取模块,用于获取所述不平衡文本样本集以及与所述不平衡文本样本集中各文本样本对应的多标签样本;模型训练模块,用于根据所述不平衡文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型。
在本公开的一个实施例中,所述文本样本集包括多个文本样本,所述待训练多标签分类模型包括待训练特征生成子模型和待训练分类子模型;所述模型训练模块包括:样本特征生成单元,用于通过所述待训练特征生成子模型对各所述文本样本进行向量化处理和词性拼接处理,以获取与各所述文本样本对应的特征向量样本;样本特征提取单元,用于通过所述待训练分类子模型对所述特征向量样本进行特征提取,以获取标签样本预测值;训练单元,用于根据各所述文本样本对应的标签样本预测值和多标签样本确定所述不平衡衰减损失函数,并根据所述不平衡衰减损失函数优化所述待训练多标签分类模型的参数,直至所述不平衡衰减损失函数的值最小或完成预设次数的训练。
在本公开的一个实施例中,所述训练单元包括:第一参数获取单元,用于根据各所述文本样本对应的标签样本预测值、所述多标签样本中的标签真实值和第二预设概率阈值确定第一参数;第二参数获取单元,用于根据所述第一参数的正负属性确定第二参数;损失函数构建单元,用于根据所述第二参数、所述标签样本预测值、所述标签真实值、标签正样本权重、平衡系数和所述召回损失构建所述不平衡衰减损失函数。
在本公开的一个实施例中,所述损失函数构建单元配置为:根据所述第二参数、所述标签样本预测值、所述标签真实值和所述标签正样本权重构建所述第一损失部;根据所述第二参数、所述标签样本预测值、所述标签真实值、所述标签正样本权重和所述平衡系数构建所述第二损失部;根据所述第一损失部、所述第二损失部和所述召回损失构建所述不平衡衰减损失函数。
在本公开的一个实施例中,所述第二参数获取单元配置为:当所述第一参数为负时,所述第二参数为一;当所述第一参数不为负时,所述第二参数为零。
在本公开的一个实施例中,所述文本处理装置1200还配置为:在通过所述待训练特征生成子模型对各所述文本样本进行向量化处理的同时,对所述文本样本对应的多个标签进行编码映射,并将所述文本样本中各文字对应的字向量和编码映射后的标签进行拼接。
在本公开的一个实施例中,所述方法文本处理装置1200还配置为:根据所述待训练多标签分类模型的标签分类结果和所述多标签样本确定多标签标注精确率和多标签标注召回率;将所述文本样本以及所述文本样本对应的标签分类结果、多标签标注精确率和多标签标注召回率发送至人工复核池,以进行人工复核;根据人工复核后的标签分类结果和所述文本样本对当前待训练多标签分类模型进行再训练。
图13示意性示出了根据本公开的一个实施例的多标签分类模型的训练装置的框图。
参照图13所示,根据本公开的一个实施例的多标签分类模型的训练装置1300,包括:样本获取模块1301、样本处理模块1302、损失构建模块1303和模型调参模块1304。
其中,样本获取模块1301,用于获取不平衡文本样本集和与不平衡文本样本集中各文本样本对应的多标签样本;样本处理模块1302,用于将各文本样本输入至待训练多标签分类模型,通过多标签分类模型对文本样本进行处理,以获取与各文本样本对应的标签样本预测值;损失构建模块1303,用于根据各文本样本对应的标签样本预测值和多标签样本确定不平衡衰减损失函数;模型调参模块1304,用于根据不平衡衰减损失函数优化待训练多标签分类模型的参数,直至不平衡衰减损失函数的值最小或完成预设次数的训练。
在本公开的一个实施例中,不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,不平衡衰减损失函数包括第一损失部、第二损失部和召回损失。
图14示出了适于用来实现本公开实施例的文本处理装置的计算机系统的结构示意图。
需要说明的是,图14示出的文本处理装置的计算机系统1400仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图14所示,计算机系统1400包括中央处理单元(Central Processing Unit,CPU)1401,其可以根据存储在只读存储器(Read-Only Memory,ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(Random Access Memory,RAM)1403中的程序而执行各种适当的动作和处理,实现上述实施例中所述的文本处理方法。在RAM 1403中,还存储有系统操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input /Output,I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本公开的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的文本处理装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集;所述不平衡衰减损失函数根据标签样本预测值和多标签样本确定,其中,所述多标签样本为所述不平衡文本样本集中各文本样本对应的多标签样本,所述标签样本预测值为利用所述多标签分类模型获取的所述文本样本对应的标签样本预测值,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;
通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;
根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
2.根据权利要求1所述的文本处理方法,其特征在于,所述多标签分类模型包括特征生成子模型和分类子模型;
所述通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签,包括:
将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量;
将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值;
根据第一预设概率阈值和所述标签预测概率值确定与所述待处理文本对应的标签。
3.根据权利要求2所述的文本处理方法,其特征在于,所述特征生成子模型包括字向量化网络层、词性编码层和拼接层;
所述将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量,包括:
通过所述字向量化网络层将所述待处理文本中的各个文字转换为字向量;
通过所述词性编码层对所述待处理文本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息;
通过所述拼接层对各所述文字对应的字向量和词性编码信息进行拼接,以获取与各所述文字对应的特征子向量;
根据所述待处理文本中所有文字对应的特征子向量确定与所述待处理文本对应的特征向量。
4.根据权利要求3所述的文本处理方法,其特征在于,各所述文字对应的词性编码信息为与各所述文字的词性标注对应的独热编码,其中各所述文字的词性标注包括头位置编码和后续位置编码。
5.根据权利要求2所述的文本处理方法,其特征在于,所述分类子模型包括第一高速公路网络层、第二高速公路网络层和基于卷积神经网络的特征强化子模型;
所述将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值,包括:
通过所述第一高速公路网络层和所述第二高速公路网络层依次对所述特征向量进行信息回流处理,以获取目标特征信息;
通过所述基于卷积神经网络的特征强化子模型对所述目标特征信息进行特征提取,以获取所述标签预测概率值。
6.根据权利要求1所述的文本处理方法,其特征在于,所述方法还包括:
获取所述不平衡文本样本集以及与所述不平衡文本样本集中各文本样本对应的多标签样本;
根据所述不平衡文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型。
7.根据权利要求6所述的文本处理方法,其特征在于,所述文本样本集包括多个文本样本,所述待训练多标签分类模型包括待训练特征生成子模型和待训练分类子模型;
所述根据所述文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型,包括:
通过所述待训练特征生成子模型对各所述文本样本进行向量化处理和词性拼接处理,以获取与各所述文本样本对应的特征向量样本;
通过所述待训练分类子模型对所述特征向量样本进行特征提取,以获取标签样本预测值;
根据各所述文本样本对应的标签样本预测值和多标签样本确定所述不平衡衰减损失函数,并根据所述不平衡衰减损失函数优化所述待训练多标签分类模型的参数,直至所述不平衡衰减损失函数的值最小或完成预设次数的训练。
8.根据权利要求7所述的文本处理方法,其特征在于,所述根据各所述文本样本对应的标签样本预测值和多标签样本确定所述不平衡衰减损失函数,包括:
根据各所述文本样本对应的标签样本预测值、所述多标签样本中的标签真实值和第二预设概率阈值确定第一参数;
根据所述第一参数的正负属性确定第二参数;
根据所述第二参数、所述标签样本预测值、所述标签真实值、标签正样本权重、平衡系数和所述召回损失构建所述不平衡衰减损失函数。
9.根据权利要求8所述的文本处理方法,其特征在于,所述根据所述第二参数、所述标签样本预测值、所述标签真实值、标签正样本权重、平衡系数和召回损失构建所述不平衡衰减损失函数,包括:
根据所述第二参数、所述标签样本预测值、所述标签真实值和所述标签正样本权重构建所述第一损失部;
根据所述第二参数、所述标签样本预测值、所述标签真实值、所述标签正样本权重和所述平衡系数构建所述第二损失部;
根据所述第一损失部、所述第二损失部和所述召回损失构建所述不平衡衰减损失函数。
10.根据权利要求8所述的文本处理方法,其特征在于,所述根据所述第一参数的正负属性确定第二参数,包括:
当所述第一参数为负时,所述第二参数为一;
当所述第一参数不为负时,所述第二参数为零。
11.根据权利要求7所述的文本处理方法,其特征在于,所述方法还包括:
在通过所述待训练特征生成子模型对各所述文本样本进行向量化处理的同时,对所述文本样本对应的多个标签进行编码映射,并将所述文本样本中各文字对应的字向量和编码映射后的标签进行拼接。
12.根据权利要求6所述的文本处理方法,其特征在于,所述方法还包括:
根据所述待训练多标签分类模型的标签分类结果和所述多标签样本确定多标签标注精确率和多标签标注召回率;
将所述文本样本以及所述文本样本对应的标签分类结果、多标签标注精确率和多标签标注召回率发送至人工复核池,以进行人工复核;
根据人工复核后的标签分类结果和所述文本样本对当前待训练多标签分类模型进行再训练。
13.一种文本处理装置,其特征在于,包括:
文本获取模块,用于获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集;所述不平衡衰减损失函数根据标签样本预测值和多标签样本确定,其中,所述多标签样本为所述不平衡文本样本集中各文本样本对应的多标签样本,所述标签样本预测值为利用所述多标签分类模型获取的所述文本样本对应的标签样本预测值,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;
属性抽取模块,用于通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;
知识构建模块,用于根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至12中任意一项所述的文本处理方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任意一项所述的文本处理方法。
CN202010775440.XA 2020-08-05 2020-08-05 文本处理方法、装置、计算机可读存储介质及电子设备 Active CN111737476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010775440.XA CN111737476B (zh) 2020-08-05 2020-08-05 文本处理方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010775440.XA CN111737476B (zh) 2020-08-05 2020-08-05 文本处理方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111737476A CN111737476A (zh) 2020-10-02
CN111737476B true CN111737476B (zh) 2020-11-20

Family

ID=72657172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010775440.XA Active CN111737476B (zh) 2020-08-05 2020-08-05 文本处理方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111737476B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364603B (zh) * 2020-11-19 2023-10-03 中国平安财产保险股份有限公司 指标编码生成方法、装置、设备及存储介质
CN112241454B (zh) * 2020-12-14 2021-02-19 成都数联铭品科技有限公司 一种处理样本倾斜的文本分类方法
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112528658B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 层次化分类方法、装置、电子设备和存储介质
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112699675B (zh) * 2020-12-30 2023-09-12 平安科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN112800223A (zh) * 2021-01-26 2021-05-14 上海明略人工智能(集团)有限公司 基于长文本标签化的内容召回方法及系统
CN112966102A (zh) * 2021-02-10 2021-06-15 万翼科技有限公司 分类模型构建及文本语句分类方法、设备及存储介质
CN113139051B (zh) * 2021-03-29 2023-02-10 广东外语外贸大学 文本分类模型训练方法、文本分类方法、设备和介质
CN113076426B (zh) * 2021-06-07 2021-08-13 腾讯科技(深圳)有限公司 多标签文本分类及模型训练方法、装置、设备及存储介质
CN113127605B (zh) * 2021-06-17 2021-11-02 明品云(北京)数据科技有限公司 一种目标识别模型的建立方法、系统、电子设备及介质
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法
CN113469263B (zh) * 2021-07-13 2024-06-14 润联智能科技股份有限公司 适于小样本的预测模型训练方法、装置及相关设备
CN113704466B (zh) * 2021-07-26 2024-03-12 和美(深圳)信息技术股份有限公司 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113553401A (zh) * 2021-07-28 2021-10-26 网易传媒科技(北京)有限公司 一种文本处理方法、装置、介质和电子设备
CN113868419B (zh) * 2021-09-29 2024-05-31 中国平安财产保险股份有限公司 基于人工智能的文本分类方法、装置、设备及介质
CN114722189B (zh) * 2021-12-15 2023-06-23 南京审计大学 一种预算执行审计中多标记不平衡文本分类方法
CN114091472B (zh) * 2022-01-20 2022-06-10 北京零点远景网络科技有限公司 多标签分类模型的训练方法
CN115033717B (zh) * 2022-08-12 2022-11-08 杭州恒生聚源信息技术有限公司 三元组抽取模型训练方法、三元组抽取方法、装置及设备
CN117573870B (zh) * 2023-11-20 2024-05-07 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
CN106528771A (zh) * 2016-11-07 2017-03-22 中山大学 一种快速的结构化支持向量机文本分类优化算法
CN110413786B (zh) * 2019-07-26 2021-12-28 北京智游网安科技有限公司 基于网页文本分类的数据处理方法、智能终端及存储介质
CN111177371B (zh) * 2019-12-05 2023-03-21 腾讯科技(深圳)有限公司 一种分类方法和相关装置
CN111078885B (zh) * 2019-12-18 2023-04-07 腾讯科技(深圳)有限公司 一种标签分类的方法、相关装置、设备以及存储介质
CN111177569B (zh) * 2020-01-07 2021-06-11 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备
CN111506732B (zh) * 2020-04-20 2023-05-26 北京中科凡语科技有限公司 一种文本多层次标签分类方法

Also Published As

Publication number Publication date
CN111737476A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN110737758A (zh) 用于生成模型的方法和装置
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112613306B (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN110678882B (zh) 使用机器学习从电子文档选择回答跨距的方法及系统
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN112131884A (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN114898426B (zh) 一种同义标签聚合方法、装置、设备及存储介质
CN113657092B (zh) 识别标签的方法、装置、设备以及介质
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN116186195A (zh) 文本抽取模型训练方法、抽取方法、装置、设备及介质
CN111914201A (zh) 网络页面的处理方法及装置
CN113537372B (zh) 一种地址识别方法、装置、设备及存储介质
CN113254635B (zh) 数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031363

Country of ref document: HK