CN113722474A - 文本分类方法、装置、设备及存储介质 - Google Patents

文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113722474A
CN113722474A CN202110268045.7A CN202110268045A CN113722474A CN 113722474 A CN113722474 A CN 113722474A CN 202110268045 A CN202110268045 A CN 202110268045A CN 113722474 A CN113722474 A CN 113722474A
Authority
CN
China
Prior art keywords
text
feature
information
detected
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110268045.7A
Other languages
English (en)
Inventor
张先礼
管冲
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110268045.7A priority Critical patent/CN113722474A/zh
Publication of CN113722474A publication Critical patent/CN113722474A/zh
Priority to PCT/CN2022/079721 priority patent/WO2022188773A1/zh
Priority to US17/968,594 priority patent/US20230058194A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取待检测文本,以及待检测文本对应的关联文本;对待检测文本和关联文本进行特征提取处理,获取特征信息;采用注意力机制对特征信息进行处理,获取各个特征分别对应的注意力权重;基于特征信息和注意力权重,获取待检测文本对应的类别检测结果和结果解释信息。本申请中,类别检测结果中包括类别分布概率,使得类别检测结果具有多样性,避免仅仅输出一个类别造成的输出单一;结果解释信息用于描述各个特征针对类别检测结果的影响程度,提高了类别检测结果的可信度,为类别检测结果提供可解释性,使得用户能够更加直观地理解类别检测结果。

Description

文本分类方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本分类方法、装置、设备及存储介质。
背景技术
目前,随着人工智能的发展,通过计算机设备结合深度学习模型进行文本分类的运用也越来越多。
在相关技术中,技术人员可以通过大量训练样本进行模型训练,进而采用训练完成后的深度学习模型对各个文本进行分类。例如,在医疗领域的疾病预测场景中,医护人员在对目标对象进行疾病检测时,可以将目标对象的病症描述文本输入至深度学习模型中,由深度学习模型根据病症描述文本进行疾病预测,输出目标对象对应的病理信息数据,以供医护人员作为参考。再例如,在教育领域的书籍分类场景中,工作人员在对书籍所属科目进行分类时,可以将书籍的总结描述文本(前言、后记、摘要等)输入至深度学习模型中,由深度学习模型根据总结描述文本进行书籍分类,输出书籍对应的科目信息数据作为科目分类结果。当然,基于深度学习模型的文本分类还可应用在其他多个场景中,此处不一一举例。
然而,在上述相关技术中,深度学习模型输出的文本分类结果的可信度不够高。
发明内容
本申请实施例提供了一种文本分类方法、装置、设备及存储介质,提高了类别检测结果的可信度,。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种文本分类方法,所述方法包括:
获取待检测文本,以及所述待检测文本对应的关联文本;
对所述待检测文本和所述关联文本进行特征提取处理,获取特征信息;其中,所述特征信息中包括至少一个特征;
采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,所述注意力权重用于指示所述特征针对所述待检测文本和所述关联文本的重要程度;
基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果和结果解释信息;其中,所述类别检测结果包括所述待检测文本对应的类别分布概率,所述结果解释信息用于描述各个所述特征针对所述类别检测结果的影响程度。
根据本申请实施例的一个方面,提供了一种文本分类模型的训练方法,所述方法包括:
获取多个样本文本,以及各个所述样本文本对应的类别信息;
从各个所述样本文本中分别提取样本特征信息;
采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练;
其中,所述文本分类模型中引入注意力机制,所述注意力机制用于确定所述样本特征信息中的各个样本特征针对所述样本文本中的重要程度,所述重要程度用于确定各个所述样本特征对模型输出结果的影响程度。
根据本申请实施例的一个方面,提供了一种文本分类装置,所述装置包括:
文本获取模块,用于获取待检测文本,以及所述待检测文本对应的关联文本;
特征提取模块,用于对所述待检测文本和所述关联文本进行特征提取处理,获取特征信息;其中,所述特征信息中包括至少一个特征;
权重获取模块,用于采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,所述注意力权重用于指示所述特征针对所述待检测文本和所述关联文本的重要程度;
结果获取模块,用于基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果和结果解释信息;其中,所述类别检测结果包括所述待检测文本对应的类别分布概率,所述结果解释信息用于描述各个所述特征针对所述类别检测结果的影响程度。
根据本申请实施例的一个方面,提供了一种文本分类模型的训练装置,所述装置包括:
样本获取模块,用于获取多个样本文本,以及各个所述样本文本对应的类别信息;
特征获取模块,用于从各个所述样本文本中分别提取样本特征信息;
模型训练模块,用于采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练;
其中,所述文本分类模型中引入注意力机制,所述注意力机制用于确定所述样本特征信息中的各个样本特征针对所述样本文本中的重要程度,所述重要程度用于确定各个所述样本特征对模型输出结果的影响程度。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述文本分类方法,或实现上述文本分类模型的训练方法。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文本分类方法,或实现上述文本分类模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本分类方法,或实现上述文本分类模型的训练方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过注意力机制对特征信息进行处理,确定用于指示各个特征针对文本的重要程度的注意力权重,进而依据特种信息和注意力权重获取类别检测结果和结果解释信息,一方面,类别检测结果中包括类别分布概率,使得类别检测结果具有多样性,避免仅仅输出一个类别造成的输出单一;另一方面,结果解释信息用于描述各个特征针对类别检测结果的影响程度,为类别检测结果提供可解释性,提高了类别检测结果的可信度,用户能够基于结果解释信息确定类别检测结果的获取依据,使得用户能够更加直观地理解类别检测结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的文本分类方法的流程图;
图2是本申请一个实施例提供的文本分类模型的训练方法的流程图;
图3示例性示出了一种文本分类方法的流程的示意图;
图4示例性示出了一种文本分类模型的检测流程的示意图;
图5示例性示出了一种用户界面的示意图;
图6是本申请一个实施例提供的文本分类装置的框图;
图7是本申请另一个实施例提供的文本分类装置的框图;
图8是本申请一个实施例提供的文本分类模型的训练装置的框图;
图9是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,采用从多个样本文本中提取的样本特征信息,以及样本文本对应的类别信息,对文本分类模型进行训练。可选地,单个样本文本中包括第一文本和第二文本,且第二文本为第一文本的关联文本。示例性地,若第一文本为用户的当前病症文本,则第二文本为用户的历史病历文本;若第一文本为用户的当前提交文章,则第二文本为用户的历史提交文本;若第一文本为用户的当前浏览网页,则第二文本为用户在最近浏览的有限个历史浏览网页。在获取样本特征信息时,对第一文本和第二文本进行特征提取以获取第一文本对应的样本特征信息。之后,在文本分类模型训练完成后,在获取待检测文本的情况下,基于待检测文本,以及待检测文本对应的关联文本,提取出待检测文本对应的特征信息,并采用文本分类模型通过针对该特征信息的处理,输出待检测文本对应的类别检测结果和结果解释信息。其中,该类别检测结果包括待检测文本对应的类别分布概率,结果描述信息用于描述特征信息中的各个特征针对类别检测结果的影响程度。除此之外,在本申请实施例中,上述文本分类模型中引入空间注意力机制和稀疏访问级注意力机制。其中,空间注意力机制用于确定单个特征的重要程度,稀疏访问级注意力机制用于确定特征所处特征集合的重要程度,特征集合中包括来自相同文本的特征。
需要说明的一点是,本申请提供的文本分类模型,可以广泛应用于各个领域。具体如下:
(1)在医疗领域的疾病预测场景中,医护人员依据从目标对象中观察获取的病症,确定当前病症描述文本,并将目标对象的标识信息和病症描述文本输入至计算机设备中。进一步地,计算机设备在获取病症描述文本之后,基于目标对象的标识信息获取该目标对象的历史病历文本,并对当前病症描述文本和历史病历文本进行特征提取处理,确定目标对象的特征信息,该特征信息中包括至少一个特征(如病症名称、病症用药等)。之后,采用文本分类模型,对目标对象的特征信息进行处理,获取文本分类模型所输出的目标对象对应的疾病分布概率和结果解释信息。其中,疾病分布概率用于指示目标对象可能具有的疾病,以及各个疾病的出现概率值;结果解释信息用于描述疾病分布概率的获取依据,示例性地,结果解释信息中包括各个特征在疾病分布概率确定过程中的影响程度。进一步地,医护人员根据目标对象对应的疾病分布概率和结果解释信息能够快速确定用户对应的疾病,并根据该疾病采取相应的措施,降低医护人员的人工负担。
(2)在教育领域的书籍分类场景中,工作人员将待分类书籍的总结描述文本(前言、后记、摘要等)作为待检测文本,并将待分类书籍的标识信息(待分类书籍的作者)和待检测文本输入至计算机设备中。进一步地,计算机设备基于待检测数据的标识信息,获取关联书籍(与待分类书籍具有相同作者的书籍),并对待分类书籍的总结性描述文本和关联书籍的总结性描述文本进行特征提取,确定待检测书籍的特征信息,该特征信息中包括至少一个特征(关键词)。之后,采用文本分类模型对待分类书籍的特征信息进行处理,获取待分类书籍的类型分布概率和结果解释信息。其中,类型分布概率用于指示待分类书籍可能属于的科目,以及属于各个科目的概率值;结果解释信息用于描述类型分布概率的获取依据,示例性地,结果解释信息中包括各个特征在类型分布概率确定过程中的影响程度。进一步地,根据待分类书籍的类型分布概率和结果解释信息能够快速确定该书籍所属的科目,并将该书籍放置在合适的位置,便于后续学生的查找与学习,书籍的快速归类从侧面保证学生所查找的信息的完整性。
(3)在人工智能领域的用户意图确定场景中,智能机器人在检测到待服务用户之后,与待服务用户进行交谈,获取用户所说的话生成待检测文本,并依据待服务用户的用户身份信息确定待服务用户是否为旧用户。可选地,机器人可以启动身份识别系统确定用户身份以获取用户身份信息,也可以由待服务用户主动提供用户身份。进一步地,若待服务用户为旧用户,则基于用户身份信息获取待服务用户的历史服务信息生成关联文本,并对待检测文本和关联文本进行特征提取,确定待服务用户的特征信息,该特征信息中包括至少一个特征(关键词)。之后,采用文本分类模型对待服务用户的特征信息进行处理,确定待服务用户的意图分布概率和结果解释信息。其中,意图分布概率用于指示待服务用户可能的意图,以及该意图对应的概率值;结果解释信息用于描述意图分布概率的获取依据,示例性地,结果解释信息中包括各个特征在意图分布概率确定过程中的影响程度。进一步地,智能机器人根据意图分布概率确定待服务用户的用户需求,并将该用户引导至合适的位置。
当然,本申请中的文本分类模型还可以运用于其它各个领域,在此不一一举例。
为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备为例进行介绍说明,计算机设备可以是任何具备计算和存储能力的电子设备。例如,该计算机设备可以是服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。再例如,该计算机设备也可以是终端,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。需要说明的一点是,在本申请实施例中,各步骤的执行主体可以是同一计算机设备,也可以由多个不同的计算机设备交互配合执行,此处不作限定。还需要说明的一点是,在本申请实施例中,下述文本分类方法的执行主体与下述文本分类模型的训练方法的执行主体可以是相同的计算机设备,也可以是不同的计算机设备,本申请实施例对此不作限定。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
请参考图1,其示出了本申请一个实施例提供的文本分类方法的流程图。该方法可以包括以下几个步骤(101~104):
步骤101,获取待检测文本,以及待检测文本对应的关联文本。
待检测文本即为未知类别的文本。在本申请实施例中,计算机设备在对待检测文本进行分类之前,获取待检测文本,并获取该待检测文本对应的关联文本。其中,关联文本是指与待检测文本具有关联关系的文本。可选地,该关联关系包括但不限于以下至少一项:具有相同的作者、针对相同的对象、具有相同的操作者、具有相同的属性信息等,本申请实施例对此不作限定。其中,上述属性信息为文本浏览时长、文本浏览时刻、文本浏览次数等。
示例性地,以上述关联关系为针对相同的对象为例,计算机设备在获取待检测文本之后,确定该待检测文本所描述的目标对象(人、动物、物体、天气等),进而基于该目标对象,获取针对该目标对象的其它文本作为待检测文本的关联文本。
在一种可能的实施方式中,由用户主动向计算机设备提供上述待检测文本。可选地,用户根据实际情况确定待检测信息,并向计算机设备或计算机设备的关联设备输入该待检测信息对应的文本内容,进一步地,计算机设备获取该文本内容作为待检测文本。其中,文本内容的输入方式可以是文字输入、语音输入、图像输入或手势输入,等等,本申请实施例对此不作限定。
在另一种可能的实施方式中,由计算机设备主动获取上述待检测文本。可选地,计算机设备可以按照一定的时间间隔从网络环境或特定设备中获取上述待检测文本。其中,上述时间间隔可以为1s、1min、1h、1天或1月等,本申请实施例对此不作限定。
当然,计算机设备可以根据实际情况对待检测文本的获取方式进行灵活设置和调整。示例性地,若待检测文本为待检测病症,则计算机设备可以实时获取该待检测文本,并基于该待检测文本确定用户具有的疾病,保证病症检测的及时性;若待检测文本为待分类文章,则计算机设备按照一定的时间间隔获取待检测文本,并基于该待检测文本确定文章分类,进而依据文章分类将文章存储至合适的位置,在对待检测文本进行分类的同时,使得计算机设备按照一定的时间周期进行运行,避免某个时刻计算机设备负荷过大。
其中,上述待检测文本可以为直接输入文本,也可以为间接输入文本。
在一种可能的实施方式中,上述待检测文本为用户直接输入的文本,计算机设备在获取用户输入内容之后,直接将该输入内容作为待检测文本。在这种情况下,该用户输入内容为文本内容。可选地,上述内容的输入方式可以是文字输入、语音输入、图像输入或手势输入,等等,本申请实施例对此不作限定。
在另一种可能的实施方式中,上述待检测文本为用户间接输入的文本,计算机设备在获取用户输入内容之后,对该输入内容进行提取,并将提取出的文本作为待检测文本。在这种情况下,用户输入内容为语音内容、图像内容、文字内容等,本申请实施例对此不作限定。示例性地,为了简化用户操作,用户可以直接将输入图像,进而计算机设备根据该图像提取出待检测文本,此时,待检测文本可以为图像中的文字信息。
步骤102,对待检测文本和关联文本进行特征提取处理,获取特征信息。
在本申请实施例中,计算机设备在获取上述待检测文本和关联文本之后,对该待检测文本和关联文本进行特征提取处理,获取特征信息。其中,特征信息中包括至少一个特征,该特征是指依据文本记录内容提取出的关键词。示例性地,若上述待检测文本为病症描述信息,则特征信息中包括的特征有病症名称、病症用药等,且该特征直接记录在病症描述信息中。
可选地,计算机设备在提取特征信息时,过滤去除文本(待检测文本和关联文本)中的噪声信息,如标点符号、表情符号等,进一步地,对去除噪声的文本进行分词处理,并提取出实体作为关键词,进而生成上述特征信息。
步骤103,采用注意力机制对特征信息进行处理,获取各个特征分别对应的注意力权重。
在本申请实施例中,计算机设备在获取上述特征信息之后,采用注意力机制对该特征信息进行处理,获取各个特征分别对应的注意力权重。其中,该注意力权重用于指示特征针对上述待检测文本和上述关联文本的重要程度。可选地,计算机设备可以依据特征在上述待检测文本和/或上述关联文本中的出现频率,确定该特征针对待检测文本和关联文本的重要程度。当然,计算机设备也可以依据各个特征之间的关联关系,确定特征针对待检测文本和关联文本的重要程度,示例性地,若某个特征与多个特征具有相关关系,则确定该特征重要,若某个特征与较少的特征具有相关关系,则确定该特征不重要。
在本申请实施例中,上述注意力机制包括空间注意力机制和稀疏访问级注意力机制。其中,空间注意力机制用于衡量单个特征的重要程度,稀疏访问级注意力机制用于衡量特征集合的重要程度,该特征集合中包括来自相同文本的特征。
可选地,上述步骤103包括以下几个步骤:
1、采用空间注意力机制,对特征信息中的各个特征进行处理,获取各个特征分别对应的空间注意力权重;
2、基于各个特征的来源,将来自相同文本的特征进行组合划分,获取多组特征集合;其中,不同特征集合中包括来自不同文本的特征;
3、采用稀疏访问级注意力机制,对多组特征集合进行处理,获取各个特征集合分别对应的稀疏访问级注意力权重。
在本申请实施例中,上述注意力权重包括空间注意力权重和稀疏访问级注意力权重。
可选地,计算机设备在获取空间注意力权重时,采用空间注意力机制对特征信息中的各个特征进行处理,获取各个特征分别对应的空间注意力权重。其中,空间注意力权重用于指示特征信息中单个特征的重要程度。
可选地,计算机设备在获取稀疏访问级注意力权重时,基于各个特征的来源,将来自相同文本的特征进行组合划分,获取多组特征结合。其中,不同特征集合中包括来自不同文件的特征,相同特征集合中包括来自不同文件的特征。进一步地,计算机设备采用稀疏访问级注意力机制,对多组特征集合进行处理,获取各个特征集合分别对应的稀疏访问级注意力权重。其中,稀疏访问级注意力权重用于是指特征集合的重要程度。
当然,在实际运用中,计算机设备可以在获取特征信息时,确定多组特征集合。示例性地,计算机设备在获取各个特征之后,采用特征向量来表示特征集合,一个特征向量对应一个特征集合,进一步,将多个特征集合组成特征矩阵,并以该特征矩阵来表示特征信息。在这种情况下,计算机设备可以直接采用稀疏访问级注意力机制对特征信息进行处理,不需要对各个特征进行组合划分。
步骤104,基于特征信息和注意力权重,获取待检测文本对应的类别检测结果和结果解释信息。
在本申请实施例中,计算机设备在获取上述特征信息和上述注意力权重之后,基于特征信息和注意力权重,获取待检测文本对应的类别检测结果和结果解释信息。其中,上述类别检测结果包括待检测文本对应的类别分布概率,上述结果解释信息用于描述各个特征针对类别检测结果的影响程度。
其中,上述注意力机制包括空间注意力机制和稀疏访问级注意力机制,该空间注意力机制用于指示单个特征的重要程度,该稀疏访问级注意力机制用于指示特征集合的重要程度,特征集合中包括来自相同文本的特征。可选地,上述步骤104包括以下几个步骤:
1、获取特征对应的空间注意力权重和稀疏访问级注意力权重;
2、根据空间注意力权重和稀疏访问级注意力权重,确定特征对应的最终注意力权重;
3、基于最终注意力权重和特征对应的嵌入向量,确定特征对应的贡献度系数。
在本申请实施例中,计算机设备在获取上述结果解释信息时,对特征信息中的各个特征进行遍历,获取各个特征对应的贡献度系数,进而生成结果解释信息。其中,该结果解释信息中包括各个特征分别对应的贡献度系数。
以单个特征为例,计算机设备在获取特征对应的贡献度系数时,获取特征对应的空间注意力权重和稀疏访问级注意力权重。其中,该空间注意力权重用于指示单个特征的重要程度,稀释访问级注意力权重用于指示特征所处特征集合的重要程度。进一步地,根据空间注意力权重和稀疏访问级注意力权重,确定特征对应的最终注意力权重没劲儿基于该最终注意力权重和特征对应的嵌入向量,确定特征对应的贡献度系数。
可选地,计算机设备在获取类别检测结果和结果解释信息之后,可以向用户展示该类别检测结果和结果解释信息,进一步地,用户能够基于类别检测结果确定待检测文本可能的分类,以及待检测文本的各个分类分别对应的概率值,而且,用户能够基于结果解释信息确定类别检测结果的获取依据。
综上所述,本申请实施例提供的技术方案中,通过注意力机制对特征信息进行处理,确定用于指示各个特征针对文本的重要程度的注意力权重,进而依据特种信息和注意力权重获取类别检测结果和结果解释信息,一方面,类别检测结果中包括类别分布概率,使得类别检测结果具有多样性,避免仅仅输出一个类别造成的输出单一;另一方面,结果解释信息用于描述各个特征针对类别检测结果的影响程度,为类别检测结果提供可解释性,提高了类别检测结果的可信度,用户能够基于结果解释信息确定类别检测结果的获取依据,使得用户能够更加直观地理解类别检测结果。
另外,在对待检测文本进行分类时,结合关联文本,保证类别检测结果的准确性;而且,对于单个特征,采用空间注意力机制衡量单个特征的重要程度,采用稀疏访问级注意力机制衡量特征集合的重要程度,且特征集合中包括来自相同文本的特征,后续采用空间注意力权重和稀疏访问级注意力权重确定特征的贡献度系数,保证针对特征的贡献度评估的准确性,使得针对类别检测结果的结果解释信息更加可靠。
可选地,在本申请实施例中,上述方法也可以通过文本分类模型来实现,即上述类别检测结果和上述结果解释信息是文本分类模型通过上述特征信息获取的。其中,文本分类模型采用不同的模型参数对所述特征信息进行多次处理。可选地,上述类别检测结果中包括n组类别检测子结果,上述结果解释信息中包括n组类别检测子结果对应的n个结果解释子信息,n为正整数。需要说明的一点是,上述类别检测子结果与上述结果解释子信息具有一一对应的关系,也就是说,文本分类模型在采用某一组模型参数对特征信息进行处理后,可以获取本次处理的类别检测子结果和结果解释子信息。
在本申请实施例中,计算机设备在获取上述类别检测结果和结果解释信息之后,对类别检测结果中的类别检测子结果进行求平均处理,并对结果解释信息中的结果解释子信息进行求平均处理。
可选地,针对类别检测结果的处理步骤如下:
1、从n组类别检测子结果中分别获取目标类别对应的概率值;
2、对目标类别的概率值进行求平均处理,获取目标类别对应的最终概率值;
3、生成待检测文本对应的最终类别检测结果,最终类别检测结果中包括各个类别分别对应的最终概率值。
类别检测子结果中包括待检测文本对应的类别分布概率。其中,不同的类别检测结果为文本分类模型采用不同模型参数对待检测文本进行处理后获取的,也就是说,不同的类别检测结果中包含的类别分布概率存在差异。在本申请实施例中,计算机设备在获取上述n组类别检测子结果之后,对该n组类别检测子结果中的类别概率分布进行求平均处理。
可选地,计算机设备在获取上述n组类别检测子结果之后,从n组类别检测子结果中分别获取目标类别对应的概率值。其中,该目标类别可以是针对待检测文本的任意检测结果中的任意类别,进一步地,计算机设备对目标类别的概率值进行求平均处理,获取目标类别对应的最终概率值,进而生成待检测文本对应的最终类别检测结果。其中,最终类别检测结果中包括各个类别分别对应的最终概率值。
可选地,针对结果解释信息的处理步骤如下:
1、从n个结果解释子信息中分别获取目标特征对应的贡献度系数;
2、对目标特征对应的贡献度系数进行求平均处理,获取目标特征对应的最终贡献度系数;
3、生成待检测文本对应的最终结果解释信息,最终结果解释信息中包括各个所述特征分别对应的最终贡献度系数。
结果解释子信息中包括各个特征分别对应的贡献度系数。其中,不同的结果解释子信息为文本分类模型采用不同模型参数对待检测文本进行处理后获取的,也就是说,不同的结果解释子信息中包含的各个特征分别对应的贡献度系数存在差异。在本申请实施例中,计算机设备在获取上述n组结果解释子信息之后,对该n个结果解释子信息中的贡献度系数进行求平均处理。
可选地,计算机设备在获取上述n个结果解释子信息之后,从n个结果解释子信息中分别获取目标特征对应的贡献度系数。其中,该目标特征可以是任意特征,进一步地,计算机设备对目标特征的贡献度系数进行求平均处理,获取目标特征对应的最终贡献度系数,进而生成待检测文本对应的最终结果解释信息。其中,最终结果解释信息中包括各个特征分别对应的最终贡献度系数。
可选地,在本申请实施例中,计算机设备获取上述最终类别检测结果之后,可以依据该最终类别检测结果确定文本分类模型针对待检测文本的置信度,具体步骤如下:
1、基于各个类别分别对应的最终概率值,获取最终类别检测结果的度量参数;其中,度量参数用于度量最终类别检测结果的混乱程度;
2、根据度量参数,确定文本分类模型针对待检测文本的置信度;
3、响应于置信度满足条件,确定最终类别检测结果为准确检测结果;
4、响应于置信度不满足条件,生成人工提示信息,人工提示信息用于提醒对待检测文本进行人工检测。
上述度量参数可以为最终类别检测结果中类别分布概率的方差或熵,该度量参数与混乱程度呈正相关关系,即度量参数越大,最终类别检测结果越混乱。在本申请实施例中,计算机设备在获取上述最终类别检测结果之后,基于该最终类别检测结果中各个类别分别对应的最终概率值,获取最终检测结果的度量参数,并根据该度量参数,确定文本分类模型针对待检测文本的置信度。其中,该置信度与文本分类模型针对待检测文本的可靠程度呈正比,即置信度越高,文本分类模型针对待检测文本的分类越可靠。
上述条件是指针对置信度的判断条件。示例性地,该条件为置信度大于阈值。在本申请实施例中,计算机设备在获取上述置信度之后,对该置信度进行检测。若置信度满足条件,则确定文本分类模型针对待检测文本的可靠程度满足要求,确定上述最终类别检测结果为准确检测结果;若置信度不满足条件,则确定文本分类模型针对待检测文本的可靠程度不满足要求,进而生成人工提示信息,提醒工作人员对待检测文本进行人工检测。当然,在实际运用中,工作人员可以对上述条件进行调整,如在依据度量参数确定不确定度的情况下,将条件设置为不确定度小于目标值。
可选地,上述不同的模型参数是根据多次随机采样获取的。示例性地,在对待检测模型进行处理时,在每次对待检测文本进行处理之前,采用蒙特卡洛采样获取一组模型参数,进而基于该模型参数对待检测文本进行处理。当然,在实际运用中,可以根据实际情况对多组不同的模型参数的获取方式进行灵活设备与调整,本申请实施例对此不作限定。
下面,对本申请中文本分类模型的训练方法进行介绍。
请参考图2,其示出了本申请一个实施例提供的文本分类模型的训练方法的流程图。该方法可以包括以下几个步骤(201~203):
步骤201,获取多个样本文本,以及各个样本文本对应的类别信息。
样本文本是指已知类别的文本。在本申请实施例中,计算机设备在对文本分类模型进行训练之前,获取多个样本文本,并获取各个样本文本对应的类别信息。其中,单个样本文本中包括第一文本和第二文本,且第二文本为第一文本的关联文本。示例性地,若第一文本为用户的当前病症文本,则第二文本为用户的历史病历文本;若第一文本为用户的当前提交文章,则第二文本为用户的历史提交文本;若第一文本为用户的当前浏览网页,则第二文本为用户在最近浏览的有限个历史浏览网页。
步骤202,从各个样本文本中分别提取样本特征信息。
在本申请实施例中,计算机设备在获取上述样本文本之后,从各个样本文本中分别提取样本特征信息。其中,该样本特征信息中包括至少一个样本特征,样本特征是指依据文本记录内容提取出的关键词。可选地,计算机设备在提取样本特征信息时,过滤去除样本文本中的噪声信息,如标点符号、表情符号等,进一步地,对去除噪声的样本文本进行分词处理,并提取出实体作为关键词,进而生成上述样本特征信息。
步骤203,采用样本特征信息和类别信息对文本分类模型进行训练。
在本申请实施例中,计算机设备在获取上述样本特征信息之后,采用样本特征信息和类别信息对文本分类模型进行训练。可选地,计算机设备依据样本文本与样本特征信息之间的对应关系,将类别信息作为样本特征信息的标签信息,生成训练样本,并采用训练样本对文本分类模型进行训练。
可选地,计算机设备在对文本分类模型进行训练的过程中,采用多组模型参数,对样本特征信息进行多次处理,获取多组模型输出结果,并基于多组模型输出结果,以及类别信息,确定文本分类模型的损失函数值。其中,损失函数用于指示文本分类模型的输出结果的准确性。之后,计算机设备基于损失函数值对文本分类模型的参数进行调整,直至损失函数收敛。
示例性地,文本分类模型的损失函数为Lesm为:
Figure BDA0002972808980000161
其中,Tmc是指文本分类模型针对样本特征信息的处理次数,且每次采用不同的模型参数对样本特征信息进行处理,N是指样本特征信息的数量,C是指样本特征信息,c是指样本特征信息中的特征,
Figure BDA0002972808980000162
是指第i个样本特征信息对应的类别信息,
Figure BDA0002972808980000163
是指文本分类模型的第j个输出结果,l是指文本分类模型输出的类别数量,λ是指文本分类模型的平衡参数,L是指文本分类模型的网络层数,Wk、bk是指第k层网络对应的模型参数。
可选地,在本申请实施中,上述文本分类模型中引入注意力机制,该注意力机制用于确定样本特征信息中的各个样本特征针对样本文本中的重要程度,该重要程度用于确定各个样本特征对模型输出结果的影响程度。可选地,上述注意力机制包括空间注意力机制和稀疏访问级注意力机制。在实际运用中,空间注意力机制用于衡量单个特征的重要程度,稀疏访问级注意力机制用于衡量特征集合的重要程度,特征集合中包括来自相同文本的特征。
综上所述,本申请实施例提供的技术方案中,通过样本特征信息和类别信息训练得到文本分类模型,且文本分类模型中引入注意力机制,在模型运用过程中,采用注意力机制对特征信息进行处理,确定用于指示各个特征针对文本的重要程度的注意力权重,使得模型在输出结果时,能够同时输出结果的获取依据,使得用户能够更加直观地理解模型输出的结果。
下面,结合参考图3,以医疗领域为例,对本申请中的文本分类方法进行介绍。在医疗领域中,上述文本分类模型可以用于疾病预测。
步骤301,获取目标对象的当前病症描述文本,以及目标对象的历史病历文本。
目标对象是任意进行疾病预测的用户。当前病症描述文本用于指示目标对象当前出现的病症。可选地,该当前病症描述文本为医护人员根据目标对象的实际情况所确定,并输入至计算机设备的文本信息。
在本申请实施例中,在对目标对象进行疾病预测之前,获取目标对象的当前病症描述文本,以及目标对象的历史病历文本。可选地,计算机设备在确定对目标对象进行疾病预测之后,基于目标对象的标识信息,从病历存储库中获取目标对象的历史病历文本。其中,上述标识信息用于指示唯一的目标对象,示例性地,标识信息为身份证号码、医院分配的独特编号、手机号码等。
当然,在实际运用中,上述历史病历文本也可以是由医护人员根据纸质文件总结获取,并输入至计算机设备的。
步骤302,对所述当前病历描述文本,以及历史病历描述文本进行特征提取处理,获取病历特征信息。
在本申请实施例中,计算机设备在获取上述当前病历描述文本,以及历史病历描述文本之后,对当前病历描述文本,以及历史病历描述文本进行特征提取处理,获取病历特征信息。其中,该病历特征信息中包括病历特征,该病历特征是指依据当前病历描述文本或历史病历描述文本的记录内容提取出的关键词,如病症名称、病症用药等。
可选地,在本申请实施例中,计算机设备在对各个病历文本进行特征提取时,将从相同病历文本中提取的病历特征作为一个病历特征集合,进而由多个病历特征集合组合获取病历特征信息。示例性地,如图4所示,以矩阵的形式对病历特征信息41进行表示,每一列中的病历特征为一个病历特征集合,依据各个病历文本的生成时间,对病历特征集合进行排序,最早生成的病历文本对应的病历特征集合排在第一列,最晚生成的病历文本对应的病历特征集合排在最后一列。
步骤303,将病历特征信息输入至文本分类模型,获取所述文本分类模型输出的疾病预测结果和结果解释信息。
文本分类模型是通过训练得到的深度学习模型。在本申请实施例中,计算机设备在获取上述病历特征信息之后,将该病历特征信息输入至文本分类模型,进而获取文本分类模型输出的疾病预测结果和结果解释信息。其中,疾病预测结果中包括针对目标对象的疾病预测概率分布,结果解释信息用于描述各个病症特征针对疾病预测结果的影响程度。
可选地,文本分类模型中引入空间注意力机制和稀疏访问级注意力机制。示例性地,如图4所示,将病历特征信息41输入至文本分类模型之后,通过全连接层42获取每个病历文本对应的病症特征集合的嵌入向量,再由特征编码器43捕获输入病症特征复杂的关联关系,将目标对象的病症特征信息的嵌入矩阵映射到隐藏状态,进而依据空间注意力机制44生成用于衡量单个病症特征的重要程度的空间注意力权重,依据稀疏访问级注意力机制45生成用于衡量病症特征集合的重要程度的稀疏访问级注意力权重,之后,将病症特征信息的嵌入矩阵、空间注意力权重和稀疏访问级注意力权重输入至患者表示模块46获取目标对象的表示信息,进而通过线性层47将表示信息映射到逻辑值,最后依据分类器48将逻辑值转化为概率值,进而生成疾病预测结果。另外,在文本分类模型对病症特征信息41进行处理的过程中,采用病症特征的空间注意力权重、稀疏访问级注意力机制和嵌入向量,确定病症特征对应的贡献度系数。
示例性地,假设病症特征信息的特征矩阵为X,则依据全连接层获取的嵌入向量E为:
E=WeX;
其中,We是可学习的参数矩阵;
病症特征信息的嵌入矩阵映射到隐藏状态后H为:
H=f(E);
其中,f()是任意合适的基于神经网络的特征编码器,如循环神经网络、卷积神经网络等;
空间注意力权重β为:
β=tanh(WβH+bβ);
其中,Wβ、bβ为模型参数;
稀疏访问级注意力机制α为:
α=(softmax(δ)+sparsemax(δ))/2;
其中,δ=WβH+bδ,Wδ、bδ为模型参数;
患者表示模块获取的病人表示Er为:
Er=α(β⊙E)T
Er通过线性层映射得到的逻辑值
Figure BDA0002972808980000181
为:
Figure BDA0002972808980000182
其中,Wc、bc为模型参数;
逻辑值
Figure BDA0002972808980000183
通过分类器转换获取的概率值y*为:
Figure BDA0002972808980000184
针对第m个病症特征在第t次检测获取的贡献度系数CM[t,m]为:
CM[t,m]=Wc T(α[t]β[:,t]⊙We[:,m]);
其中,α[t]是指针对病症特征信息的第t次检测获取的第m个病症特征的稀疏访问级注意力权重,β[:,t]是指针对病症特征信息的第t次检测获取的第m个病症特征的空间注意力权重。We[:,m]是指第m个病症特征的嵌入向量。
需要说明的一点是,上述部分内容是对文本分类模型单次检测的介绍,在实际运用中,文本分类模型采用不同的模型参数对同一病症特征信息进行多次检测后,对多次检测获取的结果进行求平均处理,得到最终疾病预测结果和最终结果解释信息。
步骤304,在用户界面中显示疾病预测结果和结果解释信息。
在本申请实施例中,计算机设备在通过文本分类模型获取疾病预测结果和结果解释信息之后,在用户界面中显示疾病预测结果和结果解释信息。其中,结果解释信息可以与疾病预测结果显示在同一界面中,也可以显示在不同界面中,本申请实施例对此不作限定。
示例性地,如图5所示,在用户界面50中包括目标对象的当前病症描述文本51,以及通过文本分类模型所获取的疾病预测结果52。可选地,在用户点击控件53之后,在用户界面中显示结果解释信息。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的文本分类装置的框图。该装置具有实现上述文本分类方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置600可以包括:文本获取模块610、特征提取模块620、权重获取模块630和结果获取模块640。
文本获取模块610,用于获取待检测文本,以及所述待检测文本对应的关联文本。
特征提取模块620,用于对所述待检测文本和所述关联文本进行特征提取处理,获取特征信息;其中,所述特征信息中包括至少一个特征。
权重获取模块630,用于采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,所述注意力权重用于指示所述特征针对所述待检测文本和所述关联文本的重要程度。
结果获取模块640,用于基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果和结果解释信息;其中,所述类别检测结果包括所述待检测文本对应的类别分布概率,所述结果解释信息用于描述各个所述特征针对所述类别检测结果的影响程度。
在示例性实施例中,所述结果获取模块640,用于获取所述特征对应的空间注意力权重和稀疏访问级注意力权重;其中,所述空间注意力权重用于指示单个所述特征的重要程度,所述稀释访问级注意力权重用于指示所述特征所处特征集合的重要程度,所述特征集合中包括来自相同文本的特征;根据所述空间注意力权重和所述稀疏访问级注意力权重,确定所述特征对应的最终注意力权重;基于所述最终注意力权重和所述特征对应的嵌入向量,确定所述特征对应的贡献度系数;其中,所述结果解释信息中包括各个特征分别对应的贡献度系数。
在示例性实施例中,所述权重获取模块630,用于采用空间注意力机制,对所述特征信息中的各个所述特征进行处理,获取各个所述特征分别对应的空间注意力权重;基于各个所述特征的来源,将来自相同文本的所述特征进行组合划分,获取多组特征集合;其中,不同特征集合中包括来自不同文本的特征;采用稀疏访问级注意力机制,对所述多组特征集合进行处理,获取各个所述特征集合分别对应的稀疏访问级注意力权重。
在示例性实施例中,所述类别检测结果是文本分类模型通过所述特征信息获取的;其中,所述文本分类模型采用不同的模型参数对所述特征信息进行多次处理,所述类别检测结果中包括n组类别检测子结果,所述结果解释信息中包括所述n组类别检测子结果对应的n个结果解释子信息,所述类别检测子结果与所述结果解释子信息具有一一对应的关系,n为正整数。
在示例性实施例中,如图7所示,所述装置600中,还包括:结果处理模块650。
结果处理模块650,用于从所述n组类别检测子结果中分别获取目标类别对应的概率值;对所述目标类别的概率值进行求平均处理,获取所述目标类别对应的最终概率值;生成所述待检测文本对应的最终类别检测结果,所述最终类别检测结果中包括各个类别分别对应的最终概率值。
在示例性实施例中,如图7所示,所述装置600,还包括:置信度检测模块660。
置信度检测模块660,用于基于各个所述类别分别对应的最终概率值,获取所述最终类别检测结果的度量参数;其中,所述度量参数用于度量所述最终类别检测结果的混乱程度;根据所述度量参数,确定所述文本分类模型针对所述待检测文本的置信度;响应于所述置信度满足条件,确定所述最终类别检测结果为准确检测结果;响应于所述置信度不满足条件,生成人工提示信息,所述人工提示信息用于提醒对所述待检测文本进行人工检测。
在示例性实施例中,所述不同的模型参数是根据多次随机采样获取的。
综上所述,本申请实施例提供的技术方案中,通过注意力机制对特征信息进行处理,确定用于指示各个特征针对文本的重要程度的注意力权重,进而依据特种信息和注意力权重获取类别检测结果和结果解释信息,一方面,类别检测结果中包括类别分布概率,使得类别检测结果具有多样性,避免仅仅输出一个类别造成的输出单一;另一方面,结果解释信息用于描述各个特征针对类别检测结果的影响程度,为类别检测结果提供可解释性,提高了类别检测结果的可信度,用户能够基于结果解释信息确定类别检测结果的获取依据,使得用户能够更加直观地理解类别检测结果。
请参考图8,其示出了本申请一个实施例提供的文本分类模型的训练装置的框图。该装置具有实现上述文本分类模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置800可以包括:样本获取模块810、特征获取模块820和模型训练模块830。
样本获取模块810,用于获取多个样本文本,以及各个所述样本文本对应的类别信息。
特征获取模块820,用于从各个所述样本文本中分别提取样本特征信息。
模型训练模块830,用于采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练;其中,所述文本分类模型中引入注意力机制,所述注意力机制用于确定所述样本特征信息中的各个样本特征针对所述样本文本中的重要程度,所述重要程度用于确定各个所述样本特征对模型输出结果的影响程度。
在示例性实施例中,所述模型训练模块830,用于采用多组模型参数,对所述样本特征信息进行多次处理,获取多组模型输出结果;基于所述多组模型输出结果,以及所述类别信息,确定所述文本分类模型的损失函数值;其中,损失函数用于指示所述文本分类模型的输出结果的准确性;基于所述损失函数值对所述文本分类模型的参数进行调整,直至所述损失函数收敛。
在示例性实施例中,所述注意力机制包括空间注意力机制和稀疏访问级注意力机制;其中,所述空间注意力机制用于衡量单个特征的重要程度,所述稀疏访问级注意力机制用于衡量特征集合的重要程度,所述特征集合中包括来自相同文本的特征。
综上所述,本申请实施例提供的技术方案中,通过样本特征信息和类别信息训练得到文本分类模型,且文本分类模型中引入注意力机制,在模型运用过程中,采用注意力机制对特征信息进行处理,确定用于指示各个特征针对文本的重要程度的注意力权重,使得模型在输出结果时,能够同时输出结果的获取依据,使得用户能够更加直观地理解模型输出的结果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图9,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述文本分类方法或文本分类模型的训练方法的功能。
具体来讲:
计算机设备900包括中央处理单元(Central Processing Unit,CPU)901、包括随机存取存储器(Random Access Memory,RAM)902和只读存储器(Read Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说,大容量存储设备907可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述文本分类方法,或实现上述文本分类模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述文本分类方法,或实现上述文本分类模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本分类方法,或执行上述文本分类模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待检测文本,以及所述待检测文本对应的关联文本;
对所述待检测文本和所述关联文本进行特征提取处理,获取特征信息;其中,所述特征信息中包括至少一个特征;
采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,所述注意力权重用于指示所述特征针对所述待检测文本和所述关联文本的重要程度;
基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果和结果解释信息;其中,所述类别检测结果包括所述待检测文本对应的类别分布概率,所述结果解释信息用于描述各个所述特征针对所述类别检测结果的影响程度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征信息和所述注意力权重,获取所述待检测文本对应的结果解释信息,包括:
获取所述特征对应的空间注意力权重和稀疏访问级注意力权重;其中,所述空间注意力权重用于指示单个所述特征的重要程度,所述稀释访问级注意力权重用于指示所述特征所处特征集合的重要程度,所述特征集合中包括来自相同文本的特征;
根据所述空间注意力权重和所述稀疏访问级注意力权重,确定所述特征对应的最终注意力权重;
基于所述最终注意力权重和所述特征对应的嵌入向量,确定所述特征对应的贡献度系数;
其中,所述结果解释信息中包括各个特征分别对应的贡献度系数。
3.根据权利要求1所述的方法,其特征在于,所述采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,包括:
采用空间注意力机制,对所述特征信息中的各个所述特征进行处理,获取各个所述特征分别对应的空间注意力权重;
基于各个所述特征的来源,将来自相同文本的所述特征进行组合划分,获取多组特征集合;其中,不同特征集合中包括来自不同文本的特征;
采用稀疏访问级注意力机制,对所述多组特征集合进行处理,获取各个所述特征集合分别对应的稀疏访问级注意力权重。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述类别检测结果是文本分类模型通过所述特征信息获取的;
其中,所述文本分类模型采用不同的模型参数对所述特征信息进行多次处理,所述类别检测结果中包括n组类别检测子结果,所述结果解释信息中包括所述n组类别检测子结果对应的n个结果解释子信息,所述类别检测子结果与所述结果解释子信息具有一一对应的关系,n为正整数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果之后,还包括:
从所述n组类别检测子结果中分别获取目标类别对应的概率值;
对所述目标类别的概率值进行求平均处理,获取所述目标类别对应的最终概率值;
生成所述待检测文本对应的最终类别检测结果,所述最终类别检测结果中包括各个类别分别对应的最终概率值。
6.根据权利要求5所述的方法,其特征在于,所述生成所述待检测文本对应的最终类别检测结果之后,还包括:
基于各个所述类别分别对应的最终概率值,获取所述最终类别检测结果的度量参数;其中,所述度量参数用于度量所述最终类别检测结果的混乱程度;
根据所述度量参数,确定所述文本分类模型针对所述待检测文本的置信度;
响应于所述置信度满足条件,确定所述最终类别检测结果为准确检测结果;
响应于所述置信度不满足条件,生成人工提示信息,所述人工提示信息用于提醒对所述待检测文本进行人工检测。
7.根据权利要求4所述的方法,其特征在于,所述基于所述特征信息和所述注意力权重,获取所述待检测文本对应的结果解释信息之后,还包括:
从所述n个结果解释子信息中分别获取目标特征对应的贡献度系数;
对所述目标特征对应的贡献度系数进行求平均处理,获取所述目标特征对应的最终贡献度系数;
生成所述待检测文本对应的最终结果解释信息,所述最终结果解释信息中包括各个所述特征分别对应的最终贡献度系数。
8.根据权利要求4所述的方法,其特征在于,所述不同的模型参数是根据多次随机采样获取的。
9.一种文本分类模型的训练方法,其特征在于,所述方法包括:
获取多个样本文本,以及各个所述样本文本对应的类别信息;
从各个所述样本文本中分别提取样本特征信息;
采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练;
其中,所述文本分类模型中引入注意力机制,所述注意力机制用于确定所述样本特征信息中的各个样本特征针对所述样本文本中的重要程度,所述重要程度用于确定各个所述样本特征对模型输出结果的影响程度。
10.根据权利要求9所述的方法,其特征在于,所述采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练,包括:
采用多组模型参数,对所述样本特征信息进行多次处理,获取多组模型输出结果;
基于所述多组模型输出结果,以及所述类别信息,确定所述文本分类模型的损失函数值;其中,损失函数用于指示所述文本分类模型的输出结果的准确性;
基于所述损失函数值对所述文本分类模型的参数进行调整,直至所述损失函数收敛。
11.根据权利要求9所述的方法,其特征在于,所述注意力机制包括空间注意力机制和稀疏访问级注意力机制;
其中,所述空间注意力机制用于衡量单个特征的重要程度,所述稀疏访问级注意力机制用于衡量特征集合的重要程度,所述特征集合中包括来自相同文本的特征。
12.一种文本分类装置,其特征在于,所述装置包括:
文本获取模块,用于获取待检测文本,以及所述待检测文本对应的关联文本;
特征提取模块,用于对所述待检测文本和所述关联文本进行特征提取处理,获取特征信息;其中,所述特征信息中包括至少一个特征;
权重获取模块,用于采用注意力机制对所述特征信息进行处理,获取各个所述特征分别对应的注意力权重,所述注意力权重用于指示所述特征针对所述待检测文本和所述关联文本的重要程度;
结果获取模块,用于基于所述特征信息和所述注意力权重,获取所述待检测文本对应的类别检测结果和结果解释信息;其中,所述类别检测结果包括所述待检测文本对应的类别分布概率,所述结果解释信息用于描述各个所述特征针对所述类别检测结果的影响程度。
13.一种文本分类模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取多个样本文本,以及各个所述样本文本对应的类别信息;
特征获取模块,用于从各个所述样本文本中分别提取样本特征信息;
模型训练模块,用于采用所述样本特征信息和所述类别信息对所述文本分类模型进行训练;
其中,所述文本分类模型中引入注意力机制,所述注意力机制用于确定所述样本特征信息中的各个样本特征针对所述样本文本中的重要程度,所述重要程度用于确定各个所述样本特征对模型输出结果的影响程度。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的文本分类方法,或实现如权利要求9至11任一项所述的文本分类模型的训练方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的文本分类方法,或实现如权利要求9至11任一项所述的文本分类模型的训练方法。
CN202110268045.7A 2021-03-12 2021-03-12 文本分类方法、装置、设备及存储介质 Pending CN113722474A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110268045.7A CN113722474A (zh) 2021-03-12 2021-03-12 文本分类方法、装置、设备及存储介质
PCT/CN2022/079721 WO2022188773A1 (zh) 2021-03-12 2022-03-08 文本分类方法、装置、设备、计算机可读存储介质及计算机程序产品
US17/968,594 US20230058194A1 (en) 2021-03-12 2022-10-18 Text classification method and apparatus, device, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268045.7A CN113722474A (zh) 2021-03-12 2021-03-12 文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113722474A true CN113722474A (zh) 2021-11-30

Family

ID=78672551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268045.7A Pending CN113722474A (zh) 2021-03-12 2021-03-12 文本分类方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20230058194A1 (zh)
CN (1) CN113722474A (zh)
WO (1) WO2022188773A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880742A (zh) * 2022-04-27 2022-08-09 垒知(成都)科技研究院有限公司 一种面向webgl引擎的Revit模型轻量化方法
WO2022188773A1 (zh) * 2021-03-12 2022-09-15 腾讯科技(深圳)有限公司 文本分类方法、装置、设备、计算机可读存储介质及计算机程序产品
CN115860152A (zh) * 2023-02-20 2023-03-28 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204642B (zh) * 2023-03-06 2023-10-27 上海阅文信息技术有限公司 数字阅读中角色隐式属性智能识别分析方法、系统和应用
CN116861302B (zh) * 2023-09-05 2024-01-23 吉奥时空信息技术股份有限公司 一种案件自动分类分拨方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824815B2 (en) * 2019-01-02 2020-11-03 Netapp, Inc. Document classification using attention networks
CN111858919A (zh) * 2019-04-30 2020-10-30 中移(苏州)软件技术有限公司 一种文本分类方法及装置、计算机可读存储介质
CN110874411A (zh) * 2019-11-20 2020-03-10 福州大学 一种基于注意力机制融合的跨领域情感分类系统
CN112269874A (zh) * 2020-10-10 2021-01-26 北京物资学院 一种文本分类方法及系统
CN112347252B (zh) * 2020-11-04 2024-02-27 吉林大学 一种基于cnn文本分类模型的可解释性分析方法
CN113722474A (zh) * 2021-03-12 2021-11-30 腾讯科技(深圳)有限公司 文本分类方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022188773A1 (zh) * 2021-03-12 2022-09-15 腾讯科技(深圳)有限公司 文本分类方法、装置、设备、计算机可读存储介质及计算机程序产品
CN114880742A (zh) * 2022-04-27 2022-08-09 垒知(成都)科技研究院有限公司 一种面向webgl引擎的Revit模型轻量化方法
CN115860152A (zh) * 2023-02-20 2023-03-28 南京星耀智能科技有限公司 一种面向人物军事知识发现的跨模态联合学习方法
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2022188773A1 (zh) 2022-09-15
US20230058194A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN110516791B (zh) 一种基于多重注意力的视觉问答方法及系统
KR102265573B1 (ko) 인공지능 기반 입시 수학 학습 커리큘럼 재구성 방법 및 시스템
CN111444344A (zh) 实体分类方法、装置、计算机设备和存储介质
Benalcázar et al. Real-time hand gesture recognition based on artificial feed-forward neural networks and EMG
CN111881671B (zh) 一种属性词提取方法
Ramakrishnan et al. Toward automated classroom observation: Multimodal machine learning to estimate class positive climate and negative climate
KR101895959B1 (ko) 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN111126552A (zh) 一种智能学习内容推送方法及系统
CN112069329A (zh) 文本语料的处理方法、装置、设备及存储介质
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
Aydoğdu A new student modeling technique with convolutional neural networks: Learnerprints
JP6802332B1 (ja) 情報処理方法および情報処理装置
CN111898528A (zh) 数据处理方法、装置、计算机可读介质及电子设备
Cao et al. Fuzzy emotional semantic analysis and automated annotation of scene images
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN113761837B (zh) 实体关系类型确定方法、装置和设备及存储介质
CN115658964B (zh) 预训练模型以及体感画风识别模型的训练方法及装置
Sankar Study of deep learning models on educational channel video from YouTube for classification of Hinglish text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination