CN113569042A - 文本信息分类方法、装置、计算机设备及存储介质 - Google Patents

文本信息分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113569042A
CN113569042A CN202110103221.1A CN202110103221A CN113569042A CN 113569042 A CN113569042 A CN 113569042A CN 202110103221 A CN202110103221 A CN 202110103221A CN 113569042 A CN113569042 A CN 113569042A
Authority
CN
China
Prior art keywords
word
vector
feature vector
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110103221.1A
Other languages
English (en)
Inventor
叶志豪
文瑞
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110103221.1A priority Critical patent/CN113569042A/zh
Publication of CN113569042A publication Critical patent/CN113569042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本信息分类方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取文本信息对应的文本图,从知识数据库中查询多个词语关联的词语集合,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接,根据文本图中的每个节点的特征向量及每个节点之间的连接关系,确定文本信息所属的类别。本申请实施例提供的方法,采用文本图的形式来表示待分类的文本信息,在文本图中扩充与知识特征向量对应的知识节点,以丰富文本图中包含的信息,提高了文本图的准确性,从而提高了分类准确性。

Description

文本信息分类方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种文本信息分类方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,自然语言处理的应用越来越广泛,能够应用在多种场景下。当自然语言处理应用在医疗场景下时,通常会涉及到对与医疗相关的文本信息进行分类的问题。
相关技术中提供了一种文本信息分类方法,调用训练完成的分类模型,对文本信息进行分类处理,得到该文本信息所属的类别。但是仅根据文本信息本身进行分类,导致分类准确性差。
发明内容
本申请实施例提供了一种文本信息分类方法、装置、计算机设备及存储介质,能够提高分类的准确性。所述技术方案如下:
一方面,提供了一种文本信息分类方法,所述方法包括:
获取文本信息对应的文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接;
从知识数据库中查询所述多个词语关联的词语集合;
对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,所述词向量集合包括所述词语集合中每个词语的词向量;
在所述文本图中添加与所述知识特征向量对应的知识节点,将所述知识节点与所述多个词语节点分别连接;
根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别。
在一种可能实现方式中,所述将所述多个词语节点的特征向量进行融合,得到所述文本图的第一特征向量,包括:
根据所述多个词语节点中任两个词语节点的特征向量之间的相似度,确定所述每个词语节点的特征向量的权重;
根据所述每个词语节点的特征向量的权重,对所述多个词语节点的特征向量进行加权融合,得到所述文本图的第一特征向量。
在另一种可能实现方式中,所述知识数据库中包括多个关键词以及每个关键词关联的词语集合;所述从知识数据库中查询所述多个词语关联的词语集合,包括:
将所述每个关键词与所述多个词语的相似度之和,分别确定为所述每个关键词对应的总相似度;
将最大总相似度对应的关键词,确定为目标关键词;
将所述目标关键词对应的词语集合,确定为所述多个词语关联的词语集合。
在另一种可能实现方式中,所述将所述每个关键词与所述多个词语的相似度之和,分别确定为所述每个关键词对应的总相似度之前,所述方法还包括:
根据任一关键词的词向量及所述多个词语节点的特征向量,确定所述关键词与所述每个词语节点对应的词语之间的相似度。
在另一种可能实现方式中,所述根据所述多个词语在所述文本信息中的位置,确定所述多个词语中任两个词语之间的共现频率,包括:
从所述文本信息中提取多个词语组合,每个词语组合中包括相邻的参考数目个词语;
将包括所述多个词语中任两个词语的词语组合的个数,确定为所述两个词语的共现频率。
另一方面,提供了一种文本信息分类装置,所述装置包括:
获取模块,用于获取文本信息对应的文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接;
查询模块,用于从知识数据库中查询所述多个词语关联的词语集合;
融合模块,用于对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,所述词向量集合包括所述词语集合中每个词语的词向量;
连接模块,用于在所述文本图中添加与所述知识特征向量对应的知识节点,将所述知识节点与所述多个词语节点分别连接;
确定模块,用于根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别。
在一种可能实现方式中,所述融合模块,包括:
融合单元,用于将所述多个词语节点的特征向量进行融合,得到所述文本图的第一特征向量;
所述融合单元,还用于根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量。
在另一种可能实现方式中,所述融合单元,用于将所述词向量集合中每个词向量与所述第一特征向量之间的相似度,确定为所述每个词向量的权重;根据所述每个词向量的权重,对所述词向量集合中的多个词向量进行加权融合,得到所述知识特征向量。
在另一种可能实现方式中,所述融合单元,用于根据所述多个词语节点中任两个词语节点的特征向量之间的相似度,确定所述每个词语节点的特征向量的权重;根据所述每个词语节点的特征向量的权重,对所述多个词语节点的特征向量进行加权融合,得到所述文本图的第一特征向量。
在另一种可能实现方式中,所述融合单元,用于调用多头注意力模型,根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量。
在另一种可能实现方式中,所述多头注意力模型包括多个注意力子模型;
所述融合单元,用于调用每个注意力子模型,根据所述第一特征向量,对所述词向量集合中的多个词向量进行加权融合,得到一个所述知识特征向量。
在另一种可能实现方式中,所述知识数据库中包括多个关键词以及每个关键词关联的词语集合;所述查询模块,包括:
确定单元,用于将所述每个关键词与所述多个词语的相似度之和,分别确定为所述每个关键词对应的总相似度;
所述确定单元,还用于将最大总相似度对应的关键词,确定为目标关键词;
所述确定单元,还用于将所述目标关键词对应的词语集合,确定为所述多个词语关联的词语集合。
在另一种可能实现方式中,所述确定模块,还用于根据任一关键词的词向量及所述多个词语节点的特征向量,确定所述关键词与所述每个词语节点对应的词语之间的相似度。
在另一种可能实现方式中,所述获取模块,包括:
分词单元,用于对所述文本信息进行分词处理,得到所述多个词语;
提取单元,用于对每个词语进行特征提取,得到所述每个词语的词向量;
添加单元,用于在所述文本图中添加与每个词向量对应的词语节点;
连接单元,用于根据所述多个词语在所述文本信息中的位置,将具有关联关系的任两个词语对应的词语节点连接。
在另一种可能实现方式中,所述连接单元,用于根据所述多个词语在所述文本信息中的位置,确定所述多个词语中任两个词语之间的共现频率;响应于任两个词语之间的共现频率大于参考阈值,将所述两个词语对应的词语节点连接。
在另一种可能实现方式中,所述连接单元,用于从所述文本信息中提取多个词语组合,每个词语组合中包括相邻的参考数目个词语;将包括所述多个词语中任两个词语的词语组合的个数,确定为所述两个词语的共现频率。
在另一种可能实现方式中,所述获取模块,包括:
构建单元,用于根据所述文本信息构建文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且所述每个词语节点的特征向量为所述每个词语节点所对应词语的词向量;
更新单元,用于根据所述每个词语节点的特征向量及所述每个词语节点之间的连接关系,对所述多个词语节点的特征向量进行更新,得到更新后的文本图。
在另一种可能实现方式中,所述更新单元,用于对于所述每个词语节点,根据所述词语节点的特征向量及所述词语节点的相邻词语节点的特征向量,对所述词语节点的特征向量进行更新,所述相邻词语节点为与所述词语节点连接的其他词语节点。
在另一种可能实现方式中,所述更新单元,用于将所述词语节点的相邻词语节点的特征向量进行加权处理,得到邻居特征向量;根据重置参数,对所述词语节点的特征向量进行重置处理,得到所述词语节点对应的重置特征向量;将所述重置特征向量与所述邻居特征向量进行加权融合后的特征向量进行变换,得到新增特征向量;根据更新参数,将所述新增特征向量及所述词语节点的特征向量进行融合,得到所述词语节点更新后的特征向量,其中,所述更新参数表示所述新增特征向量的更新权重。
在另一种可能实现方式中,所述确定模块,用于根据所述每个节点的特征向量及所述每个节点之间的连接关系,对所述每个节点的特征向量进行更新;将更新后的所述每个节点的特征向量进行融合,得到所述文本图的第二特征向量;对所述第二特征向量进行分类,得到所述文本信息所属的类别。
在另一种可能实现方式中,所述文本信息包括就诊咨询信息,所述确定模块,用于根据所述就诊咨询信息对应的文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述就诊咨询信息所属的科室。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的文本信息分类方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的文本信息分类方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的文本信息分类方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法、装置、计算机设备及存储介质,采用文本图的形式来表示待分类的文本信息,通过查询到的与多个词语关联的词语集合,在文本图中扩充与知识特征向量对应的知识节点,以丰富文本图中包含的信息,提高了文本图的准确性,之后根据更新后的文本图对文本信息进行分类,提高了分类准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的结构示意图;
图2是本申请实施例提供的一种文本信息分类方法的流程图;
图3是本申请实施例提供的一种文本信息分类方法的流程图;
图4是本申请实施例提供的一种更新词语节点的特征向量的流程图;
图5是本申请实施例提供的一种获取文本图的第二特征向量的流程图;
图6是本申请实施例提供的一种文本信息分类装置的结构示意图;
图7是本申请实施例提供的一种文本信息分类装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一特征向量称为第二特征向量,且类似地,能够将第二特征向量称为第一特征向量。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个词语节点包括3个词语节点,而每个是指这3个词语节点中的每一个词语节点,任一是指这3个词语节点中的任意一个,能够是第一个词语节点,或者,是第二个词语节点,或者,是第三个词语节点。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案,基于人工智能的机器学习技术,能够训练出门控神经网络模型及多头注意力模型,之后调用训练的门控神经网络模型及多头注意力模型,对文本信息进行分类。
本申请实施例提供的文本信息分类方法,能够用于计算机设备中,可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。
可选地,终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。例如,目标应用为指引应用,该指引应用具有指引功能,当然,该指引应用还能够具有其他功能,例如,购物功能、导航功能、聊天功能等。可选地,服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。
终端101基于用户标识登录该目标应用,通过该目标应用向服务器发送待分类的文本信息,服务器102用于接收终端发送的文本信息,确定该文本信息所属的类别。
图2是本申请实施例提供的一种文本信息分类方法的流程图,应用于计算机设备中,如图2所示,该方法包括:
201、计算机设备获取文本信息对应的文本图。
其中,文本图包括与文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接。
通过以文本图的形式来表示文本信息,以突出文本信息中包括的多个词语之间的关系,增强对文本信息内容的理解,使得文本图能够准确地描述该文本信息,提高了文本图的准确性。
202、计算机设备从知识数据库中查询该多个词语关联的词语集合。
其中,知识数据库中存储有多个词语集合,通过从知识数据库中查询该多个词语关联的词语集合,以便后续根据该词语集合扩充文本图中包含的信息。
203、计算机设备对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
其中,词向量集合包括词语集合中每个词语的词向量。知识特征向量是与该文本图的多个词语节点的特征向量关联的特征向量,通过获取知识特征向量,以便后续通过知识特征向量来扩充该文本图中包含的信息。
204、计算机设备在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接。
在得到与文本图匹配的至少一个知识特征向量后,通过在文本图中添加知识特征向量对应的知识节点,以丰富文本图中包含的信息,并且将知识节点与每个词语节点连接,即采用全连接的方式,以使获取到的知识节点与每个词语节点之间关联,提高了更新后的文本图的准确性。
205、计算机设备根据文本图中的每个节点的特征向量及每个节点之间的连接关系,确定文本信息所属的类别。
在为文本图中扩充知识节点及知识节点的知识特征向量后,根据该文本图中词语节点的特征向量、知识节点的特征向量及各个节点之间的连接关系,能够确定文本信息所属的类别,以保证确定的类别的准确性。
本申请实施例提供的方法,采用文本图的形式来表示待分类的文本信息,通过查询到的与多个词语关联的词语集合,在文本图中扩充与知识特征向量对应的知识节点,以丰富文本图中包含的信息,提高了文本图的准确性,之后根据更新后的文本图对文本信息进行分类,提高了分类准确性。
图3是本申请实施例提供的一种文本信息分类方法的流程图,应用于计算机设备中,如图3所示,该方法包括:
301、计算机设备根据文本信息构建文本图。
其中,该文本信息为任意的文本信息,例如,该文本信息是用户询问某个问题的文本信息,即该文本信息中包括询问语句;或者,该文本信息是描述用户身体状况的文本信息,或者,该文本信息为其他的文本信息。该文本信息中包括多个词语,相应地,文本图包括与文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接。
根据文本信息中包括的多个词语,构建多个词语节点,并将具有关联关系的任两个词语对应的词语节点连接,从而得到该文本图。在根据文本信息构建的初始文本图中,每个词语节点的特征向量为每个词语节点所对应词语的词向量。通过以文本图的形式来表示文本信息,以突出文本信息中包括的多个词语之间的关系,增强对文本信息内容的理解,使得文本图能够准确地描述该文本信息,提高了文本图的准确性,以便后续根据该文本图对文本信息进行分类,从而提高分类准确性。
在一种可能实现方式中,该步骤301包括以下步骤3101-3104:
3101、计算机设备对文本信息进行分词处理,得到多个词语。
其中,该多个词语为文本信息中包含的词语,在对文本信息进行分词处理时,能够调用结巴分词模型或者其他分词模型进行处理。采用分词的方式,能够保证从文本信息中提取的词语的准确性,以便后续按照提取的多个词语构建文本信息对应的文本图时,保证文本图的准确性。
3102、计算机设备对每个词语进行特征提取,得到每个词语的词向量。
其中,词向量用于表示对应的词语,该词向量能够是任意维度的向量,例如,该词向量为16维度的向量,或者,为18维度的向量。
在一种可能实现方式中,该步骤3102包括:调用特征提取模型,对每个词语进行特征提取,得到每个词语的词向量。其中,特征提取模型用于获取词语的词向量,例如,该特征提取模型为word2vec(词嵌入模型)、BERT(Bidirectional Encoder Representationsfrom Transformers,来自变压器的双向编码器表示)、XLNET(自回归预训练方法)或者其他模型等。
3103、计算机设备在文本图中添加与每个词向量对应的词语节点。
在得到文本信息中的多个词语的词向量后,在文本图中添加每个词向量对应的词语节点,得到多个词语节点,将每个词向量作为每个词语节点的特征向量,即该文本图中包括多个词语节点,每个词语节点具有特征向量。
3104、根据多个词语在文本信息中的位置,将具有关联关系的两个词语对应的词语节点连接。
其中,不同的词语在文本信息中的位置不同,不同的位置的词语可能具有关联关系,例如,相邻的词语之间具有关联关系,或者,位置相近的词语之间具有关联关系,因此,根据多个词语在文本信息中的位置,即可确定多个词语中具有关联关系的词语,将具有关联关系的任两个词语对应的词语节点连接,得到该文本图。通过将具有关联关系的两个词语对应的词语节点连接,以增强对文本信息的理解,保证了文本图的准确性。
在一种可能实现方式中,该步骤3104包括:根据多个词语在文本信息中的位置,确定多个词语中任两个词语之间的共现频率,响应于任两个词语之间的共现频率大于参考阈值,将该两个词语对应的词语节点连接。
其中,参考阈值为任意数值,例如,该参考阈值为0或者2等。任两个词语之间的共现频率用于表示该两个词语在文本信息中共同出现的次数,共现频率越高,表示该两个词语之间的关联关系越重要,共现频率越低,表示该两个词语之间的关联关系越不重要。因此,在任两个词语之间的共现频率大于参考阈值,表示该两个词语之间具有关联关系,因此,将这两个词语对应的词语节点连接。
例如,参考阈值为0,如果任两个词语之间的共现频率为0,表示该两个词语之间不具有关联关系,如果任两个词语之间的共现频率不为0,表示该两个词语之间具有关联关系,在文本图中仅将共现频率大于0的两个词语节点进行连接,从而得到该文本图。
可选地,确定两个词语之间的共现频率的过程,包括:从文本信息中提取多个词语组合,将包括多个词语中任两个词语的词语组合的个数,确定为两个词语的共现频率。
其中,每个词语组合中包括相邻的参考数目个词语,参考数目为任意数值,例如,参考数目为3或2等。按照该参考数目及文本信息中包括的词语的排列顺序,能够提取到多个词语组合,之后,对于分词处理得到的多个词语中任两个词语,这两个词语在一个词语组合中共同出现一次,即该两个词语的共现频率加1,则将多个词语组合中包括该两个词语的词语组合个数,即为该两个词语的共现频率。
例如,文本信息中包括的多个词语的排列顺序为“词语1、词语2、词语3及词语4”,该参考数目为3,则从文本信息中提取到2个词语组合,该2个词语组合分别为“词语1、词语2、词语3”、“词语2、词语3、词语4”,则根据该2个词语组合,能够确定“词语1”与“词语2”之间的共现频率为1,“词语2”与“词语3”之间的共现频率为2,“词语1”与“词语4”之间的共现频率为0。
可选地,从文本信息中提取多个词语组合的过程,包括:将滑动窗口的长度设置为与该参考数目相等,将该滑动窗口的移动步长设置为一个词语,控制该滑动窗口从文本信息中的第一个词语开始,按照该移动步长向后移动,即每次向后移动一个词语,每次移动后将滑动窗口内的参考数目个词语作为一个词语组合,直至移动至滑动窗口包括该文本信息中的最后一个词语为止,得到多个词语组合。
另外,在构建文本信息对应的文本图的过程中,当任两个词语之间的共现频率大于参考阈值时,将两个词语对应的词语节点连接之后,对该两个词语节点之间的共现频率进行归一化处理,得到该两个词语节点之间的权重,将得到的权重作为文本图中该两个词语节点之间的连线的权重,即得到的文本图中包括多个词语节点及每个词语节点的特征向量,具有关联关系的两个词语节点之间的连线具有对应的权重。
在一种可能实现方式中,获取共现频率大于参考阈值的多组词语及每组词语对应的共现频率,对得到的多个共现频率进行归一化处理,得到每组词语对应的权重,将每组词语对应的权重确定为对应的两个词语节点之间连线的权重。
其中,每组词语包括两个词语,该两个词语为从文本信息中提取到的多个词语中的任两个。每组词语对应的共现频率为该组词语中包括的两个词语之间的共现频率。任一组词语对应的共现频率越大,则该组词语对应的权重越大,任一组词语对应的共现频率越小,则该组词语对应的权重越小。通过在构建的文本图中添加具有连接关系的两个词语节点之间的权重,以表示两个词语节点对应的词语之间的关联关系的重要程度,增强了对文本信息中内容的理解,提高了文本图的准确性。
302、计算机设备根据每个词语节点的特征向量及每个词语节点之间的连接关系,对多个词语节点的特征向量进行更新,得到更新后的文本图。
在本申请实施例中,根据文本信息构建的文本图中,每个词语节点的特征向量为对应的词语的词向量,连接的两个词语节点表示对应的词语之间具有关联关系,具有关联关系的任两个词语的词向量之间具有相关性,则根据每个词语节点的特征向量及每个词语节点之间的连接关系,对多个词语节点的特征向量进行更新,使得每个词语节点的特征向量中融入了相邻词语节点的特征向量,提高每个词语节点的特征向量的准确性,从而提高了文本图的准确性。
在一种可能实现方式中,该步骤302包括:对于每个词语节点,根据词语节点的特征向量及该词语节点的相邻词语节点的特征向量,对该词语节点的特征向量进行更新。
其中,相邻词语节点为与该词语节点连接的其他词语节点,相邻词语节点与该词语节点对应的词语之间具有关联关系。在对词语节点的特征向量进行更新时,在词语节点的特征向量中融入了相邻词语节点的特征向量,以突出该词语节点与相邻词语节点之间的关联关系,提高了词语节点的特征向量的准确性。
可选地,对词语节点的特征向量进行更新的过程,包括以下步骤3021-3024:
3021、将该词语节点的相邻词语节点的特征向量进行加权处理,得到邻居特征向量。
在本申请实施例中,该词语节点具有一个或多个相邻词语节点,每个相邻词语节点对应有一个权重,该权重用于表示相邻词语节点对该词语节点的影响程度,不同的相邻词语节点对应的权重不同。按照相邻词语节点对词语节点的影响程度,对该相邻词语节点的特征向量进行加权处理,得到该词语节点对应的邻居特征向量,以便后续将该邻居特征向量融入该词语节点的特征向量中。
在一种可能实现方式中,文本图中每两个节点之间的连线表示该两个词语之间的权重,该词语节点具有多个相邻词语节点,则将多个相邻词语节点的特征向量进行加权融合,得到该邻居特征向量。
在一种可能实现方式中,该邻居特征向量
Figure BDA0002916778030000131
满足以下关系:
Figure BDA0002916778030000132
其中,A是文本图的邻接矩阵,该邻接矩阵中包括文本图中每个词语节点之间的权重,Hl-1表示文本图中多个词语节点的特征向量集合,Wa为权重系数。
3022、根据重置参数,对该词语节点的特征向量进行重置处理,得到词语节点对应的重置特征向量。
其中,重置参数用于重置词语节点的特征向量,可选地,该重置参数以向量的形式表示。通过对词语节点的特征向量进行重置处理,以便后续根据重置处理后的重置特征向量来获取该词语节点的新增特征向量。
在一种可能实现方式中,获取重置参数的过程包括:对词语节点的特征向量及邻居特征向量进行加权融合,得到第一融合特征向量,对该第一融合特征向量进行归一化处理,得到该重置参数。
可选地,该词语节点的特征向量
Figure BDA0002916778030000141
该邻居特征向量
Figure BDA0002916778030000142
及该重置参数
Figure BDA0002916778030000143
满足以下关系:
Figure BDA0002916778030000144
其中,Wr为该邻居特征向量
Figure BDA0002916778030000145
的权重,Ur为该词语节点的特征向量
Figure BDA0002916778030000146
的权重,br为偏置参数,σ(·)为Sigmoid函数(一种归一化函数)。
3023、将重置特征向量与邻居特征向量进行加权融合后的特征向量进行变换,得到新增特征向量。
其中,该新增特征向量为待融入该词语节点的特征向量中的特征向量,即该词语节点更新后的特征向量中新增的特征向量。
在一种可能实现方式中,该重置特征向量、该邻居特征向量
Figure BDA0002916778030000147
及新增特征向量
Figure BDA0002916778030000148
满足以下关系:
Figure BDA0002916778030000149
其中,Wh为该邻居特征向量
Figure BDA00029167780300001410
的权重,Uh为该重置特征向量的权重,
Figure BDA00029167780300001411
为重置参数,
Figure BDA00029167780300001412
为该词语节点的特征向量,⊙表示哈达玛乘积,
Figure BDA00029167780300001413
即为该重置特征向量,bh为偏置参数,tanh(·)为双曲正切函数。
3024、根据更新参数,将新增特征向量及词语节点的特征向量进行融合,得到词语节点更新后的特征向量。
其中,更新参数表示新增特征向量的更新权重。通过该更新参数,调整词语节点更新后的特征向量中融入的新增特征向量所占的比重,以调整词语节点更新的特征向量的变化程度。
在一种可能实现方式中,该更新参数
Figure BDA00029167780300001414
新增特征向量
Figure BDA00029167780300001415
及词语节点更新后的特征向量
Figure BDA00029167780300001416
满足以下关系:
Figure BDA00029167780300001417
其中,
Figure BDA00029167780300001418
为词语节点更新后的特征向量,
Figure BDA00029167780300001419
为新增特征向量,
Figure BDA00029167780300001420
为更新参数,
Figure BDA00029167780300001421
为该词语节点更新前的特征向量,⊙表示哈达玛乘积。
在一种可能实现方式中,获取更新参数的过程包括:对词语节点的特征向量及邻居特征向量进行加权融合,得到第二融合特征向量,对该第二融合特征向量进行归一化处理,得到该重置参数。
可选地,该词语节点的特征向量
Figure BDA0002916778030000151
该邻居特征向量
Figure BDA0002916778030000152
及该更新参数
Figure BDA0002916778030000153
满足以下关系:
Figure BDA0002916778030000154
其中,Wz为该邻居特征向量
Figure BDA0002916778030000155
的权重,Uz为该词语节点的特征向量
Figure BDA0002916778030000156
的权重,bz为偏置参数,σ(·)为Sigmoid函数(一种归一化函数)。
需要说明的是,本申请实施例仅是对文本图中的词语节点的特征向量进行一次更新进行说明的,而在另一实施例中,能够重复执行上述步骤3021-3024,对文本图中的多个词语节点的特征向量进行多次更新后,再基于多个词语节点更新后的特征向量执行如下步骤。由于每次对多个词语节点的特征向量进行更新后,词语节点的特征向量中融入了相邻词语节点的特征信息,之后再对多个词语节点的特征向量进行更新后,使得词语节点的特征向量中不仅融入了相邻词语节点的特征信息,还融入了该相邻词语节点的相邻词语节点的特征信息。通过对多个词语节点的特征向量进行多次更新,使得词语节点更新后的特征向量中包含了多跳邻居节点的特征信息,实现了文本图中多个词语节点之间的高阶特征交互,提高了文本图中词语节点的特征向量的准确性。
另外,在对文本图中的词语节点的特征向量进行更新时,能够调用门控图神经网络模型,按照上述步骤3021-3024,对每个词语节点的特征向量进行更新。其中,门控图神经网络模型为GGNN(Gated Graph Neural Network)。
可选地,在文本图中的词语节点的特征向量进行多次更新时,门控图神经网络模型中包括多个门控循环单元(GRU,Gate Recurrent Unit),调用每个门控循环单元,能够按照上述步骤3021-3024,对每个词语节点的特征向量进行一次更新。在多个门控循环单元对文本图中词语节点的特征向量进行更新时,将任一个门控循环单元输出的多个词语节点的特征向量,作为下一个门控循环单元的输入,由该下一个门控循环单元,按照上述步骤3021-3024,对当前的文本图中的多个词语节点的特征向量进行更新。
需要说明的是,本申请实施例是以先构建文本图,再对文本图中的词语节点的特征向量进行更新进行说明的,而在另一实施例中,无需执行上述步骤302,直接根据构建的文本图执行后续步骤即可。
需要说明的是,本申请实施例是以先构建文本图,再对文本图中的词语节点的特征向量进行更新进行说明的,而在另一实施例中,无需执行步骤301-302,能够采取其他方式,获取文本信息对应的文本图。
303、计算机设备将知识数据库中每个关键词与多个词语节点对应的多个词语的相似度之和,分别确定为每个关键词对应的总相似度。
在本申请实施例中,知识数据库中包括多个关键词以及每个关键词关联的词语集合,每个词语集合包括至少一个词语,不同的词语集合中包括的词语不完全相同。每个关键词与关联的词语集合中的词语关联,例如,关键词为“苹果”,该关键词对应的词语集合中包括“香蕉”、“苹果系统”等。
其中,关键词对应的总相似度用于表示关键词与多个词语节点对应的多个词语的匹配程度,总相似度越大,表示该关键词与该多个词语越匹配,总相似度越小,表示该关键词与该多个词语越不匹配。由于知识数据库中包括多个关键词,则对于任一关键词,确定该关键词与多个词语节点对应的多个词语的相似度之和,将该相似度之和确定为该关键词对应的总相似度,按照上述方式即可获取到每个关键词对应的总相似度。
在一种可能实现方式中,确定关键词与词语节点对应的词语之间的相似度的过程,包括:根据任一关键词的词向量及每个词语节点的特征向量,确定关键词与每个词语节点对应的词语之间的相似度。
可选地,采用余弦相似度、欧氏距离等算法,对关键词的词向量及任一词语节点的特征向量进行处理,得到该关键词与该词语节点对应的词语之间的相似度。
304、计算机设备将最大总相似度对应的关键词,确定为目标关键词。
在确定每个关键词对应的总相似度后,从多个关键词中确定最大总相似度对应的目标关键词,以保证确定的目标关键词与多个词语节点对应的多个词语最匹配,保证了后续确定的词语集合的准确性。
305、计算机设备将目标关键词对应的词语集合,确定为该多个词语关联的词语集合。
由于目标关键词为知识数据库中与多个词语节点对应的多个词语最匹配的关键词,则该目标关键词对应的词语集合,即为该多个词语节点对应的多个词语关联的词语集合。通过关键词与多个词语节点对应的多个词语之间的相似度,从知识数据库中的多个词语集合中,查询出与多个词语关联的词语集合,以保证查询到的词语集合的准确性。
需要说明的是,本申请实施例是根据知识数据库中的关键词与多个词语节点对应的多个词语之间的相似度,来确定该多个词语关联的词语集合的,而在另一实施例中,无需执行步骤303-305,能够采取其他方式,从知识数据库中查询多个词语节点对应的多个词语关联的词语集合。
306、计算机设备将多个词语节点的特征向量进行融合,得到文本图的第一特征向量。
由于文本图中包括了多个词语节点,通过将文本图包括的多个词语节点的特征向量进行融合,使融合后的第一特征向量中包含了多个词语节点对应的词语的特征向量,保证了第一特征向量的准确性。
在一种可能实现方式中,该步骤306包括:根据多个词语节点中任两个词语节点的特征向量之间的相似度,确定每个词语节点的特征向量的权重,根据每个词语节点的特征向量的权重,对多个词语节点的特征向量进行加权融合,得到文本图的第一特征向量。
其中,任两个词语节点的特征向量之间的相似度,能够表示两个词语节点对应的词语之间的关联程度,如果任一词语节点的特征向量与其他每个词语节点的特征向量之间的相似度大,表示该词语节点对应的词语与其他每个词语节点对应的词语关联程度大,则为该词语节点的特征向量确定的权重大,以表示该词语节点在多个词语节点中的重要程度。可选地,词语节点的特征向量的权重以向量的形式表示,或者,以固定数值的形式表示。
词语节点的特征向量的权重越大,表示该词语节点的特征向量越重要,即该词语节点对应的词语越能够表示该文本信息所要表达的含义,词语节点的特征向量的权重越小,表示该词语节点的特征向量越不重要,即该词语节点对应的词语越不能表示该文本信息所要表达的含义。因此,根据多个词语节点的特征向量的权重,对多个词语节点的特征向量进行加权融合,以增强多个特征向量中重要的特征向量,削弱其他不重要的特征向量,从而保证了第一特征向量的准确性。
可选地,将多个词语节点的特征向量进行拼接,得到拼接特征向量,对该拼接特征向量及该拼接特征向量的转置特征向量进行融合,得到融合特征矩阵,对该融合特征矩阵进行归一化处理,得到多个词语节点的特征向量的权重矩阵,将该权重矩阵与该拼接特征向量进行融合,得到该文本图的第一特征向量。
其中,拼接特征向量是由多个词语节点的特征向量拼接得到的,可选地,该拼接特征向量包括多个维度的特征向量,每个维度的特征向量为一个词语节点的特征向量。该拼接特征向量的转置特征向量是通过对拼接特征向量进行转置处理得到的。由于拼接特征向量中包括多个词语节点的特征向量,则该转置特征向量中包括多个词语节点的特征向量的转置特征向量。融合特征矩阵中包括任两个词语节点的特征向量之间的相似度,通过对融合特征矩阵进行归一化处理,即可得到多个词语节点的特征向量的权重构成的权重矩阵。将该权重矩阵与该拼接特征向量进行融合,即为将多个词语节点的特征向量进行加权融合,从而得到该文本图的第一特征向量。
可选地,该拼接特征向量Q、该转置特征向量QT及该第一特征向量Attention,满足以下关系:
Figure BDA0002916778030000181
其中,Attention为第一特征向量,Q为拼接特征向量,QT为转置特征向量,dk为调整参数,T为对特征向量的转置,softmax(·)为逻辑回归函数。
可选地,调用特征融合模型,根据多个词语节点中任两个词语节点的特征向量之间的相似度,确定每个词语节点的特征向量的权重,根据每个词语节点的特征向量的权重,对多个词语节点的特征向量进行加权融合,得到文本图的第一特征向量。
其中,特征融合模型用于将多个特征向量进行加权融合成一个特征向量。通过该特征融合模型来获取文本图的第一特征向量,保证了第一特征向量的准确性。
307、计算机设备根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
其中,词向量集合包括词语集合中每个词语的词向量。由于词语集合中的词语与该文本图中词语节点对应的词语关联,则词语集合对应的词向量集合中的词向量与该文本图中每个词语节点的特征向量关联,即该词向量集合中的词向量与文本图的第一特征向量关联,则根据该第一特征向量,能够按照关联程度将词语集合中的词向量进行融合,从而得到知识特征向量。
在一种可能实现方式中,该步骤307包括:将词向量集合中每个词向量与第一特征向量之间的相似度,确定为每个词向量的权重,根据每个词向量的权重,对词向量集合中的多个词向量进行加权融合,得到知识特征向量。
其中,词向量集合中词向量与第一特征向量之间的相似度,能够表示该词向量对应的词语与文本图中多个词语节点对应的词语之间的关联程度。根据词向量与第一特征向量之间的相似度,来确定词向量的权重,以保证确定的权重与该相似度相匹配,词向量与第一特征向量之间的相似度越大,则该词向量的权重越大,词向量与第一特征向量之间的相似度越小,则该词向量的权重越小。
根据每个词向量的权重,对每个词向量进行加权融合,以增强与第一特征向量相似的词向量在知识特征向量中所占的比重,削弱与第一特征向量不相似的词向量在知识特征向量中所占的比重,从而保证了知识特征向量的准确性。
在一种可能实现方式中,该步骤307包括:调用多头注意力模型,根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
其中,多头注意力模型用于获取知识特征向量。通过多头注意力模型来获取知识特征向量,以保证知识特征向量的准确性。
可选地,获取知识特征向量的过程包括:调用多头注意力模型中的每个注意力子模型,根据第一特征向量,对词向量集合中的多个词向量进行加权融合,得到一个知识特征向量。
其中,多头注意力模型包括多个注意力子模型,不同的注意力子模型中包括的模型参数不同,则不同的注意力子模型得到的知识特征向量不同,则得到多个知识特征向量。
可选地,每个注意力子模型获取知识特征向量的过程,包括:调用每个注意力子模型,将词向量集合中每个词向量与第一特征向量之间的相似度,确定为每个词向量的权重,根据每个词向量的权重,对词向量集合中的多个词向量进行加权融合,得到知识特征向量。
在本申请实施例中,对于词向量集合中任一词向量,不同的注意力子模型得到的该词向量与第一特征向量之间的相似度不同,则不同的注意力子模型为该词向量确定的权重不同。因此,不同的注意力子模型得到的知识特征向量,从而得到多个知识特征向量。
通过获取到多个知识特征向量,以便后续将多个特征向量来作为文本信息的扩充知识,丰富文本图中包含的信息,以提高文本图的准确性。
可选地,得到的多个知识特征向量,满足以下关系:
MuztiHead(D,E,D)=Concat(head0,…,headm)
Figure BDA0002916778030000201
Figure BDA0002916778030000202
其中,MultiHead(D,E,D)表示得到的多个知识特征向量集合,D用于表示词向量集合,E用于表示第一特征向量,Concat(·)表示拼接函数,head0为第一个注意力子模型输出的知识特征向量,headm为第m个注意力子模型输出的知识特征向量,headi为第i个注意力子模型输出的知识特征向量,
Figure BDA0002916778030000203
Figure BDA0002916778030000204
为第i个注意力子模型中的权重,dk为调整参数,T为对特征向量的转置,softmax(·)为逻辑回归函数。
另外,根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量还能够采用其他模型,例如,全连接神经网络模型,或者,孪生模型模型。
需要说明的是,本申请实施例是通过文本图的第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量的,而在另一实施例中,无需执行步骤306-307,能够采取其他方式,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
308、计算机设备在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接。
其中,知识特征向量是通过文本图的第一特征向量得到的,且该知识特征向量与第一特征向量关联,该第一特征向量是由文本图中多个词语节点的特征向量进行融合得到的,因此,得到的知识特征向量与每个词语节点的特征向量相关联,因此采用全连接的方式,将知识节点与每个词语节点连接,以丰富文本图中包含的信息。
在本申请实施例中,由于文本信息中可能包括很少的词语,如果仅根据文本信息本身进行分类,可能导致分类的准确性差,因此,通过从知识数据库中确定的文本图中多个词语节点对应的多个词语关联的词语集合,来获取知识特征向量,将获取到的知识特征向量作为文本信息的扩充知识,在文本图中添加与知识特征向量对应的知识节点,以丰富文本图中包括的信息,提高了文本图的准确性。
在一种可能实现方式中,得到多个知识特征向量后,则该步骤308包括:在文本图中添加与每个知识特征向量对应的知识节点,将每个知识节点与多个词语节点分别连接。
309、计算机设备根据每个节点的特征向量及每个节点之间的连接关系,对每个节点的特征向量进行更新。
由于文本图中新增了与知识特征向量对应的知识节点及知识节点与多个词语节点之间的连接关系,通过文本图中每个节点的特征向量及每个节点之间的连接关系,对文本图中每个节点的特征向量进行更新,以使更新后的节点的特征向量中融入了相邻节点的特征向量,提高了更新后的节点的特征向量的准确性,以保证后续为文本信息确定所属类别的准确性。
在一种可能实现方式中,该步骤309包括以下步骤3091-3094:
3091、将任一节点的特征向量及该节点的相邻节点的特征向量构成特征向量集合,将该特征向量集合中每个特征向量与该节点的特征向量之间的相似度,分别确定为该特征向量集合中每个特征向量的权重,根据确定的权重,对该特征向量集合中的多个特征向量进行加权融合,得到该节点对应的邻居特征向量。
其中,该特征向量集合中任一特征向量与该节点的特征向量之间的相似度,能够表示两个特征向量对应的节点所对应的词语之间的关联程度,根据特征向量集合中的特征向量与该节点的特征向量之间的相似度,来确定特征向量集合中每个特征向量的权重,以保证每个特征向量的权重与对应的相似度匹配,特征向量对应的相似度越大,则该特征向量的权重越大,特征向量对应的相似度越小,则该特征向量的权重越小。
根据该特征向量集合中每个特征向量的权重,对该特征向量集合中的多个特征向量进行加权融合,以增强多个特征向量中重要的特征向量,削弱其他不重要的特征向量,从而保证了邻居特征向量的准确性。
在一种可能实现方式中,该步骤3091包括:将任一节点的特征向量及该节点的相邻节点的特征向量构成特征向量集合,调用多头注意力模型,将该特征向量集合中每个特征向量与该节点的特征向量之间的相似度,分别确定为该特征向量集合中每个特征向量的权重,根据确定的权重,对该特征向量集合中的多个特征向量进行加权融合,得到该节点对应的邻居特征向量。
其中,多头注意力模型用于节点对应的邻居特征向量。通过多头注意力模型来获取知识特征向量,以保证邻居特征向量的准确性。
可选地,调用多头注意力模型中的每个注意力子模型,将该特征向量集合中每个特征向量与该节点的特征向量之间的相似度,分别确定为该特征向量集合中每个特征向量的权重,根据确定的权重,对该特征向量集合中的多个特征向量进行加权融合,得到一个参考特征向量,将得到的多个参考特征向量进行融合,得到该节点对应的邻居特征向量。
可选地,在对得到的多个参考特征向量进行融合时,对多个参考特征向量进行平均,得到该节点对应的邻居特征向量;或者,将多个参考特征向量进行连接,得到该节点对应的邻居特征向量。
3092、根据重置参数,对该节点的特征向量进行重置处理,得到该节点对应的重置特征向量。
3093、将重置特征向量与邻居特征向量进行加权融合后的特征向量进行变换,得到新增特征向量。
3094、根据更新参数,将新增特征向量及节点的特征向量进行融合,得到节点更新后的特征向量。
通过多头注意力模型,更新节点的特征向量,引入了注意力机制,不仅增强了各个节点之间的交互,也降低了添加的知识节点带来的噪声,提高了节点更新后的特征向量的准确性。
上述步骤3092-3095与上述步骤3022-3024同理,在此不再赘述。
需要说明的是,本申请实施例仅是对文本图中的节点的特征向量进行一次更新进行说明的,而在另一实施例中,能够重复执行上述步骤3091-3094,对文本图中的节点的特征向量进行多次更新,之后在执行下述步骤。
另外,在对文本图中的每个节点的特征向量进行更新时,能够调用注意力门控图神经网络模型,按照上述步骤3091-3094,对每个节点的特征向量进行更新。其中,注意力门控图神经网络模型为AGGNN(AttentionGated Graph Neural Network)。
可选地,在文本图中的节点的特征向量进行多次更新时,注意力门控图神经网络模型中包括多组单元,每组单元包括注意力单元和门控循环单元,任一组单元中注意力单元按照上述步骤3091,获取节点对应的邻居特征向量,之后将邻居特征向量输入该注意力单元对应的门控循环单元,该门控循环单元按照上述步骤3092-3094,对每个节点的特征向量进行一次更新。在多组单元对文本图中词语节点的特征向量进行更新时,将任一组单元中的门控循环单元输出的多个词语节点的特征向量,作为下一组单元中的注意力单元的输入,由该注意力单元,按照上述步骤3021,获取节点对应的邻居特征向量,之后将邻居特征向量输入该注意力单元对应的门控循环单元,按照上述方式,通过多组单元,能够实现多多个词语节点的特征向量完成多次更新。
如图4所示,词语节点4与词语节点1、词语节点2、词语节点3、词语节点5连接,则在更新词语节点4的特征向量时,采用多头注意力模型的两个注意力子模型,分别对词语节点1、词语节点2、词语节点3、词语节点4及词语节点5的特征向量进行加权融合,得到两个参考特征向量,对两个参考特征向量求取平均向量或者进行拼接,得到该词语节点4的邻居特征向量,通过门控循环单元,按照上述步骤3092-3094,对词语节点4的特征向量及其邻居特征向量进行处理,得到词语节点4更新后的特征向量。
310、计算机设备将更新后的每个节点的特征向量进行融合,得到文本图的第二特征向量。
该步骤与上述步骤306同理,在此不再赘述。
在本申请实施例中,计算机设备在获取到文本图后,获取文本图的第二特征向量的过程,如图5所示,在获取到文本信息对应的文本图后,调用门控神经网络模型对文本图中的词语节点及每个词语节点之间的连接关系,对每个词语节点的特征向量进行更新,在更新之后,基于融合层对文本图中的多个词语节点的特征向量进行融合,得到该文本图的第一特征向量。从知识数据库中查询与多个词语关联的词语集合,调用多头注意力模型,对查询到的词语集合对应的词向量集合进行加权融合,得到多个知识特征向量,基于连接层,将多个知识特征向量进行连接,在文本图中添加与每个知识特征向量匹配的知识节点,得到更新后的文本图,之后调用注意力门控神经网络模型,对文本图中每个节点的特征向量进行更新,之后,通过融合层将文本图中每个节点的特征向量进行融合,得到该文本图的第二特征向量。
311、计算机设备对第二特征向量进行分类,得到文本信息所属的类别。
其中,该第二特征向量是文本图中多个节点的特征向量融合得到的,该第二特征向量能够表示文本信息所要表达的含义,因此,通过对第二特征向量进行分类,能够得到文本信息所属的类别。
由于文本图中不仅包括文本信息中的词语对应的词语节点,还在文本图中扩充了与知识特征向量对应的知识节点,丰富了文本图中包含的信息,从而提高了第二特征向量的准确性,则通过该第二特征向量来确定文本信息所属的类别,保证了确定的类别的准确性。
在一种可能实现方式中,该步骤311包括:对第二特征向量进行分类,得到文本信息与每个类别之间的相似度,将最大相似度对应的类别,确定为文本信息所属的类别。
在本申请实施例中,文本信息可能对应有多个类别,通过确定文本信息与每个类别之间的相似度,以使为文本信息确定的类别与该文本信息匹配,保证了确定的类别的准确性。
可选地,调用分类模型对第二特征向量进行处理,得到第二特征向量与每个类别之间的相似度,将最大相似度对应的类别,确定为该文本信息所属的类别。
需要说明的是,本申请实施例是以先对每个节点的特征向量进行更新,再根据文本图的第二特征向量,来确定文本信息所属的类别的,而在另一实施例中,在步骤308之后,无需对文本图中每个节点的特征向量进行更新,直接根据文本图中的每个节点的特征向量及每个节点之间的连接关系,确定文本信息所属的类别。
在一种可能实现方式中,文本信息包括就诊咨询信息,则在步骤308之后,该方法还包括:计算机设备根据该就诊咨询信息对应的文本图中的每个节点的特征向量及每个节点之间的连接关系,确定就诊咨询信息所属的科室。
其中,就诊咨询信息用于表示用户到医院就诊所要咨询的信息,可选地,该就诊咨询信息包括用户的症状描述信息,例如,该就诊咨询信息为“胃疼去看什么医生”。通过为用户确定该就诊咨询信息所属的科室,以使后续用户根据确定的科室进行就诊,实现了一种智能指引的方式,提高了用户的就诊效率,且避免了用户就诊的科室与该就诊咨询信息不匹配的情况,提高了就诊准确性。
在一种可能实现方式中,文本信息包括身体状态信息,则在步骤308之后,该方法还包括:根据该身体状态信息对应的文本图中的每个节点的特征向量及每个节点之间的连接关系,确定身体状态信息所属的疾病类别。
其中,身体状态信息用于描述用户的身体状态,可选地,该身体状态信息包括症状描述信息、身体检查报告、既往病史信息等。通过为用户确定患有某种类别的疾病,实现了一种自动为用户分析病情的方式,以使用户能够获知自己的健康状况。
可选地,在确定身体状态信息所属的疾病类别后,该方法还包括:查询确定的疾病类别对应的概率及注意事项。
其中,疾病类别对应的概率用于表示用户可能患某种疾病的可能性,注意事项用于指示用户避免疾病发病所需要注意的事项,例如,该注意事项包括饮食注意事项、运动注意事项等。通过为用户确定患有某种疾病的概率及注意事项,以使用户能够根据确定的概率及注意事项来对身体进行调整,以保证身体的健康,从而实现了一种为用户身体进行健康管理的方式。
在临床医学中,能够采用本申请实施例提供的文本信息分类方法,对身体状态信息进行处理,得到身体状态信息所属的疾病类别,后续医生根据得到的疾病类别以及用户的其他相关信息,最终确定用户所患疾病的疾病类别。
需要说明的是,本申请得到的身体状态信息所属的疾病类别不能作为用户患有某种类别的疾病的唯一依据,在得到身体状态信息所属的疾病类别后,医生仍然需要结合其他的信息来最终确定用户所患疾病的疾病类别。
本申请实施例提供的方法,采用文本图的形式来表示待分类的文本信息,通过查询到的与多个词语关联的词语集合,在文本图中扩充与知识特征向量对应的知识节点,以丰富文本图中包含的信息,提高了文本图的准确性,之后根据更新后的文本图对文本信息进行分类,提高了分类准确性。
在本申请实施例中,调用门控图神经网络模型、多头注意力模型及注意力门控图神经网络模型,来对文本信息进行分类的。如表1所示,其他相关技术对文本信息进行分类时,采用的模型分别为CNN(Convolutional neural network,卷积神经网络模型)、Bi-LSM(Bi-directional Long Short-Term Memory,双向长短时记忆模型)、FastText(快速文本分类器)、Text GCN(Text Graph Convolutional Networks,文本图卷积网络)、STCKA(一种基于文本图谱的分类模型)、TextING(一种文本分类模型)。在不同的数据集上,如MR(一种机器学习数据集)、TagMyNews(一种常规文本数据集)、SearchSnippets(搜索片段数据集)及StackOverflow(问答数据集)
本申请实施例提供的方法,与其他相关技术中对文本信息进行分类的方法相比,本申请实施例提供的方法的准确率高,且F-Measure(F值)高。
表1
Figure BDA0002916778030000261
以就诊指引场景为例,提供了一种为用户就诊进行智能指引的流程,该流程包括:
1、终端安装有就诊指引应用,基于用户标识登录该就诊指引应用,响应于基于该就诊指引应用获取到用户输入的就诊咨询信息,将该就诊咨询信息发送至服务器。
其中,该服务器用于为就诊指引应用提供服务。
2、服务器接收该就诊咨询信息,根据该就诊咨询信息构建文本图,根据文本图中每个词语节点的特征向量及每个词语节点之间的连接关系,对多个词语节点的特征向量进行更新,得到更新后的文本图。
3、服务器将知识数据库中每个关键词与多个词语节点对应的词语的相似度之和,分别确定为每个关键词对应的总相似度,将最大总相似度对应的关键词,确定为目标关键词,将目标关键词对应的词语集合,确定为该多个词语关联的词语集合。
4、服务器将多个词语节点的特征向量进行融合,得到文本图的第一特征向量,根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接。
5、服务器根据每个节点的特征向量及每个节点之间的连接关系,对每个节点的特征向量进行更新,将更新后的每个节点的特征向量进行融合,得到文本图的第二特征向量。
6、服务器对第二特征向量进行分类,得到就诊咨询信息所属的科室,将该科室返回至就诊指引应用,或者,查询属于该科室的医生,将查询到的医生返回至就诊指引应用。
7、终端在该就诊指引应用中显示该就诊咨询信息所属的科室或属于该科室的医生,以使用户根据显示的科室或医生进行就诊。
以疾病分析场景为例,提供了一种为用户自动分析病情的流程,该流程包括:
1、终端安装有疾病分析应用,基于用户标识登录该疾病分析应用,响应于基于该疾病分析应用获取到用户输入的身体状态信息,将该身体状态信息发送至服务器。
其中,该服务器用于为疾病分析应用提供服务。
2、服务器接收该身体状态信息,根据该身体状态信息构建文本图,根据文本图中每个词语节点的特征向量及每个词语节点之间的连接关系,对多个词语节点的特征向量进行更新,得到更新后的文本图。
3、服务器将知识数据库中每个关键词与多个词语节点对应的词语的相似度之和,分别确定为每个关键词对应的总相似度,将最大总相似度对应的关键词,确定为目标关键词,将目标关键词对应的词语集合,确定为该多个词语关联的词语集合。
4、服务器将多个词语节点的特征向量进行融合,得到文本图的第一特征向量,根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接。
5、服务器根据每个节点的特征向量及每个节点之间的连接关系,对每个节点的特征向量进行更新,将更新后的每个节点的特征向量进行融合,得到文本图的第二特征向量。
6、服务器对第二特征向量进行分类,得到身体状态信息所属的疾病类别,查询该疾病类别对应的概率及注意事项,将查询到的该疾病类别对应的概率及注意事项返回至疾病分析应用。
7、终端在该疾病分析应用中显示该疾病类别对应的概率及注意事项,以使用户获知自己可能患某种疾病的可能性及注意事项,以便后续按照注意事项来管理自己的身体。
图6是本申请实施例提供的一种文本信息分类装置的结构示意图,如图6所示,该装置包括:
获取模块601,用于获取文本信息对应的文本图,文本图包括与文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接;
查询模块602,用于从知识数据库中查询多个词语关联的词语集合;
融合模块603,用于对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,词向量集合包括词语集合中每个词语的词向量;
连接模块604,用于在文本图中添加与知识特征向量对应的知识节点,将知识节点与多个词语节点分别连接;
确定模块605,用于根据文本图中的每个节点的特征向量及每个节点之间的连接关系,确定文本信息所属的类别。
在一种可能实现方式中,如图7所示,融合模块603,包括:
融合单元6031,用于将多个词语节点的特征向量进行融合,得到文本图的第一特征向量;
融合单元6031,还用于根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
在另一种可能实现方式中,融合单元6031,用于将词向量集合中每个词向量与第一特征向量之间的相似度,确定为每个词向量的权重;根据每个词向量的权重,对词向量集合中的多个词向量进行加权融合,得到知识特征向量。
在另一种可能实现方式中,融合单元6031,用于根据多个词语节点中任两个词语节点的特征向量之间的相似度,确定每个词语节点的特征向量的权重;根据每个词语节点的特征向量的权重,对多个词语节点的特征向量进行加权融合,得到文本图的第一特征向量。
在另一种可能实现方式中,融合单元6031,用于调用多头注意力模型,根据第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量。
在另一种可能实现方式中,多头注意力模型包括多个注意力子模型;
融合单元6031,用于调用每个注意力子模型,根据第一特征向量,对词向量集合中的多个词向量进行加权融合,得到一个知识特征向量。
在另一种可能实现方式中,知识数据库中包括多个关键词以及每个关键词关联的词语集合;如图7所示,查询模块602,包括:
确定单元6021,用于将每个关键词与多个词语的相似度之和,分别确定为每个关键词对应的总相似度;
确定单元6021,还用于将最大总相似度对应的关键词,确定为目标关键词;
确定单元6021,还用于将目标关键词对应的词语集合,确定为多个词语关联的词语集合。
在另一种可能实现方式中,确定模块605,还用于根据任一关键词的词向量及多个词语节点的特征向量,确定关键词与每个词语节点对应的词语之间的相似度。
在另一种可能实现方式中,如图7所示,获取模块601,包括:
分词单元6011,用于对文本信息进行分词处理,得到多个词语;
提取单元6012,用于对每个词语进行特征提取,得到每个词语的词向量;
添加单元6013,用于在文本图中添加与每个词向量对应的词语节点;
连接单元6014,用于根据多个词语在文本信息中的位置,将具有关联关系的任两个词语对应的词语节点连接。
在另一种可能实现方式中,连接单元6014,用于根据多个词语在文本信息中的位置,确定多个词语中任两个词语之间的共现频率;响应于任两个词语之间的共现频率大于参考阈值,将两个词语对应的词语节点连接。
在另一种可能实现方式中,连接单元6014,用于从文本信息中提取多个词语组合,每个词语组合中包括相邻的参考数目个词语;将包括多个词语中任两个词语的词语组合的个数,确定为两个词语的共现频率。
在另一种可能实现方式中,如图7所示,获取模块601,包括:
构建单元6015,用于根据文本信息构建文本图,文本图包括与文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且每个词语节点的特征向量为每个词语节点所对应词语的词向量;
更新单元6016,用于根据每个词语节点的特征向量及每个词语节点之间的连接关系,对多个词语节点的特征向量进行更新,得到更新后的文本图。
在另一种可能实现方式中,更新单元6016,用于对于每个词语节点,根据词语节点的特征向量及词语节点的相邻词语节点的特征向量,对词语节点的特征向量进行更新,相邻词语节点为与词语节点连接的其他词语节点。
在另一种可能实现方式中,更新单元6016,用于将词语节点的相邻词语节点的特征向量进行加权处理,得到邻居特征向量;根据重置参数,对词语节点的特征向量进行重置处理,得到词语节点对应的重置特征向量;将重置特征向量与邻居特征向量进行加权融合后的特征向量进行变换,得到新增特征向量;根据更新参数,将新增特征向量及词语节点的特征向量进行融合,得到词语节点更新后的特征向量,其中,更新参数表示新增特征向量的更新权重。
在另一种可能实现方式中,确定模块605,用于根据每个节点的特征向量及每个节点之间的连接关系,对每个节点的特征向量进行更新;将更新后的每个节点的特征向量进行融合,得到文本图的第二特征向量;对第二特征向量进行分类,得到文本信息所属的类别。
在另一种可能实现方式中,文本信息包括就诊咨询信息,确定模块605,用于根据该就诊咨询信息对应的文本图中的每个节点的特征向量及每个节点之间的连接关系,确定就诊咨询信息所属的科室。
需要说明的是:上述实施例提供的文本信息分类装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本信息分类装置与文本信息分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的文本信息分类方法中所执行的操作。
可选地,计算机设备提供为终端。图8示出了本申请一个示例性实施例提供的终端800的结构框图。该终端800可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的文本信息分类方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置在终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在另一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,计算机设备提供为服务器。图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条计算机程序,至少一条计算机程序由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的文本信息分类方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的文本信息分类方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种文本信息分类方法,其特征在于,所述方法包括:
获取文本信息对应的文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接;
从知识数据库中查询所述多个词语关联的词语集合;
对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,所述词向量集合包括所述词语集合中每个词语的词向量;
在所述文本图中添加与所述知识特征向量对应的知识节点,将所述知识节点与所述多个词语节点分别连接;
根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,包括:
将所述多个词语节点的特征向量进行融合,得到所述文本图的第一特征向量;
根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量,包括:
将所述词向量集合中每个词向量与所述第一特征向量之间的相似度,确定为所述每个词向量的权重;
根据所述每个词向量的权重,对所述词向量集合中的多个词向量进行加权融合,得到所述知识特征向量。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量,包括:
调用多头注意力模型,根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量。
5.根据权利要求4所述的方法,其特征在于,所述多头注意力模型包括多个注意力子模型;
所述调用多头注意力模型,根据所述第一特征向量,对查询到的词语集合对应的词向量集合进行融合,得到所述知识特征向量,包括:
调用每个注意力子模型,根据所述第一特征向量,对所述词向量集合中的多个词向量进行加权融合,得到一个所述知识特征向量。
6.根据权利要求1所述的方法,其特征在于,所述获取文本信息对应的文本图,包括:
对所述文本信息进行分词处理,得到所述多个词语;
对每个词语进行特征提取,得到所述每个词语的词向量;
在所述文本图中添加与每个词向量对应的词语节点;
根据所述多个词语在所述文本信息中的位置,将具有关联关系的任两个词语对应的词语节点连接。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个词语在所述文本信息中的位置,将具有关联关系的任两个词语对应的词语节点连接,包括:
根据所述多个词语在所述文本信息中的位置,确定所述多个词语中任两个词语之间的共现频率;
响应于任两个词语之间的共现频率大于参考阈值,将所述两个词语对应的词语节点连接。
8.根据权利要求1所述的方法,其特征在于,所述获取文本信息对应的文本图,包括:
根据所述文本信息构建文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且所述每个词语节点的特征向量为所述每个词语节点所对应词语的词向量;
根据所述每个词语节点的特征向量及所述每个词语节点之间的连接关系,对所述多个词语节点的特征向量进行更新,得到更新后的文本图。
9.根据权利要求8所述的方法,其特征在于,所述根据所述每个词语节点的特征向量及所述每个词语节点之间的连接关系,对所述多个词语节点的特征向量进行更新,得到更新后的文本图,包括:
对于所述每个词语节点,根据所述词语节点的特征向量及所述词语节点的相邻词语节点的特征向量,对所述词语节点的特征向量进行更新,所述相邻词语节点为与所述词语节点连接的其他词语节点。
10.根据权利要求9所述的方法,其特征在于,所述根据所述词语节点的特征向量及所述词语节点的相邻词语节点的特征向量,对所述词语节点的特征向量进行更新,包括:
将所述词语节点的相邻词语节点的特征向量进行加权处理,得到邻居特征向量;
根据重置参数,对所述词语节点的特征向量进行重置处理,得到所述词语节点对应的重置特征向量;
将所述重置特征向量与所述邻居特征向量进行加权融合后的特征向量进行变换,得到新增特征向量;
根据更新参数,将所述新增特征向量及所述词语节点的特征向量进行融合,得到所述词语节点更新后的特征向量,其中,所述更新参数表示所述新增特征向量的更新权重。
11.根据权利要求1所述的方法,其特征在于,所述根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别,包括:
根据所述每个节点的特征向量及所述每个节点之间的连接关系,对所述每个节点的特征向量进行更新;
将更新后的所述每个节点的特征向量进行融合,得到所述文本图的第二特征向量;
对所述第二特征向量进行分类,得到所述文本信息所属的类别。
12.根据权利要求1-10任一所述的方法,其特征在于,所述文本信息包括就诊咨询信息,所述根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别,包括:
根据所述就诊咨询信息对应的文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述就诊咨询信息所属的科室。
13.一种文本信息分类装置,其特征在于,所述装置包括:
获取模块,用于获取文本信息对应的文本图,所述文本图包括与所述文本信息中的多个词语分别对应的多个词语节点和每个词语节点对应的特征向量,且具有关联关系的任两个词语对应的词语节点连接;
查询模块,用于从知识数据库中查询所述多个词语关联的词语集合;
融合模块,用于对查询到的词语集合对应的词向量集合进行融合,得到知识特征向量,所述词向量集合包括所述词语集合中每个词语的词向量;
连接模块,用于在所述文本图中添加与所述知识特征向量对应的知识节点,将所述知识节点与所述多个词语节点分别连接;
确定模块,用于根据所述文本图中的每个节点的特征向量及所述每个节点之间的连接关系,确定所述文本信息所属的类别。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至12任一权利要求所述的文本信息分类方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至12任一权利要求所述的文本信息分类方法中所执行的操作。
CN202110103221.1A 2021-01-26 2021-01-26 文本信息分类方法、装置、计算机设备及存储介质 Pending CN113569042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103221.1A CN113569042A (zh) 2021-01-26 2021-01-26 文本信息分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103221.1A CN113569042A (zh) 2021-01-26 2021-01-26 文本信息分类方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113569042A true CN113569042A (zh) 2021-10-29

Family

ID=78160966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103221.1A Pending CN113569042A (zh) 2021-01-26 2021-01-26 文本信息分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113569042A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742053A (zh) * 2022-03-11 2022-07-12 联想(北京)有限公司 一种处理方法以及装置
CN115017333A (zh) * 2022-06-13 2022-09-06 四川大学 一种材料基因工程无模式数据转换为知识图谱的方法
CN115392365A (zh) * 2022-08-18 2022-11-25 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116091253A (zh) * 2023-04-07 2023-05-09 北京亚信数据有限公司 医保风控数据采集方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742053A (zh) * 2022-03-11 2022-07-12 联想(北京)有限公司 一种处理方法以及装置
CN115017333A (zh) * 2022-06-13 2022-09-06 四川大学 一种材料基因工程无模式数据转换为知识图谱的方法
CN115392365A (zh) * 2022-08-18 2022-11-25 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN115392365B (zh) * 2022-08-18 2024-04-26 腾讯科技(深圳)有限公司 多模态特征的获取方法、装置及电子设备
CN116091253A (zh) * 2023-04-07 2023-05-09 北京亚信数据有限公司 医保风控数据采集方法及装置
CN116091253B (zh) * 2023-04-07 2023-08-08 北京亚信数据有限公司 医保风控数据采集方法及装置

Similar Documents

Publication Publication Date Title
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN112669928B (zh) 结构化信息构建方法、装置、计算机设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN113610750B (zh) 对象识别方法、装置、计算机设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN110807325A (zh) 谓词识别方法、装置及存储介质
CN112035671B (zh) 状态检测方法、装置、计算机设备及存储介质
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN112733970B (zh) 图像分类模型处理方法、图像分类方法及装置
CN111914180B (zh) 基于图结构的用户特征确定方法、装置、设备及介质
CN111753498A (zh) 文本处理方法、装置、设备及存储介质
CN114281956A (zh) 文本处理方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN112989767A (zh) 医学词语标注方法、医学词语映射方法、装置及设备
CN114283299A (zh) 图像聚类方法、装置、计算机设备及存储介质
CN113257412B (zh) 信息处理方法、装置、计算机设备及存储介质
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN112163095A (zh) 数据处理方法、装置、设备及存储介质
CN112988984B (zh) 特征获取方法、装置、计算机设备及存储介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN114328948A (zh) 文本标准化模型的训练方法、文本标准化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40054010

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination