CN116364223A

CN116364223A - 特征处理方法、装置、计算机设备及存储介质

Info

Publication number: CN116364223A
Application number: CN202310601621.4A
Authority: CN
Inventors: 朱磊; 王遥; 付盼春; 俞丽娟; 朱艳乔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-06-30
Anticipated expiration: 2043-05-26
Also published as: CN116364223B

Abstract

本申请属于人工智能领域及数字医疗领域，涉及一种特征处理方法，包括：获取待处理的所有特征；基于各特征之间的相似性构建特征图；从多种图结构类算法中确定出目标图结构类算法；基于目标图结构类算法对特征图进行切割处理，得到多个特征子图；基于决策树算法对各个特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个特征子图包含的特征集进行降维处理得到目标特征。本申请还提供一种特征处理装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，目标特征可存储于区块链中。本申请有效提高了特征降维的处理效率，提高了特征降维的处理智能性，降低了基于目标特征构建模型的计算资源。

Description

特征处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能开发技术领域及数字医疗领域，尤其涉及特征处理方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的快速发展，各种各样的任务均可以通过深度学习模型实现，例如语音分类任务、图像识别任务、意图识别方法、医疗诊断、疾病辅助诊断、健康管理、远程会诊等。在深度学习模型中，通常都需要进行特征向量的提取，然而在进行特征提取的过程中，提取的特征维数太多经常会导致特征匹配时过于复杂，消耗过多系统资源，因此，需要使用特征降维的方法来降低特征的维度。然而，现有的特征降维方法存在如下问题：1）大部分的特征选择方法会保留冗余特征，造成后面建模模型的不稳定以及计算资源浪费；2）而对于去冗余特征的特征降维方法，在去冗余过程中又有可能去掉部分对建模目标有用的信息。

发明内容

本申请实施例的目的在于提出一种特征处理方法、装置、计算机设备及存储介质，以解决现有的特征降维方法会保留冗余特征，造成后面建模模型的不稳定以及计算资源浪费，且在去冗余过程中又有可能去掉部分对建模目标有用的信息的技术问题。

为了解决上述技术问题，本申请实施例提供一种特征处理方法，采用了如下所述的技术方案：

获取待处理的所有特征；其中，所述特征为医疗领域的特征，所述特征至少包括以下之一：语音特征、图像特征以及文本特征；

基于各所述特征之间的相似性构建特征图；

从预设的多种图结构类算法中确定出目标图结构类算法；

基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；

基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。

进一步的，所述基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模后得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征的步骤，具体包括：

将各个所述特征子图包含的特征集分别输入至对应的决策树模型内，通过各个所述决策树模型分别对各自对应的各个所述特征子图包含的特征集进行特征降维，获取各个所述决策树模型分别输出的第一特征；

将各个所述特征子图包含的特征集作为对应的决策树模型的输入，获取各个所述决策树模型分别输出的第一特征；

将所有所述第一特征进行整合，得到整合后的第二特征；

将所述第二特征作为所述目标特征。

进一步的，所述从预设的多种图结构类算法中确定出目标图结构类算法的步骤，具体包括：

获取预设的多种图结构类算法；

获取各所述图结构类算法的使用评价分数数据；

基于所述使用评价分数数据对各所述图结构类算法进行筛选处理，从所有所述图结构类算法中筛选出符合预设的评价分数条件的第一图结构类算法；

基于预设的测试数据生成各所述第一图结构类算法的处理效率；

获取各所述第一图结构类算法的发表年份；

基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法。

进一步的，所述基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法的步骤，具体包括：

从各所述第一图结构类算法中筛选出处理效率大于预设的效率阈值的第二图结构类算法；

获取与处理效率对应的第一权重，以及获取与发表年份对应的第二权重；

基于所述第一权重与所述第二权重对所述第二图结构类算法的处理效率与发表年份进行计算处理，生成各所述第二图结构类算法的处理分数；

获取处理分数最高的第三图结构类算法；

基于所述第三图结构类算法确定出所述目标图结构类算法。

进一步的，所述基于所述第三图结构类算法确定出所述目标图结构类算法的步骤，具体包括：

判断所述第三图结构类算法的数量是否包括多个；

若是，获取各所述第三图结构类算法的使用频率；

从所述第三图结构类算法中筛选出使用频率最高的第四图结构类算法；

将所述第四图结构类算法作为所述目标图结构类算法。

进一步的，所述基于各所述特征之间的相似性构建特征图的步骤，具体包括：

确定预设的相似性度量指标；

基于所述相似性度量指标计算各所述特征之间的相似性数据；

基于各所述特征之间的相似性数据构建对应的特征图。

进一步的，在所述基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征的步骤之后，还包括：

获取预设的报告模板；

基于所述目标特征与所述报告模板生成目标报告；

获取目标用户的通信信息；

基于所述通信信息将所述目标报告发送给所述目标用户。

为了解决上述技术问题，本申请实施例还提供一种特征处理装置，采用了如下所述的技术方案：

第一获取模块，用于获取待处理的所有特征；其中，所述特征为医疗领域的特征，所述特征至少包括以下之一：语音特征、图像特征以及文本特征；

构建模块，用于基于各所述特征之间的相似性构建特征图；

确定模块，用于从预设的多种图结构类算法中确定出目标图结构类算法；

第一处理模块，用于基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；

第二处理模块，用于基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

基于各所述特征之间的相似性构建特征图；

从预设的多种图结构类算法中确定出目标图结构类算法；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

基于各所述特征之间的相似性构建特征图；

从预设的多种图结构类算法中确定出目标图结构类算法；

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例通过获取待处理的所有特征；然后基于各所述特征之间的相似性构建特征图；之后从预设的多种图结构类算法中确定出目标图结构类算法；后续基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；最后基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。本申请实施例通过利用待处理的各特征相似性构建特征图，然后使用从多种图结构类算法中确定出的目标图结构类算法对所述特征图进行切割处理，得到多个特征子图，后续基于决策树算法的使用来对各个所述特征子图内包含的特征集进行建模，进而可以利用生成的决策树模型实现快速准确地对各个所述特征子图包含的特征集进行降维处理，从而得到所需的降维后的目标特征，有效提高了特征降维的处理效率，提高了特征降维的处理智能性，保证了生成的目标特征的数据准确性。另外，由于在目标图结构类算法对特征图进行切割处理的数据聚合过程中去掉了冗余特征与异常值的影响，使得模型表达的方式更加稳健且模型精度得到了提升，此外，由于降低了建模所需的特征量级，节约计算资源，这样可以容纳更多的原始数据入模；且后续使用目标特征进行建模，可以有效减少入模特征，而入模特征往往与模型参数成正比，所以间接减少了模型参数，避免过拟合风险，提高建模模型的稳定性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2根据本申请的特征处理方法的一个实施例的流程图；

图3是根据本申请的特征处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的特征处理方法一般由服务器/终端设备执行，相应地，特征处理装置一般设置于服务器/终端设备中。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的特征处理方法的一个实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。本申请实施例提供的特征处理方法能够应用于任意一种需要进行特征处理的场景中，则该特征处理方法能够应用于这些场景的产品中，例如，数字医疗领域中的医学应用场景的特征降维处理。所述的特征处理方法，包括以下步骤：

步骤S201，获取待处理的所有特征；其中，所述特征为医疗领域的特征，所述特征至少包括以下之一：语音特征、图像特征以及文本特征。

在本实施例中，特征处理方法运行于其上的电子设备(例如图1所示的服务器/终端设备)，可以通过有线连接方式或者无线连接方式获取待处理的所有特征。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。其中，待处理的特征可为需要用于后续进行相应的功能模型的建模处理所需的初始特征。其中，所述待处理的特征至少包括以下之一：语音特征、图像特征、文本特征。在医学应用场景中，上述待处理的特征具体可指医疗领域下的语音特征、图像特征、文本特征中的任意一种或多种。上述功能模型可为医疗诊断系统、健康管理系统、保险系统、银行系统、交易系统、订单系统等业务系统的业务需求对应的功能模型。在医学应用场景中，上述待处理的所有特征为医疗数据的特征，医疗数据可包括电子病例、个人健康档案、处方、检查报告、医疗电子记录(Electronic Healthcare Record)等数据，医疗电子记录是指电子化的个人健康记录，包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。具体地，可通过获取智能诊疗系统产生的医疗数据，并对医疗数据按照预设的数据解析方式进行解析，可以得到对应的特征。其中，特征，也称为变量、自变量、变量特征或特征变量，医疗数据的特征可以是与医疗数据相关的特征，特征的取值可以是该医疗数据的特征对应的实际内容或数据。其中，特征可包括医院级别、机构类别、医院性质、机构性质、门诊费用、门诊费用占比、重复用药次数，等等。一个特征可包括多个变量值。另外，医疗数据的解析过程为对获取到的医疗数据进行数据类型分析，以确定各医疗数据对应的数据类型，进而调取预设的与各数据类型对应的数据解析方式对各医疗数据进行解析，从而得到对应的特征。

在采集到用于建模的医疗数据后，由于医疗数据是动态产生，庞大且杂乱的高维数据，且在医疗数据中会包括一些无关信息与异常值，从而使得医疗数据的特征中会包含有冗余特征，鉴于医疗数据的特殊性，因此需要使用特征降维的方法对医疗数据进行处理，以降低医疗数据的特征的维度。具体通过使用本实施例提出的特征处理方法对医疗数据进行特征降维，可以提高特征提取的效率，有助于后续可以高效且准确地辅助后续的医疗数据模型的构建和分析等数据处理工作，降低构建医疗数据模型的计算资源。

步骤S202，基于各所述特征之间的相似性构建特征图。

在本实施例中，上述基于各所述特征之间的相似性构建特征图的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。

步骤S203，从预设的多种图结构类算法中确定出目标图结构类算法。

在本实施例中，图结构类算法也可以称为社区发现算法，多种图结构类算法至少可包括louvain、联通分量、k-core、label-propagation（LPA）、HANP、kmeans基于团的社区发现算法，等等。上述从预设的多种图结构类算法中确定出目标图结构类算法的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。

步骤S204，基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图。

在本实施例中，通过使用目标图结构类算法对所述特征图进行切割处理，以将特征图切割为多个特征子图，每个特征子图可视作一个特征聚类。其中，在使用目标图结构类算法对所述特征图进行切割的特征聚合过程中去掉了冗余特征，使得模型表达的方式更加稳健；并且在使用目标图结构类算法对所述特征图进行切割的特征聚合过程中去掉了异常值的影响，提升了模型精度。

步骤S205，基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。

在本实施例中，上述基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。其中，在得到目标特征后，进一步使用目标特征进行建模处理，以完成相应的功能模型的构建。具体的，在医学应用场景中，上述功能模型具体可指医疗数据模型，例如可包括医疗诊断评估模型、疾病辅助诊断评估模型、健康管理模型等模型。示例性的，如果需要构建的功能模型为医疗诊断评估模型，则上述待处理的所有特征为医疗数据的特征，在基于本实施例的特征处理方法对医疗数据的特征进行降维处理得到相应的目标特征后，可通过将该目标特征作为深度学习模型的输入并进行模型训练，从而构建出所需的医疗诊断评估模型。其中，医疗诊断评估模型的训练过程可参照现有的深度学习模型的训练过程，在此不做过多阐述。

本申请通过获取待处理的所有特征；然后基于各所述特征之间的相似性构建特征图；之后从预设的多种图结构类算法中确定出目标图结构类算法；后续基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；最后基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。本申请通过利用待处理的各特征相似性构建特征图，然后使用从多种图结构类算法中确定出的目标图结构类算法对所述特征图进行切割处理，得到多个特征子图，后续基于决策树算法的使用来对各个所述特征子图内包含的特征集进行建模，进而可以利用生成的决策树模型实现快速准确地对各个所述特征子图包含的特征集进行降维处理，从而得到所需的降维后的目标特征，有效提高了特征降维的处理效率，提高了特征降维的处理智能性，保证了生成的目标特征的数据准确性。另外，由于在目标图结构类算法对特征图进行切割处理的数据聚合过程中去掉了冗余特征与异常值的影响，使得模型表达的方式更加稳健且模型精度得到了提升，此外，由于降低了建模所需的特征量级，节约计算资源，这样可以容纳更多的原始数据入模；且后续使用目标特征进行建模，可以有效减少入模特征，而入模特征往往与模型参数成正比，所以间接减少了模型参数，避免过拟合风险，提高建模模型的稳定性。

在一些可选的实现方式中，步骤S205包括以下步骤：

使用所述决策树算法分别对各个所述特征子图包含的特征集进行训练，生成与各个所述特征子图包含的特征集分别对应的决策树模型。

在本实施例中，通过使用所述决策树算法分别对各个所述特征子图包含的特征集进行训练，且保证每个特征子图的建模目标与整体目标相同，从而生成与各个所述特征子图包含的特征集分别对应的用于后续进行特征抽取的决策树模型。

将各个所述特征子图包含的特征集分别输入至对应的决策树模型内，通过各个所述决策树模型分别对各自对应的各个所述特征子图包含的特征集进行特征降维，获取各个所述决策树模型分别输出的第一特征。

在本实施例中，各个所述决策树模型会分别对内部输入的特征子图包含的特征集进行特征抽取，从而分别输出多个新特征，即上述第一特征。举例地，待处理的所有特征包括10个，且特征编号为F1到F10，且基于所述目标图结构类算法对所述特征图进行切割处理后得到3个特征子图（特征子图a，特征子图b，特征子图c），特征子图a包括由F1，F2，F7构成的特征集（或称为聚类），特征子图b包括由F3，F4，F8构成的特征集，特征子图a包括由F5，F6，F9，F10构成的特征集。通过使用各个所述决策树模型对每个特征子图包含的特征集进行特征抽取后，分别输出与F1，F2，F7构成的特征集对应的新特征C1，输出与F3，F4，F8构成的特征集对应的新特征C2，以及输出与F5，F6，F9，F10构成的特征集对应的新特征C3。

将所有所述第一特征进行整合，得到整合后的第二特征。

在本实施例中，承接上述举例，整合后的第二特征包括新特征C1、新特征C2以及新特征C3。

将所述第二特征作为所述目标特征。

本申请通过使用所述决策树算法分别对各个所述特征子图包含的特征集进行训练，生成与各个所述特征子图包含的特征集分别对应的决策树模型；然后将各个所述特征子图包含的特征集作为对应的决策树模型的输入，获取各个所述决策树模型分别输出的第一特征；之后将所有所述第一特征进行整合，得到整合后的第二特征；后续将所述第二特征作为所述目标特征。本申请基于决策树算法的使用来对各个所述特征子图内包含的特征集进行建模，进而可以利用生成的决策树模型实现快速准确地对各个所述特征子图包含的特征集进行降维处理，从而得到所需的降维后的目标特征，提高了特征降维的处理效率，且由于在使用目标图结构类算法对特征图进行切割处理数据聚合过程中去掉了冗余特征与异常值的影响，提高了特征降维的处理智能性，保证了生成的目标特征的数据准确性。

在本实施例的一些可选的实现方式中，步骤S203包括以下步骤：

获取预设的多种图结构类算法。

在本实施例中，图结构类算法至少可包括louvain、联通分量、k-core、label-propagation（LPA）、HANP、kmeans基于团的社区发现算法，等等。

获取各所述图结构类算法的使用评价分数数据。

在本实施例中，可通过查阅开源的关于图结构类算法的使用者数据，以从该使用者数据中获取各所述图结构类算法的使用评价分数数据。其中，使用者数据至少包括使用者发出的对于各种图结构类算法的使用评价分数。

基于所述使用评价分数数据对各所述图结构类算法进行筛选处理，从所有所述图结构类算法中筛选出符合预设的评价分数条件的第一图结构类算法。

在本实施例中，符合预设的评价分数条件的第一图结构类算法是指，所有所述图结构类算法中使用评价分数大于预设的分数阈值的图结构类算法。其中，对于上述分数阈值的取值不做具体限定，可根据实际的使用需求进行设置。

基于预设的测试数据生成各所述第一图结构类算法的处理效率。

在本实施例中，上述测试数据可为预先收集的用于进行算法测试的特征数据，可通过分别利用各种图结构类算法对该特征数据进行切割处理，并记录下各种图结构类算法对该特征数据进行切割处理所花费的处理时间。后续通过使用处理效率=1/处理时间的计算方式计算出各所述图结构类算法的处理效率。

获取各所述第一图结构类算法的发表年份。

在本实施例中，可通过获取各种图结构类算法的发表信息，再从该发表信息中提取出各种图结构类算法的发表年份。

在本实施例中，上述基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。

本申请通过获取预设的多种图结构类算法，并获取各所述图结构类算法的使用评价分数数据；然后基于所述使用评价分数数据对各所述图结构类算法进行筛选处理，从所有所述图结构类算法中筛选出符合预设的评价分数条件的第一图结构类算法；之后基于预设的测试数据生成各所述第一图结构类算法的处理效率；后续获取各所述第一图结构类算法的发表年份；最后基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法。本申请先通过使用评价分数数据对图结构类算法进行初筛选以得到第一图结构类算法，使得后续只需对得到的第一图结构类算法进行分析处理以得到目标图结构类算法，而不需要对所有的图结构类算法进行分析处理，有利于减少目标图结构类算法确定的处理工作量，提高目标图结构类算法的生成效率。另外，通过对各种第一图结构类算法的处理效率与发表年份进行分析处理，进而根据得到的分析结果从多种第一图结构类算法中确定出目标图结构类算法，提高了目标图结构类算法的确定智能性。

在一些可选的实现方式中，所述基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法，包括以下步骤：

从各所述第一图结构类算法中筛选出处理效率大于预设的效率阈值的第二图结构类算法。

在本实施例中，对于上述效率阈值的取值不作具体限定，可根据实际的使用需求进行设置。

获取与处理效率对应的第一权重，以及获取与发表年份对应的第二权重。

在本实施例中，对于上述第一权重与第二权重的取值不作具体限定，可根据实际的使用需求进行设置。

基于所述第一权重与所述第二权重对所述第二图结构类算法的处理效率与发表年份进行计算处理，生成各所述第二图结构类算法的处理分数。

在本实施例中，可基于公式

计算各所述第二图结构类算法的处理分数，其中，x为处理效率，p为第一权重，y为发表年份，q为第二权重。

获取处理分数最高的第三图结构类算法。

基于所述第三图结构类算法确定出所述目标图结构类算法。

在本实施例中，上述基于所述第三图结构类算法确定出所述目标图结构类算法的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。

本申请通过从各所述第一图结构类算法中筛选出处理效率大于预设的效率阈值的第二图结构类算法；然后获取与处理效率对应的第一权重，以及获取与发表年份对应的第二权重；之后基于所述第一权重与所述第二权重对所述第二图结构类算法的处理效率与发表年份进行计算处理，生成各所述第二图结构类算法的处理分数；后续获取处理分数最高的第三图结构类算法；最后基于所述第三图结构类算法确定出所述目标图结构类算法。本申请通过从各第一图结构类算法中筛选出处理效率大于效率阈值的第二图结构类算法，进而利用预设的权重对第二图结构类算法的处理效率与发表年份进行分析处理，进而根据得到的分析结果从多种图结构类算法中确定出目标图结构类算法，由于目标图结构类算法具有较高的处理效率与较新的发表年份，提高了目标图结构类算法的确定准确性，且后续使用目标图结构类算法进行特征图的切割处理可以得到较优的处理效果。另外，通过利用效率阈值对所有图结构类算法进行初筛，使得后续只需对第一图结构类算法进行数据分析来生成目标图结构类算法，可以减少目标图结构类算法的生成工作量。

在一些可选的实现方式中，所述基于所述第三图结构类算法确定出所述目标图结构类算法，包括以下步骤：

判断所述第三图结构类算法的数量是否包括多个。

在本实施例中，第三图结构类算法的数量可包括一个或多个。

若是，获取各所述第三图结构类算法的使用频率。

在本实施例中，可通过从开源数据中查询各所述第三图结构类算法的使用信息，进而从该使用信息中获取各所述第三图结构类算法的使用频率。

从所述第三图结构类算法中筛选出使用频率最高的第四图结构类算法。

将所述第四图结构类算法作为所述目标图结构类算法。

本申请通过判断所述第三图结构类算法的数量是否包括多个；若是，获取各所述第三图结构类算法的使用频率；然后从所述第三图结构类算法中筛选出使用频率最高的第四图结构类算法；后续将所述第四图结构类算法作为所述目标图结构类算法。本申请当出现存在多个筛选出的第三图结构类算法后，会智能地获取各所述第三图结构类算法的使用频率，并将第三图结构类算法中使用频率最高的第四图结构类算法作为最终的目标图结构类算法，由于目标图结构类算法具有较高的处理效率、较新的发表年份以及具有最高的使用频率，有效提高了目标图结构类算法的确定准确性与智能性。

在本实施例的一些可选的实现方式中，步骤S202包括以下步骤：

确定预设的相似性度量指标。

在本实施例中，对于上述相似性度量指标的选取不作具体限定，可根据实际的使用需求进行选取，例如可采用相关性、gini指数等。

基于所述相似性度量指标计算各所述特征之间的相似性数据。

在本实施例中，基于相似性度量指标计算各所述特征之间的相似性数据的过程可参照现有的相似性度量指标的计算过程，在此不作过多阐述。

基于各所述特征之间的相似性数据构建对应的特征图。

在本实施例中，在得到了各所述特征之间的相似性数据后，基于特征之间的相似性将所有特征构成一张特征图，特征图中每个节点即表示每一个特征，节点之间的边，表示两特征之间的相似性，边表示相邻两特征之间的相似性。举例地，有10个特征编号为F1到F10，每两个特征之间有一条边连接，表示特征间相似性。

本申请通过确定预设的相似性度量指标；然后基于所述相似性度量指标计算各所述特征之间的相似性数据；后续基于各所述特征之间的相似性数据构建对应的特征图。本身基于相似性度量指标的使用可以实现快速准确地基于各所述特征之间的相似性来完成相应的特征图的构建。

在本实施例的一些可选的实现方式中，在步骤S205之后，上述电子设备还可以执行以下步骤：

获取预设的报告模板。

在本实施例中，上述报告模板为根据实际的数据传递需求构建生成的模板文件。上述报告模板包括特征填充位置

基于所述目标特征与所述报告模板生成目标报告。

在本实施例中，可通过将目标特征填充至报告模板内的特征填充位置，以生成相应的目标报告。

获取目标用户的通信信息。

在本实施例中，通信信息可包括目标用户的电话号码或邮件地址。

基于所述通信信息将所述目标报告发送给所述目标用户。

在本实施例中，可基于得到降维后的目标特征来进行后续的生成所需的功能模型的建模处理。由于降低了建模所需的特征量级，节约计算资源，这样可以容纳更多的原始数据入模；由于减少了入模特征，而入模特征往往与模型参数成正比，所以间接减少了模型参数，避免过拟合风险；由于目标图结构类算法的特征聚合过程中去掉了冗余特征，使得模型表达的方式更加稳健；特征聚合去掉了异常值的影响，提升了模型精度。

本申请通过获取预设的报告模板；然后基于所述目标特征与所述报告模板生成目标报告；之后获取目标用户的通信信息；后续基于所述通信信息将所述目标报告发送给所述目标用户。本申请在经过降维处理得到了目标特征后，还会智能地使用报告模板生成与该目标特征对应的目标报告，并将该目标报告发送给相应的目标用户，以便目标用户能够及时快速地查阅到目标特征，并能根据目标特征来进行后续的相应处理，提高了目标用户的工作体验。

需要强调的是，为进一步保证上述目标特征的私密和安全性，上述目标特征还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种特征处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的特征处理装置300包括：第一获取模块301、构建模块302、确定模块303、第一处理模块304以及第二处理模块305。其中：

第一获取模块301，用于获取待处理的所有特征；其中，所述特征为医疗领域的特征，所述特征至少包括以下之一：语音特征、图像特征以及文本特征；

构建模块302，用于基于各所述特征之间的相似性构建特征图；

确定模块303，用于从预设的多种图结构类算法中确定出目标图结构类算法；

第一处理模块304，用于基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；

第二处理模块305，用于基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。

在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的特征处理方法的步骤一一对应，在此不再赘述。

在本实施例的一些可选的实现方式中，第二处理模块305包括：

第一生成子模块，用于使用所述决策树算法分别对各个所述特征子图包含的特征集进行训练，生成与各个所述特征子图包含的特征集分别对应的决策树模型；

第一获取子模块，用于将各个所述特征子图包含的特征集分别输入至对应的决策树模型内，通过各个所述决策树模型分别对各自对应的各个所述特征子图包含的特征集进行特征降维，获取各个所述决策树模型分别输出的第一特征；

整合子模块，用于将所有所述第一特征进行整合，得到整合后的第二特征；

第一确定子模块，用于将所述第二特征作为所述目标特征。

在本实施例的一些可选的实现方式中, 确定模块303包括：

第二获取子模块，用于获取预设的多种图结构类算法；

第三获取子模块，用于获取各所述图结构类算法的使用评价分数数据；

筛选子模块，用于基于所述使用评价分数数据对各所述图结构类算法进行筛选处理，从所有所述图结构类算法中筛选出符合预设的评价分数条件的第一图结构类算法；

生成子模块，用于基于预设的测试数据生成各所述第一图结构类算法的处理效率；

第四获取子模块，用于获取各所述第一图结构类算法的发表年份；

第二确定子模块，用于基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法。

本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的特征处理方法的步骤一一对应，在此不再赘述。

在本实施例的一些可选的实现方式中，第二确定子模块包括：

筛选单元，用于从各所述第一图结构类算法中筛选出处理效率大于预设的效率阈值的第二图结构类算法；

第一获取单元，用于获取与处理效率对应的第一权重，以及获取与发表年份对应的第二权重；

计算单元，用于基于所述第一权重与所述第二权重对所述第二图结构类算法的处理效率与发表年份进行计算处理，生成各所述第二图结构类算法的处理分数；

第二获取单元，用于获取处理分数最高的第三图结构类算法；

确定单元，用于基于所述第三图结构类算法确定出所述目标图结构类算法。

在本实施例的一些可选的实现方式中，确定单元包括：

判断子单元，用于判断所述第三图结构类算法的数量是否包括多个；

获取子单元，用于若是，获取各所述第三图结构类算法的使用频率；

筛选子单元，用于从所述第三图结构类算法中筛选出使用频率最高的第四图结构类算法；

确定子单元，用于将所述第四图结构类算法作为所述目标图结构类算法。

在本实施例的一些可选的实现方式中，构建模块302，包括：

第三确定子模块，用于确定预设的相似性度量指标；

计算子模块，用于基于所述相似性度量指标计算各所述特征之间的相似性数据；

构建子模块，用于基于各所述特征之间的相似性数据构建对应的特征图。

在本实施例的一些可选的实现方式中，特征处理装置还包括：

第二获取模块，用于获取预设的报告模板；

生成模块，用于基于所述目标特征与所述报告模板生成目标报告；

第三获取模块，用于获取目标用户的通信信息；

发送模块，用于基于所述通信信息将所述目标报告发送给所述目标用户。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如特征处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述特征处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例中，本申请通过获取待处理的所有特征；然后基于各所述特征之间的相似性构建特征图；之后从预设的多种图结构类算法中确定出目标图结构类算法；后续基于所述目标图结构类算法对所述特征图进行切割处理，得到多个特征子图；最后基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征。本申请实施例通过利用待处理的各特征相似性构建特征图，然后使用从多种图结构类算法中确定出的目标图结构类算法对所述特征图进行切割处理，得到多个特征子图，后续基于决策树算法的使用来对各个所述特征子图内包含的特征集进行建模，进而可以利用生成的决策树模型实现快速准确地对各个所述特征子图包含的特征集进行降维处理，从而得到所需的降维后的目标特征，有效提高了特征降维的处理效率，提高了特征降维的处理智能性，保证了生成的目标特征的数据准确性。另外，由于在目标图结构类算法对特征图进行切割处理的数据聚合过程中去掉了冗余特征与异常值的影响，使得模型表达的方式更加稳健且模型精度得到了提升，此外，由于降低了建模所需的特征量级，节约计算资源，这样可以容纳更多的原始数据入模；且后续使用目标特征进行建模，可以有效减少入模特征，而入模特征往往与模型参数成正比，所以间接减少了模型参数，避免过拟合风险，提高建模模型的稳定性。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的特征处理方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种特征处理方法，其特征在于，包括下述步骤：

基于各所述特征之间的相似性构建特征图；

从预设的多种图结构类算法中确定出目标图结构类算法；

2.根据权利要求1所述的特征处理方法，其特征在于，所述基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模后得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征的步骤，具体包括：

使用所述决策树算法分别对各个所述特征子图包含的特征集进行训练，生成与各个所述特征子图包含的特征集分别对应的决策树模型；

将所有所述第一特征进行整合，得到整合后的第二特征；

将所述第二特征作为所述目标特征。

3.根据权利要求1所述的特征处理方法，其特征在于，所述从预设的多种图结构类算法中确定出目标图结构类算法的步骤，具体包括：

获取预设的多种图结构类算法；

获取各所述图结构类算法的使用评价分数数据；

获取各所述第一图结构类算法的发表年份；

4.根据权利要求3所述的特征处理方法，其特征在于，所述基于所述处理效率与所述发表年份，从所述第一图结构类算法中确定出所述目标图结构类算法的步骤，具体包括：

获取处理分数最高的第三图结构类算法；

基于所述第三图结构类算法确定出所述目标图结构类算法。

5.根据权利要求4所述的特征处理方法，其特征在于，所述基于所述第三图结构类算法确定出所述目标图结构类算法的步骤，具体包括：

判断所述第三图结构类算法的数量是否包括多个；

若是，获取各所述第三图结构类算法的使用频率；

将所述第四图结构类算法作为所述目标图结构类算法。

6.根据权利要求1所述的特征处理方法，其特征在于，所述基于各所述特征之间的相似性构建特征图的步骤，具体包括：

确定预设的相似性度量指标；

基于各所述特征之间的相似性数据构建对应的特征图。

7.根据权利要求1所述的特征处理方法，其特征在于，在所述基于预设的决策树算法对各个所述特征子图内包含的特征集进行建模，并基于建模得到的各个决策树模型分别对各个所述特征子图包含的特征集进行降维处理得到目标特征的步骤之后，还包括：

获取预设的报告模板；

基于所述目标特征与所述报告模板生成目标报告；

获取目标用户的通信信息；

基于所述通信信息将所述目标报告发送给所述目标用户。

8.一种特征处理装置，其特征在于，包括：

构建模块，用于基于各所述特征之间的相似性构建特征图；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的特征处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的特征处理方法的步骤。