CN112948739A

CN112948739A - 一种医疗网站的识别方法、装置、设备及存储介质

Info

Publication number: CN112948739A
Application number: CN202110401822.0A
Authority: CN
Inventors: 温延龙; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-06-11

Abstract

本申请公开了一种医疗网站的识别方法，包括：利用样本网站首页信息和分类标签设置训练样本；其中，分类标签包括医疗网站和其他网站；将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；获取目标网站的目标网站首页信息，并利用网站识别模型输出与目标网站对应的目标分类标签。本方法利用网站识别模型代替技术人员的手动操作，避免了技术人员手动查看目标网站确定出目标分类标签的过程，因此能够降低对人力资源的消耗，提高识别医疗网站的效率，并且本方法能够避免技术人员识别过程中出现的疏漏的情况，进一步提高识别医疗网站的准确度。本申请还公开了一种医疗网站的识别装置、设备及存储介质，均具有上述有益效果。

Description

一种医疗网站的识别方法、装置、设备及存储介质

技术领域

本发明涉及网站识别领域，特别涉及一种医疗网站的识别方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，互联网医疗也发展迅速。互联网医疗是互联网在医疗行业的新应用，其包括了以互联网为载体和技术手段的健康教育、医疗信息查询、电子健康档案、疾病风险评估、在线疾病咨询、电子处方、远程会诊及远程治疗和康复等多种形式的健康医疗服务。然而医疗网站也是黑客经常攻击的对象，为了便于相关监管部门快速定位辖区医疗网站加强监测，需要在众多互联网网站中精确识别出医疗网站。在这种大前提下，快速准确地识别互联网医疗网站是加强对医疗网站的安全监管的有效途径。

目前，一般是通过技术人员查看目标网站的网站首页信息，根据自身技术经验确定出该目标网站是否为医疗网站。但是现有技术的方法，对于技术人员来说工作量大，需要消耗大量的人力资源且效率低下，且识别过程中易出现疏漏，导致识别错误。

因此，如何高效准确地识别目标网站是否为医疗网站，降低对人力资源的消耗，是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种医疗网站的识别方法，能够高效准确地识别目标网站是否为医疗网站，降低对人力资源的消耗；本发明的另一目的是提供一种医疗网站的识别装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种医疗网站的识别方法，包括：

利用样本网站首页信息和分类标签设置训练样本；其中，所述分类标签包括医疗网站和其他网站；

将所述训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；

获取目标网站的目标网站首页信息，并利用所述网站识别模型输出与所述目标网站对应的目标分类标签。

优选地，所述利用样本网站首页信息和分类标签设置训练样本的过程，具体包括：

获取样本网站中的样本标题、所述样本网站中文本信息的分词以及所述分词中关键词的数量；

确定出与各所述样本网站对应的分类标签；

根据所述样本标题、所述文本信息的分词、所述关键词的数量以及所述分类标签设置所述训练样本。

优选地，所述将所述训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型的过程，具体包括：

根据交叉验证法将所述训练样本输入至所述卷积神经网络中进行学习训练，得出所述网站识别模型。

优选地，进一步包括：

响应于用户的输入操作，获取第一数据信息，并利用所述第一数据信息调整模型训练过程中初始化模型的dropout参数。

优选地，进一步包括：

响应于用户的输入操作，获取第二数据信息，并利用所述第二数据信息调整模型训练过程中初始化模型的batch参数。

优选地，进一步包括：

当学习训练过程中迭代更新模型达到最大更新次数时，将所述最大更新次数对应的模型输出为所述网站识别模型。

利用网络爬虫获取所述样本网站首页信息，并根据所述样本网站首页信息和所述分类标签设置所述训练样本。

为解决上述技术问题，本发明还提供一种医疗网站的识别装置，包括：

样本设置模块，用于利用样本网站首页信息和分类标签设置训练样本；其中，所述分类标签包括医疗网站和其他网站；

模型训练模块，用于将所述训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；

类型确定模块，用于获取目标网站的目标网站首页信息，并利用所述网站识别模型输出与所述目标网站对应的目标分类标签。

为解决上述技术问题，本发明还提供一种医疗网站的识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种医疗网站的识别方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种医疗网站的识别方法的步骤。

本发明提供的一种医疗网站的识别方法，通过预先利用样本网站首页信息和分类标签设置训练样本；并将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；后续便可以利用网站识别模型对目标网站首页信息进行分析识别，输出与目标网站对应的目标分类标签，本方法利用网站识别模型代替技术人员的手动操作，避免了技术人员手动查看目标网站确定出目标分类标签的过程，因此能够降低对人力资源的消耗，提高识别医疗网站的效率，并且本方法能够避免技术人员识别过程中出现的疏漏的情况，进一步提高识别医疗网站的准确度。

为解决上述技术问题，本发明还提供了一种医疗网站的识别装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种医疗网站的识别方法的流程图；

图2为本发明实施例提供的一种医疗网站的识别装置的结构图；

图3为本发明实施例提供的一种医疗网站的识别设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种医疗网站的识别方法，能够高效准确地识别目标网站是否为医疗网站，降低对人力资源的消耗；本发明的另一核心是提供一种医疗网站的识别装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种医疗网站的识别方法的流程图。如图1所示，一种医疗网站的识别方法包括：

S10：利用样本网站首页信息和分类标签设置训练样本；其中，分类标签包括医疗网站和其他网站；

S20：将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型。

在本实施例中，首先需要获取训练样本，进而利用训练样本进行学习训练，得出网站识别模型。其中，获取训练样本的过程，首先需要获取样本网站的样本网站首页信息，样本网站即已经确定出网站类型的网站，利用与样本网站的网站类型对应的分类标签为各样本网站首页信息进行标注，得出训练样本。

需要说明的是，本实施例主要是为了识别医疗网站，因此分类标签主要包括医疗网站和其它网站两种类型；对应的在获取样本网站首页信息时，需要获取一批医疗网站的网站首页信息和一批非医疗网站的网站首页信息，并分别设置对应的分类标签，得出训练样本。

在得出训练样本后，将训练样本输入至卷积神经网络(Convolutional NeuralNetworks，CNN)中进行机器学习的学习训练，对训练样本进行分析，提取训练样本中各样本网站的特征，通过迭代更新模型以得出网站识别模型。

需要说明的是，在实际操作中，可以是使用python语言进行模型的学习训练，也可以是利用其他类型的语言进行模型的学习训练，本实施例对此不做限定。

S30：获取目标网站的目标网站首页信息，并利用网站识别模型输出与目标网站对应的目标分类标签。

具体的，本步骤是在训练得出网站识别模型之后，当存在需要识别是否为医疗网站的目标网站时，获取该目标网站的目标网站首页信息，将该目标网站首页信息输入至网站识别模型中，网站识别模型对该目标网站首页信息进行分析并提取出目标网站的特征，确定出该目标网站的网站类型，输出与该目标网站的特征对应的目标分类标签，即输出该目标网站为医疗网站或其他网站。

本发明实施例提供的一种医疗网站的识别方法，通过预先利用样本网站首页信息和分类标签设置训练样本；并将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；后续便可以利用网站识别模型对目标网站首页信息进行分析识别，输出与目标网站对应的目标分类标签，本方法利用网站识别模型代替技术人员的手动操作，避免了技术人员手动查看目标网站确定出目标分类标签的过程，因此能够降低对人力资源的消耗，提高识别医疗网站的效率，并且本方法能够避免技术人员识别过程中出现的疏漏的情况，进一步提高识别医疗网站的准确度。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，利用样本网站首页信息和分类标签设置训练样本的过程，具体包括：

获取样本网站中的样本标题、样本网站中文本信息的分词以及分词中关键词的数量；

确定出与各样本网站对应的分类标签；

根据样本标题、文本信息的分词、关键词的数量以及分类标签设置训练样本。

在本实施例中，训练样本中的样本网站首页信息包括三个不同维度的数据，分别为样本网站中的样本标题(title)、样本网站中文本信息的分词以及分词中关键词的数量。其中，通过提取样本网站的样本网站首页信息中的<title></title>之间的内容，得到样本标题；去除样本网站首页信息中的页面标签，得到样本网站的文本信息，并对文本信息进行分词处理，得出样本网站中文本信息的分词；预先设置与医疗网站相关的关键词，如医院、医疗卫生、门诊、疾病控制、疾病、疾控、急救，本实施例对关键词的内容和数量不做限定，根据实际需求设置即可；统计样本网站中文本信息的分词中关键词的数量，得到分词中关键词的数量。

具体的，根据各样本网站的网站类型确定出与各样本网站对应的分类标签，包括医疗网站和其他网站；然后根据样本标题、文本信息的分词、关键词的数量以及分类标签设置训练样本。如下为两个训练样本的示例：

训练样本1：医疗网站|连云港建国医院|连云港男科医院连云港男科医院哪家预约挂号健康问答来院路线前列腺疾病前列腺炎……|106

训练样本2：其它网站|东莞市荣扬机械有限公司|伺服中大型走丝电火花线切割定制非标线切割生产厂家东莞市荣扬机械有限公司……|25

可见，按照本实施例的方式设置训练样本，能够更加便捷精准地训练出网站识别模型。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型的过程，具体包括：

根据交叉验证法将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型。

在本实施例中，具体是采用10折交叉验证法(10-fold cross-validation)学习训练，得出网站识别模型。具体的，首先将训练样本分成10份，且轮流将其中的9份设置为训练集，1份设置为测试集；例如第一次训练时将第一份训练样本设置为测试集，其他9份为训练集，第二次训练时将第二份训练样本设置为测试集，其他9份为训练集，以此类推。然后将训练样本中的训练集输入至卷积神经网络中进行学习训练，得到初始化模型；再将测试集输入至初始化模型中，根据初始化模型的输出类型和测试集中对应的分类标签的匹配度确定该初始化模型的准确度；若准确度达到预设阈值，则将该初始化模型输出为网站识别模型；若准确度未到达预设阈值，则更新训练集和测试集，继续将训练集输入至初始化模型中进行学习训练，更新初始化模型，再将测试集输入至更新后的初始化模型中，根据更新后的初始化模型的输出类型和测试集中对应的分类标签的匹配度确定该更新后的初始化模型的准确度；迭代更新直至输出网站识别模型。

可见，按照本实施例的方法，在能够训练出满足准确度要求的网站识别模型的基础上，能够进一步相对降低训练网站识别模型过程中的计算量。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

响应于用户的输入操作，获取第一数据信息，并利用第一数据信息调整模型训练过程中初始化模型的dropout参数。

在本实施例中，是在利用训练样本学习训练以不断迭代更新初始化模型的过程中，采用正则化与dropout方法防止模型过拟合。其中，正则化是防止模型过拟合的基本方法。在实际操作中，通过响应于用户的输入操作，获取第一数据信息，然后利用第一数据信息调整初始化模型的dropout参数。需要说明的是，dropout参数是在利用卷积神经网络进行学习训练的过程中，对所有神经元按照一定的概率进行消除的处理方式，dropout参数能够很大程度上简化神经网络结构，防止由于训练样本过少导致模型过拟合。

作为优选的实施方式，本实施例进一步包括：

响应于用户的输入操作，获取第二数据信息，并利用第二数据信息调整模型训练过程中初始化模型的batch参数。

需要说明的是，batch的大小也会影响训练网站识别模型的效果。其中，batch的大小不得小于模型总数/1000，否则模型容易出现局部过拟合的情况，导致模型的整体效果不理想，甚至可能会造成模型无法收敛而振荡的情况。

具体的，通过响应于用户的输入操作，获取第二数据信息，并利用第二数据信息调整初始化模型的batch参数，从而避免模型出现局部过拟合的情况，提升模型的训练效果。

当学习训练过程中迭代更新模型达到最大更新次数时，将最大更新次数对应的模型输出为网站识别模型。

需要说明的是，在学习训练的过程中，还可能存在模型收敛慢，造成迭代更新模型很多次仍无法使得模型准确度达到预设阈值的情况，为了解决这一技术问题，在本实施例中，是进一步设置最大更新次数，在学习训练的过程中，统计进行迭代更新模型的累计更新次数，并进一步将该累计更新次数与最大更新次数进行比较，若累计更新次数大于最大更新次数，即表示迭代更新模型达到最大更新次数仍无法使得模型的准确度达到预设阈值，因此结束迭代并将达到最大更新次数对应的模型输出为网站识别模型。

可见，按照本实施例的方法，能够避免迭代更新的次数过多造成资源浪费。

利用网络爬虫获取样本网站首页信息，并根据样本网站首页信息和分类标签设置训练样本。

具体的，网络爬虫(web crawler)是一种用来自动浏览万维网的程序或者脚本，通过网络抓取(web scraping)预设信息。在本实施例中，由于需要获取大量的样本网站的样本网站首页信息以供学习训练，因此优选地利用网络爬虫获取样本网站的样本网站首页信息，从而避免技术人员手动获取样本网站首页信息，能够提高获取样本网站首页信息的便捷度和效率，进而提高根据样本网站首页信息和分类标签设置训练样本的便捷度和效率。

上文对于本发明提供的一种医疗网站的识别方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的医疗网站的识别装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图2为本发明实施例提供的一种医疗网站的识别装置的结构图，如图2所示，一种医疗网站的识别装置包括：

样本设置模块21，用于利用样本网站首页信息和分类标签设置训练样本；其中，分类标签包括医疗网站和其他网站；

模型训练模块22，用于将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型；

类型确定模块23，用于获取目标网站的目标网站首页信息，并利用网站识别模型输出与目标网站对应的目标分类标签。

本发明实施例提供的医疗网站的识别装置，具有上述医疗网站的识别方法的有益效果。

作为优选的实施方式，样本设置模块具体包括：

获取子模块，用于获取样本网站中的样本标题、样本网站中文本信息的分词以及分词中关键词的数量；

确定子模块，用于确定出与各样本网站对应的分类标签；

设置子模块，用于根据样本标题、文本信息的分词、关键词的数量以及分类标签设置训练样本。

作为优选的实施方式，模型训练模块具体包括：

模型训练子模块，用于根据交叉验证法将训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型。

作为优选的实施方式，进一步包括：

第一参数设置模块，用于响应于用户的输入操作，获取第一数据信息，并利用第一数据信息调整模型训练过程中初始化模型的dropout参数。

作为优选的实施方式，进一步包括：

第二参数设置模块，用于响应于用户的输入操作，获取第二数据信息，并利用第二数据信息调整模型训练过程中初始化模型的batch参数。

作为优选的实施方式，进一步包括：

更新次数限制模块，用于当学习训练过程中迭代更新模型达到最大更新次数时，将最大更新次数对应的模型输出为网站识别模型。

作为优选的实施方式，样本设置模块具体包括：

样本设置子模块，用于利用网络爬虫获取样本网站首页信息，并根据样本网站首页信息和分类标签设置训练样本。

图3为本发明实施例提供的一种医疗网站的识别设备的结构图，如图3所示，一种医疗网站的识别设备包括：

存储器31，用于存储计算机程序；

处理器32，用于执行计算机程序时实现如上述医疗网站的识别方法的步骤。

本发明实施例提供的医疗网站的识别设备，具有上述医疗网站的识别方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述医疗网站的识别方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述医疗网站的识别方法的有益效果。

以上对本发明所提供的医疗网站的识别方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种医疗网站的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用样本网站首页信息和分类标签设置训练样本的过程，具体包括：

确定出与各所述样本网站对应的分类标签；

3.根据权利要求1所述的方法，其特征在于，所述将所述训练样本输入至卷积神经网络中进行学习训练，得出网站识别模型的过程，具体包括：

4.根据权利要求3所述的方法，其特征在于，进一步包括：

5.根据权利要求3所述的方法，其特征在于，进一步包括：

6.根据权利要求3所述的方法，其特征在于，进一步包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述利用样本网站首页信息和分类标签设置训练样本的过程，具体包括：

8.一种医疗网站的识别装置，其特征在于，包括：

9.一种医疗网站的识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的医疗网站的识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的医疗网站的识别方法的步骤。