CN113378090A

CN113378090A - 一种互联网网站相似度分析方法、装置以及可读存储介质

Info

Publication number: CN113378090A
Application number: CN202110445408.XA
Authority: CN
Inventors: 杨菁林; 吴震; 贺敏; 唐积强; 张露晨; 董琳; 缪亚男; 张栋
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-09-10
Anticipated expiration: 2041-04-23
Also published as: CN113378090B

Abstract

本发明公开了一种互联网网站相似度分析方法、装置以及可读存储介质，方法包括：从多个未分类的互联网网站中提取文本特征词；将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列，其中：所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到，且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现；将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；对低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况，从而实现互联网网站相似度分析。

Description

一种互联网网站相似度分析方法、装置以及可读存储介质

技术领域

本发明涉及互联网网站检测领域，尤其涉及一种互联网网站相似度分析方法、装置以及可读存储介质。

背景技术

依托互联网的发展，近些年互联网平台和运营的网站数量暴增，给国家相关管理机构的有效监督管理带来了极大困难和挑战。有效监管的前提是对海量互联网网站进行归类操作。对于已知业态(譬如电商、理财等)的传统互联网平台发现归类，可依靠机器学习或者深度学习算法构建多分类模型实现归类的自动化；但对于未知的业态的归类，机器学习或深度学习分类模型却无法业态发育初期对其进行识别和发现，可这些平台恰恰是管理部门重点关注的对象。如此一来，对未知业态互联网网站的发现与归类对于互联网监管而言尤为重要。

现有思路一般是基于排除了已知业态后的互联网网站文本信息后，通过无监督学习算法对网站信息文本进行向量化，再根据向量计算两两网站之间的相对坐标距离，根据相对坐标距离通过社区发现相关算法对其进行归类推送。但这类算法在计算网站两两之间距离上既耗时又占据了大量的计算资源，同时相对坐标距离的好坏也取决于文本向量化的好坏，传统文本向量化的生产方案可以基于0-1矩阵、词频矩阵、N-GRAM矩阵、TF-IDF关键词重要性矩阵等方式实现，也可以通过深度学习中的word2vec等方式转码，但上述实现方式十分依赖文本分词、排除词提取或者word2vec预训练词向量的好坏程度，同时，即便是进行了文本向量化的生成，大概率计算两两距离后的网站归类结果可能并不是人为想要得到的分类结果，譬如众多公司名称中包含“北京”一词的网站，在计算两两之间相对距离后很可能自动聚成一个社群，但是这些公司很可能包含了在北京备案注册下的众多业态。因此如何确保文本向量化后的特征能在业态这个维度进行很好的区分，也是当前需要解决的一大难点。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种互联网网站相似度分析方法、装置以及可读存储介质，旨在解决现有技术中对计算两两网站相对坐标距离耗时耗力且文本向量生成坐标无法满足人为分类需求的技术问题。

本发明解决其技术问题所采用的技术方案是：构造一种互联网网站相似度分析方法，所述方法包括：

从多个未分类的互联网网站中提取文本特征词；

将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列，其中：所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到，且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现；

将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；

对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况。

优选地，所述方法还包括：

从多个已分类的互联网网站中提取文本特征词；

将每一个已分类的互联网网站与其余的网站中的每一个网站分别两两一组进行划分，将每一组的两个网站的文本特征词关联，并为同一组的两个网站设置一个用于标记该两个网站类型是否一致的标签；

将各组网站的关联后的文本特征词以及标签作为样本数据，对所述孪生网络模型进行训练，所述孪生网络包括输入层、编码层、权值共享循环神经网络层、相似度距离计算层、输出层；

将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具。

优选地，所述的将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具，包括：

对所述训练好的所述孪生网络提取输入层至权值共享循环神经网络层的结构及参数，得到孪生网络子模型；

对所述孪生网络子模型进行迁移，得到将文本特征词转为文本向量序列的所述孪生网络编码工具。

优选地，所述的提取文本特征词，包括：

获取互联网网站的HTML源码，对获取的HTML源码进行解析得到文本数据集；

剔除源码Body部分的所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词，和/或剔除源码Head部分的所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词；

对所述第一文本特征词及第二文本特征词进行拼接作为从互联网网站中提取出的文本特征词。

优选地，所述的将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵，包括：将各个未分类的互联网网站的文本向量序列组成一个矩阵，矩阵的每一行为一个未分类的互联网网站的文本向量序列，对矩阵进行降维使得各列之间呈弱相关或正交以得到所述低维弱相关矩阵；

优选地，所述的对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况，包括：对所述低维弱相关矩阵通过聚类算法进行聚类，输出各网站所属的聚类编码，聚类编码相同的网站属于同一类网站，否则属于不同类网站。

本发明另一方面还构造了一种互联网网站相似度分析装置，所述装置包括：

未分类网站特征词提取模块，用于从多个未分类的互联网网站中提取文本特征词；

特征词转换模块，用于将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列，其中：所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到，且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现；

矩阵降维模块，用于将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；

聚类分析模块，用于对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况。

优选地，所述装置还包括：

已分类网站特征词提取模块，从多个已分类的互联网网站中提取文本特征词；

已分类网站关联模块，用于将每一个已分类的互联网网站与其余的网站中的每一个网站分别两两一组进行划分，将每一组的两个网站的文本特征词关联，并为同一组的两个网站设置一个用于标记该两个网站类型是否一致的标签；

网络训练模块，用于将各组网站的关联后的文本特征词以及标签作为样本数据，对所述孪生网络模型进行训练，所述孪生网络包括输入层、编码层、权值共享循环神经网络层、相似度距离计算层、输出层；

网络迁移模块，用于将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具。

优选地，所述的提取文本特征词，包括：获取互联网网站的HTML源码，对获取的HTML源码进行解析得到文本数据集；剔除源码Body部分的所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词，和/或剔除源码Head部分的所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词；对所述第一文本特征词及第二文本特征词进行拼接作为从互联网网站中提取出的文本特征词；

本发明另一方面还构造了一种互联网网站相似度分析装置，所述装置包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的方法的步骤。

本发明另一方面还构造了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的方法的步骤。

本发明的互联网网站相似度分析方法、装置以及可读存储介质，具有以下有益效果：本发明预先基于从多个已分类的互联网网站中提取的文本特征词实现对孪生网络的训练，并将输入层至权值共享循环神经网络层的孪生网络局部模型进行了迁移得到孪生网络编码工具，孪生网络编码工具可以将各个未分类的互联网网站的文本特征词转换为文本向量序列，对网络语言等特殊文本进行有效表征，在此基础上，对于未分类的网站通过提取文本特征词送入孪生网络编码工具，则可以转换得到各个未分类的互联网网站的文本向量序列，将文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵，最后对所述低维弱相关矩阵进行聚类分析，实现相同未分类网站自动聚成一类的效果，通过本发明，更好地区分了网站文本的所属业态类型，实现了互联网网站相似度分析，解决了现有技术中计算两两网站相对坐标距离耗时耗力且文本向量生成坐标无法满足人为分类需求的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1是本发明互联网网站相似度分析方法的流程图；

图2是本发明互联网网站相似度分析方法的一个具体实施例的流程图；

图3是本发明互联网网站相似度分析装置的一个具体实施例的功能模块示意图。

具体实施方式

互联网网站是指在互联网上根据一定的规则，使用HTML(标准通用标记语言)等工具制作的用于展示特定内容相关网页的集合。人们可以通过网页浏览器来访问网站，获取自己需要的资讯或者享受网络服务。总的来说，互联网网站HTML的源码特征主要由Head和Body两部分信息构成，其中，Head信息主要为精炼、上下文语义通顺的描述，至少包含了title、keywords、descriptions 三部分描述信息，Body信息为碎片化、上下文语义不通顺的文本描述，同时还包含了噪声文本数据。上述源码信息的构成是互联网网站的通性，可以适用于游戏、电竞、论坛、社交、新闻资讯、电商、日用服饰、化妆品、移民、教育、体育、旅游、美食、婚恋、工业公司、制造业公司、房地产、培训、影视、小说读物、建筑、科技、配资、P2P、网贷、交易所、私募、公募、资产管理、黄金、股票、期货、证券投资、保险、银行、数字货币、信托、众筹、典当、融资租赁、保理、支付、门户导航等一系列的互联网网站的分类业态里。

所述互联网网站的业态涵盖了上述众多类别，有的网站是已经分类的，对于这种已分类网站都是配置了业态分类标签的，比如现金贷网站标记为 cashloan，外汇网站标记为wh；而有的网站是未分类的，没有业态分类标签，因此无法判断网站的相似度，本发明即是针对这些未分类的网站进行相似度识别。

本发明总的思路是：为解决现有技术中对计算两两网站相对坐标距离耗时耗力且文本向量生成坐标无法满足人为分类需求的技术问题，提供一种互联网网站相似度分析方法、装置以及可读存储介质，参考图1，方法包括：

S101：从多个未分类的互联网网站中提取文本特征词；

S102：将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列；

其中，所述孪生网络包括输入层、编码层、权值共享循环神经网络层、相似度距离计算层、输出层。所述孪生网络编码工具是从训练好的孪生网络中的输入层至权值共享循环神经网络层进行迁移得到，且所述孪生网络的训练是基于从多个已分类的互联网网站中提取的文本特征词实现；

S103：将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；

S104：对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

参考图2，本实施例的互联网网站相似度分析方法主要分为两个阶段：

S201：从多个已分类的互联网网站中提取文本特征词，其中，提取文本特征词；

其中，所述的提取文本特征词，包括：1)获取互联网网站的HTML源码，对获取的HTML源码进行解析得到文本数据集，文本数据集包括HTML源码下的Head、Body部分的文本信息、业态分类标签；2)剔除源码Body部分的所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词；3)剔除源码Head部分的所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词；4)对所述第一文本特征词及第二文本特征词进行拼接作为从互联网网站中提取出的文本特征词。

下面以分析现网站的金贷及外汇两类业态为例：

某一互联网现金贷业态网站A的Body文本信息主要为：“<body>…… <font face＝"华文楷体,STKaiti"><span style＝"">一站式贷款服务平台 </span></font>……<class＝"resize name＝"M330F1siteFormSelect2"><option value＝"none">请选择</option><option value＝"抵押贷款">抵押贷款 </option><option value＝"信用贷款">信用贷款</option><option value＝"短期周转">短期周转</option><option value＝"企业贷款">企业贷款 </option></select>…<font color＝"#e73027"><span style＝"font-size:15px；">工薪贷</span></font></div><div>针对工薪阶层的信用贷款，利息低、放款速度快。 </div>……<span class＝"bannerNormalTitlefk_mainTitlemainTitlemainTitle447"> 新闻资讯</span>……<a"target＝"_blank"title＝"央行出新政策，房地产利好信号？"class＝"J_mixNewsStyleTitle"mix＝"1">央行出新政策，房地产利好信号？ </a></div><a target＝"_blank"class＝"mixNewsStyleSummary">会议要求积极的财政政策要更加积极...</a></td>……</body>”；

某一互联网现金贷业态网站B的Body文本信息主要为：“<body>…… <span class＝"title">一站触达美好生活</span><h1 class＝"logo"><a href＝"./"><imgsrc＝"./res/static/images/logo.png"alt＝""></a></h1><div class＝"nav"style＝"visibility:visible"><a href＝"./"class＝"active">首页</a><a href＝"./news/">媒体报道</a><a href＝"./dkgl/">贷款攻略</a><a href＝"./about/"> 联系我们</a>……<a>平台简介</a><p class＝"layui-row text">"极速XX是一家集多样化金融产品服务、电商服务为一体的平台，致力于为用户提供一站式在线借贷、各类金融增值、电商消费及定制化会员服务。"</p>……<a>平台特点 </a><p class＝"label">额度高</p><pclass＝"text">额度高达20万</p></div><div class＝"item layui-col-md3">……<pclass＝"label">速度快</p><p class＝"text">最快3分钟到账</p>……<p class＝"label">利率低</p><p class＝"text">日利率低于 0.01％</p>……<p class＝"label">门槛低</p><p class＝"text">无抵押、纯信用 </p>……<li class＝"friend-li"><ahref＝"#">信用卡激活不收年费吗信用卡激活不收年费吗</a></li></ul></div><pclass＝"text">版权所有

海南XX科技有限公司</p><p class＝"text">

HainanSinaiask inclusive financial cooperation</p><p class＝"text">琼icp备17000XX号-1丨未经许可，不得复制、转载或摘编，违者必究</p></div><div id＝"scan"><p class＝"panda"><imgsrc＝"./res/static/images/panda.png"alt＝""></p><p class＝"text">请打开手机扫一扫，加入我们</p>……</body>”；

某一互联网外汇业态网站C的Body文本信息主要为：“<body>……<p class＝"one"><strong>您的银行不为您提供这些服务！</strong><font color＝"#FFFFFF">平台介绍</font></a>是每天24小时每周7天的实时外汇交易平台，提供全面的外汇交易室服务-远期合约、外汇期权、日间交易和限价订单。</p><p class＝"more"><strong><a href＝"register.html">最小开户金额仅200美金！了解更多&gt；</a></strong></p>……<b>外汇市场知识 </b><ul><li><a href＝"forex.html#1">什么是外汇交易？</a></li><li><a href＝"forex.html#2">谁参與这个市场？</a></li><li><a href＝"forex.html#3">什么是保证金？</a></li><li><a href＝"forex.html#4">怎样控制风险？ </a></li><li><a href＝"forex.html#5">为什么要选择外汇投资？</a></li><li><a href＝"http://chaowaihui.net/">炒外汇知识與技巧</a></li></ul>……</h5>…… <p>周一、周二、周三、周四、周五</p>……<h1>联系我们</h1><a href＝"#" class＝"bds_mshare"data-cmd＝"mshare"title＝"分享到一键分享"></a><a href＝"#"class＝"bds_tsina"data-cmd＝"tsina"title＝"分享到新浪微博"></a><a href＝"#"class＝"bds_tqq"data-cmd＝"tqq"title＝"分享到腾讯微博"></a>……<p class＝"text">闽ICP备06013463</p>……</body>”；

海南XX科技有限公司”、“联系我们…分享到一键分享…分享到新浪微博…分享到腾讯微博”这类信息不具有相关的业态属性，属于噪声干扰文本。文本内容不具有上下文语义关系，内容呈现片状、碎片化分布，譬如网站A中的“工薪贷”与“新闻资讯”、网站B中的“平台简介”与“平台特点”、网站C中的“平台介绍”和“外汇市场知识”等，单看内容可理解但是两者并没有上下文关系。

本实施例对该Body源码进行解析(Body隐藏了稀疏且碎片化的文本信息，文本本身不具备上下文语义关系，因此需要进行噪声的剔除和关键词提取)，根据成对的标记符从源码中提取出文本信息，比如说<p class＝"text">闽ICP备 06013463</p>的源码，<pclass＝"text"></p>是一对标记符，其中的文本是闽ICP 备06013463，按照此方式，分别提取Body部分的文本信息，将进行拼接，得到文本构成的Body文本数据集。剔除所述文本数据集中的无用字符、停用词。再利用分词技术将文本进行分词处理，依据TF-IDF(termfrequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频Term Frequency，IDF意思是逆文本频率指数Inverse DocumentFrequency)进行关键词提取，能有效过滤无效噪声信息，得到Body对应的第一文本特征词。如此，本例中某一互联网现金贷业态网站A的第一文本特征词形如：[贷款，信用，放款，服务，周转，工薪贷，……，抵押]的特征词列表；某一互联网现金贷业态网站B的第一文本特征词形如：[贷款，借贷，额度，抵押，到账，利率，信用，……，金融]的特征词列表；某一互联网外汇业态网站C的第一文本特征词形如：[外汇，交易，市场，炒汇，合约，风险，……投资]的特征词列表。

某一互联网现金贷业态网站A的Head文本信息主要为：“<head>…… <title>XX金服</title><meta name＝"Keywords"content＝"主营业务,北京贷款,北京信用贷款,北京抵押贷款,北京资金周转，北京疑难贷款">、<meta name＝"descriptions"content＝"XX金融是一家一站式贷款服务平台，专业值得信赖。">……</head>”；

某一互联网现金贷业态网站B的Head文本信息主要为：“<head>……<title> 「极速XX」-个人小额贷款无抵押信用贷款_正规贷款平台</title><meta name＝"Keywords"content＝"主营业务,小额贷款,信用贷款,贷款平台,个人信用贷款,无抵押贷款,个人小额贷款">、<meta name＝"descriptions"content＝"贷款哪家好？缺钱、急用钱就来「极速XX」，专注于个人小额贷款、无抵押信用贷款等在线借贷服务，无抵押无担保，凭身份证申请,不收手续费，1小时审批，可最高可贷30万！">……</head>”；

某一互联网外汇业态网站C的Head文本信息主要为：“<head>…… <title>XX外汇交易平台-外汇交易就这么简单！</title><meta name＝"Keywords"content＝"炒外汇开户,如何炒外汇,怎么炒外汇,怎样炒外汇, 外汇保证金交易,保证金交易,炒外汇是什么">、<meta name＝"descriptions" content＝"XX外汇保证金交易平台，由银行、外汇和互联网专家创立，为外汇交易者提供对全球外汇市场的直接访问平台。">……</head>”；

可见除去英文符号外，HeadHead部分的文本内容十分精炼，且语句通顺，也为所有互联网网站Head信息的通性。同时，现金贷类网站A和B的Head 信息的十分相似，而现金贷类网站A、B与外汇网站C的Head信息描述有着天壤之别。

由于Head文本为短文本，文本的特征信息相对集中，因此可直接获取Head 部分的文本数据集。获取文本的方式为对该HTML源码进行解析，根据标记符从源码中提取出文本信息，比如说<title>XX金服</title>的源码，<title></title> 是一组标记符，其中的文本是XX金服，按照此方式，分别提取Head部分中的title、keywords、descriptions三部分文本信息，再将title、keywords、descriptions 三部分文本信息进行拼接，得到由title、keywords、descriptions文本构成的 Head文本数据集。获取Head文本数据集后，剔除所述文本数据集中的无用字符、停用词，再利用分词技术将文本进行分词处理，得到第二文本特征词，本例中某一互联网现金贷业态网站A的第二文本特征词形如：[XX，金服，主营业务，北京，贷款，北京，信用贷款，……，值得，信赖]的特征词列表；某一互联网现金贷业态网站B的第二文本特征词形如：[极速，XX，个人，小额贷款，无抵押，信用贷款，正规，贷款，平台，……，可贷，30万]的特征词列表；某一互联网外汇业态网站C的第二文本特征词形如：[XX，外汇，交易平台，……，为，外汇，交易者，提供，对，全球，外汇市场，访问，平台]的特征词列表。

在上面得到各个网站的第一文本特征词、第二文本特征词之后，将两者进行拼接，本例中某一互联网现金贷业态网站A的拼接后文本列表为：a＝[XX，金服，主营业务，北京，贷款，北京，信用贷款，……，抵押]；某一互联网现金贷业态网站B的拼接后文本列表为：b＝[极速，XX，个人，小额贷款，无抵押，信用贷款，正规，贷款，平台，……，金融]；某一互联网外汇业态网站C的拼接后文本列表为：c＝[XX，外汇，交易平台，……，投资]。

S202：将每一个已分类的互联网网站与其余的网站中的每一个网站分别两两一组进行划分，将每一组的两个网站的文本特征词关联，并为同一组的两个网站设置一个用于标记该两个网站类型是否一致的标签；

本例中，现金贷网站A、现金贷网址B、外汇网址C两两组合匹配后得到： (a,b)、(a,c)、(b,c)三份数据。根据业态类别是否一致对这三份数据进行打标，1表示一致，0表示不一致，则得到如下三分样本数据：(a,b,1)、(a,c,0)、 (b,c,0)。

S203：将各组网站的关联后的文本特征词以及标签作为样本数据，对所述孪生网络模型进行训练，所述孪生网络包括输入层、编码层、权值共享循环神经网络层、相似度距离计算层、输出层。

其中，输入层用于对文本特征词进行词汇转码得到词汇编码格式数据，所述词汇编码格式数据是由输入的文本特征词在预训练词汇模型的词表中的位置索引构成的矩阵。具体的，预训练词汇模型采用Word2Vec工具中的 skip-gram算法，对每个网站对应的词组信息进行词汇模型训练，生成每个网站对应的词向量。即假设互联网网站文本分词后的词汇为X，X为有序序列， X＝[极速，XX，个人，小额贷款，无抵押，信用贷款，正规，贷款，平台……，可贷，30万……]，有z个词汇，即设第一个位置的词汇X₁“极速”的词向量为[1，0，0，……0]，其中词向量的长度为z，第二个位置词汇X₂“XX”的词向量为[0，1，0，……0]，以此类推，共计z个词向量，每个词向量独立于其余词向量。再通过skip-gram算法，设定输出每一词向量的长度为m，找到一个shape＝(z，m)的预训练矩阵M，使得每次输入一个词向量X_i后，找到X_i对应的(X_i-k，……，X_i-2，X_i-1，X_i+1，X_i+2，……，X_i+k)出现的概率最大，譬如输入“信用贷款”一词，则前后出现[个人，小额贷款，无抵押，正规，贷款，平台]的概率应该最大，并根据所有输入的X_i构建联合概率，使得联合概率最大，使得矩阵M为网站所求的对应词向量矩阵，矩阵M具备网站词向量的特征。应用矩阵M，假设想找到“极速”对应的词向量，“极速”对应的one-hot向量为[1，0，0，……0]，可用[1，0，0，……0]与M的向量乘机进行表示，最后得到“极速”对应的词向量，其他词向量以此类推。其中，Word2Vec 工具是一款用于词向量计算的工具。最终将词语由一个高维稀疏的向量转为一个低维稠密的向量，使得相似特征的词语在空间中的距离更近。最后预训练词汇模型的得到的是一个矩阵M及词表数据。本例中的输入层的转码，即把输入的文本特征词转为预训练词汇模型词表中该词对应的位置索引。假设词表数据为[贷款，信用贷款，抵押，金服，主营业务，北京，极速，个人，小额贷款，无抵押，正规，平台，金融，外汇，交易平台，投资，XX]，则依据对应词汇索引，输入层最后应输出为：

(a,b,1)_input＝([16，3，4，5，0，5，1，……，2],[6，16，7，8，9，1， 10，0，11，……，12],1)；

(a,c,0)_input＝([16，3，4，5，0，5，1，……，2],[16，12，14，……， 15],0)；

(b,c,0)_input＝([6，16，7，8，9，1，10，0，11，……，12],[16，12，14，……，15],0)

其中，编码层用于将所述词汇编码格式数据转为稀疏稠密的低维向量，包括：根据输入层输出的各个位置索引，在上述采用Word2Vec工具中的 skip-gram算法训练模型后生成的预训练矩阵M中找到各个索引对应的词向量。即若“贷款”对应的索引为0，则根据索引0可以得到该词的词向量—— [0.98,0.99,0.56,0.12,……，0]。因此，对于所述现金贷及外汇网站来说，编码层最后应输出为：

(a,b,1)_embeding＝([[0,0,0,0,……，0]，[0.50,0.55,0.49,0,……，0]， [0,0,0.10,0.22,……，0.67]，[0,0,0,0.77,……，0]，……，[0.88,0.80,0.65,0,……， 0]],[[0,0.33,0,0,……，0]，[0,0,0,0,……，0]，[0.09,0,0,0,……，0]， [0.96,0.93,0.60,0.12,……，0]，……，[0.51,0.57,0.54,0,……，0]],1)；

(a,c,0)_embeding＝([[0,0,0,0,……，0]，[0.50,0.55,0.49,0,……，0]， [0,0,0.10,0.22,……，0.67]，[0,0,0,0.77,……，0]，……，[0.88,0.80,0.65,0,……， 0]]，[[0,0,0,0,……，0]，[0.51,0.57,0.54,0,……，0]，[0.17,0.39,0.16,0.10,……，0.58]，……，[0.49,0.44,0.53,0,……，0]],0)；

(b,c,0)_embeding＝([[0,0.33,0,0,……，0]，[0,0,0,0,……，0]，[0.09,0,0,0,……， 0]，[0.96,0.93,0.60,0.12,……，0]，……，[0.51,0.57,0.54,0,……，0]], [[0,0,0,0,……，0]，[0.51,0.57,0.54,0,……，0]，[0.17,0.39,0.16,0.10,……，0.58]，……，[0.49,0.44,0.53,0,……，0]],0)；

其中，权值共享循环神经网络层(权值连接层，采用的是循环神经网络)，功能主要为文本权值共享。本例权值共享循环神经网络层可选用循环神经网络中的BILSTM模型，单个LSTM内部计算公式如下：

f_t＝σ(w_f·[h_t-1,x_t]+b_f)；

i_t＝σ(w_i·[h_t-1,x_t]+b_t)；

o_t＝σ(w_o·[h_t-1,x_t]+b_o)；

h_t＝o_t·Relu(C_t)；

BILSTM为一个向前的LSTM与一个向后的LSTM的结果进行拼接，即假设向前LSTM的输出值为h_f，向后LSTM的输出值为h_b，为了防止过拟合现象的发生，采用了随机失活技术，随机丢去一定概率的模型特征项，以此来降低由模型复杂度或特征变量过多导致的过拟合现象的发生的概率，则 BILSTM的输出值为[h_f-dropout,h_b-dropout]。根据公式，输入Relu函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。即 Relu函数在循环神经网络中神经元的值大于零的时候，Relu的梯度恒定为1，梯度在大于零的时候可以一直被传递，防止所述互联网网站现金贷或外汇业态 Head部分精炼信息随着递归神经网络层数的加深导致使用传统的tanh激活函数使得信息解析的遗漏损失的情况发生，因为我们希望给文本向量编码强调的信息是现金贷或外汇业态，其对应的主体为公司企业或平台而非是类似于现金贷、外汇门户性质的黄页网站，因此若递循环神经网络中使用tanh导致公司企业的具备上下文语义关系的信息丢失，则会将所述黄页网站识别表示出来，导致模型预测的准确率下降。而且Relu得到的收敛速度会比tanh快很多。得到的输出经过非线性激活层的运算后，得到具有业态分类记忆优势的上下文特征向量，即得到BILSTM模型输出的成对文本向量序列。

其中，相似度距离计算层，功能主要为成对文本向量序列计算空间坐标距离。本例相似度距离计算层选用曼哈顿空间距离，公式为(假设BILSTM返回文本向量的长度为k)：

m＝|x₁₁-x₁₂|+|x₂₁-x₂₂|+……+|x_k1-x_k2|；

曼哈顿距离是一个非负值，距离最小的情况即为两点重合，距离为0。由于曼哈顿距离只需要做加减法，这使得计算机在大量的计算过程中代价更低，而且会消除在开平方过程中取近似值而带来的误差，提高计算速度及效率。

其中，输出层，功能主要为输出两类成对样本是否匹配的标签。本例损失函数选择为对比损失函数，公式为：

其中，label为样本是否匹配标签，m为曼哈顿距离，margin为所设阈值。最后，根据距离计算的相似度值，根据设定阈值，返回成对样本业态分类是否匹配的标签，业态匹配返回1，业态不匹配返回0。

S204：将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具。

本实施例中，对所述训练好的所述孪生网络提取输入层至权值共享循环神经网络层的结构及参数，得到孪生网络子模型；对所述孪生网络子模型进行迁移，得到将文本特征词转为文本向量序列的所述孪生网络编码工具。

孪生网络子模型的权值共享循环神经网络层使得每个文本经过了各自的循环神经网络，但是两个循环神经网络的所有权值(所有参数)都是共享，权值共享的目的除去减少模型参数，减小模型的复杂度外，还将两个不同空间维度的向量映射到同一个空间维度上，使其数据分布保持一致，通过对比损失函数不断调整向量权重，使得同一业态的样本在同一空间上的距离相近，不同业态的样本在同一空间上的距离较远，从而达到在同一空间维度上对不同业态的向量进行编码的作用。这样的模型无需使用两两样本实时配对后再逐一计算相似度距离的传统算法(这一传统算法下，只要数据集发生一次变化，就要两两匹配组合一次样本集，再进行样本编码后的相似度距离的计算)，却采用了预训练的孪生网络模型(模型结构包含了配对样本的距离计算，只需训练一次便可以输入不同的样本数据进行编码，而编码后的向量由于按照业态进行空间上的划分，天生具有很好的业态划分的编码功能)进行模型迁移，大大节省了算力资源。

S205：从多个未分类的互联网网站中提取文本特征词；

具体可以参考步骤S201，此处不再赘述。

S206：将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列；

假设前一步骤S205中，提取的各个网站的文本特征词如下：

网站D＝[贷款，银行，信用贷款，个人，小额贷款，……，房贷，车贷，计算器]；

网站E＝[XX，金服，贷款，金额，放款，……，信用，产品，申请]；

网站F＝[XX，开户，流程，英国，外汇，交易商，……，外汇，账户，线上，交易]；

网站G＝[温州，联合，产权，交易，中心，有限公司，……，产权账户，信息披露，成交]；

则本步骤S260将某一网站D、网站E、网站F、网站G的上述文本特征词分别接入孪生网络编码工具进行编码，分别得到文本向量序列。设孪生网络编码工具的输出层为一个p维向量，得到(下述的每一p维向量都包含了各自网站的业态信息)：

网站D的文本向量序列：D＝[d₁，d₂，……，d_p]；

网站E的文本向量序列：E＝[e₁，e₂，……，e_p]；

网站F的文本向量序列：F＝[f₁，f₂，……，f_p]；

网站G的文本向量序列：G＝[g₁，g₂，……，g_p]。

将上面各个未分类的互联网网站的文本向量序列组成一个矩阵W，矩阵W 的每一行为一个未分类的互联网网站的文本向量序列，即:

S207：将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；

由于权值连接层采用的是循环神经网络，因此输出的文本向量序列的每一维度都不能保证弱相关性，即W的各列之间不能保证弱相关性。又由于聚类算法在各维度变量呈现弱相关或正交不相关时聚类才会发挥较好效果。故而需要采用降维算法，使得降维后各维度呈弱相关或正交，也将矩阵W中降维得到低维弱相关矩阵Wpca，矩阵Wpca各列之间呈弱相关或正交。

具体的，本例降维算法选择PCA，算法的步骤为：①对原来的p维向量进行标准化处理，消除量纲的影响；②根据标准化后的矩阵求出相关系数矩阵；③求出协方差矩阵的特征根和特征向量(特征向量线性独立)；④主成分的选择：找到协方差矩阵中最大的特征根(λ₁)所对应的特征向量[x₁，x₂，……， x_p]，使得第一主成分的方差最大(λ₁最大，λ₁为F₁的方差),特征向量为F₁方差的估计参数；第二主成分的选择是在F₁方差最大的前提下，找到一个单位向量，使得F₂的方差最大，依次类推。由于本例中有p个变量，最后可生成p个主成分；⑤确定主成分(根据方差贡献率根据λ计算，某一个成分的方差贡献率表示该成分反应原始变量X％的信息)，对各主成分包含的信息给与适当的解释。本例中为了不遗漏网站业态特征信息，根据方差贡献率，选择累计方差贡献率达到99％以上的前n个主成分。因此，PCA降维后各网站输出结果为：

如此，保证了上述的每一n维向量中的各维之间两两正交。

S208：对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况。

本实施例对所述低维弱相关矩阵通过聚类算法进行聚类，输出各网站所属的聚类编码，聚类编码相同的网站属于同一类网站，否则属于不同类网站，实现达到相同未知业态在物理空间上自动聚成一类，不同未知业态在物理空间上自动区分的效果。

例如选择无监督学习算法BDSCAN，DBSCAN为基于密度可达性角度的聚类计算法，意在将空间中观测点分布较为密集的区域视为一个类，得到的聚类结果一般为确定性的，不具有层次关系。其优点为适用于自然小类形状复杂的数据，也能找到噪声数据，发现任意形状的类，无需事先设定聚类个数。本例步骤为：①设置领域半径和领域半径范围内包含的最少观测点个数；②形成小类：从任意观测点Oi开始，在参数限定条件下判断Oi是否为核心点(若观测点在领域半径内的最少观测点个数不少于给定值，则称Oi为核心点)；找到核心点Oi的所有直接密度可达点(既在领域半径内的所有点)，记为一个小类。若Oi非核心点也非直接密度可达点、密度可达点，则为噪声数据。读取一个新的没有带核心点、直接密度可达点表情的Oj，不断重复上述过程，直到所有观测都被处理过为止；③合并小类，判断所有核心点标签的核心点之间是否存在密度可达或密度关联，若存在，则将小类合并。本例最后返回结果为网站D和网站E的聚类编码都是0；网站F聚类编码1，网站G聚类编码是2，因此可以判定仅网站D、E是一类网站。追溯其网站业态，网站D和网站E为现金贷类网站，网站F为外汇类网站，网站G为交易所类网站，可见达到了网站业态自动区分的效果。

综上，本实施例中获取已知分类的互联网网站的文本数据集，从所述文本数据集中提取文本特征词，再将网站两两匹配打标；将两两打标的文本特征词作为孪生网络的输入的两对特征文本，对孪生网络进行模型训练；将所述孪生网络训练模型中的输入层至权值共享循环神经网络层进行迁移，得到孪生网络编码工具应用于此后对未知分类的互联网网站的相似度识别。当需要对未知分类的互联网网站进行相似度分析时，先从网站文本数据集，通过孪生网络编码工具得到文本向量序列，再通过降维算法得到维度相关性较低的低维弱相关矩阵，最后将低维弱相关矩阵通过无监督学习算法进行网站聚类，实现相同未知业态自动聚成一类的效果。其中，由于提取特征词时，是将网站快照文本的 Head部分及Body部分分别处理后进行拼接，Head部分提取了title、keywords、 descriptions三部分信息拼接，保持语义顺序及上下文关系；Body部分提取了采用TF-IDF提取技术，在自动去噪的前提下充分重点提取文本当中的关键词汇。因此，有效提取了网站快照的文本关键特征信息。其中，训练阶段将输入层至权值共享循环神经网络层的孪生网络局部模型进行了迁移学习，生成文本在特定场景下的文本向量，对网络语言等特殊文本进行有效表征，充分利用了孪生网络权值共享循环神经网络层及相似度距离计算层自动将网站依据业态分类这一特征进行距离相似度计算的优势，使得孪生网络的权值共享循环神经网络层的输出结果编码自动将网站根据业态划分到特定空间坐标区域，从而便于更好地区分了网站文本的所属业态类型。总而言之，本发明实施例解决了现有技术中计算两两网站相对坐标距离耗时耗力且文本向量生成坐标无法满足人为分类需求的技术问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory， ROM)或随机存储记忆体(RandomABBessMemory，RAM)等。

实施例二

参考图3，基于同一发明构思，本发明实施例公开了一种互联网网站相似度分析装置，所述装置包括：

已分类网站特征词提取模块301，从多个已分类的互联网网站中提取文本特征词；

已分类网站关联模块302，用于将每一个已分类的互联网网站与其余的网站中的每一个网站分别两两一组进行划分，将每一组的两个网站的文本特征词关联，并为同一组的两个网站设置一个用于标记该两个网站类型是否一致的标签；

网络训练模块303，用于将各组网站的关联后的文本特征词以及标签作为样本数据，对所述孪生网络模型进行训练，所述孪生网络包括输入层、编码层、权值共享循环神经网络层、相似度距离计算层、输出层；

网络迁移模块304，用于将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具。

未分类网站特征词提取模块305，用于从多个未分类的互联网网站中提取文本特征词；

特征词转换模块306，用于将各个未分类的互联网网站的文本特征词分别输入预先获取到的孪生网络编码工具，得到各个未分类的互联网网站的文本向量序列；

矩阵降维模块307，用于将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵；

聚类分析模块308，用于对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况。

其中，已分类网站特征词提取模块301和未分类网站特征词提取模块305 具体是通过以下方式提取文本特征词，包括：获取互联网网站的HTML源码，对获取的HTML源码进行解析得到文本数据集；剔除源码Body部分的所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词，和/或剔除源码Head部分的所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词；对所述第一文本特征词及第二文本特征词进行拼接作为从互联网网站中提取出的文本特征词。

其中，矩阵降维模块307具体是将各个未分类的互联网网站的文本向量序列组成一个矩阵，矩阵的每一行为一个未分类的互联网网站的文本向量序列，对矩阵进行降维使得各列之间呈弱相关或正交以得到所述低维弱相关矩阵；

其中，聚类分析模块308具体是对所述低维弱相关矩阵通过聚类算法进行聚类，输出各网站所属的聚类编码，聚类编码相同的网站属于同一类网站，否则属于不同类网站。

本发明实施例所述装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

上述描述涉及各种模块。这些模块通常包括硬件和/或硬件与软件的组合 (例如固化软件)。这些模块还可以包括包含指令(例如，软件指令)的计算机可读介质(例如，永久性介质)，当处理器执行这些指令时，就可以执行本发明的各种功能性特点。相应地，除非明确要求，本发明的范围不受实施例中明确提到的模块中的特定硬件和/或软件特性的限制。作为非限制性例子，本发明在实施例中可以由一种或多种处理器执行软件指令。需要指出的是，上文对各种模块的描述中，分割成这些模块，是为了说明清楚。然而，在实际实施中，各种模块的界限可以是模糊的。例如，本文中的任意或所有功能性模块可以共享各种硬件和/或软件元件。又例如，本文中的任何和/或所有功能模块可以由共有的处理器执行软件指令来全部或部分实施。另外，由一个或多个处理器执行的各种软件子模块可以在各种软件模块间共享。相应地，除非明确要求，本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。

实施例三

基于同一发明构思，本发明实施例公开了一种互联网网站相似度分析装置，装置包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤，具体实现过程可参阅上述方法实施例的描述，此处不再赘述。

实施例四

基于同一发明构思，本发明实施例公开了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤，具体实现过程可参阅上述方法实施例的描述，此处不再赘述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本说明书中使用的“第一”、“第二”等包含序数的术语可用于说明各种构成要素，但是这些构成要素不受这些术语的限定。使用这些术语的目的仅在于将一个构成要素区别于其他构成要素。例如，在不脱离本发明的权利范围的前提下，第一构成要素可被命名为第二构成要素，类似地，第二构成要素也可以被命名为第一构成要素。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种互联网网站相似度分析方法，其特征在于，所述方法包括：

从多个未分类的互联网网站中提取文本特征词；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从多个已分类的互联网网站中提取文本特征词；

3.根据权利要求2所述的方法，其特征在于，所述的将训练好的所述孪生网络中的输入层至权值共享循环神经网络层进行迁移得到所述孪生网络编码工具，包括：

4.根据权利要求1所述的方法，其特征在于，所述的提取文本特征词，包括：

5.根据权利要求1所述的方法，其特征在于，

所述的将各个未分类的互联网网站的文本向量序列组成的矩阵进行降维处理得到低维弱相关矩阵，包括：将各个未分类的互联网网站的文本向量序列组成一个矩阵，矩阵的每一行为一个未分类的互联网网站的文本向量序列，对矩阵进行降维使得各列之间呈弱相关或正交以得到所述低维弱相关矩阵；

所述的对所述低维弱相关矩阵进行聚类分析，根据聚类分析结果获取所述多个未分类的互联网网站的相似度情况，包括：对所述低维弱相关矩阵通过聚类算法进行聚类，输出各网站所属的聚类编码，聚类编码相同的网站属于同一类网站，否则属于不同类网站。

6.一种互联网网站相似度分析装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，

所述的提取文本特征词，包括：获取互联网网站的HTML源码，对获取的HTML源码进行解析得到文本数据集；剔除源码Body部分的所述文本数据集中的无用字符、停用词，通过中文分词及关键词提取技术提取第一文本特征词，和/或剔除源码Head部分的所述文本数据集中的无用字符、停用词，通过中文分词技术提取第二文本特征词；对所述第一文本特征词及第二文本特征词进行拼接作为从互联网网站中提取出的文本特征词；

9.一种互联网网站相似度分析装置，其特征在于，所述装置包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法的步骤。

10.一种可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法。