CN112256988A - 监测跨境购房网站的方法及装置、电子设备及存储介质 - Google Patents
监测跨境购房网站的方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112256988A CN112256988A CN202011121233.9A CN202011121233A CN112256988A CN 112256988 A CN112256988 A CN 112256988A CN 202011121233 A CN202011121233 A CN 202011121233A CN 112256988 A CN112256988 A CN 112256988A
- Authority
- CN
- China
- Prior art keywords
- border
- target object
- monitoring
- preset
- service type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明实施例提供一种监测跨境购房网站的方法及装置、电子设备及存储介质,包括:采集监测对象,所述监测对象包括若干个网址及其html文档;通过预设条件从监测对象中筛选出目标对象;将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别。本发明实施例通过自动搜索预设关键词库中的关键词、定期爬取涉嫌开展跨境购房资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的跨境购房业务判别模型提高识别准确率,识别涉嫌开展跨境购房业务网站,相比于现有技术,极大减轻了人工排查压力,提升了监测效率。
Description
技术领域
本发明属于互联网监测技术领域,具体涉及一种监测跨境购房网站的方法及装置、电子设备及存储介质。
背景技术
现有技术中,有关监管部门密切关注开展跨境购房相关业务的网站,积极开展监测工作。前期所使用的方法主要是:第一阶段,首先,通过人工使用搜索引擎搜索相关关键词,采集有关网址;然后,通过人工对所获网址一一打开排查核实,查询网站备案信息等,填写数据信息表格。第二阶段,引入爬虫技术,首先,自动调用搜索引擎搜索指定关键词,并针对少数资讯网站定制爬虫程序进行爬取,获得有关网址;然后,爬取每个网址html文档,根据是否包含少量特定关键词(如“海外购房”等),判断是否开展跨境购房相关业务,再对疑似开展有关业务的网站进行人工访问排查,并引入第三方接口数据补充网站备案信息等。
第一阶段的方法,完全依赖人工完成,监测周期长,整体效率较为低下;受制于人工效率,所获取的网址数量较少,监测覆盖面有限。第二阶段的方法,利用程序自动化爬取,能够获取较多网址,扩大了监测覆盖面,并且对所获取的网址进行了初步筛选。但由于筛选规则过于简单,筛选后跨境购房相关业务网站的命中率仍然偏低,从未高于70%,一般在50%上下浮动,导致大量无关网站进入后续人工排查环节中,增加了后续监测工作压力。
除以上方法外,目前市场上暂无专门针对跨境购房相关业务的网站进行监测的产品或方法。相关技术虽然有助于提升监测效率,但并未针对跨境购房相关业务类型进行专门研究及模型定制,也未能结合一线人工排查工作经验来满足监管需求。
发明内容
本发明实施例提供一种能够提高识别准确率、减轻人工排查压力,提升监测效率的监测跨境购房网站的方法及装置、电子设备及存储介质。
本发明实施例提供一种监测跨境购房网站的方法,包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
S2:通过预设条件从监测对象中筛选出目标对象;
S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述S1具体包括:通过预设条件从监测对象中筛选出目标对象;
根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;
或爬取与跨境购房网站相关的资讯网站作为监测对象;
或将输入网址或批量导入的网址作为监测对象。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述S2具体包括:
S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;
S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述S32具体包括:
S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;
S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述S33具体包括:
若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;
若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为跨境购房资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;
若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述S3之后还包括:
S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型;
S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息;
S6:将所述S1至S5的过程数据进行汇总、保存至数据库。
根据本发明实施例所述的监测跨境购房网站的方法,其中,所述预设的跨境购房业务判别模型的训练过程具体包括:
选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述跨境购房业务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;
以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;
根据所述准确率对所述跨境购房业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。
本发明实施例提供一种监测跨境购房网站的装置,包括:
监测对象采集模块,用于采集监测对象,所述监测对象包括若干个网址及其html文档;
目标对象筛选模块,连接所述监测对象采集模块,用于通过预设条件从监测对象中筛选出目标对象;
业务类型判别模块,连接所述目标对象筛选模块,用于将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的监测跨境购房网站的方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的监测跨境购房网站的方法的步骤。
本案实施例通过自动搜索预设关键词库中的关键词、定期爬取跨境购房资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的跨境购房业务判别模型提高识别准确率,识别涉嫌开展跨境购房业务网站,提高监测效率。经过实际测试,本发明实施例整体运行效果较好且较为稳定,相比于之前所用的方法,准确率大幅提升,极大减轻了人工排查压力,提升了监测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的监测跨境购房网站的方法的流程图;
图2为本发明实施例提供的监测跨境购房网站的方法中的部分流程图;
图3为本发明实施例提供的中的跨境购房业务判别模型的运行示意图;
图4为本发明实施例提供的监测跨境购房网站的方法的整体运行示意图;
图5是本发明实施例提供的监测跨境购房网站的装置的示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1-2为本发明实施例提供的监测跨境购房网站的方法的流程示意图,如图1-2所示,该方法包括:
一种监测跨境购房网站的方法,包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档。
S1中,是通过预设条件从监测对象中筛选出目标对象,即获取可疑的跨境购房网站相关的网址。具体的可以采用以下三种途径,
根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;即,基于一线人工排查的经验,建立独有的预设关键词库,并支持添加当前排查时临时选用的新增关键词,根据预设关键词库和新增关键词调用搜索引擎,爬取所寻获的网址。预设关键词库将根据可疑网站动态及排查人员经验,不定期进行更新。
爬取与跨境购房网站相关的资讯网站作为监测对象;即,对跨境购房资讯平台进行监测,定期针对性爬取其所导向的网址。
将输入网址或批量导入的网址作为监测对象。也就是,直接输入网址或批量导入网址名单,这一途径适用于举报线索,也可以支持定向排查任务。三种途径获取到的网址,都进入S2。本案的跨境购房网站是指跨境购房网站,监测对象主要是针对涉嫌跨境购房网站。
S2:通过预设条件从监测对象中筛选出目标对象。
具体的,S2包括:
S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;具体是指利用白名单对所获网址进行筛选,目的是排除一部分无关网址。白名单内主要是特定的网址域名,例如政府部门、高校、主流大型媒体网站的网址域名。属于白名单内的网址将被记录为白名单网址,用于汇总数据,经过主域名对比筛除后,剩余监测对象进入S22。
S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。
排除异常网址指排除网址打不开、打开异常等情况。网页打不开或打开异常,可视同未正常开展业务。存在这些情况的网站都并非监测所关注的,因此需要排除。通过爬取网址html文档,根据获取情况及对html文档内容的简单分析,可排除特殊情况。出现特殊情况的网址将记录下具体的特殊情况,用于汇总数据,剩余网址及其html文档进入S3。
图3为本发明实施例提供的监测跨境购房网站的方法中的跨境购房业务判别模型的运行示意图,如图3所示,S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;即,如果html文档内不包含任何一个门槛关键词,则输出的业务类型为无效样本。如果html文档中包含任何一个门槛关键词,进入S32。
具体的,正则匹配是指利用正则表达式来进行匹配,正则表达式又称规则表达式(Regular Expression,RE),是计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。可以根据多样本对模型的训练以及实际排查经验选取门槛关键词,并以判别准确率为目标,反复调试模型,增减门槛关键词,修正预设关键词字典,确定赋分值及赋分规则。判别结果分为目标业务类型、资讯和无效样本3类,根据网站在3类业务类型中的得分情况进行划分,并记录其业务类型。门槛关键词可以选用购房、房产、交易等。
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S32具体包括:
S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;分类关键词可以选用购房、股票、交易等。
预设关键词字典的格式如{关键词A:(是否启用,所属业务类型,所赋分值,所用计算规则,出现频次,得分),关键词B:(是否启用,所属业务类型,所赋分值,所用计算规则,出现频次,得分)......}。对于是否启用为“是”的关键词(若是否启用为“否”,则不参与后续统计计算,这一参数的作用在于方便模型反复调试,可停止启用判别效果不佳的关键词,或恢复启用有助于判别的关键词。),通过正则匹配得到每个关键词的出现频次,更新字典内的频次初始值,再结合赋分、频次及计算规则计算得分,更新得分初始值。
S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。
由于每类业务类型的关键词数量及赋分、计算规则不同,尤其是资讯类涉及范围较广、分类关键词数量偏多,导致得分相对偏高,从而在后续比较中占据不合理优势。因此设定标准分值,一来可以减少模型分类关键词数量差异对结果的影响,二来有助于避免部分网站未达到标准分值,仅仅因为极个别分类关键词而被判别为目标业务类型。分类关键词与门槛关键词可以有相同或重叠,也可以不同。
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
S33具体包括:
若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;
若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为跨境购房资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;
若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。
其中目标业务类型,指监测所重点关注的业务类型,在此指涉嫌跨境购房相关业务类型;资讯主要指媒体类网站,也包括跨境购房资讯类网站和一般资讯类网站,由于跨境购房资讯类网站内容所涉广泛,往往包含对目标业务类型的介绍,导致与目标业务类型网站在业务判别关键词方面有较大重叠,因此单独分类,根据其资讯特征进行判别;无效样本类指与目标业务类型无关的网站,例如游戏网站等。此外,除了关注开展涉嫌跨境购房相关业务的网站,还需关注跨境购房资讯网站,因此如果资讯网站的目标业务类型得分偏高,将记录为“跨境购房资讯”业务(即为涉嫌跨境购房资讯,区别于“一般资讯”业务),与涉嫌跨境购房业务网站一同进入下一步骤,判别为一般资讯和无效样本业务的网址则仅作记录,用于汇总数据。
图4为本发明实施例提供的监测跨境购房网站的方法的整体运行示意图,如图4所示,进一步的,所述S3之后还包括:
S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型。
S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息(有的网页会显示已过期的ICP备案信息,这一信息通过第三方数据接口无法获取,其显示的ICP备案信息对于寻找运营主体有一定意义)。
S6:将所述S1至S5的过程数据进行汇总、保存至数据库。过程数据指将以上步骤所涉及的各个网址的数据记录结果,供后续展示或导出。
优选的,所述预设的跨境购房业务判别模型的训练过程具体包括:
选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述跨境购房业务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;
以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;
根据所述准确率对所述跨境购房业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。
预设的跨境购房业务判别模型通过训练,根据训练样本中的错误情形不断归纳总结调整,也就是反复执行上述训练过程,对跨境购房业务判别模型进行不断优化,直到准确率达标之后可以用于本案实施例的监测跨境购房网站的方法,确保一定对准确率。在网址皆为可疑网址的条件下,曾用于搜索关键词库中的关键词,往往不再具备区分业务类型的作用。例如用“购房”搜索得到的网址,其html文档中一般都含有“购房”这一关键词,如果再在模型中对“购房”进行较大赋分并归属于目标业务类型,则整体结果都将偏向于目标业务类型,不但未起到区分业务类型的作用,反倒可能导致分类结果错误地偏向目标业务类型,因此模型关键词的选择及赋分需要更多思考。再次,针对不同的关键词,其分值的计算规则可以不同,因该词的区分作用而异。例如“财经”偏向于资讯类,但目标业务类型也可能有一定的新闻资讯专区,因而对该词的计分应设置一个不太高的分值上限;而“联合国”相对更偏向于资讯类,且出现频次越多越有可能是资讯网站,因而其计分方式可以与其频次相关。最后,部分关键词可能存在多重的区分意义,例如出现次数较少时,偏向于目标业务类型,出现次数非常多时,偏向于资讯或无效样本。
对于跨境购房业务类型判别而言,分辨目标业务类型与资讯业务类型存在一定难度。在涉及跨境的关键词中,易导致出国留学、移民网站被误判;而涉及房产的关键词,可能导致业务仅限于境内房产的中介网站被误判;此外,还应分辨出不开展实际业务、仅提供境外房产展会服务的资讯网站。
业务类型判别模型以准确率为目标,选取了上千个网站html文档用于训练,以人工排查这些网站得到的结果为参照统计准确率。对结果分为正确和错误,其中错误还分为一般错误和严重错误。正确指业务类型判别无误,一般错误指资讯和无效样本之间的误判,严重错误指把目标业务类型判别为非目标业务类型(资讯或无效样本)或把非目标业务类型误判为目标业务类型。为防止过拟合,最终选取的模型正确率在80%以上,严重错误率在5%以内。
本案实施例通过自动搜索预设关键词库中的关键词、定期爬取跨境购房资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的跨境购房业务判别模型提高识别准确率,识别涉嫌开展跨境购房业务网站,提高监测效率。经过实际测试,本发明实施例整体运行效果较好且较为稳定,相比于之前所用的方法,准确率大幅提升,极大减轻了人工排查压力,提升了监测效率。
图5为本发明实施例提供的监测跨境购房网站的装置的流程示意图,如图5所示,该装置包括:
监测对象采集模块10,用于采集监测对象,所述监测对象包括若干个网址及其html文档;
目标对象筛选模块20,连接所述监测对象采集模块10,用于通过预设条件从监测对象中筛选出目标对象;
业务类型判别模块30,连接所述目标对象筛选模块20,用于将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
本案实施例的监测跨境购房网站的装置的工作原理与上述实施例的监测跨境购房网站的方法是相应的,此处不再一一赘述。本案实施例的监测跨境购房网站的装置可以应用于非法互联网外汇风险监测系统的开发中,是系统内可选取调用的特殊模块。
图6示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行一种监测跨境购房网站的方法,该方法包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
S2:通过预设条件从监测对象中筛选出目标对象;
S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种监测跨境购房网站的方法,该方法包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
S2:通过预设条件从监测对象中筛选出目标对象;
S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种监测跨境购房网站的方法,该方法包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
S2:通过预设条件从监测对象中筛选出目标对象;
S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种监测跨境购房网站的方法,其特征在于,包括:
S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
S2:通过预设条件从监测对象中筛选出目标对象;
S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
2.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S1具体包括:通过预设条件从监测对象中筛选出目标对象;
根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;
或爬取与跨境购房网站相关的资讯网站作为监测对象;
或将输入网址或批量导入的网址作为监测对象。
3.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S2具体包括:
S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;
S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。
4.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S32具体包括:
S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;
S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。
5.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S33具体包括:
若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;
若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为跨境购房资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;
若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。
6.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S3之后还包括:
S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型;
S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息;
S6:将所述S1至S5的过程数据进行汇总、保存至数据库。
7.根据权利要求1-6任一所述的监测跨境购房网站的方法,其特征在于,所述预设的跨境购房业务判别模型的训练过程具体包括:
选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述跨境购房业务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;
以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;
根据所述准确率对所述跨境购房业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。
8.一种监测跨境购房网站的装置,其特征在于,包括:
监测对象采集模块,用于采集监测对象,所述监测对象包括若干个网址及其html文档;
目标对象筛选模块,连接所述监测对象采集模块,用于通过预设条件从监测对象中筛选出目标对象;
业务类型判别模块,连接所述目标对象筛选模块,用于将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一所述的监测跨境购房网站的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述的监测跨境购房网站的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121233.9A CN112256988A (zh) | 2020-10-19 | 2020-10-19 | 监测跨境购房网站的方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121233.9A CN112256988A (zh) | 2020-10-19 | 2020-10-19 | 监测跨境购房网站的方法及装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256988A true CN112256988A (zh) | 2021-01-22 |
Family
ID=74244088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121233.9A Withdrawn CN112256988A (zh) | 2020-10-19 | 2020-10-19 | 监测跨境购房网站的方法及装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256988A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216842A (zh) * | 2008-01-07 | 2008-07-09 | 华为技术有限公司 | 获取页面关键词的方法及页面信息处理装置 |
JP2011008420A (ja) * | 2009-06-24 | 2011-01-13 | Yahoo Japan Corp | カテゴリを対応付けする装置、方法、およびプログラム |
CN104200402A (zh) * | 2014-09-11 | 2014-12-10 | 国家电网公司 | 一种电网多个数据源的源数据发布方法及系统 |
CN107766481A (zh) * | 2017-10-13 | 2018-03-06 | 国家计算机网络与信息安全管理中心 | 一种发现互联网金融平台的方法和系统 |
CN109274632A (zh) * | 2017-07-12 | 2019-01-25 | 中国移动通信集团广东有限公司 | 一种网站的识别方法及装置 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN112365165A (zh) * | 2020-11-13 | 2021-02-12 | 广东卓志跨境电商供应链服务有限公司 | 一种跨境电商风控管理方法及系统 |
-
2020
- 2020-10-19 CN CN202011121233.9A patent/CN112256988A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216842A (zh) * | 2008-01-07 | 2008-07-09 | 华为技术有限公司 | 获取页面关键词的方法及页面信息处理装置 |
JP2011008420A (ja) * | 2009-06-24 | 2011-01-13 | Yahoo Japan Corp | カテゴリを対応付けする装置、方法、およびプログラム |
CN104200402A (zh) * | 2014-09-11 | 2014-12-10 | 国家电网公司 | 一种电网多个数据源的源数据发布方法及系统 |
CN109274632A (zh) * | 2017-07-12 | 2019-01-25 | 中国移动通信集团广东有限公司 | 一种网站的识别方法及装置 |
CN107766481A (zh) * | 2017-10-13 | 2018-03-06 | 国家计算机网络与信息安全管理中心 | 一种发现互联网金融平台的方法和系统 |
CN109918645A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 深度分析文本的方法、装置、计算机设备和存储介质 |
CN112365165A (zh) * | 2020-11-13 | 2021-02-12 | 广东卓志跨境电商供应链服务有限公司 | 一种跨境电商风控管理方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599155B (zh) | 一种网页分类方法及系统 | |
US8762180B2 (en) | Claims analytics engine | |
CN112348520A (zh) | 基于XGBoost的风险评估方法、装置和电子设备 | |
EP4319054A2 (en) | Identifying legitimate websites to remove false positives from domain discovery analysis | |
CN111523996A (zh) | 一种审批方法及系统 | |
CN110781308A (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN109831459B (zh) | 安全访问的方法、装置、存储介质和终端设备 | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
CN112488716B (zh) | 一种异常事件检测系统 | |
CN111461216A (zh) | 一种基于机器学习的案件风险识别方法 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN112256988A (zh) | 监测跨境购房网站的方法及装置、电子设备及存储介质 | |
CN113688905A (zh) | 一种有害域名核验方法及装置 | |
CN112417329A (zh) | 监测非法互联网外汇保证金交易平台的方法及装置 | |
CN112907371A (zh) | 一种风控模型的训练方法 | |
WO2023179014A1 (zh) | 流量识别方法、装置、电子设备及存储介质 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
CN116189215A (zh) | 自动审核方法、装置、电子设备及存储介质 | |
CN112256987A (zh) | 监测境外股票交易网站的方法及装置、设备及存储介质 | |
CN112256986A (zh) | 监测虚拟货币网站的方法及装置、电子设备及存储介质 | |
CN115458100A (zh) | 基于知识图谱的随访方法、装置、电子设备及存储介质 | |
CN113962573A (zh) | 一种区域金融发展态势预测方法及设备 | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN115345401A (zh) | 一种发现企业金融风险的六维分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210122 |
|
WW01 | Invention patent application withdrawn after publication |