CN112417296B - 一种互联网关键数据信息采集提取方法 - Google Patents

一种互联网关键数据信息采集提取方法 Download PDF

Info

Publication number
CN112417296B
CN112417296B CN202011412821.8A CN202011412821A CN112417296B CN 112417296 B CN112417296 B CN 112417296B CN 202011412821 A CN202011412821 A CN 202011412821A CN 112417296 B CN112417296 B CN 112417296B
Authority
CN
China
Prior art keywords
processed
character string
word segmentation
webpage
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011412821.8A
Other languages
English (en)
Other versions
CN112417296A (zh
Inventor
刘奕名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011412821.8A priority Critical patent/CN112417296B/zh
Publication of CN112417296A publication Critical patent/CN112417296A/zh
Application granted granted Critical
Publication of CN112417296B publication Critical patent/CN112417296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种互联网关键数据信息采集提取方法,引入全新设计的数据逻辑关联关系,以目标网页作为基础筛查对象,对高频词汇搜索方式和预设关键信息词搜索方式实现递进式逻辑结合,一方面考虑指定目标方向方面的信息,另一方面适应大数据更新的方向,使得网络数据查找工作变得更加全面、客观,综合筛查获得基础筛查对象中的关键信息;以基础筛查对象为出发点,针对其直接引用、间接引用以及多层级引用下的各网页,进行逐级一一分析,获得与基础筛查对象中相关主题、主旨相关的各级关键信息,构建出多层级关联网页下、关键信息的拓扑结构,准确、客观、全面的筛查网页中的关键信息,提高实际网络数据的查找、挖掘效率。

Description

一种互联网关键数据信息采集提取方法
技术领域
本发明涉及一种互联网关键数据信息采集提取方法,属于网页关键信息提取技术领域。
背景技术
随着互联网、以及各种数字化终端设备的普及,一个万物互联的世界正在成型,数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量。并且随着物联网基础设施及智能手机、可穿戴设备的普及,我们每个人时刻都在产生大量的数据,网络上每天都会更新着大量的数据,并且其中充斥着各类型的数据,如何对海量数据进行快速分析,解读其中重要信息是当下对网络数据的最好利用,现有技术中的方法,大多采用的是比对法,即针对目标网页中的数据,执行与预设关键字的匹配,寻找网页中与关键字相匹配的内容,如此的方法寻找所获信息收到了局限,并且仅仅通过彼此之间的直接匹配,会遗漏网页中许多与之相关的其它信息,即无法真正对目标网页进行有效的数据挖掘,因此寻找所获数据的价值并不大。
发明内容
本发明所要解决的技术问题是提供一种互联网关键数据信息采集提取方法,采用全新数据筛查逻辑,引入多维因素比对、以及多级网页递进式筛查,关联获得各关键信息之间拓扑结构,提高网页数据信息采集的智能性与高效性。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种互联网关键数据信息采集提取方法,用于实现对目标网页中文本关键信息的获得,包括如下步骤:
步骤A.针对目标网页中的文本进行分词处理,并根据预设无意义词库,剔除经分词处理后文本中的无意义词字符串、以及连接词字符串,将该文本更新为待处理文本;
步骤B.筛选获得待处理文本中非URL链接字符串、且彼此互不相同的各个分词字符串,构成各个初级待处理分词字符串,并统计各个初级待处理分词字符串分别在待处理文本中的出现次数,以及获得该各个出现次数的总数N;
步骤C.根据各个初级待处理分词字符串分别在待处理文本中的出现次数,针对各个初级待处理分词字符串按其出现次数由高至低进行排序,并基于此排序下由第一个初级待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串;其中,c表示预设累加出现次数百分比阈值;
步骤D.针对剩余各个初级待处理分词字符串,筛选其中符合预设关键信息词词库的各个初级待处理分词字符串,同样作为各个待处理分词字符串;
步骤E.针对各个待处理分词字符串按其出现次数由高至低进行排序,并获得各个待处理分词字符串分别所对应的特征词向量;
步骤F.根据各个待处理分词字符串分别所对应的特征词向量,获得两两待处理分词字符串之间的相似度;
步骤G.基于步骤E中所获各个待处理分词字符串的排序,依次针对各待处理分词字符串,以两两待处理分词字符串之间相似度大于预设相似度阈值为依据,实现对各待处理分词字符串的划分,获得各个字符串子集;
步骤H.分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页中文本的各个关键信息。
作为本发明的一种优选技术方案:还包括步骤BC-1至步骤BC-2如下,执行完步骤B之后,进入步骤BC-1;
步骤BC-1.分别针对各个初级待处理分词字符串,按如下公式:
TF/ISFterm=TFterm*ISFterm
获得各个初级待处理分词字符串分别所对应的术语频率-逆句子频率值TF/ISFterm,其中,TFterm表示初级待处理分词字符串出现次数与待处理文本中所有初级待处理分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语句的数量,然后进入步骤BC-2;
步骤BC-2.按术语频率-逆句子频率值由大至小,针对各个初级待处理分词字符串进行排序,并根据预设选择比例b,顺序选择前
Figure GDA0003033256940000021
个初级待处理分词字符串,并删除其余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理分词字符串的个数,
Figure GDA0003033256940000022
表示向上取整。
作为本发明的一种优选技术方案:还包括基于所述目标网页所对应待处理文本中包含URL链接字符串的如下步骤J至步骤O,执行完步骤H之后,进入步骤J;
步骤J.初始化v=1,获得各个字符串子集中、代表性分词字符串分别与相同字符串子集中其余各待处理分词字符串之间相似度的最小值,作为各个字符串子集所对应的相似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K;
步骤K.分别针对各个第v级递进网页,按步骤A至步骤C的方法,获得第v级递进网页所对应的各个待处理分词字符串;进而获得各个第v级递进网页分别所对应的各个待处理分词字符串,然后进入步骤L;
步骤L.分别针对各个第v级递进网页,按步骤E中的方法,获得第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量;进而获得各个第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M;
步骤M.分别针对各个第v级递进网页所对应的各个待处理分词字符串,获得待处理分词字符串所对应特征词向量分别与各代表性分词字符串所对应特征词向量之间的相似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N;
步骤N.判断各个第v级递进网页所对应待处理文本中是否存在URL链接字符串,是则针对v的值进行加1更新,并将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回步骤K;否则进入步骤O;
步骤O.按步骤H的方法,分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页及其各级递进网页中文本的各个关键信息。
作为本发明的一种优选技术方案:所述步骤J中,分别针对目标网页所对应待处理文本中各个URL链接字符串所对应的网页,首先基于各网页的初始级别,应用Pagerank方法按如下公式:
Figure GDA0003033256940000031
通过迭代运算,获得各URL链接字符串分别所对应网页的页面级别,其中,A表示网页,PR(A)表示网页A的页面级别,d为预设衰减系数,0<d<1,T1、…、Tn表示包含网页A的URL链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它网页的URL链接字符串的数量;
然后选择其中页面级别大于预设级别的各URL链接字符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K。
作为本发明的一种优选技术方案:所述步骤G包括如下步骤G1至步骤G5;
步骤G1.初始化n=1,m=1,并基于步骤E中所获各个待处理分词字符串的排序,以及两两待处理分词字符串之间的相似度,进入步骤G2;
步骤G2.构建包含排序中第n个待处理分词字符串的第m个字符串子集,并定义第n个待处理分词字符串构成待划分处理分词字符串,然后针对n的值进行加1更新,进入步骤G3;
步骤G3.判断排序中第n个待处理分词字符串与待划分处理分词字符串之间的相似度是否大于预设相似度阈值,是则将第n个待处理分词字符串加入第m个字符串子集中,更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4;
步骤G4.判断n是否等于排序中待处理分词字符串的数量I,是则进入步骤G5;否则针对n的值进行加1更新,并返回步骤G3;
步骤G5.将第m个字符串子集中的各个待处理分词字符串由排序中删除,针对排序进行更新,并判断排序是否为空,是则即获得各个字符串子集,然后进入步骤H;否则重置n等于1,并针对m的值进行加1更新,然后返回步骤G2。
作为本发明的一种优选技术方案:所述步骤H中包括如下步骤H1至步骤H4;
步骤H1.分别针对字符串子集中的各个待处理分词字符串,获得待处理分词字符串分别与该字符串子集中其余各待处理分词字符串之间相似度的平均值,构成该待处理分词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应相似度平均值,然后进入步骤H2;
步骤H2.针对该字符串子集中各个待处理分词字符串的出现次数进行归一化,所获归一化结果构成该各个待处理分词字符串分别所对应的权重,然后进入步骤H3;
步骤H3.分别针对该字符串子集中的各个待处理分词字符串,由待处理分词字符串所对应权重与待处理分词字符串所对应相似度平均值的乘积,构成待处理分词字符串所对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步骤H4;
步骤H4.针对该字符串子集中的各个待处理分词字符串,按其所对应重要度指标由高至低进行排序,并根据预设筛选百分比a,顺序选择该排序中的前
Figure GDA0003033256940000041
个待处理分词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信息;其中,M表示该字符串子集中的待处理分词字符串的个数,
Figure GDA0003033256940000051
表示向上取整。
作为本发明的一种优选技术方案:所述步骤E中,应用word2vec方法,获得各个待处理分词字符串分别所对应的特征词向量。
作为本发明的一种优选技术方案:所述步骤F中,根据各个待处理分词字符串分别所对应的特征词向量,按两两特征词向量之间的余弦距离,获得并构成两两待处理分词字符串之间的相似度。
本发明所述一种互联网关键数据信息采集提取方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计互联网关键数据信息采集提取方法,引入全新设计的数据逻辑关联关系,以目标网页作为基础筛查对象,将高频词汇搜索方式、以及预设关键信息词搜索方式,实现递进式逻辑结合,综合筛查获得基础筛查对象中的关键信息,其中不仅考虑到了指定目标方向方面的信息,而且考虑到了大数据更新的方向,让网络数据查找工作变得更加全面、客观;由此进一步以基础筛查对象为出发点,针对其直接引用、以及间接多层级引用下的各网页,进行逐级一一分析,筛查获得与基础筛查对象中相关主题、主旨相关的各级关键信息,由此构建出多层级关联网页下、关键信息的拓扑结构,能够更加准确、客观、全面的筛查网页中的关键信息,为网络数据查找、挖掘提供高效的工作方式,提高实际网络数据查找的工作效率。
附图说明
图1为本发明所设计互联网关键数据信息采集提取方法的流程图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种互联网关键数据信息采集提取方法,用于实现对目标网页中文本关键信息的获得,实际应用当中,如图1所示,具体执行如下步骤A至步骤H。
步骤A.针对目标网页中的文本进行分词处理,并根据预设无意义词库,剔除经分词处理后文本中的无意义词字符串、以及连接词字符串,将该文本更新为待处理文本,然后进入步骤B。
步骤B.筛选获得待处理文本中非URL链接字符串、且彼此互不相同的各个分词字符串,构成各个初级待处理分词字符串,并统计各个初级待处理分词字符串分别在待处理文本中的出现次数,以及获得该各个出现次数的总数N,然后进入步骤BC-1。
步骤BC-1.分别针对各个初级待处理分词字符串,按如下公式:
TF/ISFterm=TFterm*ISFterm
获得各个初级待处理分词字符串分别所对应的术语频率-逆句子频率值TF/ISFterm,其中,TFterm表示初级待处理分词字符串出现次数与待处理文本中所有初级待处理分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语句的数量,然后进入步骤BC-2。
步骤BC-2.按术语频率-逆句子频率值由大至小,针对各个初级待处理分词字符串进行排序,并根据预设选择比例b,顺序选择前
Figure GDA0003033256940000061
个初级待处理分词字符串,并删除其余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理分词字符串的个数,
Figure GDA0003033256940000062
表示向上取整。
步骤C.根据各个初级待处理分词字符串分别在待处理文本中的出现次数,针对各个初级待处理分词字符串按其出现次数由高至低进行排序,并基于此排序下由第一个初级待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串,然后进入步骤D;其中,c表示预设累加出现次数百分比阈值。
步骤D.针对剩余各个初级待处理分词字符串,筛选其中符合预设关键信息词词库的各个初级待处理分词字符串,同样作为各个待处理分词字符串,然后进入步骤E。
步骤E.针对各个待处理分词字符串按其出现次数由高至低进行排序,并应用自然语言处理方式,诸如word2vec方法,获得各个待处理分词字符串分别所对应的特征词向量,然后进入步骤F。
步骤F.根据各个待处理分词字符串分别所对应的特征词向量,诸如按两两特征词向量之间的余弦距离方式,获得两两待处理分词字符串之间的相似度,然后进入步骤G。
步骤G.基于步骤E中所获各个待处理分词字符串的排序,依次针对各待处理分词字符串,以两两待处理分词字符串之间相似度大于预设相似度阈值为依据,实现对各待处理分词字符串的划分,获得各个字符串子集,然后进入步骤H。
关于上述步骤G,在实际应用当中,可以具体设计执行如下步骤G1至步骤G5。
步骤G1.初始化n=1,m=1,并基于步骤E中所获各个待处理分词字符串的排序,以及两两待处理分词字符串之间的相似度,进入步骤G2。
步骤G2.构建包含排序中第n个待处理分词字符串的第m个字符串子集,并定义第n个待处理分词字符串构成待划分处理分词字符串,然后针对n的值进行加1更新,进入步骤G3。
步骤G3.判断排序中第n个待处理分词字符串与待划分处理分词字符串之间的相似度是否大于预设相似度阈值,是则将第n个待处理分词字符串加入第m个字符串子集中,更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4。
步骤G4.判断n是否等于排序中待处理分词字符串的数量I,是则进入步骤G5;否则针对n的值进行加1更新,并返回步骤G3。
步骤G5.将第m个字符串子集中的各个待处理分词字符串由排序中删除,针对排序进行更新,并判断排序是否为空,是则即获得各个字符串子集,然后进入步骤H;否则重置n等于1,并针对m的值进行加1更新,然后返回步骤G2。
步骤H.分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页中文本的各个关键信息。
在具体的实际应用当中,上述步骤H具体设计执行如下步骤H1至步骤H4。
步骤H1.分别针对字符串子集中的各个待处理分词字符串,获得待处理分词字符串分别与该字符串子集中其余各待处理分词字符串之间相似度的平均值,构成该待处理分词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应相似度平均值,然后进入步骤H2。
步骤H2.针对该字符串子集中各个待处理分词字符串的出现次数进行归一化,所获归一化结果构成该各个待处理分词字符串分别所对应的权重,然后进入步骤H3。
步骤H3.分别针对该字符串子集中的各个待处理分词字符串,由待处理分词字符串所对应权重与待处理分词字符串所对应相似度平均值的乘积,构成待处理分词字符串所对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步骤H4。
步骤H4.针对该字符串子集中的各个待处理分词字符串,按其所对应重要度指标由高至低进行排序,并根据预设筛选百分比a,顺序选择该排序中的前
Figure GDA0003033256940000071
个待处理分词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信息;其中,M表示该字符串子集中的待处理分词字符串的个数,
Figure GDA0003033256940000072
表示向上取整。
以上是针对目标网页进行筛查的技术方案设计,获得了目标网页中文本的各个关键信息,即构成目标网页中的各个关键信息,并且上述方案中,将高频词汇搜索方式、以及预设关键信息词搜索方式,实现递进式逻辑结合,综合筛查获得基础筛查对象中的关键信息,其中不仅考虑到了指定目标方向方面的信息,而且考虑到了大数据更新的方向,让网络数据查找工作变得更加全面、客观。
实际应用当中,本发明进行了进一步的设计,将目标网页作为基础筛查对象,以基础筛查对象为出发点,针对其直接引用、以及间接多层级引用下的各网页,进行逐级一一分析,即在执行完步骤H,获得目标网页中文本的各个代表性分词字符串后,进一步执行了如下步骤步骤J至步骤O。
步骤J.初始化v=1,获得各个字符串子集中、代表性分词字符串分别与相同字符串子集中其余各待处理分词字符串之间相似度的最小值,作为各个字符串子集所对应的相似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K。
实际应用当中,可以进一步针对上述步骤J中目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,首先基于各网页的初始级别,应用Pagerank方法按如下公式:
Figure GDA0003033256940000081
通过迭代运算,获得各URL链接字符串分别所对应网页的页面级别,其中,A表示网页,PR(A)表示网页A的页面级别,d为预设衰减系数,0<d<1,T1、…、Tn表示包含网页A的URL链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它网页的URL链接字符串的数量;
然后选择其中页面级别大于预设级别的各URL链接字符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K。
步骤K.分别针对各个第v级递进网页,按步骤A至步骤C的方法,获得第v级递进网页所对应的各个待处理分词字符串;进而获得各个第v级递进网页分别所对应的各个待处理分词字符串,然后进入步骤L。
步骤L.分别针对各个第v级递进网页,按步骤E中的方法,获得第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量;进而获得各个第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M。
步骤M.分别针对各个第v级递进网页所对应的各个待处理分词字符串,获得待处理分词字符串所对应特征词向量分别与各代表性分词字符串所对应特征词向量之间的相似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N。
步骤N.判断各个第v级递进网页所对应待处理文本中是否存在URL链接字符串,是则针对v的值进行加1更新,并将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回步骤K;否则进入步骤O。
上述步骤N在实际应用当中,当各个第v级递进网页所对应待处理文本中存在URL链接字符串时,针对v的值进行加1更新,并可以进一步设计加入步骤J中关于各URL链接字符串分别所对应网页的页面级别的筛查,即针对这里各第v级递进网页所对应待处理文本中所存在的各个URL链接字符串,针对该各个URL链接字符串分别所对应网页的页面,执行上述步骤J中关于页面级别的获得,并进一步选取中页面级别大于预设级别的各URL链接字符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回步骤K。
步骤O.按步骤H的方法,分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页及其各级递进网页中文本的各个关键信息。
如此基于之前步骤A至步骤H的执行,并进一步通过上述步骤J至步骤O的执行,以基础筛查对象为出发点,针对其直接引用、以及间接多层级引用下的各网页,进行逐级一一分析,筛查获得与基础筛查对象中相关主题、主旨相关的各级关键信息,由此构建出多层级关联网页下、关键信息的拓扑结构,能够更加准确、客观、全面的筛查网页中的关键信息,并通过拓扑结构的方式进行呈现,为网络数据查找、挖掘提供高效的工作方式,提高实际网络数据查找的工作效率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (7)

1.一种互联网关键数据信息采集提取方法,用于实现对目标网页中文本关键信息的获得,其特征在于,包括如下步骤:
步骤A.针对目标网页中的文本进行分词处理,并根据预设无意义词库,剔除经分词处理后文本中的无意义词字符串、以及连接词字符串,将该文本更新为待处理文本;
步骤B.筛选获得待处理文本中非URL链接字符串、且彼此互不相同的各个分词字符串,构成各个初级待处理分词字符串,并统计各个初级待处理分词字符串分别在待处理文本中的出现次数,以及获得各个出现次数的总数N;
步骤C.根据各个初级待处理分词字符串分别在待处理文本中的出现次数,针对各个初级待处理分词字符串按其出现次数由高至低进行排序,并基于此排序下由第一个初级待处理分词字符串作为起始、各初级待处理分词字符串出现次数的依次累加数值,获得c×N结果数值所对应的初级待处理分词字符串,将该初级待处理分词字符串至第一个初级待处理分词字符串的各个初级待处理分词字符串作为各个待处理分词字符串;其中,c表示预设累加出现次数百分比阈值;
步骤D.针对剩余各个初级待处理分词字符串,筛选其中符合预设关键信息词词库的各个初级待处理分词字符串,同样作为各个待处理分词字符串;
步骤E.针对各个待处理分词字符串按其出现次数由高至低进行排序,并获得各个待处理分词字符串分别所对应的特征词向量;
步骤F.根据各个待处理分词字符串分别所对应的特征词向量,获得两两待处理分词字符串之间的相似度;
步骤G.基于步骤E中所获各个待处理分词字符串的排序,依次针对各待处理分词字符串,以两两待处理分词字符串之间相似度大于预设相似度阈值为依据,实现对各待处理分词字符串的划分,获得各个字符串子集;
步骤H.分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页中文本的各个关键信息;
执行完步骤H之后,进入步骤J;
步骤J.初始化v=1,获得各个字符串子集中、代表性分词字符串分别与相同字符串子集中其余各待处理分词字符串之间相似度的最小值,作为各个字符串子集所对应的相似度下限,然后将目标网页所对应待处理文本中各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K;
步骤K.分别针对各个第v级递进网页,按步骤A至步骤C的方法,获得第v级递进网页所对应的各个待处理分词字符串;进而获得各个第v级递进网页分别所对应的各个待处理分词字符串,然后进入步骤L;
步骤L.分别针对各个第v级递进网页,按步骤E中的方法,获得第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量;进而获得各个第v级递进网页所对应各个待处理分词字符串分别所对应的特征词向量,然后进入步骤M;
步骤M.分别针对各个第v级递进网页所对应的各个待处理分词字符串,获得待处理分词字符串所对应特征词向量分别与各代表性分词字符串所对应特征词向量之间的相似度,获得其中最高相似度所对应代表性分词字符串所在字符串子集对应的相似度下限,并判断该最高相似度是否大于该相似度下限,是则将该待处理分词字符串加入该字符串子集中,针对该字符串子集进行更新;否则删除该待处理分词字符串;待完成针对各个第v级递进网页所对应各个待处理分词字符串的上述操作后,然后进入步骤N;
步骤N.判断各个第v级递进网页所对应待处理文本中是否存在URL链接字符串,是则针对v的值进行加1更新,并将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,然后返回步骤K;否则进入步骤O;
步骤O.按步骤H的方法,分别获得各个字符串子集中的各个代表性分词字符串,即为目标网页及其各级递进网页中文本的各个关键信息。
2.根据权利要求1所述一种互联网关键数据信息采集提取方法,其特征在于:还包括步骤BC-1至步骤BC-2如下,执行完步骤B之后,进入步骤BC-1;
步骤BC-1.分别针对各个初级待处理分词字符串,按如下公式:
TF/ISFterm=TFterm*ISFterm
获得各个初级待处理分词字符串分别所对应的术语频率-逆句子频率值TF/ISFterm,其中,TFterm表示初级待处理分词字符串出现次数与待处理文本中所有初级待处理分词字符串出现次数总和的比值,ISFterm表示待处理文本中包含初级待处理分词字符的语句的数量,然后进入步骤BC-2;
步骤BC-2.按术语频率-逆句子频率值由大至小,针对各个初级待处理分词字符串进行排序,并根据预设选择比例b,顺序选择前
Figure FDA0003033256930000021
个初级待处理分词字符串,并删除其余各个初级待处理分词字符串,然后进入步骤C;其中,L表示步骤B中所获不同初级待处理分词字符串的个数,
Figure FDA0003033256930000022
表示向上取整。
3.根据权利要求1所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤J中,分别针对目标网页所对应待处理文本中各个URL链接字符串所对应的网页,首先基于各网页的初始级别,应用Pagerank方法按如下公式:
Figure FDA0003033256930000031
通过迭代运算,获得各URL链接字符串分别所对应网页的页面级别,其中,A表示网页,PR(A)表示网页A的页面级别,d为预设衰减系数,0<d<1,T1、…、Tn表示包含网页A的URL链接字符串的其它各个网页,PR(T1)表示网页T1的页面级别,C(T1)表示网页T1中包含其它网页的URL链接字符串的数量,PR(Tn)表示网页Tn的页面级别,C(Tn)表示网页Tn中包含其它网页的URL链接字符串的数量;
然后选择其中页面级别大于预设级别的各URL链接字符串,然后将该各个URL链接字符串分别所对应的网页,作为各个第v级递进网页,并进入步骤K。
4.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤G包括如下步骤G1至步骤G5;
步骤G1.初始化n=1,m=1,并基于步骤E中所获各个待处理分词字符串的排序,以及两两待处理分词字符串之间的相似度,进入步骤G2;
步骤G2.构建包含排序中第n个待处理分词字符串的第m个字符串子集,并定义第n个待处理分词字符串构成待划分处理分词字符串,然后针对n的值进行加1更新,进入步骤G3;
步骤G3.判断排序中第n个待处理分词字符串与待划分处理分词字符串之间的相似度是否大于预设相似度阈值,是则将第n个待处理分词字符串加入第m个字符串子集中,更新第m个字符串子集,然后进入步骤G4;否则直接进入步骤G4;
步骤G4.判断n是否等于排序中待处理分词字符串的数量I,是则进入步骤G5;否则针对n的值进行加1更新,并返回步骤G3;
步骤G5.将第m个字符串子集中的各个待处理分词字符串由排序中删除,针对排序进行更新,并判断排序是否为空,是则即获得各个字符串子集,然后进入步骤H;否则重置n等于1,并针对m的值进行加1更新,然后返回步骤G2。
5.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤H中包括如下步骤H1至步骤H4;
步骤H1.分别针对字符串子集中的各个待处理分词字符串,获得待处理分词字符串分别与该字符串子集中其余各待处理分词字符串之间相似度的平均值,构成该待处理分词字符串所对应相似度平均值;进而获得该字符串子集中各待处理分词字符串分别所对应相似度平均值,然后进入步骤H2;
步骤H2.针对该字符串子集中各个待处理分词字符串的出现次数进行归一化,所获归一化结果构成该各个待处理分词字符串分别所对应的权重,然后进入步骤H3;
步骤H3.分别针对该字符串子集中的各个待处理分词字符串,由待处理分词字符串所对应权重与待处理分词字符串所对应相似度平均值的乘积,构成待处理分词字符串所对应的重要度指标,进而获得该待处理分词字符串分别所对应的重要度指标,然后进入步骤H4;
步骤H4.针对该字符串子集中的各个待处理分词字符串,按其所对应重要度指标由高至低进行排序,并根据预设筛选百分比a,顺序选择该排序中的前
Figure FDA0003033256930000041
个待处理分词字符串,作为该字符串子集中的代表性分词字符串,即为目标网页中文本的各个关键信息;其中,M表示该字符串子集中的待处理分词字符串的个数,
Figure FDA0003033256930000042
表示向上取整。
6.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤E中,应用word2vec方法,获得各个待处理分词字符串分别所对应的特征词向量。
7.根据权利要求1至3中任意一项所述一种互联网关键数据信息采集提取方法,其特征在于:所述步骤F中,根据各个待处理分词字符串分别所对应的特征词向量,按两两特征词向量之间的余弦距离,获得并构成两两待处理分词字符串之间的相似度。
CN202011412821.8A 2020-12-04 2020-12-04 一种互联网关键数据信息采集提取方法 Active CN112417296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011412821.8A CN112417296B (zh) 2020-12-04 2020-12-04 一种互联网关键数据信息采集提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011412821.8A CN112417296B (zh) 2020-12-04 2020-12-04 一种互联网关键数据信息采集提取方法

Publications (2)

Publication Number Publication Date
CN112417296A CN112417296A (zh) 2021-02-26
CN112417296B true CN112417296B (zh) 2021-06-15

Family

ID=74774889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011412821.8A Active CN112417296B (zh) 2020-12-04 2020-12-04 一种互联网关键数据信息采集提取方法

Country Status (1)

Country Link
CN (1) CN112417296B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627194B (zh) * 2021-10-13 2022-02-22 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN115455272B (zh) * 2022-09-13 2023-07-11 共青科技职业学院 页面数据处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US10747833B2 (en) * 2017-10-30 2020-08-18 Nio Usa, Inc. Personalized news recommendation engine
CN111753084A (zh) * 2020-06-04 2020-10-09 江南大学 一种短文本特征提取与分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649422B (zh) * 2016-06-12 2019-05-03 中国移动通信集团湖北有限公司 关键词提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US10747833B2 (en) * 2017-10-30 2020-08-18 Nio Usa, Inc. Personalized news recommendation engine
CN111753084A (zh) * 2020-06-04 2020-10-09 江南大学 一种短文本特征提取与分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于Pagerank的新闻关键词提取算法;顾亦然等;《电子科技大学学报》;20170930;第46卷(第5期);777—783 *
基于TestRank和簇过滤的林业文本关键信息抽取研究;陈志泊等;《农业机械学报》;20200531;第51卷(第5期);208—210 *
如何做好文本关键词提取?从三种算法说起;达观数据;《https://blog.csdn.net/DataGrand/article/details/84069460》;20181115;1—2 *
自动关键词抽取研究综述;赵京胜等;《软件学报》;20170930;第28卷(第9期);2431-2449 *

Also Published As

Publication number Publication date
CN112417296A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417296B (zh) 一种互联网关键数据信息采集提取方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN101079031A (zh) 一种网页主题提取系统和方法
CN111753550A (zh) 一种自然语言的语义解析方法
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN113255340B (zh) 面向科技需求的主题提取方法、装置和存储介质
JP3364242B2 (ja) 人工的神経回路網のリンク学習装置
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN107908757B (zh) 网站分类方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN106202349B (zh) 网页分类字典生成方法及装置
CN113515742A (zh) 基于行为语义融合萃取的物联网恶意代码检测方法
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN112785095A (zh) 贷款预测方法、装置、电子设备和计算机可读存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN114879945B (zh) 面向长尾分布特征的多样化api序列推荐方法及装置
CN113836395B (zh) 一种基于异构信息网络的服务开发者按需推荐方法及系统
CN112183069B (zh) 一种基于历史关键词投放数据的关键词构建方法及系统
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN114328923A (zh) 一种基于多任务双边分支网络的引文意图分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant