CN116561456A - 信息筛选方法、装置和计算机设备 - Google Patents
信息筛选方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN116561456A CN116561456A CN202310478584.2A CN202310478584A CN116561456A CN 116561456 A CN116561456 A CN 116561456A CN 202310478584 A CN202310478584 A CN 202310478584A CN 116561456 A CN116561456 A CN 116561456A
- Authority
- CN
- China
- Prior art keywords
- identified
- information
- website
- websites
- screened
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004590 computer program Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 abstract description 5
- 239000002699 waste material Substances 0.000 abstract description 5
- 238000012544 monitoring process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息筛选方法、装置、计算机设备、存储介质和计算机程序产品。所述信息筛选方法,包括:获取目标网址对应网站包含的待筛选信息;根据预存的网站标识,从待筛选信息中提取出目标网址对应网站包含的待识别网址;根据预设的关键词表单,确定待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;根据识别结果,进行待识别网址的筛选。通过该种设置,避免了因为对不相关网站的人力筛除而造成的人力物力的浪费,使得监控到的网站更符合用户需求,处理器能够自动更新扩展需要进行监控的网站,使得最终获取到的网站信息更加全面。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种信息筛选方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着网络的发展和应用,人们日常生活中的各类信息与网络更为紧密地结合在一起,越来越多的互联网公司开始重视数据的应用,从庞杂的数据背后挖掘、分析用户的行为和喜好,并结合用户需求有针对性地调整和优化企业自身。
然而,对网站中的数据进行监控分析,需要建立在网站的网址已知的前提下,通常,互联网公司需要员工人工筛选具有监控价值的网站,并采集这些网站的网址,但由于现代网络的高速发展,过于庞大的网站数量会给人工筛选步骤带来极大的工作量,人工采集存在商机的网址不仅速度较慢,且筛选网站的标准无法实现统一,这不仅会造成大量的人力物力浪费,还会造成企业无法及时、全面的采集行业相关数据。
发明内容
基于此,有必要针对上述技术问题,提供一种能够自动筛选存在商机的网址的信息筛选方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种信息筛选方法,包括:
获取目标网址对应网站包含的待筛选信息;
根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址;
根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;
根据所述识别结果,进行所述待识别网址的筛选。
在其中一个实施例中,所述根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址,包括:
将所述待筛选信息与所述网站标识进行匹配;
根据匹配成功的网站标识以及预存的所述网站标识与待筛选网址的一一对应关系,确定所述待筛选信息包含的待筛选网址;
将符合预设规则的待筛选网址作为所述待识别网址。
在其中一个实施例中,所述待识别信息包括待识别文本;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
将所述待识别文本与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
在其中一个实施例中,所述待识别信息包括待识别图片;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
提取所述待识别图片中的文本信息;
将提取出的文本信息与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
在其中一个实施例中,所述待识别信息包括待识别表格;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
提取所述待识别表格中的文本信息;
将提取出的文本信息与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
在其中一个实施例中,待识别信息包括依次排列的待识别子表格;且所述待识别表格包含至少一个所述待识别子表格;
所述提取所述待识别表格中的文本信息之前,包括:
将所述待识别子表格合并,形成所述待识别表格;
所述将所述待识别子表格合并,形成所述待识别表格,包括:
获取各所述待识别子表格的表头识别结果;
按照所述待识别子表格的排列顺序,将所述表头识别结果为不包含表头的待识别子表格与前一所述表头识别结果为包含表头的待识别子表格合并,形成所述待识别表格。
在其中一个实施例中,所述根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果,包括:
将匹配到的关键词的数量作为所述待识别信息中预设类型信息的识别结果;
所述根据所述识别结果,进行所述待识别网址的筛选,包括:
将所述数量未达到预设阈值的待识别网址去除,完成所述待识别网址的筛选。
第二方面,本申请还提供了一种信息筛选装置,包括:
获取模块,用于获取目标网址对应网站包含的待筛选信息;
第一提取模块,用于根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址;
确定模块,用于根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;
筛选模块,用于根据所述识别结果,进行所述待识别网址的筛选。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的信息筛选方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的信息筛选方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序产品被处理器执行时实现上述任一实施例所述的信息筛选方法。
上述信息筛选方法、装置、计算机设备、存储介质和计算机程序产品,通过预先存储的目标网址,自动提取目标网址对应网站中包含的待识别网址,将待识别网址对应网站作为候选的监控网站,从而实现了对监控网站的网址数量的自动扩展更新,随后提取待识别网址对应网站包含的待识别信息,结合关键词表单,获取各个待识别网址对应网站对应的识别结果,从而实现了对监控网站的信息的自动识别,并根据识别结果对待识别网址进行筛选,得到具有监控价值的网址,从而避免了因为对不相关网站的人力筛除而造成的人力物力的浪费,使得监控到的网站更符合用户需求,处理器能够自动更新扩展需要进行监控的网站,使得最终获取到的网站信息更加全面。
附图说明
图1为一个实施例中信息筛选方法的应用环境图;
图2为一个实施例中信息筛选方法的流程示意图;
图3为一个实施例中信息筛选方法的流程示意图;
图4为一个实施例中信息筛选方法的流程示意图;
图5为一个实施例中信息筛选方法的流程示意图;
图6为一个实施例中信息筛选方法的流程示意图;
图7为一个实施例中信息筛选方法的流程示意图;
图8为一个实施例中信息筛选方法的流程示意图;
图9为一个实施例中信息筛选装置的结构框图;
图10为一个实施例中信息筛选装置中提取模块的结构框图;
图11为一个实施例中信息筛选装置中确定模块的结构框图;
图12为一个实施例中信息筛选装置中确定模块的结构框图;
图13为一个实施例中信息筛选装置中确定模块的结构框图;
图14为一个实施例中信息筛选装置中确定模块的结构框图;
图15为一个实施例中信息筛选装置中合并单元的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的信息筛选方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。
例如,信息筛选方法应用于终端102,终端102首先获取目标网址对应网站包含的待筛选信息;随后根据预存的网站标识,从待筛选信息中提取出目标网址对应网站包含的待识别网址;提取待识别网址对应网站包含的待识别信息;最后终端102根据预设的关键词表单,确定待识别信息中预设类型信息的识别结果,并把识别结果发送给服务器104,服务器104将识别结果保存至数据存储系统中,其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接,例如通过网络连接。
又例如,信息筛选方法应用于服务器104,服务器104可以从终端102处获取目标网址,随后获取目标网址对应网站包含的待筛选信息;根据预存的网站标识,从待筛选信息中提取出目标网址对应网站包含的待识别网址;提取待识别网址对应网站包含的待识别信息;最后服务器104根据预设的关键词表单,确定待识别信息中预设类型信息的识别结果,并把识别结果保存至数据存储系统中。可以理解的是,数据存储系统可为独立的存储设备,或者该数据存储系统位于服务器上,或者该数据存储系统位于另一终端上。
在一个实施例中,提供了一种信息筛选方法,本实施例以该信息筛选方法应用于处理器进行举例说明,可以理解的是,该处理器可位于终端或服务器上。如图2所示,该信息筛选方法包括:
步骤202、获取目标网址对应网站包含的待筛选信息。
目标网址指的可以是处理器预先存储的网址,用户可以将存在监控价值的网址预先存入处理器。
待筛选信息指的可以是目标网址对应网站中包含的文本、图片、表格、统一资源定位符(Uniform Resource Locator,URL)等信息内容。
处理器可以按照预先设置的处理频率,从数据存储系统中提取出预先存储的目标网址,并进一步从目标网址对应网站中提取出网站包含的文本、图片、表格等信息内容。
步骤204、根据预存的网站标识,从待筛选信息中提取出目标网址对应网站包含的待识别网址。
网站标识是可以为字母、字符或数字中的至少一种组成。网站标识用于唯一标识对应的网址,本实施例的处理器中预存有网站标识与多个网址的一一映射关系。
作为示例,在步骤202获取目标网址对应网站包含的文本、图片、表格等信息内容后,可以提取图片、表格包含的文本内容,将待筛选信息中多种形式的信息均转化为文本类型,随后将待筛选信息中包含的文本、图片、表格等信息内容对应的文本内容与网站标识进行匹配,并从预存的网站标识与多个网址的一一映射关系中,提取出匹配成功的网站标识对应的网址,作为待识别网址;又或者,获取目标网址对应网站包含的所有URL,将URL与网站标识进行匹配,并从预存的网站标识与多个网址的一一映射关系中,提取出匹配成功的网站标识对应的网址,作为待识别网址,在该实施例中,网站标识可以是URL的形式。
待识别网址指的是目标网址对应网站中包含的、可跳转至其他网站的网址信息,或目标网址对应网站中涉及的网址信息。
作为示例,还可以对待筛选信息进行正则匹配,网站标识可以是正则表达式的形式,将待筛选信息中包含的正则表达式与网站标识进行匹配,得到待识别网址。
步骤206、根据预设的关键词表单,确定待识别网址对应网站包含的待识别信息中预设类型信息的识别结果。
待识别信息指的可以是待识别网址对应网站中包含的文本、图片、表格、统一资源定位符(Uniform Resource Locator,URL)等信息内容。
预设的关键词表单指的是包含多种类型的词汇的表单,关键词表单可以包含多种预设类型的词汇,各预设类型的词汇与预设类型信息一一对应,预设类型信息指的是被用户提前划分成不同类型的信息。例如可以是金融信息类型、线上销售类型等。作为示例,金融信息类型的关键词可以包括“账户”“收入”“支出”“扣款”“余额”以及线上销售类型的关键词可以包括“活动”“充值”“热卖”“福利”“免费”“超值”等。
识别结果指的可以是待识别信息与关键词表单的匹配结果。
本实施例中,处理器在提取到待识别网址后,首先获取待识别网址对应网站中包含的待识别信息,随后将待识别信息与预设的关键词表单进行比对匹配,获取待识别信息中与各个预设类型中关键词的匹配结果,得到识别结果。
步骤208、根据识别结果,进行待识别网址的筛选。
处理器根据待识别网址对应网站中包含的待识别信息与各个预设类型中关键词的匹配结果,进行待识别网址的筛选,以获取具有监控价值的网址信息。
在一种实施例中,筛选后的待识别网址可以作为目标网址,从而实现具有监控价值的网址信息的自动更新和迭代扩展。
上述信息筛选方法中,处理器能够根据预先存储的目标网址,自动提取目标网址对应网站中包含的待识别网址,将待识别网址对应网站作为候选的监控网站,随后提取待识别网址对应网站包含的待识别信息,结合关键词表单,获取各个待识别网址对应网站对应的识别结果,并根据识别结果对待识别网址进行筛选,得到具有监控价值的网址,通过该种设置,实现了监控网站的网址数量的自动扩展更新,以及对监控网站的信息的自动识别,避免了因为对不相关网站的人力筛除而造成的人力物力的浪费,使得监控到的网站更符合用户需求,处理器能够自动更新扩展需要进行监控的网站,使得最终获取到的网站信息更加全面。
如图3所示,在一些可选的实施例中,步骤204包括:
步骤2042、将待筛选信息与网站标识进行匹配;
步骤2044、根据匹配成功的网站标识以及预存的网站标识与待筛选网址的一一对应关系,确定待筛选信息包含的待筛选网址;
步骤2046、将符合预设规则的待筛选网址作为待识别网址。
作为示例,待识别信息包含了待识别网址对应网站中包含的所有URL,网站标识可以是至少一个URL,将网站标识与待识别信息进行匹配,进一步从网站标识与待筛选网址的一一对应关系中,获取匹配成功的URL对应的待筛选网址。
作为示例,预设规则指的可以是处理器预先保存的正则表达式,当待筛选网址对应的正则表达式与预设规则中的正则表达式对应时,认为待筛选网址符合预设规则,否则,认为待筛选网址不符合预设规则,将符合预设规则的待筛选网址作为待识别网址。
如图4所示,在一些可选的实施例中,待识别信息包括待识别文本;
步骤206包括:
步骤2062、将待识别文本与关键词表单进行匹配;
步骤2064、根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
待识别信息包括了待识别网址对应网站中包含的所有文本信息,处理器将待识别网址对应网站中包含的所有文本信息与关键词表单进行匹配,进一步提取出待识别网址对应网站中包含的所有文本信息与关键词表单匹配成功的关键词,从而确定识别结果。
如图5所示,在一些可选的实施例中,待识别信息包括待识别图片;
步骤206包括:
步骤2066、提取待识别图片中的文本信息;
步骤2068、将提取出的文本信息与关键词表单进行匹配;
步骤20610、根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
待识别信息包括了待识别网址对应网站中包含的所有图片,处理器首先提取待识别网址对应网站中所有图片中的文本信息,并进一步将文本信息与关键词表单进行匹配,随后提取出待识别网址对应网站中包含的所有文本信息与关键词表单匹配成功的关键词,从而确定识别结果。
如图6所示,在一些可选的实施例中,待识别信息包括待识别表格;
步骤206包括:
步骤20612、提取待识别表格中的文本信息;
步骤20614、将提取出的文本信息与关键词表单进行匹配;
步骤20616、根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
待识别信息包括了待识别网址对应网站中包含的所有表格,处理器首先提取待识别网址对应网站中所有表格中的文本信息,并进一步将文本信息与关键词表单进行匹配,随后提取出待识别网址对应网站中包含的所有文本信息与关键词表单匹配成功的关键词,从而确定识别结果。
如图7-8所示,在一些可选的实施例中,待识别信息包括依次排列的待识别子表格;且待识别表格包含至少一个待识别子表格;
步骤20612之前,包括:
步骤20611、将待识别子表格合并,形成待识别表格;
步骤20611包括:
步骤206112、获取各待识别子表格的表头识别结果;
步骤206114、按照待识别子表格的排列顺序,将表头识别结果为不包含表头的待识别子表格与前一表头识别结果为包含表头的待识别子表格合并,形成待识别表格。
由于待识别网址对应网站中的表格可能太大,处理器在提取待识别信息时,可能会将一个表格分为多个子表格进行显示,所以需要进行表格内容的合并。
作为示例,处理器可以通过所有待识别子表格中文本的字体、像素值等信息,筛选出待识别子表格中字体、像素值与前后待识别子表格中所有文本的字体、像素值均不相同的文本,作为当前待识别子表格中的表头。
其中,获取待识别子表格中的表头可以采用任意一种表头识别方法,只需能够实现对表头的识别提取即可,上述用于识别表头的方法仅为举例,而非对本申请的限制,任何根据待识别子表格的信息,确定待识别子表格包含的表头的实现方式,均应包含在本申请的保护范围内。
作为示例,待识别信息包括依次排列的待识别子表格A、B、C、D、E,表头识别结果中表示待识别子表格A和E中包含表头,则对于待识别子表格B、C、D来说,其对应的前一表头识别结果为包含表头的待识别子表格为A,因此将待识别子表格B、C、D与待识别子表格A进行合并,得到待识别表格。
在一些可选的实施例中,根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果的步骤包括:
将匹配到的关键词的数量作为待识别信息中预设类型信息的识别结果;
步骤208包括:将数量未达到预设阈值的待识别网址去除,完成待识别网址的筛选。
本实施例中,若待识别网址对应网站包含的待识别信息成功匹配到的关键词的数量达到预设阈值,则可以认为待识别网址存在监控价值,若待识别网址对应网站包含的待识别信息成功匹配到的关键词的数量未达到预设阈值,则可以认为待识别网址不存在监控价值。
上述信息筛选方法中,能够根据预先存储的目标网址,自动提取目标网址对应网站中包含的待识别网址,将待识别网址对应网站作为候选的监控网站,随后提取待识别网址对应网站包含的待识别信息,结合关键词表单,获取各个待识别网址对应网站对应的识别结果,并根据识别结果对待识别网址进行筛选,得到具有监控价值的网址,通过该种设置,实现了监控网站的网址数量的自动扩展更新,以及对监控网站的信息的自动识别,避免了因为对不相关网站的人力筛除而造成的人力物力的浪费,使得监控到的网站更符合用户需求,处理器能够自动更新扩展需要进行监控的网站,使得最终获取到的网站信息更加全面。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的存储器数据访问方法的存储器数据访问装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个存储器数据访问装置实施例中的具体限定可以参见上文中对于存储器数据访问方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种信息筛选装置900,包括:获取模块902、提取模块904、确定模块906和筛选模块908,其中:
获取模块902用于获取目标网址对应网站包含的待筛选信息;
提取模块904用于根据预存的网站标识,从待筛选信息中提取出目标网址对应网站包含的待识别网址;
确定模块906用于根据预设的关键词表单,确定待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;
筛选模块908用于根据识别结果,进行待识别网址的筛选。
如图10所示,在一些可选的实施例中,提取模块904包括:
第一匹配单元9042,用于将待筛选信息与网站标识进行匹配;
第一确定单元9044、用于根据匹配成功的网站标识以及预存的网站标识与待筛选网址的一一对应关系,确定待筛选信息包含的待筛选网址;
筛选单元9046、用于将符合预设规则的待筛选网址作为待识别网址。
如图11所示,在一些可选的实施例中,待识别信息包括待识别文本;
确定模块906包括:
第二匹配单元9062,用于将待识别文本与关键词表单进行匹配;
第二确定单元9064,用于根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
如图12所示,在一些可选的实施例中,待识别信息包括待识别图片;
确定模块906包括:
第一提取单元9066,用于提取待识别图片中的文本信息;
第三匹配单元9068,将提取出的文本信息与关键词表单进行匹配;
第三确定单元90610,根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
如图13所示,在一些可选的实施例中,待识别信息包括待识别表格;
确定模块906包括:
第二提取单元90612,提取待识别表格中的文本信息;
第四匹配单元90614,将提取出的文本信息与关键词表单进行匹配;
第四确定单元90616,根据匹配到的关键词,确定待识别信息中预设类型信息的识别结果。
如图14-15所示,在一些可选的实施例中,待识别信息包括依次排列的待识别子表格;且待识别表格包含至少一个待识别子表格;
确定模块906还包括:
合并单元90611,用于将待识别子表格合并,形成待识别表格;
合并单元90611包括:
获取组件906112,用于获取各待识别子表格的表头识别结果;
合并组件906114,用于按照待识别子表格的排列顺序,将表头识别结果为不包含表头的待识别子表格与前一表头识别结果为包含表头的待识别子表格合并,形成待识别表格。
上述信息筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息筛选方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图16出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述信息筛选方法的各个步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序产品被处理器执行时实现上述信息筛选方法的各个步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种信息筛选方法,其特征在于,包括:
获取目标网址对应网站包含的待筛选信息;
根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址;
根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;
根据所述识别结果,进行所述待识别网址的筛选。
2.根据权利要求1所述的方法,其特征在于,所述根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址,包括:
将所述待筛选信息与所述网站标识进行匹配;
根据匹配成功的网站标识以及预存的所述网站标识与待筛选网址的一一对应关系,确定所述待筛选信息包含的待筛选网址;
将符合预设规则的待筛选网址作为所述待识别网址。
3.根据权利要求1所述的方法,其特征在于,所述待识别信息包括待识别文本;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
将所述待识别文本与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
4.根据权利要求1所述的方法,其特征在于,所述待识别信息包括待识别图片;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
提取所述待识别图片中的文本信息;
将提取出的文本信息与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
5.根据权利要求1所述的方法,其特征在于,所述待识别信息包括待识别表格;
所述根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果,包括:
提取所述待识别表格中的文本信息;
将提取出的文本信息与所述关键词表单进行匹配;
根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果。
6.根据权利要求5所述的方法,其特征在于,所述待识别信息包括依次排列的待识别子表格;且所述待识别表格包含至少一个所述待识别子表格;
所述提取所述待识别表格中的文本信息之前,包括:
将所述待识别子表格合并,形成所述待识别表格;
所述将所述待识别子表格合并,形成所述待识别表格,包括:
获取各所述待识别子表格的表头识别结果;
按照所述待识别子表格的排列顺序,将所述表头识别结果为不包含表头的待识别子表格与前一所述表头识别结果为包含表头的待识别子表格合并,形成所述待识别表格。
7.根据权利要求3-6中任一项所述的方法,其特征在于,所述根据匹配到的关键词,确定所述待识别信息中预设类型信息的识别结果,包括:
将匹配到的关键词的数量作为所述待识别信息中预设类型信息的识别结果;
所述根据所述识别结果,进行所述待识别网址的筛选,包括:
将所述数量未达到预设阈值的待识别网址去除,完成所述待识别网址的筛选。
8.一种信息筛选装置,其特征在于,包括:
获取模块,用于获取目标网址对应网站包含的待筛选信息;
第一提取模块,用于根据预存的网站标识,从所述待筛选信息中提取出所述目标网址对应网站包含的待识别网址;
确定模块,用于根据预设的关键词表单,确定所述待识别网址对应网站包含的待识别信息中预设类型信息的识别结果;
筛选模块,用于根据所述识别结果,进行所述待识别网址的筛选。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的信息筛选方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的信息筛选方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的信息筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478584.2A CN116561456A (zh) | 2023-04-28 | 2023-04-28 | 信息筛选方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478584.2A CN116561456A (zh) | 2023-04-28 | 2023-04-28 | 信息筛选方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561456A true CN116561456A (zh) | 2023-08-08 |
Family
ID=87487252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310478584.2A Pending CN116561456A (zh) | 2023-04-28 | 2023-04-28 | 信息筛选方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561456A (zh) |
-
2023
- 2023-04-28 CN CN202310478584.2A patent/CN116561456A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3244312B1 (en) | A personal digital assistant | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN104765746B (zh) | 用于移动通讯终端浏览器的数据处理方法和装置 | |
CN112433712B (zh) | 报表展示方法、装置、计算机设备和存储介质 | |
CN112115113A (zh) | 数据存储系统、方法、装置、设备以及存储介质 | |
CN105808642B (zh) | 推荐方法及装置 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN111858278A (zh) | 基于大数据处理的日志分析方法、系统及可读存储装置 | |
CN113918738B (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN113656737A (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
CN114491093B (zh) | 多媒体资源推荐、对象表征网络的生成方法及装置 | |
CN116303657A (zh) | 群体画像生成方法、装置、计算机设备和存储介质 | |
CN116561456A (zh) | 信息筛选方法、装置和计算机设备 | |
CN112949670B (zh) | 用于联邦学习模型的数据集切换方法和装置 | |
CN117370645A (zh) | 页面展示方法、装置、计算机设备和存储介质 | |
CN117216164A (zh) | 金融数据同步处理方法、装置、设备、介质和程序产品 | |
CN110019352B (zh) | 用于存储数据的方法和装置 | |
CN115935933A (zh) | 一种清单分析方法、装置、计算机设备和存储介质 | |
CN117130606A (zh) | 前端页面配置方法、装置、计算机设备和存储介质 | |
CN116775186A (zh) | 页面数据处理方法、装置、计算机设备及存储介质 | |
CN116595054A (zh) | 交互状态确定方法、装置和计算机设备 | |
CN115905696A (zh) | 基于大数据筛选生成hcp画像的方法、系统、电子设备和存储介质 | |
CN118568357A (zh) | 推荐产品确定方法、装置、终端、服务器、介质及产品 | |
CN114741437A (zh) | 产品状态显示方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |