CN112732668A - 一种大数据网页存储和分析的方法 - Google Patents

一种大数据网页存储和分析的方法 Download PDF

Info

Publication number
CN112732668A
CN112732668A CN202110081240.9A CN202110081240A CN112732668A CN 112732668 A CN112732668 A CN 112732668A CN 202110081240 A CN202110081240 A CN 202110081240A CN 112732668 A CN112732668 A CN 112732668A
Authority
CN
China
Prior art keywords
enterprise
data
name
stores
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110081240.9A
Other languages
English (en)
Inventor
陈娟妮
李国涛
张明哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110081240.9A priority Critical patent/CN112732668A/zh
Publication of CN112732668A publication Critical patent/CN112732668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及大数据技术领域,具体提供了一种大数据网页存储和分析的方法,具有以下步骤:S1、将待分析的网页数据按网站站点划分存储在HDFS文件中,采用Hive表关联此HDFS数据;S2、采用Spark程序读取步骤S1存储在Hive表中的数据,提取出企业名称信息,并将企业名称相关信息存储到Hive表中;S3、对每个企业名称进行分词处理,并将分词结果存储在Hive表中;S4、依据步骤S3的真实企业名称分词结果表进行分类匹配;S5、为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称。与现有技术相比,本发明具有广泛适用性,支持水平扩展,对于涉及网页存储和分析的业务都可以普遍适用。

Description

一种大数据网页存储和分析的方法
技术领域
本发明涉及大数据技术领域,具体提供一种大数据网页存储和分析的方法。
背景技术
在信息化时代,广大互联网用户都可以通过各个平台发表对企业的评价,企业想从这些评价中得到互联网用户对企业的认可度。实际上,互联网用户针对企业的评价五花八门,大多评价是文本信息、口语化的语言描述,并且网络信息复杂且庞大,要从中分析出企业想要的信息,从架构上来说非常困难。
传统的关系数据库可以存储有限的网页数据,单台机器的应有可以支持有限的网页数据分析,随着数据越来越庞大,这些存储和分析架构及能力远远不足以支持广大互联网数据的存储和分析。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的大数据网页存储和分析的方法。
本发明解决其技术问题所采用的技术方案是:
一种大数据网页存储和分析的方法,具有以下步骤:
S1、将待分析的网页数据按网站站点划分存储在HDFS文件中,采用Hive表关联此HDFS数据;
S2、采用Spark程序读取步骤S1存储在Hive表中的数据,关联预先提供的对文本数据进行分词的程序包,对网页内容进行分词分析,提取出企业名称信息,并将企业名称相关信息存储到Hive表中。
S3、将真实的企业名册上传至HDFS目录,采用Spark程序读取企业名册中的数据,并关联预先提供的分词程序包,对每个企业名称进行分词处理,并将分词结果存储在Hive表中;
S4、采用Spark程序,关联查询步骤S2和步骤S3的处理结果表,对步骤S2中得到的企业名称,依据步骤S3的真实企业名称分词结果表进行分类匹配,计算匹配度,并将计算结果存储到HBase表;
S5、上层应用用于查询HBase表中的数据,为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称,用于后续的分析提供信息。
进一步的,在步骤S1中,分析站点net1和站点net2中面向企业评价的数据时,可创建HDFS文件/mysite/net1.csv来存储站点net1的信息,创建HDFS文件/mysite/net2.csv来存储站点net2的信息,存储文件格式为csv格式。
作为优选,CSV文件中包含pageid、comurl、site、cominfo、dt,其中,所述pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,cominfo中存储网页内容,dt中存储日期信息。
进一步的,在步骤S2中,采用Spark程序,Spark直接使用Hive的元数据;
编写Spark程序,读取存放网页数据的Hive表,加载对文本数据进行分词的程序包,采用Spark对数据进行分片,然后,关联对文本数据进行分词的程序包对cominfo的数据进行分词处理,将分词处理后的结果数据存储到Hive表。
进一步的,在步骤S2中,在Hive表中,pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,virorgname存储上述分词得到的企业名称,sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引,eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引,dt中存储日期信息。
进一步的,在步骤S3中,预先设置企业名册,所述企业名册中包含真实的企业名称信息,将企业名称信息进行分词并存储到Hive表中。
进一步的,企业名册数据存储为CSV格式,一列存储企业ID,一列存储企业名称,将该企业名册文件上传到HDFS目录/myorg/rcom,创建Hive表关联此文件。
进一步的,在步骤S4中,采用Spark程序读取此Hive表,加载预先提供的分词程序包,对orgname对应的企业名称进行分词处理,分词结果存储到Hive表中。
进一步的,在步骤S4中,areacode存储企业所在地域id,orgid存储企业id,orgname存储企业名称,对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry和orgtype中,其中,orgarea存储企业名称中的地域信息,orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别,orgtype存储企业性质。
进一步的,在步骤S5中,采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表,对每一条从网页内容识别出的企业名称,从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry和orgtype四个维度计算匹配度,从中分析出目标网页内容及匹配度信息,将计算结果存储到HBase数据库中。
本发明的一种大数据网页存储和分析的方法和现有技术相比,具有以下突出的有益效果:
本发明从架构角度提供从网页数据存储、分析的解决方案,针对网页数据的存储提供了详细的方案说明,并说明了网页数据分析的解决方案。该技术架构具有广泛适用性,支持水平扩展,对于涉及网页存储和分析的业务都可以普遍适用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是本发明中待分析的网页数据存储流程示意图;
附图2是本发明中计算待分析网页数据的流程示意图;
附图3是本发明中对真实企业名称进行分词处理并存储的流程示意图;
附图4是本发明中对存储结构数据进行关联查询分析并存储的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1-4所示,本实施例中的一种大数据网页存储和分析的方法,考虑到互联网网页数据的特点是网页来源不同网站,网页文件数目多,网页内容小。因此,直接采用HDFS作为网页文件的存储并不是最佳方式,因为Hadoop体系的分布式文件存储HDFS不适用于存储大量小文件。
因此,本发明的方案为,分网站站点存储到HDFS中,按照网站站点创建HDFS文件,将该网站站点下的所有网页数据都存储到该HDFS文件中。考虑到既需要存储网页来源又需要存储网页内容,因此选择csv格式作为存储文件格式。
具体的步骤为:
S1、将待分析的网页数据按网站站点划分存储在HDFS文件中,采用Hive表关联此HDFS数据。
当需要分析站点net1和站点net2中面向企业评价的数据时,可创建HDFS文件/mysite/net1.csv来存储站点net1的信息,创建HDFS文件/mysite/net2.csv来存储站点net2的信息。其中,CSV文件可根据需求设置,本实施例中的CSV文件包含pageid、comurl、site、cominfo和dt,其中,pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,cominfo中存储网页内容(比如互联网用户的评论信息),dt中存储日期信息。
由于存储到HDFS的数据是CSV格式的,为方便后续分析,创建一个Hive外部表关联上述存储网页数据的HDFS文件所在父目录,示例如下表:
Figure BDA0002909184460000041
S2、采用Spark程序读取步骤S1存储在Hive表中的数据,关联预先提供的对文本数据进行分词的程序包,对网页内容进行分词分析,提取出企业名称信息,并将企业名称相关信息存储到Hive表中。
有了Hive表之后,采用开源的分布式大数据计算产品Spark分析网页数据,其中Spark可直接使用Hive的元数据(即Hive表信息)。
cominfo中存储的网页内容是文本数据,可依据需求对文本数据进行分词,需要预先提供出能够对文本数据进行分词的程序包,该程序包能够根据输入的文本数据识别出其中出现的企业名称,该程序包不需要实现分布式调度功能。编写Spark程序,读取存放网页数据的Hive表;加载能够对文本数据进行分词的程序包;采用Spark自身特性对数据进行分片,然后关联能够对文本数据进行分词的程序包对cominfo的数据进行分词处理;将分词处理后的结果数据存储到Hive表。
基于上述示例,存储分词结果的Hive表示例如下表:
Figure BDA0002909184460000051
其中,pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,virorgname存储上述分词得到的企业名称,sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引,eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引,dt中存储日期信息。
上述,对cominfo中存储的网页内容进行分词处理并识别出企业名称的整个过程中,采用了大数据计算产品Hive和Spark,能够支持存储和计算的横向扩展,实现了分布式计算能力。
S3、将真实的企业名册上传至HDFS目录,采用Spark程序读取企业名册中的数据,并关联预先提供的分词程序包,对每个企业名称进行分词处理,并将分词结果存储在Hive表中。
从互联网的网页内容中识别出的企业名称,可能不是企业名称的全称,也可能是较常出现在企业名称中的部分名称,总之,该企业名称并不准确,可能不是企业想要的数据。这个时候就需要根据真实的企业名称和该企业名称进行比对分析,计算该企业名称和相似的真实的企业名称的匹配度。为实现此功能,需要预先设置企业名册,该企业名册中包含了真实的企业名称信息。由于从互联网的网页内容中识别出的企业名称存储在Hive表中,为方便比对计算,将该企业名册信息进行分词并存储到Hive表中。采用此方法可以快速便捷地采用Spark程序实现两张Hive表之间的数据关联查询和分析。
一般企业名册都是格式化的数据,可以将该企业名册数据存储为CSV格式,比如就包含两列,一列存储企业ID,一列存储企业名称。将该企业名册文件上传到HDFS目录/myorg/rcom,创建Hive表关联此文件,Hive示例如下:
Figure BDA0002909184460000052
Figure BDA0002909184460000061
S4、采用Spark程序,关联查询步骤S2和步骤S3的处理结果表,对步骤S2中得到的企业名称,依据步骤S3的真实企业名称分词结果表进行分类匹配,计算匹配度,并将计算结果存储到HBase表。
采用Spark程序读取此Hive表,加载预先提供的分词程序包,对orgname对应的企业名称进行分词处理,分词结果存储到Hive表中。该企业名称分词结果表的示例如下:
Figure BDA0002909184460000062
其中,areacode存储企业所在地域id,orgid存储企业id,orgname存储企业名称,对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry、orgtype中,其中,orgarea存储企业名称中的地域信息,orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别,orgtype存储企业性质。
S5、上层应用用于查询HBase表中的数据,为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称,用于后续的分析提供信息。
采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表,对每一条从网页内容识别出的企业名称,从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry、orgtype等四个维度计算匹配度,从中分析出目标网页内容及匹配度信息。计算结果存储到开源大数据产品HBase数据库中,方案中选择HBase的原因是由于HBase可以面向应用提供实时的数据查询能力。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种大数据网页存储和分析的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种大数据网页存储和分析的方法,其特征在于,具有以下步骤:
S1、将待分析的网页数据按网站站点划分存储在HDFS文件中,采用Hive表关联此HDFS数据;
S2、采用Spark程序读取步骤S1存储在Hive表中的数据,关联预先提供的对文本数据进行分词的程序包,对网页内容进行分词分析,提取出企业名称信息,并将企业名称相关信息存储到Hive表中。
S3、将真实的企业名册上传至HDFS目录,采用Spark程序读取企业名册中的数据,并关联预先提供的分词程序包,对每个企业名称进行分词处理,并将分词结果存储在Hive表中;
S4、采用Spark程序,关联查询步骤S2和步骤S3的处理结果表,对步骤S2中得到的企业名称,依据步骤S3的真实企业名称分词结果表进行分类匹配,计算匹配度,并将计算结果存储到HBase表;
S5、上层应用用于查询HBase表中的数据,为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称,用于后续的分析提供信息。
2.根据权利要求1所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S1中,分析站点net1和站点net2中面向企业评价的数据时,可创建HDFS文件/mysite/net1.csv来存储站点net1的信息,创建HDFS文件/mysite/net2.csv来存储站点net2的信息,存储文件格式为csv格式。
3.根据权利要求2所述的一种大数据网页存储和分析的方法,其特征在于,CSV文件中包含pageid、comurl、site、cominfo、dt,其中,所述pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,cominfo中存储网页内容,dt中存储日期信息。
4.根据权利要求1所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S2中,采用Spark程序,Spark直接使用Hive的元数据;
编写Spark程序,读取存放网页数据的Hive表,加载对文本数据进行分词的程序包,采用Spark对数据进行分片,然后,关联对文本数据进行分词的程序包对cominfo的数据进行分词处理,将分词处理后的结果数据存储到Hive表。
5.根据权利要求4所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S2中,在Hive表中,pageid中存储网页唯一标识,comurl中存储网页地址,site中存储网站地址,virorgname存储上述分词得到的企业名称,sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引,eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引,dt中存储日期信息。
6.根据权利要求1所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S3中,预先设置企业名册,所述企业名册中包含真实的企业名称信息,将企业名称信息进行分词并存储到Hive表中。
7.根据权利要求6所述的一种大数据网页存储和分析分方法,其特征在于,企业名册数据存储为CSV格式,一列存储企业ID,一列存储企业名称,将该企业名册文件上传到HDFS目录/myorg/rcom,创建Hive表关联此文件。
8.根据权利要求1所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S4中,采用Spark程序读取此Hive表,加载预先提供的分词程序包,对orgname对应的企业名称进行分词处理,分词结果存储到Hive表中。
9.根据权利要求8所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S4中,areacode存储企业所在地域id,orgid存储企业id,orgname存储企业名称,对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry和orgtype中,其中,orgarea存储企业名称中的地域信息,orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别,orgtype存储企业性质。
10.根据权利要求1所述的一种大数据网页存储和分析的方法,其特征在于,在步骤S5中,采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表,对每一条从网页内容识别出的企业名称,从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry和orgtype四个维度计算匹配度,从中分析出目标网页内容及匹配度信息,将计算结果存储到HBase数据库中。
CN202110081240.9A 2021-01-21 2021-01-21 一种大数据网页存储和分析的方法 Pending CN112732668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110081240.9A CN112732668A (zh) 2021-01-21 2021-01-21 一种大数据网页存储和分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081240.9A CN112732668A (zh) 2021-01-21 2021-01-21 一种大数据网页存储和分析的方法

Publications (1)

Publication Number Publication Date
CN112732668A true CN112732668A (zh) 2021-04-30

Family

ID=75594561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081240.9A Pending CN112732668A (zh) 2021-01-21 2021-01-21 一种大数据网页存储和分析的方法

Country Status (1)

Country Link
CN (1) CN112732668A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107463557A (zh) * 2016-06-05 2017-12-12 贵州双龙数联科技有限公司 一种企业位置信息存储系统
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN109947838A (zh) * 2019-03-26 2019-06-28 中国联合网络通信集团有限公司 一种存储数据的方法及装置
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN107463557A (zh) * 2016-06-05 2017-12-12 贵州双龙数联科技有限公司 一种企业位置信息存储系统
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN109947838A (zh) * 2019-03-26 2019-06-28 中国联合网络通信集团有限公司 一种存储数据的方法及装置
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱金山: "基于敏感词分析的高校舆情监控系统设计与实现", 《集宁师范学院学报》 *

Similar Documents

Publication Publication Date Title
JP6006327B2 (ja) 検索方法、検索装置及び検索エンジンシステム
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US8862566B2 (en) Systems and methods for intelligent parallel searching
US8688535B2 (en) Using model information groups in searching
CN110321408B (zh) 基于知识图谱的搜索方法、装置、计算机设备和存储介质
US20160034512A1 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
Mishler et al. Using structural topic modeling to detect events and cluster Twitter users in the Ukrainian crisis
Gomes et al. The importance of web archives for humanities
Anderka et al. A breakdown of quality flaws in Wikipedia
KR20130086005A (ko) 다수의 장치들에서 데이터 검색 방법 및 장치
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN115145871A (zh) 文件查询方法、装置和电子设备
CN108874814B (zh) 法律文书的处理方法及装置
CN113934869A (zh) 一种数据库构建方法、多媒体文件的检索方法及装置
Herrera-Melo Proposal for the Evaluation of Open Data Portals
CN112732668A (zh) 一种大数据网页存储和分析的方法
US10503773B2 (en) Tagging of documents and other resources to enhance their searchability
Piotrowski et al. Digital curation and open-source software in LAM-related publications
CN110858214B (zh) 推荐模型训练、及进一步审计程序推荐方法、装置及设备
CN111680072A (zh) 基于社交信息数据的划分系统及方法
US11210291B2 (en) Differential indexing for fast database search
CN112507203B (zh) 一种信息处理方法、装置、电子设备以及存储介质
CN116822502B (zh) 网页内容识别方法、装置、计算机设备和存储介质
JP5399988B2 (ja) 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430

RJ01 Rejection of invention patent application after publication