CN104572679B - 舆情数据存储方法和装置 - Google Patents

舆情数据存储方法和装置 Download PDF

Info

Publication number
CN104572679B
CN104572679B CN201310485075.9A CN201310485075A CN104572679B CN 104572679 B CN104572679 B CN 104572679B CN 201310485075 A CN201310485075 A CN 201310485075A CN 104572679 B CN104572679 B CN 104572679B
Authority
CN
China
Prior art keywords
public sentiment
sentiment data
history
data
cryptographic hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310485075.9A
Other languages
English (en)
Other versions
CN104572679A (zh
Inventor
刘巨安
王松
梁汝峰
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201310485075.9A priority Critical patent/CN104572679B/zh
Publication of CN104572679A publication Critical patent/CN104572679A/zh
Application granted granted Critical
Publication of CN104572679B publication Critical patent/CN104572679B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种舆情数据存储方法和装置,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。

Description

舆情数据存储方法和装置
技术领域
本发明涉及计算机技术,尤其涉及一种舆情数据存储方法和装置。
背景技术
随着互连网技术的不断发展,互联网逐渐成为信息传播的主要载体,进而衍生出对以互连网为载体所发布的文字形式的Web信息进行采集,从而获得舆情数据的技术,以对舆情数据进行分析处理进而保障互连网的信息安全。
现有技术中,通过对Web信息进行采集后,利用上载系统将采集获得的包含文章标题、正文、作者、发布时间、发布网站和网站的频道在内的舆情数据保存到数据库中,以进行后续的分析处理。
但由于以互连网为载体所传输的Web信息往往存在内容相互重复的情况,例如:转发的博客与首次发表的博客内容相互重复,因而对内容相互重复的Web信息进行采集所获得的舆情数据也会相互重复,现有技术会将相互重复的舆情数据均保存到数据库中,因而占用了存储空间,存储空间的利用率较低。
发明内容
本发明提供一种舆情数据存储方法和装置,用于解决存储空间的利用率较低的技术问题。
本发明的第一个方面是提供一种舆情数据存储方法,包括:
接收舆情数据;
利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
将所述目标舆情数据存储在所述数据库中。
本发明的另一个方面是提供一种舆情数据存储装置,包括:
接收模块,用于接收舆情数据;
计算模块,用于利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
筛选模块,用于根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
存储模块,用于将所述目标舆情数据存储在所述数据库中。
本发明提供的舆情数据存储方法和装置,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从接收到的舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
附图说明
图1为本发明一实施例提供的舆情数据存储方法的流程示意图;
图2为本发明另一实施例提供的舆情数据存储方法的流程示意图;
图3为本发明一实施例提供的舆情数据存储装置的结构示意图;
图4为本发明另一实施例提供的舆情数据存储装置的结构示意图。
具体实施方式
图1为本发明一实施例提供的舆情数据存储方法的流程示意图,本实施例所提供的方法可由上载系统实施,如图1所示,包括:
101、接收舆情数据。
可选的,预先约定舆情数据的文件格式,从而对接收到的舆情数据进行解析,获得网页信息列表形式的舆情数据。该舆情数据为至少一个,包括文章标题和正文。
102、利用哈希值算法对所述舆情数据进行计算,获得舆情数据的哈希值。
可选的,对舆情数据中的标题和正文进行过滤,从而过滤掉符号、人称代词和助词等无用字符,获得过滤后的文章标题和正文,记为抽样样本;根据预设的抽样文字块长度即每个抽样文字块所包含的字符数,将该抽样样本进行切分,获得多个抽样文字块;根据预设的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特征字符,每个特征字符的长度符合抽样词长度。根据该特征字符,利用MurmurHash算法(哈希值算法的一种),计算获得舆情数据的哈希值,以此作为该舆情数据的唯一标识。
或者可选的,直接利用哈希值算法对所述舆情数据中的标题和正文进行计算,例如采用CRC32算法、MD5算法、SHA-1算法和MurmurHash算法中的一种进行计算,获得舆情数据的哈希值,以此作为该舆情数据的唯一标识。
103、根据所述舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据。
其中,历史舆情数据是已存储在数据库中的舆情数据。历史舆情数据的哈希值是预先采用上述哈希值算法进行计算获得的。
104、将目标舆情数据存储在该数据库中。
本实施例中,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
图2为本发明另一实施例提供的舆情数据存储方法的流程示意图,本实施例所提供的方法可由上载系统实施,如图2所示,包括:
201、接收舆情数据。
其中,舆情数据包括文章标题、正文、发布时间和链接地址。作为一种特殊情况,若舆情数据中存在发布时间为空的情况,则将发布时间修改为当前时间。
202、将垃圾词库中存储的词汇与舆情数据中的文章标题和正文依次进行比对,确定舆情数据中的文章标题和正文中不存在垃圾词库中存储的词汇。
可选的,对舆情数据中的标题和正文进行过滤,过滤掉匹配上垃圾词库中的至少两个不同的垃圾词的舆情数据,将进行过滤后的舆情数据记为抽样样本。垃圾词库用于存储广告词和淫秽词。
203、利用哈希值算法对所述舆情数据进行计算,获得舆情数据的哈希值。
可选的,过滤掉舆情数据中的符号、人称代词和助词等无用字符后,根据预设的抽样文字块长度即每个抽样文字块所包含的字符数,将该抽样样本进行切分,获得多个抽样文字块;根据预设的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特征字符,每个特征字符的长度符合抽样词长度。根据该特征字符,利用MurmurHash算法,计算获得舆情数据的哈希值,以此作为该舆情数据的唯一标识。其中,抽样词数与抽样词长度的乘积不大于抽样文字块长度。
例如:记预设的抽样词数为n,抽样词长度w,每个抽样文字块长度为k,可每隔s个字符从抽样文字块中抽取一个特征字符,即间隔步长为s,其中,
s=(k-n*w)/(n–1)。
每间隔s个字符,从第x个抽样文字块Cx中抽取长度w的特征字符,记从全部的N个抽样文字块中抽取的特征字符的集合为S,
S={C1 0~k+C1 (k+s)~(2k+s)+…+C1 [(n-1)k+(n-1)s]~[nk+(n-1)s]}+{C2 0~k+C2 (k+s)~(2k+s)+…+C2 [(n -1)k+(n-1)s]~[nk+(n-1)s]}+…+{CN 0~k+CN (k+s)~(2k+s)+…+CN [(n-1)k+(n-1)s]~[nk+(n-1)s]}
其中Cx a~b表示从第x个抽样文字块中的第a个字符到第b个字符。
利用MurmurHash算法对上述集合S中的字符进行计算获得舆情数据的哈希值,该算法的伪代码为:
204、根据舆情数据中的发布时间,将舆情数据划分为近期舆情数据和远期舆情数据。
其中,近期舆情数据的发布时间与当前时间之间的差值不大于所述预设时长,例如3天。远期舆情数据的发布时间与当前时间之间的差值大于预设时长。
205、根据近期舆情数据的哈希值,从近期舆情数据中筛选出与内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据。
可选的,数据库包括内存数据库和磁盘数据库,内存数据库用于存储已存储时长不大于预设时长的历史舆情数据,磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据。预先利用所述哈希值算法对内存数据库中已存储的历史舆情数据进行计算,获得该历史舆情数据的哈希值,并进行存储。根据近期舆情数据的哈希值,采用Bloomfilter算法从近期舆情数据中筛选出与内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据。由于预设时间内,例如3天,重复的概率较大,因此,利用内存数据库可提高查询效率。
进一步,若预设时长为3天,还可对近期舆情数据进行进一步细分,以小时为单位,将内存数据库中的历史舆情数据划分在72个文件中存放,在同一个文件中存放的历史舆情数据的发布时间之间的差异不大于一个小时。定期淘汰或转存存储时间查过3天的历史舆情数据。
206、将第一样本舆情数据与远期舆情数据进行分块处理,划分为多个数据块。
可选的,将第一样本舆情数据与远期舆情数据进行分块处理的过程中,需要进行物理文件备份,以防止系统异常退出时,出现数据丢失的情况,从而当系统异常退出后,在系统再次启动时,可重新进行加载,并重新处理未完成分块处理的第一样本舆情数据与远期舆情数据。进行分块处理后,对数据块采用socket或http协议进行封装。
207、利用多个线程并行对该多个数据块进行根据远期舆情数据的哈希值,从各数据块中的远期舆情数据中筛选出与磁盘数据库中已存储的历史舆情数据不重复的第二样本舆情数据的处理。
208、确定目标舆情数据为第一样本舆情数据和第二样本舆情数据。
209、将目标舆情数据存储在所述数据库的内存数据库中。
可选的,将目标舆情数据转换为xml格式,存储到内存数据库中。当存储时长大于预设时长时,转存到磁盘数据库中。
本实施例中,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
图3为本发明一实施例提供的舆情数据存储装置的结构示意图,本实施例所提供的装置可设置于上载系统中,如图3所示,包括:接收模块31、计算模块32、筛选模块33和存储模块34。
接收模块31,用于接收舆情数据;
计算模块32,与接收模块31连接,用于利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
筛选模块33,与计算模块32连接,用于根据所述舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
可选的,筛选模块具体用于将所述舆情数据的哈希值与所述历史舆情数据的哈希值相比较,获得所述舆情数据中哈希值与所述历史舆情数据的哈希值不同的目标舆情数据。
存储模块34,与筛选模块33连接,用于将所述目标舆情数据存储在所述数据库中。
本实施例中,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
图4为本发明另一实施例提供的舆情数据存储装置的结构示意图,如图4所示,在上一实施例的基础上,本实施例中的数据库包括内存数据库和磁盘数据库,其中,内存数据库用于存储已存储时长不大于预设时长的历史舆情数据,磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据,另外,舆情数据包括发布时间,基于此,筛选模块33包括:划分单元331、第一筛选单元332、第二筛选单元333和确定单元334。
划分单元331,用于根据所述舆情数据中的发布时间,将所述舆情数据划分为近期舆情数据和远期舆情数据;所述近期舆情数据的发布时间与当前时间之间的差值不大于所述预设时长;所述远期舆情数据的发布时间与所述当前时间之间的差值大于所述预设时长;
第一筛选单元332,与划分单元331连接,用于根据所述近期舆情数据的哈希值,从所述近期舆情数据中筛选出与所述内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据。
第二筛选单元333,与划分单元331连接,用于根据所述远期舆情数据的哈希值,从所述远期舆情数据中筛选出与所述磁盘数据库中已存储的历史舆情数据不重复的第二样本舆情数据。
确定单元334,与第一筛选单元332和第二筛选单元333连接,用于确定所述目标舆情数据为所述第一样本舆情数据和所述第二样本舆情数据。
进一步,存储模块34具体用于将所述目标舆情数据存储在数据库的内存数据库中。
进一步,舆情数据还包括文章标题和正文。
基于此,本实施例中的舆情数据存储装置,还包括:
比对模块35,与接收模块31和计算模块32连接,用于将垃圾词库中存储的词汇与所述舆情数据中的文章标题和正文依次进行比对,确定所述舆情数据中的文章标题和正文中不存在所述垃圾词库中存储的词汇。
本实施例中,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种舆情数据存储方法,其特征在于,包括:
接收舆情数据;
利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
将所述目标舆情数据存储在所述数据库中;
其中,所述数据库包括内存数据库和磁盘数据库;所述内存数据库用于存储已存储时长不大于预设时长的历史舆情数据;所述磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据;
所述舆情数据包括发布时间;
则所述根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据,包括:
根据所述舆情数据中的发布时间,将所述舆情数据划分为近期舆情数据和远期舆情数据;所述近期舆情数据的发布时间与当前时间之间的差值不大于所述预设时长;所述远期舆情数据的发布时间与所述当前时间之间的差值大于所述预设时长;
根据所述近期舆情数据的哈希值,从所述近期舆情数据中筛选出与所述内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据;
根据所述远期舆情数据的哈希值,从所述远期舆情数据中筛选出与所述磁盘数据库中已存储的历史舆情数据不重复的第二样本舆情数据;
确定所述目标舆情数据为所述第一样本舆情数据和所述第二样本舆情数据。
2.根据权利要求1所述的舆情数据存储方法,其特征在于,所述根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据,包括:
将所述舆情数据的哈希值与所述历史舆情数据的哈希值相比较,获得所述舆情数据中哈希值与所述历史舆情数据的哈希值不同的目标舆情数据。
3.根据权利要求1所述的舆情数据存储方法,其特征在于,所述将所述目标舆情数据存储在所述数据库中包括:
将所述目标舆情数据存储在所述数据库的内存数据库中。
4.根据权利要求3所述的舆情数据存储方法,其特征在于,所述舆情数据还包括文章标题和正文;
则所述利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值之前,还包括:
将垃圾词库中存储的词汇与所述舆情数据中的文章标题和正文依次进行比对,确定所述舆情数据中的文章标题和正文中不存在所述垃圾词库中存储的词汇。
5.一种舆情数据存储装置,其特征在于,包括:
接收模块,用于接收舆情数据;
计算模块,用于利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
筛选模块,用于根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
存储模块,用于将所述目标舆情数据存储在所述数据库中;
所述数据库包括内存数据库和磁盘数据库;所述内存数据库用于存储已存储时长不大于预设时长的历史舆情数据;所述磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据;
所述舆情数据包括发布时间;
则所述筛选模块,包括:
划分单元,用于根据所述舆情数据中的发布时间,将所述舆情数据划分为近期舆情数据和远期舆情数据;所述近期舆情数据的发布时间与当前时间之间的差值不大于所述预设时长;所述远期舆情数据的发布时间与所述当前时间之间的差值大于所述预设时长;
第一筛选单元,用于根据所述近期舆情数据的哈希值,从所述近期舆情数据中筛选出与所述内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据;
第二筛选单元,用于根据所述远期舆情数据的哈希值,从所述远期舆情数据中筛选出与所述磁盘数据库中已存储的历史舆情数据不重复的第二样本舆情数据;
确定单元,用于确定所述目标舆情数据为所述第一样本舆情数据和所述第二样本舆情数据。
6.根据权利要求5所述的舆情数据存储装置,其特征在于,
所述筛选模块具体用于将所述舆情数据的哈希值与所述历史舆情数据的哈希值相比较,获得所述舆情数据中哈希值与所述历史舆情数据的哈希值不同的目标舆情数据。
7.根据权利要求5所述的舆情数据存储装置,其特征在于,所述存储模块具体用于将所述目标舆情数据存储在所述数据库的内存数据库中。
8.根据权利要求7所述的舆情数据存储装置,其特征在于,所述舆情数据还包括文章标题和正文;
则所述舆情数据存储装置,还包括:
比对模块,用于将垃圾词库中存储的词汇与所述舆情数据中的文章标题和正文依次进行比对,确定所述舆情数据中的文章标题和正文中不存在所述垃圾词库中存储的词汇。
CN201310485075.9A 2013-10-16 2013-10-16 舆情数据存储方法和装置 Expired - Fee Related CN104572679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310485075.9A CN104572679B (zh) 2013-10-16 2013-10-16 舆情数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310485075.9A CN104572679B (zh) 2013-10-16 2013-10-16 舆情数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN104572679A CN104572679A (zh) 2015-04-29
CN104572679B true CN104572679B (zh) 2017-11-03

Family

ID=53088772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310485075.9A Expired - Fee Related CN104572679B (zh) 2013-10-16 2013-10-16 舆情数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN104572679B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547777A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN106547780A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN107704732B (zh) * 2017-08-30 2020-12-01 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN107784083A (zh) * 2017-09-30 2018-03-09 北京合力智联科技有限公司 一种网络舆情信息有效性的自动识别处理方法
CN110909233A (zh) * 2018-08-27 2020-03-24 中移(苏州)软件技术有限公司 一种舆情分析方法及电子设备
CN112132368A (zh) * 2019-06-06 2020-12-25 阿里巴巴集团控股有限公司 信息处理方法以及装置、计算设备、存储介质
CN110750731B (zh) * 2019-09-27 2023-10-27 成都数联铭品科技有限公司 针对新闻舆情的去重方法及系统
CN111047427A (zh) * 2019-11-26 2020-04-21 深圳市卡牛科技有限公司 数据上报方法、装置、服务器及存储介质
CN111259361B (zh) * 2020-03-13 2021-07-16 河南工业职业技术学院 一种桥梁工程造价系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN102567538A (zh) * 2011-12-31 2012-07-11 上海聚力传媒技术有限公司 提供与用户视频操作相对应的目标访问信息的方法和设备
CN103092950A (zh) * 2013-01-15 2013-05-08 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5391705B2 (ja) * 2009-01-27 2014-01-15 日本電気株式会社 ストレージシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN102567538A (zh) * 2011-12-31 2012-07-11 上海聚力传媒技术有限公司 提供与用户视频操作相对应的目标访问信息的方法和设备
CN103092950A (zh) * 2013-01-15 2013-05-08 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法

Also Published As

Publication number Publication date
CN104572679A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104572679B (zh) 舆情数据存储方法和装置
CN102016789B (zh) 数据处理装置和处理数据的方法
US9129007B2 (en) Indexing and querying hash sequence matrices
US11734364B2 (en) Method and system for document similarity analysis
US11568018B2 (en) Utilizing machine-learning models to generate identifier embeddings and determine digital connections between digital content items
US20140344195A1 (en) System and method for machine learning and classifying data
CN104123280B (zh) 文件比对方法和设备
CN102870116B (zh) 内容匹配方法和装置
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN105653984A (zh) 文件指纹校验方法及装置
CN106777398A (zh) 一种csv文件的生成方法及装置
CN106874399A (zh) 一种联网备份系统及备份方法
CN103186621B (zh) 一种目录生成方法和装置
CN102567521A (zh) 网页数据抓取过滤方法
Cuong et al. Scholarly document information extraction using extensible features for efficient higher order semi-CRFs
CN106407288B (zh) 一种信息同步更新的方法及系统
CN108874814A (zh) 法律文书的处理方法及装置
CN112559465B (zh) 一种日志压缩方法、装置、电子设备及存储介质
US8984028B2 (en) Systems and methods for storing data and eliminating redundancy
CN110019763A (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN105589683B (zh) 样本抽取方法和装置
AU2022204712B2 (en) Extracting content from freeform text samples into custom fields in a software application
Yin et al. Content‐Based Image Retrial Based on Hadoop
CN113656466B (zh) 保单数据查询方法、装置、设备及存储介质
Srikantha et al. A fast algorithm for exact sequence search in biological sequences using polyphase decomposition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171103

CF01 Termination of patent right due to non-payment of annual fee