CN111367962B - 数据库的更新方法及装置、计算机可读存储介质、电子设备 - Google Patents
数据库的更新方法及装置、计算机可读存储介质、电子设备 Download PDFInfo
- Publication number
- CN111367962B CN111367962B CN202010128756.XA CN202010128756A CN111367962B CN 111367962 B CN111367962 B CN 111367962B CN 202010128756 A CN202010128756 A CN 202010128756A CN 111367962 B CN111367962 B CN 111367962B
- Authority
- CN
- China
- Prior art keywords
- data
- similarity
- content
- title
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims description 63
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 241001604129 Polydactylus Species 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 208000028571 Occupational disease Diseases 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据匹配的方法及装置、计算机可读存储介质、电子设备,该方法包括:从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取第一数据的下载地址;获取下载地址当前的显示数据为第二数据;确定第一数据和第二数据的相似度;若所确定的相似度不满足预设的相似阈值,则判定第一数据和第二数据不相同,并依据第二数据更新数据库。相比现有技术,本申请提供的方案可兼顾更新效率和数据的时效性。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据库的更新方法及装置、计算机可读存储介质、电子设备。
背景技术
随着互联网技术的快速发展,用户对时效性强的新闻行业的要求也越来越严格。目前很多新闻网站不仅仅发布月报、周报、日报,若发生突发事件还会不定时的更新热点新闻。但对于订阅新闻的用户来说,一般都是设定固定的时间点更新(比如,早上9点更新来阅读早间新闻,晚上7点更新来阅读当日新闻),或者设定固定时间段更新(比如,每天更新一次新闻,每半小时更新一次新闻)。
这样的更新方式将会导致更新效率和新闻时效性不可兼得。当用户将更新频率调低,就可能错过突发事件;当用户将更新频率调高,就会出现新闻网站没有新出的新闻,但用户侧不断更新本地数据库。
综上所述,现有的更新方法无法兼顾更新效率和时效性。
发明内容
本发明实施例提供了一种数据的更新方法及装置、计算机可读存储介质、电子设备,可在保证数据时效性的基础上,提升更新效率。
本发明实施例提供的一种数据的更新方法,该方法包括:
从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
获取所述下载地址当前的显示数据为第二数据;
确定所述第一数据和所述第二数据的相似度;
若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
较佳地,所述确定所述第一数据和所述第二数据的相似度的步骤,包括:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
较佳地,所述计算所述第一标题和所述第二标题的相似度的步骤,包括:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
较佳地,在所述计算所述第一标题和所述第二标题的相似度的步骤之后,在所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,该方法还包括:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
此时,所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤,包括:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
较佳地,所述计算所述第一内容和所述第二内容的相似度的步骤之前,该方法还包括:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述文本预处理的方法,包括:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
较佳地,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
较佳地,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
较佳地,所述获取所述第一数据的下载地址的步骤,包括:
获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
此时,所述获取所述下载地址当前的显示数据为第二数据的步骤,包括:
加载所述网页地址当前显示的网页,并从所述当前显示的网页中提取所述标签对应的数据,作为第二数据。
较佳地,该方法还包括:
若无法加载所述网页地址当前显示的网页,或无法从所述当前显示的网页中提取所述标签对应的数据,则暂停本次更新,并提示更新出现问题。
本发明实施例提供的一种数据的更新装置,该装置包括:
第一模块,用于从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
第二模块,用于获取所述下载地址当前的显示数据为第二数据;
第三模块,用于确定所述第一数据和所述第二数据的相似度;
第四模块,用于若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
较佳地,所述第三模块,具体用于:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
较佳地,所述第三模块在执行计算所述第一标题和所述第二标题的相似度的步骤时,具体用于:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
较佳地,所述第三模块在执行计算所述第一标题和所述第二标题的相似度的步骤之后,在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,还用于:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
所述第三模块在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤时,具体用于:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
较佳地,所述第三模块在执行计算所述第一内容和所述第二内容的相似度的步骤之前,还用于:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述第三模块在执行文本预处理时,具体用于:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
较佳地,所述第三模块在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同,不同的所述词语对应的索引不同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
较佳地,所述第三模块在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
较佳地,所述第一模块在执行获取所述第一数据的下载地址的步骤时,具体用于:
获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
所述第二模块在执行获取所述下载地址当前的显示数据为第二数据的步骤时,具体用于:
加载所述网页地址当前显示的网页,并从所述当前显示的网页中提取所述标签对应的数据,作为第二数据。
较佳地,所述第二模块还用于:
若无法加载所述网页地址当前显示的网页,或无法从所述当前显示的网页中提取所述标签对应的数据,则暂停本次更新,并提示更新出现问题。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种数据的更新方法步骤。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述一种数据的更新方法步骤。
本发明实施例提供了一种数据匹配的方法及装置、计算机可读存储介质、电子设备,本发明通过监控数据库中存储的数据与下载源的数据是否相同,来判断是否更新数据库,这样按需更新的方式能显示动态调整更新时间,从而一旦下载源更新数据,即第一时间对数据库中的数据进行更新,在保证了数据时效性的同时,提升更新效率。
附图说明
图1为本发明实施例一提供的一种数据更新的流程示意图;
图2为本发明实施例二提供的一种数据更新的流程示意图;
图3为本发明实施例三提供的一种数据更新的流程示意图;
图4为本发明实施例提供的一种数据的更新装置的结构示意图。
具体实施方式
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一:
参见图1,图1为本发明实施例提供的一种数据的更新方法的流程示意图,如图所示,该方法包括步骤S110~140:
S110、从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
S120、获取所述下载地址当前的显示数据为第二数据;
S130、确定所述第一数据和所述第二数据的相似度;
S140、若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
具体地,数据库存储数据的方法为:
从网站上抓取满足条件的数据,并将数据按照设定的格式存储在数据库中。例如,可按照表1的格式存储到数据库中:
表1
从数据库存储的数据中,确定更新时间最接近当前时间的数据,例如表1中更新时间为2020年02月20日的抗击某某动态的数据,即为第一数据。从数据库存储的数据中,获取下载抗击某某动态的数据的网页地址www.xinwen.com。加载该网页地址,得到该网页地址当前显示的网页,并确定当前显示的网页数据为第二数据。
为能够更有效率的确定所需的数据,可按照表2的格式存储到数据库中:
表2
从数据库存储的数据中,确定更新时间最接近当前时间的数据,例如表2中更新时间为2020年02月20日的抗击某某动态的数据,即为第一数据。从数据库存储的数据中,获取下载抗击某某动态的数据的网页地址www.xinwen.com,以及抗击某某动态的数据在该网页中位置。加载该网页地址,得到该网页地址当前显示的网页,并从当前显示的网页的该位置处提取数据,即为第二数据。具体地网页中的位置可以是网页编码的标签方式标注的(如表2所示)。
本申请提出一种数据的更新方式,摒弃了现有的周期性更新和定时更新,而是采用监测数据库中存储的数据与下载源的数据是否相同,来判断是否更新数据库,这样按需更新的方式能显示动态调整更新时间,从而一旦下载源更新数据,即第一时间对数据库中的数据进行更新,在保证了数据时效性的同时,提升更新效率。
实施例二:
为避免无法正常加载网页导致的更新问题,本发明实施例在实施例一的基础上,还包括:
判断网页地址当前显示的网页的加载是否正常,并判断从当前显示的网页中是否能正常提取标签对应的数据;
若任一判断结果是无法正常执行,则暂停本次更新,并触发报警机制。其中,报警机制可以是跳出弹窗来提示本次更新出现问题,也可以是通过给后台维护人员发邮件的方式通知本次更新出现问题。
实施例三:
参见图2,图2为本发明实施例提供的一种数据的更新方法的流程示意图,如图所示,该方法包括步骤S210~250:
S210、从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取第一数据的下载地址;
S220、获取该下载地址当前的显示数据为第二数据;
S230、从第一数据中提取第一数据对应的标题,作为第一标题,并从第二数据中提取第二数据对应的标题,作为第二标题;
S240、计算第一标题和第二标题的相似度,并确定计算得到的相似度为第一数据和第二数据的相似度;
S250、若所确定的相似度不满足预设的相似阈值,则判定第一数据和第二数据不相同,并依据第二数据更新该数据库。
具体地,计算第一标题和第二标题的相似度的方法,可以为:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
计算第一标题向量和第二标题向量的相似度,并确定计算得到的相似度为第一标题和第二标题的相似度。
本申请将标题向量化的方式可采用现有的词向量算法,将标题转化成文本向量,例如采用word2vec算法。计算标题向量的相似度的方法也可采用现有的文本相似度算法,例如采用余弦相似度算法、基于simHash计算文本相似度的算法、基于词移距离计算相似度的算法。
具体地,判断相似度是否满足预设的相似阈值的方法,可以为:
若所确定的相似度小于预设的相似阈值,则判定第一数据和第二数据不相同;若所确定的相似度大于或等于预设的相似阈值,则判定第一数据和第二数据相同。
实施例三:
参见图3,图3为本发明实施例提供的一种数据的更新方法的流程示意图,如图所示,该方法包括步骤S310~350:
S310、从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取第一数据的下载地址;
S320、获取该下载地址当前的显示数据为第二数据;
S330、从第一数据中提取第一数据对应的标题,作为第一标题,并从第二数据中提取第二数据对应的标题,作为第二标题;
S340、计算第一标题和第二标题的相似度,并根据所计算的相似度是否大于预设阈值,来判断第一标题和第二标题是否相似;
当第一标题和第二标题不相似时,从第一数据中提取第一数据对应的内容,作为第一内容,并从第二数据中提取第二数据对应的内容,作为第二内容;并计算第一内容和第二内容的相似度,确定第一内容和第二内容的相似度为第一数据和第二数据的相似度。
S350、若所确定的相似度不满足预设的相似阈值,则判定第一数据和第二数据不相同,并依据第二数据更新该数据库。
具体地,计算第一内容和第二内容的相似度的步骤,包括
将所提取的第一内容和第二内容向量化,得到第一内容向量和第二内容向量;
计算第一内容向量和第二内容向量的相似度,并确定计算得到的相似度为第一内容和第二内容的相似度。
其中,本申请将内容向量化的方法,包括步骤S341-342:
S341、基于jieba结巴分词算法,对内容文本进行分词,并对分词结果进行去噪处理,得到处理后文本;
S342、基于处理后文本中的词语,构建词典,通过查找所构建的词典,将处理后文本转换为文本向量。其中,每一词语在所构建的词典中均对应一索引,而且相同的词语对应的索引相同,或/和不同的词语对应的索引不同。
具体地,可基于第一处理后文本或/和第二处理后文本中的词语,构建词典。此外,为提升词典的时效性和构建效率,本申请实施例中可只基于第一处理后文本构建词典。由于第一数据包括标题和内容,因此,第一处理后文本中包括处理后的标题和处理后的内容,即,词典则是基于处理后的标题以及处理后的内容构建的。
假如内容文本为如下的文本:
“某国卫生部官员24日说,截至2005年底,某国各地报告的某病病人累计已超过60万例,职业病整体防治形势严峻。”
第一、对其进行分词得到的分词结果:
“某国/卫生部/官员/24日/说/,/截至/2005年底/,/某国/各地/报告/的/某病/病人/累计/已/超过/60万例/,/职业病/整体/防治/形势严峻/。/”
第二、对分词结果进行去噪处理得到的处理后文本:
“某国/卫生部/24日/2005年底/某国/某病/病人/60万例/职业病/防治/形势严峻/”
第三、对处理后文本中的词语进行排号构建词典。
{“某国”:1,“卫生部”:2,“24日”:3,“2005年底”:4,“某病”:5,“病人”:6,“60万例”:7,“职业病”:8,“防治”:9,“形势严峻”:10}
第四、将处理后文本转换为文本向量。
[2,1,1,1,1,1,1,1,1,1]
具体的去噪处理主要是去除单一重复的信息和无实际意义的信息,例如“666”,“棒棒棒”这种无实际意义的、单一重复的信息,也可以为与目标对象无关的信息,例如停用词和标点符号。
其中,本申请实施例将内容向量化的方法还可以采用基于TF-IDF模型,将处理后文本向量化。具体包括步骤S343-344:
S343、将内容文本切分成词组,得到处理后文本;
S344、将处理后文本中的词组转化为词向量,并对词向量进行词频加权,将处理后文本转换为文本向量。
具体可应用Google(谷歌)开源的工具包gensim.word2vec,将切分出的词组转化为词向量。在得到每个词组的词向量后,对各个词向量进行词频加权,得到处理后文本的文本向量。
例如,对于内容文本“赵某某的舞蹈真棒”,可以切分成词组:“赵某某的”、“舞蹈”、“真棒”,例如,转化为五维的词向量“0.1、0.2、0.3、0.4、0.5”“0.2、0.3、0.4、0.5、0.6”“0.3、0.4、0.5、0.6、0.7”,对转化出的数字进行词频统计,若收集到的样本信息有100个句子,其中有60个句子含有“赵某某的”,65个句子含有“舞蹈”,7个句子含有“真棒”,计算这句话中的TF-IDF(term frequency–inverse document frequency词频--反转文件频率)数为:
赵某某的:1/(1+1+1+1+1)*log(100/(1+60)=0.098
舞蹈:1/(1+1+1+1+1)*log(100/(1+65)=0.083
真棒:1/(1+1+1+1+1)*log(100/(1+7)=0.505
则这句话加权后的文本向量为:
0.098*[0.1,0.2,0.3,0.4,0.5]+0.083*[0.2,0.3,0.4,0.5,0.6]+
0.505*[0.3,0.4,0.5,0.6,0.7]=[0.1779,0.1877,0.3151,0.3332,0.4018]。
具体地,计算内容向量的相似度的方法也可采用现有的文本相似度算法,例如采用余弦相似度算法、基于simHash计算文本相似度的算法、基于词移距离计算相似度的算法。
参见图4,本发明实施例提供了一种数据匹配的装置,该装置包括:
第一模块410,用于从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,并获取所述第一数据的下载地址;
第二模块420,用于获取所述下载地址当前的显示数据为第二数据;
第三模块430,用于确定所述第一数据和所述第二数据的相似度;
第四模块440,用于若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
具体地,第三模块430具体用于:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
具体地,第三模块430在执行计算所述第一标题和所述第二标题的相似度的步骤时,具体用于:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
具体地,第三模块430在执行计算所述第一标题和所述第二标题的相似度的步骤之后,在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,还用于:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
所述第三模块430在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤时,具体用于:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
具体地,所述第三模块430在执行计算所述第一内容和所述第二内容的相似度的步骤之前,还用于:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述第三模块430在执行文本预处理时,具体用于:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
具体地,所述第三模块430在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同,不同的所述词语对应的索引不同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
具体地,所述第三模块430在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
具体地,所述第一模块410在执行获取所述第一数据的下载地址的步骤时,具体用于:
获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
所述第二模块420在执行获取所述下载地址当前的显示数据为第二数据的步骤时,具体用于:
加载所述网页地址当前显示的网页,并从所述当前显示的网页中提取所述标签对应的数据,作为第二数据。
具体地,所述第二模块420还用于:
若无法加载所述网页地址当前显示的网页,或无法从所述当前显示的网页中提取所述标签对应的数据,则暂停本次更新,并提示更新出现问题。
本发明实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明实施例提供的数据的更新方法。
也就是说,本发明实施例提供的方法即可依附于服务器中的处理器运行,也可以在独立于服务器的数据匹配装置中运行。当在数据匹配装置中运行时,也就降低了在各自系统中转换所带来的工作量,提升了转换效率。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现本发明实施例提供的数据的更新方法中的步骤。
综上所述,本发明实施例提供了一种数据匹配的方法及装置、计算机可读存储介质、电子设备,本发明通过监控数据库中存储的数据与下载源的数据是否相同,来判断是否更新数据库,这样按需更新的方式能显示动态调整更新时间,从而一旦下载源更新数据,即第一时间对数据库中的数据进行更新,在保证了数据时效性的同时,提升更新效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种数据库的更新方法,其特征在于,该方法包括:
从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
加载所述网页地址当前显示的网页,判断网页地址当前显示的网页的加载是否正常,并判断从当前显示的网页中是否能正常提取标签对应的数据,若任一判断结果是无法正常执行,则暂停本次更新,并触发报警机制;若正常执行,从所述当前显示的网页中提取所述标签对应的数据,作为第二数据;
确定所述第一数据和所述第二数据的相似度;
若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据和所述第二数据的相似度的步骤,包括:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一标题和所述第二标题的相似度的步骤,包括:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
4.根据权利要求2所述的方法,其特征在于,在所述计算所述第一标题和所述第二标题的相似度的步骤之后,在所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,该方法还包括:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
此时,所述确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤,包括:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述第一内容和所述第二内容的相似度的步骤之前,该方法还包括:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述文本预处理的方法,包括:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一处理后文本和所述第二处理后文本向量化的步骤,包括:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
8.一种数据库的更新装置,其特征在于,该装置包括:
第一模块,用于从数据库存储的数据中,确定更新时间最接近当前时间的数据为第一数据,获取下载所述第一数据的网页地址,并确定所述第一数据在该网页中对应的标签;
第二模块,用于加载所述网页地址当前显示的网页,判断网页地址当前显示的网页的加载是否正常,并判断从当前显示的网页中是否能正常提取标签对应的数据,若任一判断结果是无法正常执行,则暂停本次更新,并触发报警机制;若正常执行,从所述当前显示的网页中提取所述标签对应的数据,作为第二数据;
第三模块,用于确定所述第一数据和所述第二数据的相似度;
第四模块,用于若所确定的相似度不满足预设的相似阈值,则判定所述第一数据和所述第二数据不相同,并依据所述第二数据更新所述数据库。
9.根据权利要求8所述的装置,其特征在于,所述第三模块,具体用于:
从所述第一数据中提取第一数据对应的标题,作为第一标题,并从所述第二数据中提取第二数据对应的标题,作为第二标题;
计算所述第一标题和所述第二标题的相似度,并确定计算得到的相似度为所述第一数据和所述第二数据的相似度。
10.根据权利要求9所述的装置,其特征在于,所述第三模块在执行计算所述第一标题和所述第二标题的相似度的步骤时,具体用于:
将所提取的第一标题和第二标题向量化,得到第一标题向量和第二标题向量;
根据文本相似度算法,计算所述第一标题向量和所述第二标题向量的相似度,并确定计算得到的相似度为所述第一标题和所述第二标题的相似度。
11.根据权利要求9所述的装置,其特征在于,所述第三模块在执行计算所述第一标题和所述第二标题的相似度的步骤之后,在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤之前,还用于:
根据所计算的相似度,判断所述第一标题和所述第二标题是否相似;
当所述第一标题和所述第二标题不相似时,从所述第一数据中提取第一数据对应的内容,作为第一内容,并从所述第二数据中提取第二数据对应的内容,作为第二内容;
计算所述第一内容和所述第二内容的相似度;
所述第三模块在执行确定计算得到的相似度为所述第一数据和所述第二数据的相似度的步骤时,具体用于:
确定所述第一内容和所述第二内容的相似度为所述第一数据和所述第二数据的相似度。
12.根据权利要求11所述的装置,其特征在于,所述第三模块在执行计算所述第一内容和所述第二内容的相似度的步骤之前,还用于:
对所述第一内容进行文本预处理,得到第一处理后文本,并对所述第二内容进行文本预处理,得到第二处理后文本;
将所述第一处理后文本和所述第二处理后文本向量化,得到第一内容向量和第二内容向量;
根据文本相似度算法,计算所述第一内容向量和所述第二内容向量的相似度,并确定计算得到的相似度为所述第一内容和所述第二内容的相似度;
其中,所述第三模块在执行文本预处理时,具体用于:基于jieba结巴分词算法,对待处理内容进行分词,并从分词结果中删除停用词和标点符号。
13.根据权利要求12所述的装置,其特征在于,所述第三模块在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于所述第一处理后文本或/和第二处理后文本中的词语,构建词典,其中,每一所述词语在所构建的词典中均对应一索引,而且相同的所述词语对应的索引相同,不同的所述词语对应的索引不同;
通过查找所构建的词典,将所述第一处理后文本和所述第二处理后文本向量化。
14.根据权利要求12所述的装置,其特征在于,所述第三模块在执行将所述第一处理后文本和所述第二处理后文本向量化的步骤时,具体用于:
基于TF-IDF模型,将所述第一处理后文本和所述第二处理后文本向量化。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
16.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010128756.XA CN111367962B (zh) | 2020-02-28 | 2020-02-28 | 数据库的更新方法及装置、计算机可读存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010128756.XA CN111367962B (zh) | 2020-02-28 | 2020-02-28 | 数据库的更新方法及装置、计算机可读存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111367962A CN111367962A (zh) | 2020-07-03 |
CN111367962B true CN111367962B (zh) | 2024-01-30 |
Family
ID=71207044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010128756.XA Active CN111367962B (zh) | 2020-02-28 | 2020-02-28 | 数据库的更新方法及装置、计算机可读存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111367962B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569131A (zh) * | 2021-05-14 | 2021-10-29 | 南京奥派信息产业股份公司 | 一种招聘语料标注方法、装置、存储介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227823A (zh) * | 2016-07-21 | 2016-12-14 | 知几科技(深圳)有限公司 | 一种网页更新探测方法、网页信息抓取及呈现方法 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN109918554A (zh) * | 2019-02-13 | 2019-06-21 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统及计算机可读存储介质 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
-
2020
- 2020-02-28 CN CN202010128756.XA patent/CN111367962B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227823A (zh) * | 2016-07-21 | 2016-12-14 | 知几科技(深圳)有限公司 | 一种网页更新探测方法、网页信息抓取及呈现方法 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110162750A (zh) * | 2019-01-24 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本相似度检测方法、电子设备及计算机可读存储介质 |
CN109918554A (zh) * | 2019-02-13 | 2019-06-21 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
吴旭 ; 郭芳毓 ; 颉夏青 ; 许晋 ; .面向机构知识库结构化数据的文本相似度评价算法.信息网络安全.2015,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111367962A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190057164A1 (en) | Search method and apparatus based on artificial intelligence | |
US10592837B2 (en) | Identifying security risks via analysis of multi-level analytical records | |
US10346436B2 (en) | Method and medium for a personalized content delivery system | |
EP3358472A1 (en) | User classification based on multimodal information | |
CN106844685B (zh) | 用于识别网站的方法、装置及服务器 | |
US20180329985A1 (en) | Method and Apparatus for Compressing Topic Model | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
US20180005022A1 (en) | Method and device for obtaining similar face images and face image information | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN107545505B (zh) | 保险理财产品信息的识别方法及系统 | |
CN111367962B (zh) | 数据库的更新方法及装置、计算机可读存储介质、电子设备 | |
CN113434631B (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111078849A (zh) | 用于输出信息的方法和装置 | |
CN114548100A (zh) | 一种基于大数据技术的临床科研辅助方法与系统 | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN115620886B (zh) | 一种数据审核方法和装置 | |
RU2711123C2 (ru) | Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора | |
CN111507109A (zh) | 电子病历的命名实体识别方法及装置 | |
CN114385918A (zh) | 消息推送方法、装置、计算机设备及存储介质 | |
CN114492370A (zh) | 网页识别方法、装置、电子设备和介质 | |
CN114254650A (zh) | 一种信息处理方法、装置、设备及介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |