CN103257961A - 书目消重的方法、装置及系统 - Google Patents

书目消重的方法、装置及系统 Download PDF

Info

Publication number
CN103257961A
CN103257961A CN201210034289XA CN201210034289A CN103257961A CN 103257961 A CN103257961 A CN 103257961A CN 201210034289X A CN201210034289X A CN 201210034289XA CN 201210034289 A CN201210034289 A CN 201210034289A CN 103257961 A CN103257961 A CN 103257961A
Authority
CN
China
Prior art keywords
bibliography
retrieved
information
similarity
disappears
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210034289XA
Other languages
English (en)
Other versions
CN103257961B (zh
Inventor
徐剑波
林欣欣
闫进兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201210034289.XA priority Critical patent/CN103257961B/zh
Publication of CN103257961A publication Critical patent/CN103257961A/zh
Application granted granted Critical
Publication of CN103257961B publication Critical patent/CN103257961B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种书目消重的方法、装置及系统,其中,方法包括:获取多个参考书目的书目信息;对于每个参考书目,将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;将相似度小于或等于第一阈值的参考书目设定为非重复书目。本发明提供书目消重的方法,获取多个参考书目的书目信息之后,将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与参考书目的相似度,并将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,而且还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。

Description

书目消重的方法、装置及系统
技术领域
本发明涉及电子图书技术领域,具体地,涉及一种书目消重的方法、装置及系统。
背景技术
随着数字出版产业的快速发展,越来越多的传统纸质图书被转换为电子版图书。在将纸质图书转换为电子版图书的过程中,图书内容基本是靠人工录入、扫描书分析等方法获取,由于图书的种类繁多、数量巨大,容易导致电同一本图书的电子版数据可能会被多次录入,增加了人力成本,重复录入同一本图书的电子版数据的导致需要配置容量更大的电子版图书数据库,增加了经济成本,而且严重影响了电子版数据的后续使用,因此需要消除重复录入同一本图书的电子版数据的现象,实现书目消重。
现有技术中,书目消重通常通过完全匹配方法来实现,完全匹配法就是将已经转换为电子版的图书的书目信息和内容的关键词存储在一个数据库中,当需要检查某一本图书是否已经转换为电子版时,只需要检索该数据库中是否存储有关于该本图书的书目信息和内容关键词,如果存储改本图书的书目信息和内容关键词,则说明该本图书已经转换为电子版,如果没有,则说明该本图书没有被转化为电子版,但是,通过完全匹配方法只能检索出与已经转换为电子版的图书的书目信息和内容关键词完全一致的书目信息,对于书目信息中的出版时间、版次或内容关键词稍有差别但实际上是同一本图书的情况是无法处理的,所以后续仍然需要大量人工来检查,导致现有技术的书目消重不仅效率低,而且准确性和精确度也低。
发明内容
为解决上述问题,本发明提供一种书目消重的方法、装置及系统,用于现有技术中进行书目消重时效率低,准确性和精确度也低的问题。
为此,本发明提供一种书目消重的方法,其中,包括:
获取多个参考书目的书目信息;
对于每个参考书目,将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;
将相似度小于或等于第一阈值的参考书目设定为非重复书目。
其中,所述书目信息包括以下至少之一:图书的标题、副题、作者、出版社出版年份、出版地。
其中,还包括:
将所述待检索书目与所述参考书目中的非法字符替换为合法字符;和/或
滤除所述待检索书目与所述参考书目中的常用字符和非法字符。
其中,在将相似度小于或等于第一阈值的参考书目确定为非重复书目之后还包括:
将大于第二阈值的参考书目设定为重复书目;以及
将介于第一阈值和第二阈值之间的参考书目设定为疑似重复书目。
其中,所述对于每个参考书目,将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度的计算公式如下:
S = ( Σ 0 m Sn / L ( A ) )
其中,S标识待检索书目与所述参考书目的相似度,m标识待检索书目中的字段的个数,Sn为待检索书目中第n个字段的字符串与参考书目中各字段的字符串的相似度,L(A)为待检索书目中的一个字段的长度;
其中,Sn的计算公式如下所示:
Sn = L ( A ) × k 1 Flag = 1 [ L ( A ) pre + L ( A ) sux ] × k 2 - | L ( A ) mid + L ( B ) mid | × k 3 Flag = 0
其中,k1、k2和k3为常数,Sn为待检索书目中第n个字段的字符串与参考书目中的各字段的字符串的相似度,L(B)为待参考书目中一个字段的长度,L(A)pre表示待检索书目中每个字段的相同的前缀字符的长度,L(A)sux表示待检索书目中每个字段的相同的后缀字符的长度,L(A)mid为待检索书目{A}中除了前缀字符和后缀字符之外的中间位置的字符的长度,L(B)mid为参考书目{B}中除了前缀字符和后缀字符之外的中间位置的字符的长度。
其中,所述参考书目包括:
未存储到书目数据库中图书的书目和存储到书目数据库中图书的书目。
本发明还提供了一种书目消重的装置,其中,包括:
获取模块,用于获取多个参考书目的书目信息;
对于每个参考书目,所述获取模块将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;
设定模块,用于将相似度小于或等于第一阈值的参考书目设定为非重复书目。
其中,所述获取模块还用于:
将所述待检索书目与所述参考书目中的非法字符替换为合法字符;和/或
滤除所述待检索书目与所述参考书目中的常用字符和非法字符。
其中,所述设定模块还用于:
将大于第二阈值的参考书目设定为重复书目;以及
将介于第一阈值和第二阈值之间的参考书目设定为疑似重复书目。
本发明还提供了一种书目消重的系统,其中,包括:书目数据库和上述的任意一项书目消重的装置。
其中,所述书目消重的装置的数量至少为1个,所述书目消重的装置通过互联网信息服务器IIS网页服务器连接。
本发明具有下述有益效果:
本发明提供书目消重的方法,获取多个参考书目的书目信息之后,将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与参考书目的相似度,并将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,而且还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。
本发明提供的书目消重的装置,书目消重的装置中的获取模块根据待检索书目在书目数据库中检索得到多个参考书目,并计算得到待检索书目与各参考书目的字段的相似度,设定模块将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,而且还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。
本发明提供的书目消重的系统,书目消重的系统中的书目消重装置根据待检索书目在书目数据库中检索得到多个参考书目,并计算得到待检索书目与各参考书目的字段的相似度,然后将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。
附图说明
图1为本发明提供的书目消重的方法的第一实施例的流程图;
图2为本发明提供的书目消重的方法的第二实施例的流程图;
图3为本发明提供的书目消重的装置实施例的结构示意图;
图4为本发明提供的书目消重的系统第一实施例的结构示意图;
图5为本发明提供的书目消重的系统第二实施例的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的书目消重的方法、装置及系统进行详细描述。
图1为本发明提供的书目消重的方法的第一实施例的流程图。如图1所示,本实施例书目消重的方法的具体工作流程包括如下步骤:
步骤101、获取多个参考书目的书目信息。
书目信息通常包括图书的标题、作者和出版年份等内容,各类图书的书目信息存储书目数据库中,根据待检索书目的书目信息在书目数据库中获得多个参考书目的书目信息,然后进入步骤102。
步骤102、对于每个参考书目,将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与参考书目的相似度。
待检索书目的书目信息可以包括待检索图书的标题、作者、出版年份等书目信息,也可以只包括标题、作者、出版年份等书目信息中的一个或两个,将待检索书目的书目信息与参考书目的书目信息进行逐个进行比对,计算每个参考书目与待检索书目的相似度,包括计算待检索书目中的标题、作者和出版年份等字段分别与每一条参考书目的字段的相似度,计算得到待检索书目与每一条参考书目的相似度之后,进入步骤103。
步骤103、将相似度小于或等于第一阈值的参考书目设定为非重复书目。
比较各参考书目与待检索书目的相似度的大小,将与待检索书目的相似度小于或等于第一阈值的参考书目设定为非重复书目,非重复书目对应的图书是与待检索书目不同内容的图书。
在实际应用中,参考书目可以是将要存储到书目数据库中的图书书目,也可以是已经存储到书目数据库中的图书书目。
在本实施例中,获取多个参考书目的书目信息之后,将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与参考书目的相似度,并将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,而且还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。
图2为本发明提供的书目消重的方法的第二实施例的流程图。如图2所示,本实施例书目消重的方法的具体工作流程包括如下步骤:
步骤201、将书目信息存储到书目数据库。
在本实施例中,将已经转换为电子版的图书的书目信息按照预设格式统一设置。图书的书目信息包括图书的标题、作者、出版年份、版次、出版地、编辑和出版社等,将上述的全部或部分书目信息按照预设的格式统一设置,书目信息中的标题、作者和出版年份的字符之间以逗号间隔,书目信息的格式可以是如下所示:
{标题,作者,出版年份,出版社,出版地点}
书目信息可以与论文的参考文献的格式相同,例如对于图书《财政学》,其书目信息可以如下所示:
{张三,财政学,北京,人民出版社,2001}
其中,张三为作者,北京为出版地,出版社为人民出版社,2001为出版时间。
将已经转换为电子版的各类图书的书目信息存储到书目数据库中,在需要判断某一图书是否已经被转换为电子版时,进入步骤202。
步骤202、获取多个参考书目的书目信息。
在用户端需要检索某一本图书是否已经转换为电子版时,首先输入该待检索书目的书目信息,待检索书目的书目信息可以包括待检索书目的标题、作者、出版年份等书目信息,例如可以是:
{张三,财政学,北京,人民出版社,2001^2}
待检索书目的书目信息也可以只包括标题、作者、出版年份中的一个或两个,根据待检索书目的书目信息在书目数据库中检索得到多个参考书目,通常情况下,一本图书的版本不会超过10种,每个参考书目的信息同样以预设的格式显示,检索得到多个参考书目之后,进入步骤204。
本步骤在检索参考书目的过程中,为提高检索效率,可以对待检索书目进行预处理,包括将待检索书目中的非法字符如“&<”,“^”等滤除,并提取出版年份信息,提高出版年份信息权重值,使出版年份值更具影响力,以减少匹配检索的步骤,提供匹配检索的速度。
步骤203、对于每个参考书目,将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与参考书目的相似度。
计算待检索书目与每个参考书目中各字段的相似度,首先通过公式(1)分别计算得到待检索书目中标题、作者和出版年份等各个字段的字符串与每一条参考书目中的各字段的字符串的相似度,以{A}表示待检索书目,以{B}表示多个参考书目中的一条参考书目,公式(1)如下所示:
Sn = L ( A ) × k 1 Flag = 1 [ L ( A ) pre + L ( A ) sux ] × k 2 - | L ( A ) mid + L ( B ) mid | × k 3 Flag = 0 - - - ( 1 )
其中,k1、k2和k3为常数,Sn为待检索书目中第n个字段的字符串与参考书目中的各字段的字符串的相似度,L(B)为待参考书目中一个字段的长度,L(A)pre表示待检索书目中每个字段的相同的前缀字符的长度,L(A)sux表示待检索书目中每个字段的相同的后缀字符的长度,L(A)mid为待检索书目{A}中除了前缀字符和后缀字符之外的中间位置的字符的长度,L(B)mid为参考书目{B}中除了前缀字符和后缀字符之外的中间位置的字符的长度。
Flag=1标识字段完全匹配,Flag=0标识字段不匹配。
在实际应用中,k1、k2、k3值取经验值,本实施例中的k1、k2、k3可以分别设定为1、0.8、0.9。
计算得到待检索书目中各个字段的相似度之后,再通过公式(2)计算得到待检索书目的全部字段和每一条参考书目的全部字段的相似度,计算公式如下所示:
S = ( Σ 0 m Sn / L ( A ) )
其中,S标识待检索书目与所述参考书目的相似度,m标识待检索书目中的字段的个数,Sn为待检索书目中第n个字段的字符串与参考书目中各字段的字符串的相似度,L(A)为待检索书目中的一个字段的长度。
在实际应用中,在计算相似度时,可以对待检索书目和每个参考书目进行预处理,包括将将标点符号如“《》”“^”“s!”“/”“#”“:”“()”“[]”等非法字符全部替换为合法字符,本实施例中的合法字符为逗号,也可以将常用字符如“等编”“主编”“年版”“著”“等译”“作者”和“《》”“^”“s!”“/”“#”“:”“()”“[]”等非法字符滤除,从而减少了对相似度分值的影响,并提高了相似度的计算效率,计算得到待检索书目与每一条参考书目的相似度之后,进入步骤205。
步骤204、将相似度小于或等于第一阈值的参考书目设定为非重复书目。
在本实施例中,将第一阈值设置为0.85,将第二阈值设定为0.95,比较每个参考书目与待检索书目的相似度,将与待检索书目的相似度大于0.95的参考书目设定为重复书目,重复书目对应的图书与待检索书目对应的图书可以认定为是相同内容的图书,即待检索书目对应的图书已经转换为电子版;将与待检索书目的相似度小于0.85的参考书目设定为非重复书目,非重复书目对应的图书未转换为电子版;与待检索书目的相似度介于0.85~0.95之间的参考书目设定为疑似重复书目,疑似重复书目对应的图书可以通过人工检查的方式来判断是否转换为电子版,从而使通过人工检查是否已经转换为电子版的图书数量大大减少,提高了获得非重复书目的效率。
在本实施例中,将按照统一格式的书目信息存储到书目数据库中,根据待检索书目的信息在书目数据库中检索得到多个参考书目,再计算待检索书目与每个参考书目的相似度,并将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而高效率地实现书目消重,不仅能快速检索出非重复书目,还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本,避免将同一本书重复转换为电子版,也可以在精确自动化录入电子版图书中,对于重复的电子版图书不进行录入,优化图书数字化过程及效率。
图3为本发明提供的书目消重的装置实施例的结构示意图。如图3所示,本实施例书目消重的装置包括:获取模块301和设定模块302,其中,获取模块301用于获取多个参考书目的书目信息,对于每个参考书目,获取模块301将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;设定模块302用于将相似度小于或等于第一阈值的参考书目设定为非重复书目。
进一步地,获取模块301还用于将待检索书目与参考书目中的非法字符替换为合法字符,和/或滤除所述待检索书目与所述参考书目中的常用字符和非法字符;设定模块302还用于将大于第二阈值的参考书目设定为重复书目;以及将介于第一阈值和第二阈值之间的参考书目设定为疑似重复书目。
在本实施例中,书目消重的装置中的获取模块根据待检索书目在书目数据库中检索得到多个参考书目,并计算得到待检索书目与各参考书目的字段的相似度,设定模块将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,而且还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本。
图4为本发明提供的书目消重的系统第一实施例的结构示意图。如图4所示,在本实施例书目消重的系统包括书目消重装置30、书目数据库40,其中,书目消重装置30采用图3所示的结构,书目消重装置30包括获取模块301和设定模块302,其中,获取模块301和设定模块302,其中,获取模块301用于获取多个参考书目的书目信息,对于每个参考书目,获取模块301将待检索书目的书目信息与参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;设定模块302用于将相似度小于或等于第一阈值的参考书目设定为非重复书目。
图5为本发明提供的书目消重的系统第二实施例的结构示意图。如图5所示,在本实施例中,两个或者更多的书目消重装置30通过互联网信息服务器(Internet Information Services,IIS)网页服务器50与书目数据库40连接,以方便分布在不同地点的书目消重装置30通过网络远程待检索书目数据库40中的书目信息,以及实现远程存取书目数据库40中的书目信息,从而可以提高从书目数据库40中存取书目信息的效率,并实现信息共享。
在本实施例中,书目消重的系统中的书目消重装置根据待检索书目在书目数据库中检索得到多个参考书目,并计算得到待检索书目与各参考书目的字段的相似度,然后将与待检索书目的相似度小于第一阈值的参考书目设定为非重复书目,从而快速获得非重复书目,实现高效率地书目消重,还能提高检索非重复书目的准确性和精确度,减少了后续人工处理成本,同时用户也能远程存取书目数据库中的书目信息,有利于实现信息共享。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (11)

1.一种书目消重的方法,其特征在于,包括:
获取多个参考书目的书目信息;
对于每个参考书目,将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;
将相似度小于或等于第一阈值的参考书目设定为非重复书目。
2.根据权利要求1所述的书目消重的方法,其特征在于,所述书目信息包括以下至少之一:图书的标题、副题、作者、出版社出版年份、出版地。
3.根据权利要求1所述的书目消重的方法,其特征在于,还包括:
将所述待检索书目与所述参考书目中的非法字符替换为合法字符;和/或
滤除所述待检索书目与所述参考书目中的常用字符和非法字符。
4.根据权利要求1所述的书目消重的方法,其特征在于,在将相似度小于或等于第一阈值的参考书目确定为非重复书目之后还包括:
将大于第二阈值的参考书目设定为重复书目;以及
将介于第一阈值和第二阈值之间的参考书目设定为疑似重复书目。
5.根据权利要求1所述的书目消重的方法,其特征在于,所述对于每个参考书目,将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度的计算公式如下:
S = ( Σ 0 m Sn / L ( A ) )
其中,S标识待检索书目与所述参考书目的相似度,m标识待检索书目中的字段的个数,Sn为待检索书目中第n个字段的字符串与参考书目中各字段的字符串的相似度,L(A)为待检索书目中的一个字段的长度;
其中,Sn的计算公式如下所示:
Sn = L ( A ) × k 1 Flag = 1 [ L ( A ) pre + L ( A ) sux ] × k 2 - | L ( A ) mid + L ( B ) mid | × k 3 Flag = 0
其中,k1、k2和k3为常数,Sn为待检索书目中第n个字段的字符串与参考书目中的各字段的字符串的相似度,L(B)为待参考书目中一个字段的长度,L(A)pre表示待检索书目中每个字段的相同的前缀字符的长度,L(A)sux表示待检索书目中每个字段的相同的后缀字符的长度,L(A)mid为待检索书目{A}中除了前缀字符和后缀字符之外的中间位置的字符的长度,L(B)mid为参考书目{B}中除了前缀字符和后缀字符之外的中间位置的字符的长度。
6.根据权利要求1所述的书目消重的方法,其特征在于,所述参考书目包括:
未存储到书目数据库中图书的书目和存储到书目数据库中图书的书目。
7.一种书目消重的装置,其特征在于包括:
获取模块,用于获取多个参考书目的书目信息;
对于每个参考书目,所述获取模块将待检索书目的书目信息与所述参考书目的书目信息的进行比对,获取待检索书目与所述参考书目的相似度;
设定模块,用于将相似度小于或等于第一阈值的参考书目设定为非重复书目。
8.根据权利要求7所述的书目消重的装置,其特征在于,所述获取模块还用于:
将所述待检索书目与所述参考书目中的非法字符替换为合法字符;和/或
滤除所述待检索书目与所述参考书目中的常用字符和非法字符。
9.根据权利要求7所述的书目消重的装置,其特征在于,所述设定模块还用于:
将大于第二阈值的参考书目设定为重复书目;以及
将介于第一阈值和第二阈值之间的参考书目设定为疑似重复书目。
10.一种书目消重的系统,其特征在于,包括:书目数据库和权利要求7-9任意一项所述的书目消重的装置。
11.根据权利要求10所述的书目消重的系统,其特征在于,所述书目消重的装置的数量至少为1个,所述书目消重的装置通过互联网信息服务器IIS网页服务器连接。
CN201210034289.XA 2012-02-15 2012-02-15 书目消重的方法、装置及系统 Expired - Fee Related CN103257961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210034289.XA CN103257961B (zh) 2012-02-15 2012-02-15 书目消重的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210034289.XA CN103257961B (zh) 2012-02-15 2012-02-15 书目消重的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103257961A true CN103257961A (zh) 2013-08-21
CN103257961B CN103257961B (zh) 2016-08-10

Family

ID=48961890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210034289.XA Expired - Fee Related CN103257961B (zh) 2012-02-15 2012-02-15 书目消重的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103257961B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473373A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 基于阈值匹配模型的相似度分析系统和方法
CN103530334A (zh) * 2013-09-29 2014-01-22 方正国际软件有限公司 基于比较模板的数据匹配系统和方法
CN105677757A (zh) * 2015-12-30 2016-06-15 东北大学 一种基于双缀过滤的大数据相似性连接方法
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN107807996A (zh) * 2017-11-08 2018-03-16 江苏国泰新点软件有限公司 多数据源多维度数据匹配的方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020039442A1 (en) * 2000-07-26 2002-04-04 Jahng Surng Gahb Image indexing and retrieval method using the rosette pattern for the improvement of retrieval efficiency and performance
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN102270199A (zh) * 2010-06-02 2011-12-07 深圳市腾讯计算机系统有限公司 一种信息的筛选方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020039442A1 (en) * 2000-07-26 2002-04-04 Jahng Surng Gahb Image indexing and retrieval method using the rosette pattern for the improvement of retrieval efficiency and performance
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN102270199A (zh) * 2010-06-02 2011-12-07 深圳市腾讯计算机系统有限公司 一种信息的筛选方法和设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473373A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 基于阈值匹配模型的相似度分析系统和方法
CN103530334A (zh) * 2013-09-29 2014-01-22 方正国际软件有限公司 基于比较模板的数据匹配系统和方法
CN103530334B (zh) * 2013-09-29 2018-01-23 北大医疗信息技术有限公司 基于比较模板的数据匹配系统和方法
CN105677757A (zh) * 2015-12-30 2016-06-15 东北大学 一种基于双缀过滤的大数据相似性连接方法
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN105677757B (zh) * 2015-12-30 2019-03-26 东北大学 一种基于双缀过滤的大数据相似性连接方法
CN107807996A (zh) * 2017-11-08 2018-03-16 江苏国泰新点软件有限公司 多数据源多维度数据匹配的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103257961B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN105138652B (zh) 一种企业关联关系识别方法及系统
CN107766371B (zh) 一种文本信息分类方法及其装置
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN103593418B (zh) 一种面向大数据的分布式主题发现方法及系统
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
US20120284270A1 (en) Method and device to detect similar documents
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN102129479B (zh) 一种基于概率潜在语义分析模型的万维网服务发现方法
CN104598532A (zh) 一种信息处理方法及装置
CN102207946B (zh) 一种知识网络的半自动生成方法
CN101079031A (zh) 一种网页主题提取系统和方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN102073729A (zh) 一种关系化知识共享平台及其实现方法
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN103257961A (zh) 书目消重的方法、装置及系统
WO2015084476A1 (en) Non-standard and standard clause detection
CN108846117A (zh) 商业快讯的去重筛选方法及装置
CN102567521B (zh) 网页数据抓取过滤方法
CN110866125A (zh) 基于bert算法模型的知识图谱构建系统
CN111782759B (zh) 一种问答处理方法、装置及计算机可读存储介质
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN105426379A (zh) 基于词语位置的关键字权值计算方法
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN105608137A (zh) 一种提取身份标识的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: FOUNDER INFORMATION INDUSTRY HOLDING CO., LTD. BEI

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD.

Effective date: 20131024

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131024

Address after: 100871 Beijing, Haidian District Road, building No. 298, founder of the building, Zhongguancun, layer 5

Applicant after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant after: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Applicant after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 Beijing, Haidian District Road, building No. 298, founder of the building, Zhongguancun, layer 5

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: FOUNDER APABI TECHNOLOGY Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810