CN103106584A - 一种处理非统一的图书信息数据的系统及其方法 - Google Patents
一种处理非统一的图书信息数据的系统及其方法 Download PDFInfo
- Publication number
- CN103106584A CN103106584A CN2011103558533A CN201110355853A CN103106584A CN 103106584 A CN103106584 A CN 103106584A CN 2011103558533 A CN2011103558533 A CN 2011103558533A CN 201110355853 A CN201110355853 A CN 201110355853A CN 103106584 A CN103106584 A CN 103106584A
- Authority
- CN
- China
- Prior art keywords
- book
- data
- information
- unified
- data information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种处理非统一的图书数据信息数据的系统,包括,一处理服务器,该处理服务器接收各商家图书信息系统传送来的非统一格式的图书数据信息,并将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;一存储数据库,该存储数据库与所述处理服务器进行通信连接,并存储所述处理服务器编辑后的统一图书数据信息。采用上述技术方案,从而使各发行商家之间在进行图书信息交互的过程中,使图书信息录入的差异性达到了最小化,以便使很大一部分图书可以自动完成匹配,降低人工图书信息匹配的工作量,提高工作效率,节约人力成本。
Description
技术领域
本发明涉及一种计算机数据处理的系统及方法,特别涉及一种处理非统一的图书信息数据的系统及其方法。
背景技术
国际标准化组织(ISO)2007年发布了ISO2108:即《信息和文件——-国际标准图书编号》,规定使用13位数的国际标准图书编号。一本书籍按照《国际标准图书编号》取得的编号,将自始至终伴随着该书从编辑制作到出版发行的整个链条。《国际标准图书编号》标准对全球的图书贸易起着重要作用,它也是图书馆目录档案的一个关键组成部分。
但是由于历史遗留,实际操作等各方面的原因,在我国普遍存在“一号多书”的情况,也即一个国际标准书号(ISBN)对应多本图书,致使无法简单地使用ISBN号对图书进行唯一性识别。在业界,“一号多书”往往称为“套书”或“系列书”。由于各出版物发行商家,包括出版社、发行公司、文化公司、各地经销商、一线零售书店等众多经营实体,它们之间存在业务经济关系,但往往不存在行政隶属关系,因此很难要求这些商家采用统一的信息系统并进行统一的图书编号管理。
发明内容
为解决现有技术中存在的技术问题,本发明提供了一种将不统一的图书数据信息处理成统一的数据信息格式并将其进行存储的系统及其方法。
本发明解决上述技术问题,所采用的技术方案是:提供一种处理非统一的图书数据信息数据的系统,包括,一处理服务器,该处理服务器接收各商家图书信息系统传送来非统一格式的图书数据信息,并将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;一存储数据库,该存储数据库与所述处理服务器进行通信连接,并存储所述处理服务器编辑后的统一图书数据信息。
作为本发明的一优选方案,所述处理服务器上开设一服务接口,该服务接口用于与所述各商家图书信息系统进行通信。
作为本发明的一优选方案,所述各商家图书信息系统分别安装有一外挂插件,该外挂插件用于与所述处理服务器进行通信。
作为本发明的一优选方案,所述处理服务器接收到的图书数据信息包括国际标准书号、图书定价、图书名称。
本发明解决上述技术问题,所采用的另一技术方案是:提供一种处理非统一的图书数据信息数据的方法,包括以下步骤,接收各商家图书信息系统传送来非统一格式的图书数据信息;将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;存储上述编辑后的统一图书数据信息。
作为本发明的一优选方案,所述处理服务器接收到的图书数据信息包括国际标准书号、图书定价、图书名称。
本发明的技术方案相对于现有技术,取得的有益效果是:
(1)本发明所述的处理非统一的图书数据信息数据的系统,包括用于接收并处理非统一的图书数据信息的处理服务器,以及用于存储处理后的统一图书数据信息的存储数据库。从而使各发行商家之间在进行图书信息交互的过程中,使图书信息录入的差异性达到了最小化,以便使很大一部分图书可以自动完成匹配,降低人工图书信息匹配的工作量,提高工作效率,节约人力成本。(2)本发明所述的处理非统一的图书数据信息数据的方法,使图书数据信息得到了统一,便于和其它图书商家的图书业务进行信息化交互。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明所述的计算机数据处理系统的系统框图;
图2是本发明所述的计算机数据处理系统的流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明所述的处理非统一的图书数据信息数据的系统,包括处理服务器200和存储数据库300;处理服务器200接收各商家图书信息系统100、110、120传送来的非统一格式的图书数据信息,并将接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;存储数据库300与处理服务器200进行通信连接,并存储处理服务器200编辑后的统一图书数据信息。上述各商家图书信息系统100、110、120可以是各种不同类型的商家所使用的图书信息系统,如出版社、发行公司、文化公司、经销商、零售书店等。各个不同商家的图书信息系统中记录图书的数据格式不统一,例如可能出现“一书多号”、图书名称编写存在差异等。
下面结合实例对本发明所述的处理非统一的图书数据信息数据的系统进行说明。
如图1所示,处理服务器200接收到的图书数据信息包括国际标准书号(ISBN)、图书定价和图书名称。
各商家图书信息系统100、110、120存储的I SBN可能是9位、10位或13位,因此ISBN的数据信息不统一。处理服务器200将ISBN进行统一,按照国际标准化组织(ISO)2007年发布了ISO2108:即《信息和文件--国际标准图书编号》,将9位、10位的ISBN转换成13位数的国际标准图书编号,其转换方式为现有技术,在此不赘述。对于图书定价,各商家图书信息系统100、110、120存储定价信息格式也不尽相同,如有的系统可能用元为单位、用角为单元或用分为单元。在本发明所述的系统中,采用分作为基本单位,因此,该定价的数值为一个整数。应当理解,上述对ISBN、图书定价的处理方式仅是示例性说明,并不以此限定本发明的保护范围。
对于图书名称,由于其存在不同的字体及英文的大小写等多种因素,图书名称的处理过程会显得较为复杂,下面以示例性的说明进行举例,但不以此限定本发明的保护范围。
下面情形1至情形9的处理过程,称为对图书名称的正则化过程。
情形1,将图书名称中全角ASCII字符转换为半角字符;
情形2,将图书名称中大写的ASCII字符转换为对应的小写字符;
情形3,将图书名称中各种形式的数字字符转换为对应的阿拉伯数字,具体包括:
3.1)①~⑩-->1-10
3.2)(1)~(20)-->1-20
3.3)1.~20.-->1-20
3.5)(一)~(十)-->1-10
3.6)一~十-->1-10
3.7)壹~拾-->1-10
情形4,将罗马数字字符或以英文字符表示的罗马数据转换为对应阿拉伯数字:
4.1)将16个大写罗马字母:I,II,III,IV,V,VI,VII,VIII,IX,X,XI,XII,L,C,D,M转换为阿拉伯数字1-16;
4.2)将16个小写罗马字母:i,ii,iii,iv,v,vi,vii,viii,ix,x,xi,xii,l,c,d,m转换为阿拉伯数字1-16;
4.3)将用英文字母表示的罗马数字:i,ii,iii,iv,v,vi,vii,viii,ix,x,xi,xii转换为阿拉伯数字1-12。
情形5、将图书名称中特殊的unicode英文字符转换为对应的ASCII英文字符,具体包括:
5.1)(a)-(z)-->a-z
情形6、将4位年份值统一转换为2位年份值:即将图书名称中包括1970-2100之间的4位数字去除前面两位数字,保留后面两位数字;
情形7、将图书名称中,包含在中括号(即“[]”)及圆括号(即“()”)中的修饰性文字去除。修饰性文字的判断规则是如果中括号或圆括号中的文本字符长度大于6个字符即认为是修饰性文字。
情形8、如果是教辅图书,则采用“<图书名称>年级-学科-版别”对年级、学科及版别进行格式化处理。即将图书名称中的年级、学科及版别信息抽取出来并附到图书名称的最后。
判断一本图书是否是教辅图书的规则是看图书名称是否存在以下特征文字:小学、小班、小考、中学、中班、中考、大学、大班、大考、初中、初考、初1、初2、初3、高中、高考、高1、高2、高3、期末、期中。或者包含年级信息,如1年,2年,...,9年等。年级从幼儿园小班上学期到高三下学期进行编码,从幼儿园小班上学期到高三下学期共30个学期,分别采用1-30进行编码。如幼儿园小班上学期编码为1,幼儿园小班下学期为2,以此类推,直到高三下学期编码为30。在进行年级编码时,图书名称标注年级有两种方式,其一是“年级+上/下”的方式进行说明,如:《新生代作文:初一英语小作文》和《悦读联播:初二上(附光盘)》等;其二是“第N册”的方式进行说明,如《中文课本:第六册》和《怎样学好小学数学(第七册)》等。年级标准化算法将这两种年级转换到所述数字编码体系的年级编码方式。
另外,图书名称中的学科也可以按如下表1所示的映射关系进行转换。
表1
图书名称中的版别信息则可按表2所示的映射关系进行映射。
表2
情形9、将图书名称中除中文字符、英语字符、数字以外的所有字符滤除。
当处理服务器200对各商家图书信息系统100、110、120传输的图书ISBN、图书定价及图书名称以统一的数据信息进行处理后,存储数据库300就得到了统一的ISBN、定价及正则化后的图书名称。根据处理后的图书ISBN,图书定价及正则化图书名称在存储数据库300中查找是否已有匹配的图书,如果未查找到匹配图书,将该处理后图书数据信息插入到存储数据库300中,并自动生成一个通用唯一识别码(UUID)作为本图书的编码;如果存储数据库300已存有该图书数据信息,则不将该图书插入到存储数据库300中。
如图1所示,处理服务器200上开设有一服务接口202,该服务接口202用于与各商家图书信息系统100、110、120进行通信;各商家图书信息系统100、110、120分别安装有一外挂插件102、112、122,该外挂插件102、112、122用于与处理服务器200进行通信。图书数据信息包括国际标准书号(ISBN)、图书定价和图书名称,但不限于此。
如图1所示,各商家图书信息系统100、110、120上外挂插件102、112、122与处理服务器200的服务接口202进行通信。外挂插件102、112、122会对各商家图书信息系统100、110、120的业务单所涉及的图书进行处理,并获取处理服务器200颁发的UUID,该图书的UUID发送到处理服务器200的业务单中,同时采用该UUID进行标识。对于不同图书信息系统100、110、120之间接收该业务单时,也通过外挂插件102、112、122将业务单进行下载,并在所述插件程序中和本地图书信息进行匹配,外挂插件102、112、122会根据ISBN及定价查找各商家图书信息系统100、110、120上存储的图书并得到一个候选匹配的图书列表,如果这个列表中的图书还未获取标准的UUID,则采用如上所述的方式从处理服务器200获取统一的UUID,外挂插件102、112、122自动根据业务单中图书的UUID和候选图书的UUID进行匹配,并弹出一个界面把匹配结果展示给操作客户。操作用户可以手工调整图书匹配关系,也可以接受这个匹配关系,在完成业务单图书和各商家图书信息系统100、110、120中图书的匹配映射。如此,即完成了跨图书信息管理系统业务单据的发送、接收的业务交互工作,将异构的,独立的图书信息管理系统连接起来。
如图1、图2所示,本发明所述的处理非统一的图书数据信息数据的方法,包括以下步骤:
步骤100,接收各商家图书信息系统100、110、120传送来非统一格式的图书数据信息。
通过采用处理服务器200接收各商家图书信息系统100、110、120传送来非统一格式的图书数据信息。上述图书数据信息包括国际标准书号(ISDN)、图书定价、图书名称。由于不同商家的图书信息系统100、110、120在存储图书数据时所采用的格式不一定。另外,为了能统一接收各商家图书信息系统100、110、120传送的数据,处理服务器200上开设有一服务端口202用于接收上述数据。
步骤200,将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;
采用处理服务器200将上述接收到的图书数据信息按照预先设定好的数据标准进行处理,从而使各商家图书信息系统100、110、120传送的数据能够统一,便于后继的管理操作。例如对ISBN编辑13位的数值串、将图书定位以分为基本单元、对图书名称进行正则化处理等。
步骤300,存储上述编辑后的统一图书数据信息。
采用上存储数据库300将上述编辑好的统一图书数据信息进行存储,以备后期调用。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (6)
1.一种处理非统一的图书数据信息数据的系统,其特征在于,包括,
一处理服务器,该处理服务器接收各商家图书信息系统传送来的非统一格式的图书数据信息,并将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;
一存储数据库,该存储数据库与所述处理服务器进行通信连接,并存储所述处理服务器编辑后的统一图书数据信息。
2.根据权利要求1所述的处理非统一的图书数据信息数据的系统,其特征在于,所述处理服务器上开设一服务接口,该服务接口用于与所述各商家图书信息系统进行通信。
3.根据权利要求1所述的处理非统一的图书数据信息数据的系统,其特征在于,所述各商家图书信息系统分别安装有一外挂插件,该外挂插件用于与所述处理服务器进行通信。
4.根据权利要求1所述的处理非统一的图书数据信息数据的系统,其特征在于,所述处理服务器接收到的图书数据信息包括国际标准书号、图书定价、图书名称。
5.一种处理非统一的图书数据信息数据的方法,其特征在于,包括以下步骤,
接收各商家图书信息系统传送来非统一格式的图书数据信息;
将所述接收到的图书数据信息按照预先设定好的数据标准编辑成统一的数据信息格式;
存储上述编辑后的统一图书数据信息。
6.根据权利要求5所述的处理非统一的图书数据信息数据的方法,其特征在于,所述处理服务器接收到的图书数据信息包括国际标准书号、图书定价、图书名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103558533A CN103106584A (zh) | 2011-11-10 | 2011-11-10 | 一种处理非统一的图书信息数据的系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103558533A CN103106584A (zh) | 2011-11-10 | 2011-11-10 | 一种处理非统一的图书信息数据的系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103106584A true CN103106584A (zh) | 2013-05-15 |
Family
ID=48314425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103558533A Pending CN103106584A (zh) | 2011-11-10 | 2011-11-10 | 一种处理非统一的图书信息数据的系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106584A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268776A (zh) * | 2014-10-21 | 2015-01-07 | 中国建设银行股份有限公司 | 一种消息推送方法及装置 |
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN107977806A (zh) * | 2016-10-21 | 2018-05-01 | 浙江莲荷科技有限公司 | 单品数据管理系统和方法 |
CN108197124A (zh) * | 2016-12-08 | 2018-06-22 | 北京京东尚科信息技术有限公司 | 根据isbn前缀映射出版社信息的方法、装置及系统 |
CN109408822A (zh) * | 2018-10-30 | 2019-03-01 | 中译语通科技股份有限公司 | 一种跨语言图书相关度分析方法及系统 |
CN112181969A (zh) * | 2020-10-11 | 2021-01-05 | 北京维应科技有限责任公司 | 一种基于nlp和图像识别的二手图书版次识别装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1968377A (zh) * | 2005-11-17 | 2007-05-23 | 中央电视台 | 接收中文epg节目单方法和装置 |
CN101025760A (zh) * | 2007-01-31 | 2007-08-29 | 王宏源 | 一种关于家谱数字化的方法 |
US20080278770A1 (en) * | 2007-05-10 | 2008-11-13 | Ricoh Company, Limited | Image processing apparatus, computer program product, and image processing method |
-
2011
- 2011-11-10 CN CN2011103558533A patent/CN103106584A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1968377A (zh) * | 2005-11-17 | 2007-05-23 | 中央电视台 | 接收中文epg节目单方法和装置 |
CN101025760A (zh) * | 2007-01-31 | 2007-08-29 | 王宏源 | 一种关于家谱数字化的方法 |
US20080278770A1 (en) * | 2007-05-10 | 2008-11-13 | Ricoh Company, Limited | Image processing apparatus, computer program product, and image processing method |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268776A (zh) * | 2014-10-21 | 2015-01-07 | 中国建设银行股份有限公司 | 一种消息推送方法及装置 |
CN104268776B (zh) * | 2014-10-21 | 2018-02-09 | 中国建设银行股份有限公司 | 一种消息推送方法及装置 |
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN104484433B (zh) * | 2014-12-19 | 2017-06-30 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN107977806A (zh) * | 2016-10-21 | 2018-05-01 | 浙江莲荷科技有限公司 | 单品数据管理系统和方法 |
CN108197124A (zh) * | 2016-12-08 | 2018-06-22 | 北京京东尚科信息技术有限公司 | 根据isbn前缀映射出版社信息的方法、装置及系统 |
CN109408822A (zh) * | 2018-10-30 | 2019-03-01 | 中译语通科技股份有限公司 | 一种跨语言图书相关度分析方法及系统 |
CN112181969A (zh) * | 2020-10-11 | 2021-01-05 | 北京维应科技有限责任公司 | 一种基于nlp和图像识别的二手图书版次识别装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106584A (zh) | 一种处理非统一的图书信息数据的系统及其方法 | |
CN100578497C (zh) | 一种文档处理系统和方法 | |
CN101504672B (zh) | 一种动态配置实体数据表的方法和系统 | |
CN1581156B (zh) | 信息处理系统、方法、程序和记录介质 | |
US8601361B2 (en) | Automatically populating and/or generating tables using data extracted from files | |
CN100380321C (zh) | 用于将动作与电子文档中的语义标签相关联的方法和系统 | |
US20080235227A1 (en) | Systems and methods to extract data automatically from a composite electronic document | |
CN101558405B (zh) | 将主机系统数据库转换为开放系统数据库的转换装置和方法 | |
CN103914443A (zh) | 一种多语种文字的混排方法及装置 | |
CN101430714B (zh) | 一种基于样式的内容结构化加工方法及系统 | |
CN106408358A (zh) | 发票管理方法和发票管理装置 | |
US6782400B2 (en) | Method and system for transferring data between server systems | |
CN105243168B (zh) | 一种数据迁移方法及系统 | |
CN101008940B (zh) | 自动处理字体缺失的方法与装置 | |
CN102063491A (zh) | 可实现跨不同类型数据库数据备份恢复的数据结构和实现方法 | |
CN104598625A (zh) | 基于自动识别标识符的数据表存储方法 | |
CN103761341A (zh) | 一种信息匹配方法及装置 | |
Gassmann et al. | A comprehensive input format for stochastic linear programs | |
CN107644090A (zh) | 一种变更信息处理方法及装置 | |
CN112395851A (zh) | 一种文本比对方法、装置、计算机设备及可读存储介质 | |
CN106599324B (zh) | 一种cad数据抓取方法 | |
CN110738050A (zh) | 基于分词和命名实体识别的文本重组方法及装置、介质 | |
CN105488471A (zh) | 一种字形识别方法及装置 | |
CN115995087B (zh) | 基于融合视觉信息的文档目录智能生成方法及系统 | |
CN105373562A (zh) | 一种pdf文档注释的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130515 |
|
RJ01 | Rejection of invention patent application after publication |