CN101676902A - 具有辨识分类搜寻储存功能的文件控管系统及方法 - Google Patents

具有辨识分类搜寻储存功能的文件控管系统及方法 Download PDF

Info

Publication number
CN101676902A
CN101676902A CN200810211235A CN200810211235A CN101676902A CN 101676902 A CN101676902 A CN 101676902A CN 200810211235 A CN200810211235 A CN 200810211235A CN 200810211235 A CN200810211235 A CN 200810211235A CN 101676902 A CN101676902 A CN 101676902A
Authority
CN
China
Prior art keywords
file
identification
control
signature
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810211235A
Other languages
English (en)
Inventor
刘立恩
林益邦
陈衍彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHONGLAI TECHNOLOGY Co Ltd
Original Assignee
ZHONGLAI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGLAI TECHNOLOGY Co Ltd filed Critical ZHONGLAI TECHNOLOGY Co Ltd
Priority to CN200810211235A priority Critical patent/CN101676902A/zh
Publication of CN101676902A publication Critical patent/CN101676902A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是关于一种文件储存系统及远程文件控管方法,尤指一种具有辨识分类搜寻储存功能的文件控管系统及远程文件控管方法。该具有辨识分类搜寻储存功能的文件控管系统,其包含:一网页服务器;一档案接收服务器,用以由该网页服务器,读取文件;一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进行光学识别;一特征标记识别器,用以建立该输入文件的特征标记;及,一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该档案接收服务器和网页服务器输出。

Description

具有辨识分类搜寻储存功能的文件控管系统及方法
技术领域
本发明是关于一种文件储存系统及远程文件控管方法,尤指一种具有辨识分类搜寻储存功能的文件控管系统及远程文件控管方法。
背景技术
传统的文件控管系统,例如TW-200500899(相当于US-20040267557,CN1567326),虽然可以将用户上传的电子文件,放置于与此电子文件所指定的地址相对应的资料夹中,但因依方法储存的电子文件,日后要搜寻该档案时,只有靠记忆找到该资料夹,再从该资料夹的大量档案中,逐笔搜寻出所需要的电子文件,这对用户造成很大的困扰。本发明利用光学识别器、特征标记识别器等技术,在存盘的同时,自动建立特征标记索引,让日后用户只要随便键入该电子文件的任一或多个特征标记,就能马上找到该电子文件。
发明内容
本发明的一目的在于提供一种文件控管系统。
本发明的另一目的在于提供一种具有辨识、分类、搜寻、储存功能的文件控管系统。
本发明的又一目的在于提供一种由光学字符识别器辨读特征标记的文件控管系统。
本发明的再一目的在于提供一种以特征标记做为文件索引的文件控管系统。
本发明的另一目的在于提供一种由光学字符识别器辨读特征标记,并以该特征标记做为文件索引的文件控管系统。
本发明的又一目的在于提供一种由特征标记搜寻文件再经由网页服务器输出的文件控管系统。
本发明的再一目的在于提供一种包含网页服务器、档案接收服务器、光学字符识别器和数据库的文件控管系统。
本发明的另一目的在于提供一种具有辨识、分类、搜寻、储存功能的远程文件控管方法。
本发明的又一目的在于提供一种由光学字符识别器辨读特征标记的远程文件控管方法。
本发明的再一目的在于提供一种以特征标记做为文件索引的远程文件控管方法。
本发明的另一目的在于提供一种由光学字符识别器辨读特征标记,并以该特征标记做为文件索引的远程文件控管方法。
本发明的又一目的在于提供一种由特征标记搜寻文件再经由网页服务器输出的远程文件控管方法。
本发明的再一目的在于提供一种包含网页服务器、档案接收服务器、光学字符识别器和数据库的远程文件控管方法。
本发明的一种具有辨识分类搜寻储存功能的文件控管系统,其包含:
一网页服务器;
一档案接收服务器,用以由该网页服务器读取文件;
一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进行光学识别;
一特征标记识别器,用以建立该输入文件的特征标记;及
一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该网页服务器输出;
其特征在于:
该光学识别器可自动对该输入文件的非文字部分进行光学辨识,得到光学辨识结果;
该特征标记识别器,用以依该文件的特征内容,建立该文件的特征标记,其中该文件的特征内容包含该文件的文字内容及/或该光学辨识的结果;
其储存文件时,是依该档案接收服务器读入的来源辨识信息及/或该文件的特征标记进行分类,做为储存该输入数据的依据;及
其于储存该文件时,依该特征标记建立索引,用以做为系统欲输出文件时,搜寻该笔文件的依据。
上述所谓文件,是泛指电子文件(例如电子邮件的本文及/或附件、传真机传送的电子文件、扫瞄装置读入的电子文件、计算机所产生的各式电子档案);或经由转换技术所得到的电子信息,例如纸本文件(文字资料、图式、窗体等)、照片等可透过扫瞄装置转成电子文件;实物、样品等可透过数字照相转成电子文件;或任意可转换成电子文件的信息所转成的电子信息。文件格式并无一定限制,例如TXT、MS-Office、PDF、JPG、GIF、TIFF、HTML等。
上述网页服务器,可采用任意已知的网页服务器,例如IIS、Apache、TOMCAT、ColdFusion、Websphere、Jrun、Abyss、RaidenHTTPD或WebObjects等;当然也可以是自己完成、委外完成或合作完成的类似网页服务器;以采用IIS、Apache、Tomcat、Coldfusion或Webshphere为较佳;以采用IIS、Apache或Tomcat为更佳。
上述档案接收服务器,可采用任意已知的档案接收服务器,用以负责接收透过网络协议、服务传送至系统的附加信息及实体档案,例如:HTTP、HTTPS、WebDAV、SMTP、IMAP、FTP、SFTP、TFTP、RSYNC、Bittorrent、CVS及/或SVN等;当然也可以是自己完成、委外完成或合作完成的类似档案接收服务器;以采用Http、FTP、IMAP、及/或SMTP为较佳;以采用FTP、IMAP、及/或SMTP为更佳。
上述光学识别器,可为任意已知的光学识别器,诸如光学字符识别器(例如ABBYY公司的FINE READER)、条形码识别器(例如一般的一维条形码识别器、二维条形码识别器)等;当然也可以是自己完成、委外完成或合作完成的类似光学识别器。若该光学识别器为条形码识别器,则客户必须使用条形码,造成客户的困扰,因此,一般而言以使用光学字符识别器为较佳。
若该读入文件只含文字内容时,则该文字内容即为该文件的特征内容。
若该读入文件不含文字内容时,则该光学识别器的辨识结果即为该文件的特征内容。
若该读入文件同时含文字内容和非文字内容时,其可以为单纯光学识别器的辨识结果、或单纯文字内容、或文字内容加辨识结果做为该文件的特征内容。一般而言,当光学识别器为光学字符识别器时,通常以文字内容加辨识结果做为该文件的特征内容;当光学识别器为条形码识别器时,通常以辨识结果做为该文件的特征内容。
上述特征标记识别器,可采用任意已知的特征标记识别器,例如意蓝公司的龙卷风搜寻引擎;当然也可以是自己完成、委外完成或合作完成的类似特征标记识别器。
上述的特征标记识别器,其对该文件的特征内容,进行诸如断词断句、关键词撷取及/或文件内涵分析,以建立该文件的特征标记。一般而言,该特征标记识别器除上述功能外,以进一步具有新词学习、用字、用语、词性或意境分析等功能为较佳。
在特殊状况下,例如:经特征标记识别器辨识后,不含特征标记时,必要时,系统可要求使用者提示特征标记,或自动对该特征标记加注诸如“其它类别”做为特征标记。此外,该特殊状况,必要时,可列入诸如新词学习、意境分析的统计或分析,或资料勘探(data mining)等后续程序。
上述该来源辨识信息,其可为任意可辨识文件来源的信息,诸如文件头信息,例如传送者、传送者帐号、主旨、传送来源(主机名称、MAC地址、网络地址/IP Address)、文件名称、传送日期、档案格式、档案内容摘要等。
上述数据库于储存文件时,可依该档案接收服务器读入的来源辨识信息(例如文件头)进行分类,储存该输入资料,例如分类方式(资料夹)为:
<A001公司>(客户1)
<A002公司>(客户2)
<A003公司>(客户3)
<A004公司>(客户4)
........................
其中A001公司、A002公司、A003公司、A004公司等,可以是各该公司的公司名称、公司代号、公司网域名称、公司电话号码等,及/或其组合。
上述数据库于储存文件时,也可依该档案接收服务器读入的来源辨识信息(例如文件头)进行分类及进一步分类,以储存该该输入资料,例如分类方式(资料夹)为:
<A001公司>  (客户1)
  <B1-001>
  <B1-002>
  <B1-003>
  ........
<A002公司>  (客户2)
  <B2-001>
  <B2-002>
  <B2-003>
  ........
<A003公司>  (客户3)
........
<A004公司>  (客户4)
.......................
其中A001公司、A002公司、A003公司、A004公司等,可以是各该公司的公司名称、公司代号、公司网域名称、公司电话号码等,及/或其组合。B1-001、B1-002、B1-003等分别为A001公司的部门名称或部门代号、使用者名称(文件头信息为电子邮件地址时)、或该公司自订的分类方式;B2-001、B2-002、B2-003等分别为A002公司的部门名称或部门代号、使用者名称(文件头信息为电子邮件地址时)、或该公司自订的分类方式;因此该分类方式可以多于两层的分类。
必要时,上述分类亦可纳入上述特征内容或特征标记,做为分类的依据之一,但以不纳入所述信息做为分类的依据为较佳。
上述数据库于储存文件时,可依该档案接收服务器读入的来源辨识信息(例如文件头)、特征内容、特征标记、储存日期时间、及/或流水号等,做为储存档案时的档名,例如A001公司的档案储存为:
<A001公司>  (客户1)
  BX001-a1说明.doc  (档名1)
  BX002-a1规范.xls  (档名2)
  BX003-a2内容.doc  (档名3)
  BX004-a3介绍.pdf  (档名4)
  .............................
其中BX001、BX002、BX003、BX004为流水号,“a1说明.doc”、“a1规范.xls”、“a2内容.doc”、“a3介绍.pdf”的主文件名是系统根据部份特征内容自动订定的,而扩展名是依据各该档案格式自动订定的。
若各客户的主档名都含流水号,则各分类(含细分类)内的档案都不会重复。但档名不含流水号时,在特殊状况下,新文件自动产生的档名,可能和相同分类(含细分类)内的既存文件的档名相同,此时,系统可要求使用者提示新的档名,或自动对该特征标记加注诸如日期(及/或时间)等辨识码。特殊状态下,诸如档名不具特异性,例如主文件名为空符号或数据库禁制符号时,此时,系统可要求使用者提示新的档名,或自动对该特征标记加注诸如日期(及/或时间)等辨识码。
上述特征标记,其可为一个或复数个特征用字及/或特征用语的集合。当建立索引时,以各单一特征用字或特征用语分别建立该文件的索引为主,但亦可进一步建立以复数个特征用字及/或特征用语的文件索引,但一般在检索时采用“and”功能取代后者。例如档案1经光学识别器辨识后,得到的特征内容为:“…XX1…XX2…XX3XX4…,经特征识别器辨识后,得到的特征用语为:XX1、XX2、XX3、XX4、XX3XX4……等,其中特征用语XX3XX4为特征用语XX3和特征用语XX4的复合特征用语,且系统自动设定文件名为“YYY””;而档案2经光学识别器辨识后,得到的特征内容为:“…XX1…XX3…XX4…XX5…”,经特征识别器辨识后,得到的特征用语为:XX1、XX3、XX4、XX5……等,且系统自动设定文件名为“ZZZ””;则系统将自动产生特征用语索引如下:
XX1……YYY
XX1……ZZZ
XX2……YYY
XX3……YYY
XX3……ZZZ
XX3XX4……YYY
XX4……YYY
XX5……ZZZ
当客户想浏览或输出其所储存的文件时,可凭客户名称(或代号、网域名称、电话号码等),配合密码(例如文字密码、条形码、指纹、虹膜等),检索待浏览或输出的文件,检索方式含任意已知的检索方式,例如全文检索、关键词(特征用语、特征用词)检索、分类检索、日期及/或时间检索,或日期区间等检索。以特征用语检索为例,例如上述案例中:
日后该用户想要检索含XX1的档案,可找到档案YYY和档案ZZZ(当然可能还有其它也含XX1的档案);
日后该用户想要检索含XX2的档案,可找到档案YYY,但无法找到档案ZZZ;
日后该用户想要检索同时含XX3和XX4的档案,即可找到档案YYY和档案ZZZ;
日后该用户想要检索含XX3XX4的档案,只能找到档案YYY,无法找到档案ZZZ。
本发明的远程文件控管方法,其包括:
一文件接收步骤,用以接收上传的电子文件;
一文件分解步骤,用以分解该电子文件的来源辨识信息;
一分类步骤,用以依该来源辨识信息进行分类;及
一档案储存步骤,用以依该分类储存该电子文件;
其特征在于其进一步包括:
一特征标记辨识步骤,用以该电子文件的内容辨识特征标记;及
一索引建立步骤,用以依该特征标记建立索引,作为系统欲输出该电子文件时,搜寻该笔该电子文件的依据。
上述所谓电子文件、来源辨识信息、分类方式、档案储存方式、特征标记辨识方式、建立索引方式、输出电子文件方式,都类如前述。本发明方法的实际处理程序则如下述较佳具体例或实施例所述。
上述方法中,若分类是采用前述依来源辨识信息进行粗分类,再依特征标记进行细部分类,则该分类步骤和特征标记辨识步骤的关系,可以是:依来源辨识信息进行粗分类,而后等进行特征标记辨识步骤后,再依特征标记进行细部分类;也可以是:先执行特征标记辨识步骤,再执行分类步骤(含粗分类和细部分类)。
上述方法中,若分类是单纯依来源辨识信息进行分类,不再依特征标记进行细部分类,则该分类步骤和特征标记辨识步骤的关系,可以是:先执行分类步骤,再执行特征标记辨识步骤,这种情况下,特征标记辨识步骤和档案储存步骤其先后顺序也可以对调,甚至是实质上同步进行或交互进行;也可以是:先执行特征标记辨识步骤,再执行分类步骤;当然两者实质上同步进行或交互进行也可以。
附图说明
图1a为本发明会员接收传真时的上传/存档机制示意图。
图1b为本发明会员扫瞄并上传资料的存档机制示意图。
图1c为本发明会员单纯上传资料的存档机制示意图。
图2为本发明会员检索档案和文件控管系统下传档案的机制示意图。
图3为本发明会员和文件控管系统的结构方块图。
图4为本发明文件控管系统执行储存任务的一较佳执行流程示意图。
图5为本发明文件控管系统执行储存任务的另一较佳执行流程示意图。
图6为本发明文件控管系统执行储存任务的另一较佳执行流程示意图。
图7为本发明文件控管系统中580(进行细部分类)步骤的一较佳执行流程示意图。
图8为本发明文件控管系统中580(进行细部分类)步骤的另一较佳执行流程示意图。
图9为本发明文件控管系统执行检索任务的一较佳执行流程示意图。
图10为本发明文件控管方法的一较佳具体例的流程示意图。
附图标记
100.文件控管系统      110.网页服务器      120.档案接收服务器
130.光学字符识别器(OCR)                   140.数据库
150.特征标记识别器    180.接收上传文件    190.存档任务
192.接收上传资讯      194.执行检索任务    196.执行下传档案
200.会员的多功能事务机                    205.计算机(电脑)
210.传真机制          220.扫描机制        230.打印机制
240.复印机制        280.接收文件(扫描文件)
290.上传文件        292.上传特征用语    296.接收下传档案
300.传真发送单位    310.传真文件
510.接收电子文件    520.分解电子文件
530.依档头粗分类    540.光学字符辨识    542.判断含非文字内容
550.建立特征内容    560.辨识特征标记    570.建立索引
580.进行细部分类    581.判断有关键词否  582.依关键词分类
583.判断手动分类否  584.依输入值分类    585.无细部分类
586.完成(细部)分类  590.依分类存档
610.接收检索信息    620.执行检索任务
630.判定有档案否    640.下传档案信息    650.下传检索结果
具体实施方式
为进一步说明本发明,兹以较佳具体例配合图式说明于后:
图1a中,外部传真发送单位300发送传真文件310给系统会员时,会员的多功能事务机200(以下简称MFP),于接收到的传真文件而获得接收文件280时,即透过网络上传该上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立即执行存档任务190。
图1b中,当会员欲储存既有资料时,利用MFP的扫描功能扫描该文件,获得扫描文件280,并透过网络上传该扫描文件,执行上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立即执行存档任务190。
图1c中,当会员欲储存既有电子文件时,直接透过网络上传该上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立即执行存档任务190。
图2中,当会员欲检索既有电子文件时,直接以计算机205透过网络,执行上传特征用语292上传该文件的一或多个特征用语至文件控管系统100;当文件控管系统执行接收上传资讯192接收到该上传资料,立即执行检索任务194,而后执行下传档案196将检索结果(下传合乎检索条件的档案,或下传“无”的讯息)下传给用户,用户通过执行接收下传档案296获得检索结果。
图3中100为文件控管系统,110、120、130、140、150分别为文件控管系统的网页服务器、档案接收服务器、光学字符识别器(OCR)、数据库和特征标记识别器;200为会员端的MFP,210、220、230、240分别为MFP的传真机制、扫描机制、打印机制、复印机制。
图4显示:当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,依档头粗分类530,并将电子文件中的非文字进行光学字符识别540,而后,依OCR辨识结果,配合该电子文件的文字内容,执行建立特征内容550建立该文件的特征内容,再利用龙卷风搜寻引擎,由建立特征内容550辨识特征标记560;而后,一方面依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据;另一方面依特征标记,进行细部分类580,而后依分类结果(粗分类加细分类),执行依分类存档590储存该电子文件。
图5显示:当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,并执行依档头分类530进行分类,而后,将电子文件中的非文字进行光学字符识别540,并依OCR辨识结果,执行建立特征内容550依序建立该文件的特征内容,再依特征内容辨识特征标记560,并依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据,最后执行依分类存档590依文件头分类储存该电子文件。
图6显示:当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,执行依档头分类530进行分类,并执行依分类存档590进行分类及依文件头分类储存该电子文件;而后,将电子文件中的非文字进行光学字符识别540;执行建立特征内容550将OCR的结果和文件中的文字内容合并为特征内容,再依特征内容辨识特征标记560,并依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据。
图7为图3中辨识特征标记560步骤加上进行细部分类580步骤的细部流程图,其是在特征标记中找关键词,执行判断有关键词否581看看是否含关键词,若含关键词依关键词进一步执行依关键词分类582,以完成(细部)分类586;若不含关键词,则由使用者决定是否执行判断手动分类否583,若是,则执行依输入值分类584,依其键入内容做为细部分类,以完成(细部)分类586;若否,则执行无细部分类585,亦即完成(细部)分类586。
图8显示进行细部分类580步骤的另一细部流程图,其是在执行辨识特征标记560步骤后获得的特征标记中找关键词,执行判断有关键词否581看看是否含关键词,若含关键词依关键词进一步执行依关键词分类582,以完成(细部)分类586;若不含关键词,则执行无细部分类585,亦即完成(细部)分类586。
图9显示:系统在执行接收检索信息610步骤,接收到检索信息后,立即依上传的检索条件执行检索任务620步骤进行检索,执行判定有档案否630步骤,判断是否有合乎条件的档案,若有合乎条件的档案,就执行下传档案信息640步骤,将合乎条件的档案下传给用户;若没有合乎条件的档案,就执行下传检索结果650步骤,下传“没有合乎条件的档案”的讯息给用户。
图10为本发明方法一较佳具体例的流程图。当文件控管系统执行收电子文件510步骤接收上传的电子文件后,立即执行分解电子文件520步骤,分解该电子文件的文件头,执行依档头粗分类530步骤,依档头进行分类,并执行依分类存档590步骤,依文件头分类储存该电子文件;而后,执行判断含非文字内容542步骤,判断文件中是否含“非文字内容”,若含“非文字内容”,则将电子文件中的非文字进行光学字符识别540,而后进行建立特征内容550步骤(将OCR的结果和文件中的文字内容合并为特征内容);若不含“非文字内容”,则直接进行建立特征内容550步骤(直接以文件中的文字内容做为特征内容);而后,依特征内容辨识特征标记560,并依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据。
另以本案说明书为例,说明本案光学字符辨识540步骤、建立特征内容550步骤、辨识特征标记560步骤和建立索引570步骤,以及检索该档案的状况如下:
本案内容包括:发明名称、说明书摘要、说明书、权利要求、附图……等,其中发明名称、说明书摘要、说明书、权利要求……等为文字内容,附图为非文字内容,因此在光学字符辨识540步骤中,光学字符识别器将对附图进行光学字符辨识。以图1a为例,OCR后,会得到“300传真发送单位”、“310传真文件”、“200MFP(系统会员)”、“280接收文件”、“290上传文件”、“100文件控管系统”、“180接收上传文件”、“190执行存档任务”等文字内容。
建立特征内容550步骤中,会将光学字符辨识540步骤辨识所得的文字内容,和原来的文字内容(发明名称、说明书摘要、说明书、权利要求……等)合并,成为特征内容。
辨识特征标记560步骤中,特征标记辨识器会对建立特征内容550步骤所建立的特征内容,进行特征标记辨识。以发明名称进行特征标记辨识为例,将会得到“辨识、分类、搜寻、储存、文件、控管、系统”等特征用语,以图1经OCR后所得的文字进行特征标记辨识为例,将会得到“传真、发送、单位、文件、MFP、系统、会员、接收、上传、控管、执行、存档、任务”等特征用语。
在建立索引570步骤中,系统会依辨识特征标记560步骤辨识所得的特征用语,对待存档案(图3或图4所示的流程)或既存档案(图5所示的流程),进行建立索引的程序。设若系统自动设定文件名为“具有辨识分类搜寻储存功能的文件控管系统”(下文中简化为文件控管系统),以发明名称内所含的特征用语为例,系统将自动产生特征用语索引如表1:
表1:以发明名称内的特征用语所建立的索引表
辨识                                    文件控管系统
辨识分类                                文件控管系统
辨识分类搜寻                            文件控管系统
辨识分类搜寻储存                        文件控管系统
辨识分类搜寻储存文件                    文件控管系统
辨识分类搜寻储存文件控管                文件控管系统
辨识分类搜寻储存文件控管系统            文件控管系统
分类                                    文件控管系统
分类搜寻                                文件控管系统
分类搜寻储存                            文件控管系统
分类搜寻储存文件                        文件控管系统
分类搜寻储存文件控管                    文件控管系统
分类搜寻储存文件控管系统                文件控管系统
搜寻                                    文件控管系统
搜寻储存                                文件控管系统
搜寻储存文件                            文件控管系统
搜寻储存文件控管                        文件控管系统
搜寻储存文件控管系统                    文件控管系统
储存                                    文件控管系统
储存文件                                文件控管系统
储存文件控管                            文件控管系统
储存文件控管系统                        文件控管系统
文件                                    文件控管系统
文件控管                                文件控管系统
文件控管系统                            文件控管系统
控管                                    文件控管系统
控管系统                                文件控管系统
系统                                    文件控管系统
再以图1所含的特征用语为例,系统将自动产生新增的特征用语索引如表2:
表2:以图1中的特征用语所建立的索引表
传真                                文件控管系统
传真发送                            文件控管系统
传真发送单位                        文件控管系统
发送                                文件控管系统
发送单位                            文件控管系统
单位                                文件控管系统
传真文件                            文件控管系统
MFP                                 文件控管系统
系统会员                            文件控管系统
会员                                文件控管系统
接收                                文件控管系统
接收文件                            文件控管系统
上传                                文件控管系统
上传文件                            文件控管系统
接收上传                            文件控管系统
接收上传文件                        文件控管系统
执行                                文件控管系统
执行存档                            文件控管系统
执行存档任务                        文件控管系统
存档                                文件控管系统
存档任务                            文件控管系统
任务                                文件控管系统
表2中不含“文件文件控管文件控管系统控管控管系统系统”等特征用语的索引,因为所述索引,在表1中已出现。
在存档并建立索引表后,则系统用户可利用特征用语检索/显示/下载该档案。例如文件控管系统100用户以“储存”进行特征用语检索,文件控管系统200(会员的多功能事务机200?)在接收检索信息610步骤中接收检索信息后,立即执行检索任务620步骤,看看索引表中是否含“储存”这个特征用语(判定有档案否630步骤),检索结果为索引表中含“储存”这个特征用语,因此接着执行下传档案信息640步骤,亦即系统会将本文件下载到会员端。会员接收该信息后,可自行决定显示及/或下载本文件。

Claims (24)

1.一种具有辨识分类搜寻储存功能的文件控管系统,其包含:
一网页服务器;
一档案接收服务器,用以由该网页服务器,读取及/或输出文件;
一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进行光学识别;
一特征标记识别器,用以建立该输入文件的特征标记;及
一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该档案接收服务器和网页服务器输出;
其特征是:
该光学识别器可自动对该输入文件的非文字部分进行光学辨识,得到光学辨识结果;
该特征标记识别器,用以依该文件的特征内容,建立该文件的特征标记,其中该文件的特征内容包含该文件的文字内容及/或该光学辨识的结果;
其储存文件时,是依该档案接收服务器读入的来源辨识信息及/或该文件的特征标记进行分类,做为储存该输入数据的依据;及
其于储存该文件时,依该特征标记建立索引,用以做为系统欲输出文件时,搜寻该笔文件的依据。
2.如权利要求1所述的文件控管系统,其中该光学识别器为光学字符识别器。
3.如权利要求1所述的文件控管系统,其中系统储存文件时,是依该档案接收服务器读入的来源辨识信息进行分类,做为储存该输入资料的依据。
4.如权利要求1所述的文件控管系统,其中该来源辨识信息为文件头信息。
5.如权利要求1所述的文件控管系统,其中该文件为电子文件。
6.如权利要求5所述的文件控管系统,其中该文件为电子邮件、传真机传送的电子文件、扫瞄装置读入的电子文件、及/或计算机所产生的各式电子档案。
7.如权利要求1所述的文件控管系统,其中该特征标记识别器进一步具有新词学习及用字、用语、词性或意境的统计分析功能。
8.如权利要求1所述的文件控管系统,其中该特征标记识别器进一步具有资料探勘功能。
9.如权利要求1所述的文件控管系统,其中该网页服务器为IIS、Apache、Tomcat、Coldfusion或Webshphere。
10.如权利要求9所述的文件控管系统,其中该网页服务器为IIS、Apache或Tomcat。
11.如权利要求1所述的文件控管系统,其中该档案接收服务器为Http、FTP、IMAP及/或SMTP。
12.如权利要求11所述的文件控管系统,其中该档案接收服务器为FTP、IMAP及/或SMTP。
13.一种远程文件控管方法,其包括:
一文件接收步骤,用以接收上传的电子文件;
一文件分解步骤,用以分解该电子文件的来源辨识信息;
一分类步骤,用以依该来源辨识信息进行分类;及
一档案储存步骤,用以依该分类储存该电子文件;
其特征是,其进一步包括:
一特征标记辨识步骤,用以该电子文件的内容辨识特征标记;及
一索引建立步骤,用以依该特征标记建立索引,作为系统欲输出该电子文件时,搜寻该笔该电子文件的依据。
14.如权利要求13所述的远程文件控管方法,其中在该特征标记辨识步骤之前,进一步含一光学辨识步骤,用以辨识该电子文件中的非文字内容,并以辨识结果做为该特征标记辨识步骤的特征标记辨识内容。
15.如权利要求14所述的远程文件控管方法,其中该光学辨识步骤,是以光学字符辨识器进行光学辨识。
16.如权利要求13所述的远程文件控管方法,其中在该特征标记辨识步骤之前,进一步含一光学辨识步骤,用以辨识该电子文件中的非文字内容,并将辨识结果和该电子文件的文字内容合并,做为该特征标记辨识步骤的特征标记辨识内容。
17.如权利要求16所述的远程文件控管方法,其中该光学辨识步骤,是以光学字符辨识器进行光学辨识。
18.如权利要求13所述的远程文件控管方法,其中该来源辨识信息为文件头信息。
19.如权利要求13所述的远程文件控管方法,其中该特征标记识别器进一步具有新词学习及用字、用语、词性或意境的统计分析功能。
20.如权利要求13所述的远程文件控管方法,其中该特征标记识别器进一步具有资料勘探功能。
21.如权利要求13所述的远程文件控管方法,其中该网页服务器为IIS、Apache、Tomcat、Coldfusion或Webshphere。
22.如权利要求21所述的远程文件控管方法,其中该网页服务器为IIS、Apache或Tomcat。
23.如权利要求13所述的远程文件控管方法,其中该档案接收服务器为Http、FTP、IMAP及/或SMTP。
24.如权利要求23所述的远程文件控管方法,其中该档案接收服务器为FTP、IMAP及/或SMTP。
CN200810211235A 2008-09-19 2008-09-19 具有辨识分类搜寻储存功能的文件控管系统及方法 Pending CN101676902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810211235A CN101676902A (zh) 2008-09-19 2008-09-19 具有辨识分类搜寻储存功能的文件控管系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810211235A CN101676902A (zh) 2008-09-19 2008-09-19 具有辨识分类搜寻储存功能的文件控管系统及方法

Publications (1)

Publication Number Publication Date
CN101676902A true CN101676902A (zh) 2010-03-24

Family

ID=42029471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810211235A Pending CN101676902A (zh) 2008-09-19 2008-09-19 具有辨识分类搜寻储存功能的文件控管系统及方法

Country Status (1)

Country Link
CN (1) CN101676902A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927606A (zh) * 2013-01-14 2014-07-16 上海核工程研究设计院 一种基于特征码的纸质和电子文件管理方法
CN106210001A (zh) * 2016-06-29 2016-12-07 广州视睿电子科技有限公司 远程文件访问方法、服务器、客户端与系统
CN106557583A (zh) * 2016-11-29 2017-04-05 用友网络科技股份有限公司 档案存储装置和档案存储方法
TWI659320B (zh) * 2017-10-16 2019-05-11 臺灣銀行股份有限公司 內容可索引之文件影像檔的建立方法及其索引方法
CN112507186A (zh) * 2020-11-27 2021-03-16 北京数立得科技有限公司 网页元素分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927606A (zh) * 2013-01-14 2014-07-16 上海核工程研究设计院 一种基于特征码的纸质和电子文件管理方法
CN103927606B (zh) * 2013-01-14 2017-09-29 上海核工程研究设计院 一种基于特征码的纸质和电子文件管理方法
CN106210001A (zh) * 2016-06-29 2016-12-07 广州视睿电子科技有限公司 远程文件访问方法、服务器、客户端与系统
CN106557583A (zh) * 2016-11-29 2017-04-05 用友网络科技股份有限公司 档案存储装置和档案存储方法
TWI659320B (zh) * 2017-10-16 2019-05-11 臺灣銀行股份有限公司 內容可索引之文件影像檔的建立方法及其索引方法
CN112507186A (zh) * 2020-11-27 2021-03-16 北京数立得科技有限公司 网页元素分类方法

Similar Documents

Publication Publication Date Title
US7788218B2 (en) Handling digital documents in a networked system using an e-mail server
US7475336B2 (en) Document information processing apparatus and document information processing program
CN100545846C (zh) 文档搜索设备和方法
US8451475B2 (en) Systems and methods for routing a facsimile confirmation based on content
US20110153515A1 (en) Distributed capture system for use with a legacy enterprise content management system
US20080273220A1 (en) Systems and methods for routing facsimiles based on content
US9390089B2 (en) Distributed capture system for use with a legacy enterprise content management system
EP2339451B1 (en) Image processing apparatus having file server function, and control method and storage medium therefor
CN111225120A (zh) 图像处理装置、其控制方法及存储介质
JP2002342355A (ja) 新聞発行日確認方法
JP2017073591A (ja) 画像処理装置、制御方法、及びプログラム
US8467609B2 (en) Document management device and document management method with identification, classification, search, and save functions
JP7353771B2 (ja) プログラム、記憶媒体、情報処理装置の制御方法、及び情報処理装置
CN101676902A (zh) 具有辨识分类搜寻储存功能的文件控管系统及方法
JP6344325B2 (ja) 検索システム、検索方法、およびコンピュータプログラム
US20100034460A1 (en) Document management system and remote document management method with identification, classification, search, and save functions
EP1703421B1 (en) Document management system
WO2005057362A2 (en) Systems and methods for data interchange among autonomous processing entities
US8634112B2 (en) Document processing apparatus for generating an electronic document
JP6127597B2 (ja) 情報処理装置、その制御方法及びプログラム
CN104052894B (zh) 被编码文档打印方法和扫描方法以及拉式复印系统
CN101676903A (zh) 具有辨识分类搜寻储存功能的文件控管装置及方法
JP3833168B2 (ja) 文書管理支援装置及びその方法、文書管理支援システム、並びにプログラム
JP6376826B2 (ja) 管理装置、コンピュータプログラム、管理方法
JP4296188B2 (ja) 文書管理支援システム及び方法、プログラム、並びに文書管理支援装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100324