CN107315830A - 一种智能分析文档的方法及系统 - Google Patents
一种智能分析文档的方法及系统 Download PDFInfo
- Publication number
- CN107315830A CN107315830A CN201710555508.1A CN201710555508A CN107315830A CN 107315830 A CN107315830 A CN 107315830A CN 201710555508 A CN201710555508 A CN 201710555508A CN 107315830 A CN107315830 A CN 107315830A
- Authority
- CN
- China
- Prior art keywords
- document
- server
- analysis
- client
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种智能分析文档的方法及系统,属于计算机应用技术领域。本发明方法包括如下步骤:用户通过客户端上传需要分析的文档及分析条件;客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;服务器解封装,得到原始文档信息;服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;服务器将获取的分析结果返回给用户。本发明还提供了一种实现所述方法的系统。本发明的有益效果为:数据传输更安全,提高人们工作效率,避免时间浪费在翻阅和整理上。
Description
技术领域
本发明涉及计算机应用技术,尤其涉及一种智能分析文档的方法。
背景技术
随着科学技术的不断发展,人们从以前的纸质书籍已经慢慢的演变为电子书,随着各种资料、书籍、文档的增加,人们在寻找适合自己需要的文件时,往往会需要花费大量的时间来整理和翻阅,费时费力,效果不佳,这样人们的实际价值将得不到具体的体现。所以,急需要一种方法,来帮助人们提高效率,把整理资料和检索有用信息的事情交给它去做。
发明内容
为解决现有技术中的问题,本发明提供一种智能分析文档的方法,还提供了一种实现所述方法的系统。
本发明方法包括如下步骤:
S1:用户通过客户端上传需要分析的文档及分析条件;
S2:客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;
S3:服务器解封装,得到原始文档信息;
S4:服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;
S5:服务器将获取的分析结果返回给用户。
本发明作进一步改进,步骤S1中,如果为电子文档,所述客户端包括PC电脑、平板、手机,如果为纸质文档,所述客户端还包括扫描仪,所述扫描仪将纸质文档转换为电子文档上传至服务器。
本发明作进一步改进,在步骤S2中,所述四层模型包括应用层、传输层、网络互联层和物理层,所述文档处理方法包括:
S21:在应用层,所述文档信息将文档信息封装为数据段;
S22:在传输层,将所述数据段封装为数据包;
S23:在网络互联层,将数据包封装为数据帧;
S24:在物理层,将数据帧封装为比特流的形式。
本发明作进一步改进,在步骤S4中,所述服务器选用centos操作系统。
本发明作进一步改进,所述服务器采用hadoop作为服务器的的大数据分析平台,用Python作为数据分析算法。
本发明作进一步改进,步骤S5中,所述服务器通过短息、邮箱或网页的方式将结果发送给用户,所述分析结果包括该篇文档的情感倾向、主要内容、是否存在敏感内容、该文档的字数、段数、与其他类似文档的相似度、文档的出处。
本发明还提供了一种实现所述方法的系统,包括用户、客户端和服务器,所述用户用于通过客户端上传需要分析的文档及分析条件,并获取服务器返回的分析结果;所述客户端用于通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;所述服务器用于对数据解封装,得到原始文档信息,然后通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库,并将获取的分析结果返回给用户。
本发明作进一步改进,所述服务器包括蓝牙模块和WIFI模块,用于无线接收用户的文档信息。
本发明作进一步改进,所述服务器与客户端之间的通信协议包括网络通信协议、用户数据报协议和有线等效协议。
与现有技术相比,本发明的有益效果是:数据传输更安全,提高人们工作效率;通过对文档的内容进行分析,根据文档里面出现的关键字、关键语句,来进行内容的分析,从而可以分析出该篇文档的许多信息,用户可以根据自己的需要,来设定自己想要看到的内容,从而进行检索,避免时间浪费在翻阅和整理上。
附图说明
图1为本发明方法流程图;
图2为文档处理流程图;
图3为一实施例方法流程图;
图4为用户收到的分析结果。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,本发明方法包括如下步骤:
S1:用户通过客户端上传需要分析的文档及分析条件;
S2:客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;
S3:服务器解封装,得到原始文档信息;
S4:服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;
S5:服务器将获取的分析结果返回给用户。
其中,步骤S1中,如果为电子文档,所述客户端包括PC电脑、平板、手机,如果为纸质文档,所述客户端还包括扫描仪,所述扫描仪将纸质文档转换为电子文档上传至服务器。用户在客户端上面需要用户填写相关的信息,比如需要勾选检索哪些内容,上传所需要检索的文档,填写用户自己的邮箱地址或者手机号等信息用于获取服务器返回的分析结果。填写完以后,客户端可以向服务器端发送请求,将文档和检索条件发送给服务器。
如图2所示,在步骤S2中,客户端通过将需要进行分析的文档以TCP/IP协议通过层层的封装,以文件流的形式在数据链路层上将数据发送给线上部署的服务器,然后服务器会根据TCP/IP协议将用户发送的流以特定的方式进行解封装。
具体地,本例的四层模型包括应用层、传输层、网络互联层和物理层,所述文档处理方法包括:
S21:在应用层,所述文档信息将文档信息封装为数据段;
S22:在传输层,将所述数据段封装为数据包;
S23:在网络互联层,将数据包封装为数据帧;
S24:在物理层,将数据帧封装为比特流的形式。
在步骤S4中,所述服务器选用centos操作系统。对接收的文档进行分析,服务器会将该文档进行分析处理,处理时间因用户所需要知道的内容而定,然后输出结果文档,结果文档会标明用户所需要的结果和这些结果是根据哪些条件来进行得到的,服务器会根据用户留下的邮箱地址或者手机号,将反馈结果发送给用户,用户等待片刻,就拿到需要的结果,可以大大的提高客户的效率,避免做不必要的事情。
本例服务器采用hadoop作为服务器的的大数据分析平台。使用Python的扩展模块做为数据分析的算法。Python, 是一种面向对象、解释型计算机程序设计语言,Python在作为大数据分析领域,有几个重要的扩展模块:Numpy、Pandas、SciPy、Matplotlib、IPython等开源的库作为数据分析的算法。其中Numpy是Python科学计算的基础包,Pandas提供了快速便捷地处理结构化数据的大量数据结果和函数,Matplotlib提供了用于绘制数据图表的Python库,SciPy是一组专门解决科学计算中各种标准问题域的包的集合。
在步骤S5中,所述服务器通过短息、邮箱或网页的方式将结果发送给用户,所述分析结果包括该篇文档的情感倾向、主要内容、是否存在敏感内容、该文档的字数、段数、与其他类似文档的相似度、文档的出处。
如图3所示,作为本发明的一个实施例,本例的处理过程为:
用户端:当用户有文档需要分析时,如果没有扫描仪,通过客户端的网络上传至服务器,判断是否成功,如果上传失败,提示用户失败信息,判断是否重新上传,如果是,通过客户端的网络上传至服务器,等待服务器返回分析结果。如果否,不会上传至服务器,结束。
服务器端:如果上传成功,服务器端通过算法对文档进行分析,进行大数据统计,从而得出该文档的情绪色彩等信息,同时将结果存储至数据库,然后将分析结果返回给用户。
用户如果是纸质文档 ,可以选择另外一种方式进行上传文档,也就是本例的扫描仪,处理方法为:如果有纸质的信息需要进行分析,通过扫描仪将我们的纸质信息进行扫描,扫描成功后,生成电子文档,然后上传,如果上传失败,会提示用户重新上传,直至上传成功。然后服务器端开始进行分析操作。
扫描仪可以扫描纸质文档,本例扫描仪是可以对纸质的书籍或者装订的文档进行翻页扫描,可以对扫描的文件作出设置,设置扫描的页数,同时还能设置自动检索,对于内容较少且需要查看的信息较少的文档,扫描仪会将扫描的结果进行分析,然后将结果同步至个人电脑。同时,个人电脑可以将扫描的文档以TCP/IP(传输控制协议和网际协议)或者UDP协议(User Datagram Protocol的简称, 中文名是用户数据报协议)的方式发送至服务器,经过服务器的分析和统计,从而得到结果。
如图4所示,为一种返回给用户的结果,比如用户想要分析文档的情感色彩,服务器会统计出情感圆饼图,并将悲伤、愤怒、高兴、失望按照所占的比例分割,然后发送给用户终端,如果用户选择的是短信,则将其转换为文字,发送给用户手机。如果用户选择的是邮箱,则直接将分析结果发送到用户邮箱。
本发明还提供了一种实现所述方法的系统,包括用户、客户端和服务器,所述用户用于通过客户端上传需要分析的文档及分析条件,并获取服务器返回的分析结果;所述客户端用于通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;所述服务器用于对数据解封装,得到原始文档信息,然后通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库,并将获取的分析结果返回给用户。
本例服务器包括蓝牙模块和WIFI模块,用于无线接收用户的文档信息。所述服务器与客户端之间的通信协议包括网络通信协议、用户数据报协议和有线等效协议。让用户上传的数据能正常的进行传输,同时也能保障数据的安全性。
本发明能够大大提高人们工作效率;通过对文档的内容进行分析,根据文档里面出现的关键字、关键语句,来进行内容的分析,从而可以分析出该篇文档的许多信息,用户可以根据自己的需要,来设定自己想要看到的内容,从而进行检索,避免时间浪费在翻阅和整理上。
以上所述之具体实施方式为本发明的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明所作的等效变化均在本发明的保护范围内。
Claims (9)
1.一种智能分析文档的方法,其特征在于包括如下步骤:
S1:用户通过客户端上传需要分析的文档及分析条件;
S2:客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;
S3:服务器解封装,得到原始文档信息;
S4:服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;
S5:服务器将获取的分析结果返回给用户。
2.根据权利要求1所述的智能分析文档的方法,其特征在于:步骤S1中,如果为电子文档,所述客户端包括PC电脑、平板、手机,如果为纸质文档,所述客户端还包括扫描仪,所述扫描仪将纸质文档转换为电子文档上传至服务器。
3.根据权利要求1所述的智能分析文档的方法,其特征在于:在步骤S2中,所述四层模型包括应用层、传输层、网络互联层和物理层,所述文档处理方法包括:
S21:在应用层,所述文档信息将文档信息封装为数据段;
S22:在传输层,将所述数据段封装为数据包;
S23:在网络互联层,将数据包封装为数据帧;
S24:在物理层,将数据帧封装为比特流的形式。
4.根据权利要求3所述的智能分析文档的方法,其特征在于:在步骤S4中,所述服务器选用centos操作系统。
5.根据权利要求4所述的智能分析文档的方法,其特征在于:所述服务器采用hadoop作为服务器的的大数据分析平台,用Python作为数据分析算法。
6.根据权利要求1所述的智能分析文档的方法,其特征在于:步骤S5中,所述服务器通过短息、邮箱或网页的方式将结果发送给用户,所述分析结果包括该篇文档的情感倾向、主要内容、是否存在敏感内容、该文档的字数、段数、与其他类似文档的相似度、文档的出处。
7.一种实现权利要求1-6任一项所述智能分析文档的方法的系统,其特征在于:包括用户、客户端和服务器,所述用户用于通过客户端上传需要分析的文档及分析条件,并获取服务器返回的分析结果;所述客户端用于通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;所述服务器用于对数据解封装,得到原始文档信息,然后通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库,并将获取的分析结果返回给用户。
8.根据权利要求7所述的系统,其特征在于:所述服务器包括蓝牙模块和WIFI模块,用于无线接收用户的文档信息。
9.根据权利要求8所述的系统,其特征在于:所述服务器与客户端之间的通信协议包括网络通信协议、用户数据报协议和有线等效协议。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710555508.1A CN107315830A (zh) | 2017-07-10 | 2017-07-10 | 一种智能分析文档的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710555508.1A CN107315830A (zh) | 2017-07-10 | 2017-07-10 | 一种智能分析文档的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107315830A true CN107315830A (zh) | 2017-11-03 |
Family
ID=60177508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710555508.1A Pending CN107315830A (zh) | 2017-07-10 | 2017-07-10 | 一种智能分析文档的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107315830A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268329A (zh) * | 2017-12-28 | 2018-07-10 | 武汉长江仪器自动化研究所有限公司 | 一种灌浆记录仪网络终端的数据处理方法及装置 |
US11200078B1 (en) | 2020-11-06 | 2021-12-14 | International Business Machines Corporation | Facilitating use of an unfamiliar command line tool via a familiar command line tool |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777058A (zh) * | 2009-12-08 | 2010-07-14 | 江苏省电力试验研究院有限公司 | 一种文档管理系统 |
CN102597991A (zh) * | 2009-09-26 | 2012-07-18 | 哈米什·奥格尔维 | 文档分析与关联系统及方法 |
CN103838867A (zh) * | 2014-03-20 | 2014-06-04 | 网宿科技股份有限公司 | 日志处理方法和装置 |
CN104123550A (zh) * | 2013-04-25 | 2014-10-29 | 魏昊 | 基于云计算的文本扫描识别方法 |
US20140372956A1 (en) * | 2013-03-04 | 2014-12-18 | Atigeo Llc | Method and system for searching and analyzing large numbers of electronic documents |
CN106484853A (zh) * | 2016-10-09 | 2017-03-08 | 网易(杭州)网络有限公司 | 文档分析方法及装置 |
CN106528768A (zh) * | 2016-11-04 | 2017-03-22 | 北京中电普华信息技术有限公司 | 一种咨询热点分析方法及装置 |
-
2017
- 2017-07-10 CN CN201710555508.1A patent/CN107315830A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597991A (zh) * | 2009-09-26 | 2012-07-18 | 哈米什·奥格尔维 | 文档分析与关联系统及方法 |
CN101777058A (zh) * | 2009-12-08 | 2010-07-14 | 江苏省电力试验研究院有限公司 | 一种文档管理系统 |
US20140372956A1 (en) * | 2013-03-04 | 2014-12-18 | Atigeo Llc | Method and system for searching and analyzing large numbers of electronic documents |
CN104123550A (zh) * | 2013-04-25 | 2014-10-29 | 魏昊 | 基于云计算的文本扫描识别方法 |
CN103838867A (zh) * | 2014-03-20 | 2014-06-04 | 网宿科技股份有限公司 | 日志处理方法和装置 |
CN106484853A (zh) * | 2016-10-09 | 2017-03-08 | 网易(杭州)网络有限公司 | 文档分析方法及装置 |
CN106528768A (zh) * | 2016-11-04 | 2017-03-22 | 北京中电普华信息技术有限公司 | 一种咨询热点分析方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268329A (zh) * | 2017-12-28 | 2018-07-10 | 武汉长江仪器自动化研究所有限公司 | 一种灌浆记录仪网络终端的数据处理方法及装置 |
CN108268329B (zh) * | 2017-12-28 | 2022-01-28 | 武汉长江仪器自动化研究所有限公司 | 一种灌浆记录仪网络终端的数据处理方法及装置 |
US11200078B1 (en) | 2020-11-06 | 2021-12-14 | International Business Machines Corporation | Facilitating use of an unfamiliar command line tool via a familiar command line tool |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10303522B2 (en) | System and method for distributed graphics processing unit (GPU) computation | |
Guinard et al. | Towards physical mashups in the web of things | |
KR100493525B1 (ko) | 아바타 메일 제공시스템 및 방법 | |
CN107274884B (zh) | 一种基于文本解析和语音合成的信息获取方法 | |
CN105493076B (zh) | 通过通信通道的捕捉服务 | |
CN104933363B (zh) | 检测恶意文件的方法和装置 | |
CN110083789A (zh) | 一种小程序页面获取方法、服务器、客户端及电子设备 | |
WO2006051150A1 (en) | Form related data reduction | |
CN106412034B (zh) | 业务处理方法及装置 | |
CN107241372A (zh) | 配置信息生成、发送方法及资源加载方法和装置及系统 | |
US7398464B1 (en) | System and method for converting an electronically stored document | |
CN102420843A (zh) | 一种基于云压缩链接的压缩和解压缩方法、装置及系统 | |
WO2021093673A1 (zh) | 邮件发送方法、装置、设备及计算机可读存储介质 | |
JP5309121B2 (ja) | 情報処理方法、プログラム、情報処理システム | |
CN106933853A (zh) | 一种文件上传处理方法及装置 | |
CN102655483B (zh) | 一种通过电子邮件获取联系人信息的方法、客户端及系统 | |
US20160239499A1 (en) | Object Creation Based on Copying Objects Corresponding to Similar Entities | |
CN107315830A (zh) | 一种智能分析文档的方法及系统 | |
CN100377522C (zh) | 一种内容分发网络中oma下载的实现方法 | |
CN100493128C (zh) | 基于多媒体消息服务的面相图像处理系统和方法 | |
CN103841121B (zh) | 一种基于本地文件的评论和互动系统及方法 | |
CN104021170B (zh) | 一种信息获取方法及云端服务器 | |
CN105763424A (zh) | 一种文字信息处理方法和装置 | |
US20110213850A1 (en) | Relay apparatus, relay method and recording medium | |
US9813524B2 (en) | Dynamic sharing and updating of an electronic form |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171103 |
|
RJ01 | Rejection of invention patent application after publication |