CN103136314A - 一种舆情监控中剪报生成方法及系统 - Google Patents
一种舆情监控中剪报生成方法及系统 Download PDFInfo
- Publication number
- CN103136314A CN103136314A CN201210010281XA CN201210010281A CN103136314A CN 103136314 A CN103136314 A CN 103136314A CN 201210010281X A CN201210010281X A CN 201210010281XA CN 201210010281 A CN201210010281 A CN 201210010281A CN 103136314 A CN103136314 A CN 103136314A
- Authority
- CN
- China
- Prior art keywords
- template
- newspaper cutting
- rule
- document
- newspaper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络舆情监控中剪报生成的方法,该方法包括:定义模板使用的元数据,设计剪报模板,剪报模板为包含剪报生成规则的word文件,从舆情监控系统获取舆情信息,使用剪报模板,生成剪报文档。本发明同时还公开了一种网络舆情监控中剪报生成的系统,该系统包括:数据层、基础组件层、通用服务层、应用层、UI层,整个系统用于完成舆情剪报的生成功能。利用本发明,既能很好地解决实际应用中剪报文档格式的多样性问题,同时也减少了相关人员的工作量,提高工作效率。
Description
技术领域
本发明涉及网络信息剪报生成技术,尤其是一种网络舆情监控中剪报生成的方法及系统。
背景技术
剪报是指把从报刊杂志等上面剪下的文字、图片资料,整理分类并集纳成册。上个世纪八九十年代,人们在自己平时读书看报的时候发现感兴趣的文字图片时,为了便于日后使用的时候查找,很多人自制了剪报。进入21世纪后,随着电子技术的飞速发展,电子文件尤其是PDF版面的广泛运用,使得纸质的剪报逐渐淡出了人们的视线,被更加方便、容量更大的电子资料库所取代。
随着互联网的应用与发展,网络上的信息量呈几何倍数增长,人们获取信息手段简化的同时,遇到了信息量大而杂的问题,获取有用信息的难度反而增大了。
现有电子剪报是中国人民大学对资料进行全文扫描,并人工进行分类,主要完成了教育、经济、法律类目下的29万余篇剪报资料的全文扫描,通过题名、著者、报刊名称、专题、索取号、日期进行检索,在校园网IP范围内,通过原文下载查看全文,提供给作者利用。这种方法获得的剪报,格式单一,无法实现剪报文档样式多样化的要求;而且耗费大量人力物力,效率低下,不能适应网络信息时代,人们快速及时获得准确信息的要求。
因此,为用户及时、准确地提供个性化信息,成为技术人员亟需完成的课题。
发明内容
有鉴于此,本发明的主要目的在于提供一种舆情监控中的剪报生成方法及系统,既能简化剪报制作过程的复杂性,同时也能提高剪报内容的准确性,且实现简单、方便。
为达到上述目的,本发明的技术方案是这样实现的:
一种舆情监控中的剪报生成方法,该方法包括以下步骤:
A、定义模板使用的元数据;
B、设计剪报模板,剪报模板为包含剪报生成规则的word文件;
C、从舆情监控系统获取舆情信息,使用剪报模板,生成剪报文档。
进一步地,步骤A所述细化为:
A1 定义舆情信息的属性元数据,舆情信息属性包括:标题、作者、发表时间、来源、正文,系统提供增加属性元数据的功能;
A2 定义舆情信息各属性在剪报文档中的位置元数据。
进一步地,步骤B所述细化为:
B1 导入预置样式,系统预置了一些元数据项的样式,可以通过该功能导入到模板文档,在设计模板的时候使用;
B2 设计模板,通过在模板中添加元数据中定义的项,并设计各项的位置等生成规则,这些规则以XML格式保存到模板文件中;
Word文档的各种操作,包括:背景、图片、水印、添加文字、格式等,都同样可以应用于剪报模板的制作;
B3 在完成了以上模板设计工作后,应该对模板进行有效性校验,校验通过后,就可以供生成剪报文档使用。
进一步地,步骤B2所述细化为:
B2.1 设计模板的目录生成规则,包括:目录的样式、目录在文档中的位置、是否包含页号等;
B2.2 设计模板的正文生成规则,包括:剪报文档中应输出的舆情信息的属性(属性在A中定义),以及这些属性输出到文档中的位置;
B2.3 添加公式生成规则,公式为系统预置的表达式,能够通过表达式的计算得到相应的输出结果;
B2.4 将B2.1、B2.2、B2.3中设计的生成规则以XML格式保存到模板文件中。
进一步地,步骤C所述细化为:
C1 用户根据需要从讯库系统中选取关注的新闻、论坛的帖子等舆情信息;
C2 选择合适的剪报模板,调用剪报生成子系统;
C3 剪报生成子系统解析剪报模板的生成规则(包括元数据项,以及各项的位置信息、格式信息等),使用传入的舆情信息输出剪报文档。
进一步地,步骤C3所述细化为:
C3.1 从剪报模板中读取文档的生成规则,包括:目录生成规则、正文生成规则等;
C3.2 解析正文生成规则,将传入的舆情信息根据正文生成规则输出到剪报文档;
C3.3 解析目录生成规则,为剪报文档输出目录;
C3.4 解析公式规则,计算公式表达式,将计算结果输出到剪报文档相应位置。
进一步地,步骤C3.2所述细化为:
C3.2.1 解析出需要输出的属性,以及各自的位置信息;
C3.2.1 遍历传入的舆情信息,按照规则定义的位置顺序输出舆情信息对应属性的值,同时设置各属性值在剪报文档中的样式。
一种舆情监控中剪报生成系统,该系统包括:数据层、基础组件层、通用服务层、应用层、UI层,其中,
数据层,本系统正常运转涉及到的数据文件;
基础组件层,支撑系统的基础组件,提供元数据描述、操控模板文件以及元数据信息的基础功能;
通用服务层,在模板文件中,使用元数据信息来描述用户期望的规则,规则解析引擎提供对这种规则的解析服务。这样,在制作模板和生成剪报文档的时候,保证系统对规则的解析一致,能够满足用户对最终剪报文档的要求,舆情系统接口组件提供与舆情系统之间的交互功能;
应用层,提供元数据维护、模板维护、剪报生成工具;
UI层,针对不同的应用模块的应用场景,提供不同的UI类型的工具。
进一步地,所述数据层进一步包括:元数据配置文件和模板文件,其中,
元数据配置文件,用于存储系统中用到的元数据信息,包括舆情信息由哪些部分组成,以及描述每部分数据在最终生成文档中的特征信息,例如,舆情信息由标题、作者、发布时间、来源、正文、原始链接等部分组成,每个部分特征包含生成时的顺序号(表明生成文档时候的先后顺序)、段落信息(是否单独成段)、头/尾附加信息(生成文档时在头/尾添加固定的文本)、计算公式描述信息(获取当前日期公式等);
模板文件,本系统包含一个Office模板管理插件,用户在Office软件中安装本插件,使用模板管理插件设计模板文件,这些模板文件最终会结合舆情监控系统生成剪报文档。
进一步地,所述通用服务层进一步包括规则解析引擎和舆情系统接口组件,其中,
规则解析引擎提供对用户通过元数据信息描述的期望的规则进行解析服务,在制作模板和生成剪报文档时,保证系统对规则解析的一致性,能够满足用户对最终剪报文档的要求;
舆情系统接口组件,提供与舆情系统之间的交互功能。
进一步地,所述应用层进一步包括:元数据维护、模板维护和剪报生成,其中,
元数据维护,提供维护元数据信息的工具;
模板维护,提供设计模板的工具;
剪报生成,提供生成剪报文档的工具,可以结合舆情监控系统使用。
进一步地,所述UI层进一步包括:
元数据维护主要是系统管理人员使用,提供Windows Form形式的工具;
模板维护工作主要是用户来完成,以Office插件的形式提供,方便用户设计模板;
剪报生成时结合舆情监控系统使用的,所以采用了Web Form的形式。
本发明提供的舆情监控中剪报生成的方法及系统,创新性地提出了舆情监控系统中剪报生成的解决方案,在剪报模板设计过程中,引入静态内容和动态内容的分离概念,并提供了完善的扩展性,很好地解决了实际应用中剪报文档样式多样性的问题。本发明提高了舆情监控系统提供剪报文档的效率,减少了相关人员的工作量,提高工作效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明网络舆情监控中剪报生成系统的系统流程图。
图2是本发明网络舆情监控中剪报生成系统的系统整体架构图。
图3是本发明网络舆情监控中剪报生成系统的系统输出剪报文档图。
具体实施方式
以下为一个示例剪报模板中正文生成规则的XML字符串。
<root>
<addblankline value="False"/>
<text value="正文位置"/>
<styles>
<style type="TITLE" value="contenttitle"/>
<style type="CONTENT" value="content111"/>
<style type="PICTURE" value="TOC 标题"/>
<style type="PICTURE_TITLE" value="TOC 标题"/>
<style type="SOUCENAME" value="source"/>
<style type="TABLE_BODY" value="TOC 标题"/>
<style type="TABLE_HEADER" value="TOC 标题"/>
<style type="GROUPTITLE" value="grouptitle"/>
</styles>
<group isgroup="True" />
<source>
<inuse value="True"/>
<para value="NotTitleLine"/>
<prefix value="Source:"/>
<suffix value=""/>
</source>
<author>
<inuse value="False"/>
<para value="NotTitleLine"/>
<prefix value=""/>
<suffix value=""/>
</author>
<date>
<inuse value="True"/>
<para value="NotTitleLine"/>
<prefix value=""/>
<suffix value=""/>
</date>
<url>
<inuse value="True"/>
<para value="AfterContent"/>
<prefix value="【原文链接】"/>
<suffix value=""/>
</url>
<useGroupTitleIndex value="False"/>
<useContentTitleIndex value="False"/>
<contentPrefix value=""/>
<contentTitlePrefix value="Title:"/>
</root>
以上为完成步骤A、B后的输出。
在步骤C中,解析该正文生成规则,其含义如下:
Claims (20)
1.一种舆情监控中的剪报生成方法,其特征在于,该方法包括以下步骤:
A、定义模板使用的元数据;
B、设计剪报模板,剪报模板为包含剪报生成规则的word文件;
C、从舆情监控系统获取舆情信息,使用剪报模板,生成剪报文档。
2.根据权利要求1所述的方法,其特征在于,定义舆情信息的属性元数据,舆情信息属性包括:标题、作者、发表时间、来源、正文,系统提供增加属性元数据的功能。
3.根据权利要求2所述的方法,其特征在于,定义舆情信息各属性在剪报文档中的位置元数据。
4.根据权利要求3所述的方法,其特征在于导入预置样式,系统预置了一些元数据项的样式,可以通过该功能导入到模板文档,在设计模板的时候使用。
5.根据权利要求4所述的方法,其特征在于,设计模板,通过在模板中添加元数据中定义的项,并设计各项的位置等生成规则,这些规则以XML格式保存到模板文件中。
6.根据权利要求4所述的方法,其特征在于,设计模板的目录生成规则,包括:目录的样式、目录在文档中的位置、是否包含页号等。
7.根据权利要求4所述的方法,其特征在于,设计模板的正文生成规则,包括:剪报文档中应输出的舆情信息的属性(属性在A中定义),以及这些属性输出到文档中的位置。
8.根据权利要求4所述的方法,其特征在于,添加公式生成规则,公式为系统预置的表达式,能够通过表达式的计算得到相应的输出结果。
9.根据权利要求4所述的方法,其特征在于,将B2.1、B2.2、B2.3中设计的生成规则以XML格式保存到模板文件中。
10.根据权利要求4所述的方法,其特征在于,Word文档的各种操作,包括:背景、图片、水印、添加文字、格式等,都同样可以应用于剪报模板的制作。
11.根据权利要求5所述的方法,其特征在于,在完成了以上模板设计工作后,应该对模板进行有效性校验,校验通过后,就可以供生成剪报文档使用。
12.根据权利要求11所述的方法,其特征在于,用户根据需要从讯库系统中选取关注的新闻、论坛的帖子等舆情信息。
13.根据权利要求12所述的方法,其特征在于,选择合适的剪报模板,调用剪报生成子系统。
14.根据权利要求13所述的方法,其特征在于,剪报生成子系统解析剪报模板的生成规则(包括元数据项,以及各项的位置信息、格式信息等),使用传入的舆情信息输出剪报文档。
15.根据权利要求14所述的方法,其特征在于,从剪报模板中读取文档的生成规则,包括:目录生成规则、正文生成规则等。
16.根据权利要求14所述的方法,其特征在于,解析正文生成规则,将传入的舆情信息根据正文生成规则输出到剪报文档。
17.根据权利要求16所述的方法,其特征在于,解析出需要输出的属性,以及各自的位置信息。
18.根据权利要求16所述的方法,其特征在于,遍历传入的舆情信息,按照规则定义的位置顺序输出舆情信息对应属性的值,同时设置各属性值在剪报文档中的样式。
19.根据权利要求14所述的方法,其特征在于,解析目录生成规则,为剪报文档输出目录。
20.根据权利要求14所述的方法,其特征在于,解析公式规则,计算公式表达式,将计算结果输出到剪报文档相应位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210010281XA CN103136314A (zh) | 2012-01-13 | 2012-01-13 | 一种舆情监控中剪报生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210010281XA CN103136314A (zh) | 2012-01-13 | 2012-01-13 | 一种舆情监控中剪报生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103136314A true CN103136314A (zh) | 2013-06-05 |
Family
ID=48496145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210010281XA Pending CN103136314A (zh) | 2012-01-13 | 2012-01-13 | 一种舆情监控中剪报生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103136314A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598636A (zh) * | 2015-02-06 | 2015-05-06 | 无锡江南计算技术研究所 | 复杂文档分离组织方法以及复杂文档自动生成方法 |
CN106569983A (zh) * | 2015-10-08 | 2017-04-19 | 北大方正集团有限公司 | 剪报创建方法和剪报创建系统 |
CN110119512A (zh) * | 2019-05-21 | 2019-08-13 | 杭州凡闻科技有限公司 | 数字剪报制作方法 |
CN116452699A (zh) * | 2023-02-28 | 2023-07-18 | 北京麦克斯泰科技有限公司 | 一种社会网络舆论信息监测传播统计方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101216849A (zh) * | 2008-01-11 | 2008-07-09 | 清华大学 | 基于集成化企业模型的文档自动生成方法 |
CN101499057A (zh) * | 2008-01-29 | 2009-08-05 | 鸿富锦精密工业(深圳)有限公司 | 电子文档生成系统及方法 |
CN102073926A (zh) * | 2010-12-30 | 2011-05-25 | 山东浪潮齐鲁软件产业股份有限公司 | 一种智能简报的自动生成方法 |
-
2012
- 2012-01-13 CN CN201210010281XA patent/CN103136314A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101216849A (zh) * | 2008-01-11 | 2008-07-09 | 清华大学 | 基于集成化企业模型的文档自动生成方法 |
CN101499057A (zh) * | 2008-01-29 | 2009-08-05 | 鸿富锦精密工业(深圳)有限公司 | 电子文档生成系统及方法 |
CN102073926A (zh) * | 2010-12-30 | 2011-05-25 | 山东浪潮齐鲁软件产业股份有限公司 | 一种智能简报的自动生成方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598636A (zh) * | 2015-02-06 | 2015-05-06 | 无锡江南计算技术研究所 | 复杂文档分离组织方法以及复杂文档自动生成方法 |
CN104598636B (zh) * | 2015-02-06 | 2017-09-19 | 无锡江南计算技术研究所 | 复杂文档分离组织方法以及复杂文档自动生成方法 |
CN106569983A (zh) * | 2015-10-08 | 2017-04-19 | 北大方正集团有限公司 | 剪报创建方法和剪报创建系统 |
CN110119512A (zh) * | 2019-05-21 | 2019-08-13 | 杭州凡闻科技有限公司 | 数字剪报制作方法 |
CN116452699A (zh) * | 2023-02-28 | 2023-07-18 | 北京麦克斯泰科技有限公司 | 一种社会网络舆论信息监测传播统计方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Groza et al. | SALT-semantically annotated for scientific publications | |
US8407585B2 (en) | Context-aware content conversion and interpretation-specific views | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
CN109408783A (zh) | 电子文档在线编辑方法及系统 | |
CN102855244B (zh) | 文档目录处理方法和装置 | |
CN104346319B (zh) | 检查文档样式的方法及系统 | |
CN104699714B (zh) | 将书版格式文件转换为epub格式文件的方法及装置 | |
CN107563725A (zh) | 一种优化繁琐人才招聘过程的招聘系统 | |
US20120304051A1 (en) | Automation Tool for XML Based Pagination Process | |
CN102360274A (zh) | 一种可变数据打印的模板实现装置及其应用方法 | |
CN1763748A (zh) | 电子归档系统和电子归档方法 | |
CN104123269A (zh) | 一种基于模板的出版物半自动生成方法及系统 | |
CN101968817A (zh) | 网页模板配置方法 | |
JP2006351002A5 (zh) | ||
CN110688830B (zh) | 征信模板的转换方法及装置 | |
US20070150494A1 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
CN103136314A (zh) | 一种舆情监控中剪报生成方法及系统 | |
US8954438B1 (en) | Structured metadata extraction | |
US9286272B2 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
CN104424271A (zh) | 出版物数字资源的自动采集方法及系统 | |
CN100507901C (zh) | 一种网络文集制作成书籍的方法 | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
Mannocci et al. | The Europeana network of ancient Greek and Latin epigraphy data infrastructure | |
GB2458692A (en) | A process for generating database-backed, web-based documents | |
CN104063386B (zh) | 一种内容对象复用的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130605 |
|
RJ01 | Rejection of invention patent application after publication |