CN102457817B - 一种手机报中新闻内容的抽取方法及系统 - Google Patents

一种手机报中新闻内容的抽取方法及系统 Download PDF

Info

Publication number
CN102457817B
CN102457817B CN201010515747.2A CN201010515747A CN102457817B CN 102457817 B CN102457817 B CN 102457817B CN 201010515747 A CN201010515747 A CN 201010515747A CN 102457817 B CN102457817 B CN 102457817B
Authority
CN
China
Prior art keywords
mobile phone
news
phone newspaper
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010515747.2A
Other languages
English (en)
Other versions
CN102457817A (zh
Inventor
吴新丽
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201010515747.2A priority Critical patent/CN102457817B/zh
Publication of CN102457817A publication Critical patent/CN102457817A/zh
Application granted granted Critical
Publication of CN102457817B publication Critical patent/CN102457817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种手机报中新闻内容的抽取方法及系统。本发明首先接收并存储预先订阅的手机报信息;然后读取手机报信息;最后根据预先配置好的模板,抽取手机报信息中的新闻内容。本发明能够自动接收各种手机报,并对其内容进行抽取分析,具有较高的采集效率和准确率,能够将只能在各个手机终端上浏览的手机报集中采集到本地,并对其进行智能分析处理,使得手机报信息得以能够被应用系统使用。

Description

一种手机报中新闻内容的抽取方法及系统
技术领域
本发明涉及一种数字信息的抽取方法及系统,尤其是涉及一种手机报中新闻内容的抽取方法及系统。
背景技术
2004年7月,国内第一家手机报《中国妇女报》诞生。2005年5月,国内首家省级手机报《浙江手机报》问世……一时间,手机报作为一种新兴媒体遍地开花。各大省级报业集团也纷纷把纸质媒体办上手机。近年来,手机报更是异军突起,市场规模不断扩大,活跃用户数迅速突破1.49亿,已成为了数字出版的新亮点。数据显示,截止2008年12月,我国手机报业务普及率已经达39.6%。在对手机报的重要性判断中,有近67.5%的用户认为手机报是传统报纸的补充,对于19.4%的用户而言,手机报已经与纸质报纸同样重要,有4.3%用户认为手机报在未来将取代报纸。
随着手机报业务的急剧增长,其问题也逐渐显现出来。目前手机报的内容主要来自全国报纸和地方报纸以及广告,再由电信运营商运营,其中缺乏有效的内容管理。电信运营商对手机报业务的发展有主导权,但是运营商属信息产业部管辖,但信息产业部并不是国家法律规定的新闻宣传管理机关,无法管理媒体内容。
传统的搜索引擎只能搜索查询互联网上发布的各种新闻信息,对于手机报信息爱莫能助。用户只能在手机上浏览手机报,不能将手机报内容采集到本地,也不能对手机报内容进行抽取分析后,提供给相应的业务应用系统使用。也就是说,用户无法对手机报的内容进行检索、分析和统计等处理。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种手机报中新闻内容的抽取方法及系统,该方法及系统能够自动接收各种手机报,并对其内容进行抽取分析。
为解决上述技术问题,本发明采用的技术方案如下:
一种手机报中新闻内容的抽取方法,包括以下步骤:
(1)接收预先订阅的手机报信息,并将接收的手机报信息存储在本地,所述手机报的类型包括短信和彩信;
(2)从本地读取手机报信息;
(3)根据预先配置好的模板,抽取手机报信息中的新闻内容。
一种手机报中新闻内容的抽取系统,包括用于接收预先订阅的手机报信息,并将接收的手机报信息存储在本地的接收装置;
用于从本地读取手机报信息的读取装置;
以及用于根据预先配置好的模板,抽取手机报信息中的新闻内容的抽取装置。
本发明所述的方法及系统,能够自动接收各种手机报,并对其内容进行抽取分析,并将分析后的新闻内容的各数据项上传至数据库和对应的文件服务器中。本发明具有较高的采集效率和准确率,能够将只能在各个手机终端上浏览的手机报集中采集到本地,并能够对其进行智能分析处理,使得手机报信息得以能够被应用系统使用。
附图说明
图1是具体实施方式中手机报中新闻内容的抽取系统的结构和数据流图;
图2是具体实施方式中手机报中新闻内容的抽取方法流程图;
图3是具体实施方式中读取手机报信息的方法流程图;
图4是具体实施方式中短信类型的手机报信息抽取方法流程图;
图5是具体实施方式中彩信类型的手机报信息抽取方法流程图;
图6是具体实施方式中彩信类型的手机报一个文本文件的抽取方法流程图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1为概略表示本发明一实施方式中手机报中新闻内容的抽取系统结构及数据流图。如图1所示,该系统包括接收装置101,与接收装置101连接的读取装置102,与读取装置102连接的过滤装置I105,与过滤装置I105连接的抽取装置103,与抽取装置103连接的过滤装置II106,与过滤装置II106连接的提取装置107和分类装置108,与提取装置107和分类装置108连接的上传装置104,与上传装置104连接的数据库109文件服务器110。
接收装置101用于接收预先订阅的手机报信息。手机报的类型包括短信和彩信。对于短信类型的手机报,直接将手机报的属性信息和手机报内容存储在数据库中;对于彩信类型的手机报,将手机报的属性信息存储在数据库中,将手机报的实体文件(即记录手机报内容的文件)存储在本地磁盘上。所述手机报的属性信息包括特服号码、手机报实体文件的存储路径、手机报标题、手机报下载地址、信息到达时间、下载结束时间、下载结束状态(成功或失败)、该手机报在数据库中记录的唯一标识、手机报的类型等。
短信类型的手机报仅仅包括文字信息,而彩信类型的手机报不仅包括文字信息,而且还包括图片等信息。接收装置101按照手机报中内容的先后顺序将彩信接收为多个文件,每个文件标有其顺序编号。其中,将图片单独存储成图片文件,并标明图片在新闻内容中的位置。
读取装置102用于读取手机报信息。
过滤装置I105用于在抽取手机报信息中的新闻内容之前过滤手机报中的无用信息。
抽取装置103用于根据预先配置好的模板,抽取手机报信息中的新闻内容。所述新闻内容包括标题、正文和图片等信息。
过滤装置II106用于在抽取手机报信息中的新闻内容后对抽取的新闻内容按照预先配置的垃圾规则进行垃圾信息过滤,过滤掉新闻内容中包含的垃圾信息。
提取装置107用于提取垃圾信息过滤后的新闻内容的关键词。
分类装置108用于将垃圾信息过滤后的新闻内容进行分类。
上载装置104用于将新闻图片上传至文件服务器110,将标题、新闻内容的正文(按照分类)、发送时间、关键词等信息上传至数据库109。
如图1和图2所示,采用图1所示系统抽取手机报中新闻内容的方法包括以下步骤:
(1)接收装置101接收预先订阅的手机报信息(步骤S21)。
本实施方式中,接收装置101采用彩信猫设备。首先配置彩信猫设备需要连接的数据库,然后将已成功订阅了手机报的SIM卡插至彩信猫设备对应的插槽中,启动彩信猫设备为工作状态,等待接收订阅的手机报信息。如果是短信类型的手机报,则直接将手机报的属性信息和手机报内容存储在数据库中;如果是彩信类型的手机报,则将手机报的属性信息存储在数据库中,将手机报的实体文件存储在本地磁盘上。
(2)读取装置102读取手机报信息(步骤S22)。
本实施方式中,读取手机报信息的流程如图3所示,包括以下步骤:
(a)手机报信息监控线程定时扫描数据库(步骤S30)。可以每隔T秒扫描一次数据库,T可以根据单位时间内手机报信息的接收条数动态改变。在某段时间内,如果接收的手机报信息较多,则T的取值可自动变小,如30秒;如果接收的手机报信息较少或者没有,则T的取值可自动变大。
(b)查询是否有新的手机报信息(步骤S31),如果有,则进入步骤(c);否则,返回步骤(a)。
(c)从所有新的手机报信息中读取一条未读取过的手机报信息记录(步骤S32)。
优选的,可以将所有新的手机报信息记录按照接收时间排序,然后按照接收时间先后顺序读取每条手机报信息,直到读取完所有的手机报信息,转至步骤(a)。
(d)判断该条手机报信息的接收状态,如果接收状态为“已成功接收”(步骤S33),则进入步骤(f);如果接收状态为“接收失败”(步骤S36),则删除该手机报在数据库中的记录及已下载的实体文件(步骤S37),转至步骤(g);如果接收状态为“未接收”或“正在接收中”,则跳过该条手机报信息,转至步骤(g)。
(f)将数据库中存储的该手机报信息的所有属性信息读入内存(步骤S34)。
(g)判断所有新的手机报信息是否均被读取过(步骤S35),如是,则转至步骤(a);否则,转至步骤(c)。
(3)根据预设的过滤规则对手机报信息进行过滤,过滤掉手机报中的无用信息(步骤S23)。
所述过滤规则由用户根据具体应用环境确定。例如,如果用户认为娱乐类新闻是无用的信息,则配置与娱乐类新闻相关的关键词,当匹配到与所述关键词相符的新闻时,将该新闻视为垃圾信息,丢弃。
(4)根据预先配置好的模板,抽取手机报信息中的新闻内容(步骤S24)。所述新闻内容包括标题、正文和图片。
本实施方式中,模板为xml格式的文本文件,可以使用专用的配置工具进行配置,也可以直接在文本编辑工具中配置。一个模板对应一种类型的手机报信息。
模板的配置项依据手机报的不同类型分为两类。其中,短信类型的手机报模板的配置项包括:手机报名称、特服号码、手机报包含的新闻的条数(单条或多条)、多条新闻间的分隔符等。彩信类型的手机报模板的配置项包括:手机报名称、提取手机报信息中的新闻标题的正则表达式、新闻标题的样式(单行标题或多行标题)、提取手机报信息中单元的正则表达式、新闻图片样式(图片位于新闻内容前或图片位于新闻内容后)、新闻正文的样式(单行、多行或者存在于多个文件中)等。
一个具体的提取标题的正则表达式的例子为:《([\s\S]*?)》。其表示获取“《”和“》”之间的所有内容,并将这些内容作为标题,对应到模板的xml节点中为<Title>。一个具体的提取单元的正则表达式的例子为:【([\s\S]*?)】,表示获取“【”和“】”之间的所有内容,并将这些内容作为单元的内容,对应到模板的xml节点中为<UnitMark>。
本实施方式中,抽取手机报信息中新闻内容的方法根据手机报的信息类型分为两种,分别是短信类型的手机报信息抽取方式和彩信类型的手机报信息抽取方式。
如图4所示,短信类型的手机报信息抽取方式如下:
1)从数据库中读取手机报的属性信息和手机报内容(步骤S40)。
2)根据手机报的特服号码获取对应的模板(步骤S41)。
3)从模板中获取手机报包含的新闻条数(步骤S42)。
如果手机报内容为单条新闻(步骤S43),则
a)从该手机报内容中截取指定长度的文字作为新闻标题,如截取10个文字。如果该手机报内容不足指定的长度,则将整条手机报内容作为新闻标题。(步骤S46)
b)将整条手机报内容作为新闻正文(步骤S47)。
c)生成该新闻的唯一标识(步骤S48)。
如果手机报内容为多条新闻,则
a)根据模板中配置的多条新闻间的分割符对该手机报内容进行分割,分割出每一条新闻(步骤S44)。
b)对分割出的每一条新闻,进行与步骤3)相同的处理(步骤S45至步骤S49)。
如图5所示,彩信类型的手机报信息抽取方式如下:
1)从数据库中读取手机报的属性信息,并根据手机报实体文件的存储路径按照文件编号的先后顺序从本地磁盘中依次读取手机报的实体文件(步骤S51)。
2)根据手机报的名称获取对应的模板(步骤S52)。
3)按照文件编号的先后顺序依次获取实体文件(步骤S53),对每一个实体文件进行如下处理,直到处理完所有实体文件(步骤S58)。
判断实体文件类型。如果文件类型为.txt等文本类型(步骤S54),则进入文本文件的抽取流程(步骤S55);如果文件类型为.jpg等图片类型,则进入图片文件的抽取流程(步骤S56)。
4)生成抽取的每篇新闻的唯一标识(步骤S57)。
在生成新闻的唯一标识时,可以结合如下多项信息生成:发送短信的特服号码、短信的接收时间、该短信在数据库中存储时的主键值。如果该条新闻仅仅是手机报所有新闻中的一条,则还可以加上该条新闻在手机报所有新闻中的顺序号。如果标识的字符串较为繁琐,还可以将标识的字符串进一步处理为一个整型值,如针对该字符串信息生成一个Hash值或一个MD5值。
如图6所示,彩信类型的手机报文本文件的抽取流程如下:
a)将文件内容根据换行符进行分割(步骤S601)。
b)按照文件内容的先后顺序读取每行内容(步骤S602),对每行内容进行如下处理,直到处理完所有行(步骤S612)。
c)根据模板中提取手机报信息中的新闻标题的正则表达式,判断该行内容是否为新闻标题(步骤S603)。如是,则进行如下处理:
i)如果之前已经有抽取的新闻内容(步骤S604),则认为新一篇新闻开始,上一篇新闻抽取完毕,将抽取的上一篇新闻内容作为一条完整的新闻按照约定的数据格式保存(步骤S605)。
ii)获取模板中新闻标题的样式(步骤S606),如果为单行标题(步骤S607),则该行内容即为该新闻标题(步骤S608);如果为多行标题,则将该行内容暂存如一个临时变量X中。继续判断下一行内容是否为新闻标题,如是,将该行内容追加到临时变量X中。以此类推,直到一行内容为非新闻标题为止,临时变量X中存储的内容即为新闻标题(步骤S609)。
d)根据模板中提取手机报信息中单元的正则表达式判断当前行内容是否为单元标识(步骤S610)。如果当前行内容为单元标识,并且之前已经有抽取的新闻内容,则上一篇新闻抽取完毕,将抽取的上一篇新闻内容作为一条完整的新闻按照约定的数据格式保存(步骤S605)。所述单元标识是指彩信中一个单元结束的标志。如果当前行内容不是单元标识,则说明当前行内容为新闻正文,进入步骤e)。
e)将当前行的内容追加到当前正在抽取的新闻正文中(步骤S611)。
彩信类型的手机报图片文件的抽取流程如下:
a)获取模板中新闻图片样式。
b)如果新闻图片的样式为图片位于新闻前,则将该图片追加到接下来提取的新闻中。
c)如果新闻图片的样式为图片位于新闻后,则将该图片追加到已经解析完毕的最后一篇新闻中。
将图片追加到新闻中的处理方式为:
i)按照约定的格式生成图片的存储路径。
ii)获取接收时存储的图片文件中的图片号,使用该号来标记图片在一篇新闻中的顺序。也可以自行定义顺序号来为图片标序。
iii)在新闻内容中创建图片的html标记:<IMG src=“”>,其中,src的值为图片的本地存储路径。例如:<IMG src=“2010/0201/1345/东方手机报2月1日晚/img_0.jpg”>。
iv)将该图片文件拷贝至指定的存储路径并重命名为规定格式。
重命名的目的在于便于上载图片的处理,只要读取该手机报有几张图片以及图片的存储路径即可,无需再遍历图片内容,逐个读出每个图片的名称。例如:如果接收到一份手机报,存储到磁盘上的文件分别为2个图片和5个文本文件,其文件名称如下:
att010.jpg
att020.txt
att030.txt
att040.txt
att050.jpg
att060.txt
att070.txt
在处理上述手机报中的这两张图片时,将其重命名为:img_0.jpg和img_1.jpg。“img_*.jpg”是本实施方式中图片的统一命名格式。这样,在上载图片时,根据分析结果文件中标明的IM和PC就可以去上传图片了(上载线程和分析线程是异步的。比如,如果知道了是2张图片,但该目录下只有1张图片,则可能还没有处理完,需要等待稍后处理),而不用到TX的内容中去找img标签内的图片路径信息了。
手机报信息抽取完毕后,删除与该手机报信息相关的数据库记录及本地磁盘上的实体文件。
(5)按照预先配置的垃圾规则对抽取的新闻内容进行垃圾信息过滤(步骤S25)。
所述过滤规则由用户根据具体应用环境确定。例如,如果用户认为娱乐类新闻是垃圾信息,则配置与娱乐类新闻相关的关键词,当匹配到与所述关键词相符的新闻时,将该新闻视为垃圾信息,丢弃。
(6)提取过滤后新闻内容的关键词,并对新闻内容进行自动分类(步骤S26)。
其中,提取关键词的过程如下:
对新闻内容的句子进行分词和词性标注;将分词结果中长度为2个或2个以上汉字且词性为实词类词性的词作为候选关键词;根据词特征计算词权重;计算出每个词的得分,如果一个词出现多次则得分累加;对上述候选关键词的得分考虑IDF、子词因素后计算得到新的得分;按得分排序后提取指定数目的关键词。
提取关键词的方法为现有技术,可参见硕士论文文献“知识管理系统中一种自动关键词提取技术”(作者:曾铭芳),此处不再展开说明。
分类采用的方法如下:
通过提前训练好的训练样本集对新闻内容进行特征提取和特征选择,本实施方式中使用了现有的SVM文本分类模型,此处不再展开说明。
(7)上载装置104将抽取的新闻内容上传至数据库和文件服务器,供上层应用系统进行数据检索、数据分析和数据统计时使用。
本实施方式中,上载装置104将新闻内容的图片上传至文件服务器110中;将新闻的标题、正文、发送时间、关键词等信息上传至数据库109中。具体过程如下:
读取新闻内容中的IMG标签信息,并将“src”内指定路径的图片上传至文件服务器110,同时将该IMG标签的“src”属性值修改为该图片在文件服务器110上的存储路径;将新闻内容按照约定的文件格式创建为Html文件,存储至文件服务器110,同时将该文件的存储路径写入数据库109。将新闻的标题、发送时间、关键词、摘要信息写入数据库109。
下面以彩信“News365财经新闻”为例,其模板的各个配置项内容为:
<?xml version=″1.0″encoding=″utf-8″?>
<Root>
<ID>-1590922063</ID>
<FileName><![CDATA[mm_dfmm_1.xml]]></FileName>
<Version>1</Version>
<ModifyTimes>6</ModifyTimes>
<Descr><![CDATA[东方手机报彩信]]></Descr>
<Details>
  <MMTemplate>
    <MMName><![CDATA[东方手机*报]]></MMName>
    <Title>《([\s\S]*?)》</Title>
    <UnitMark>【([\s\S]*?)】</UnitMark>
    <PicPostion>1</PicPostion>
    <News Style>1</NewsStyle>
  </MMTemplate>
</Details>
  </Root>
订阅该手机报后,使用接收装置101接收该手机报信息。读取装置102自动检测数据库中是否已接收到新的手机报信息。如果该手机报的接收状态为“接收完毕”,则将该手机报在数据库中的记录信息读取至内存。
读取手机报数据库信息中的“手机报实体文件的存储路径”,具体内容如下:
根据上述实体文件的存储路径读取实体文件,逐个对手机报的每个实体文件进行处理。处理并提取关键词和分类后的结果如下:
其中,上述内容中的MI为该新闻的唯一标识,IM为该手机报对应图片的存储路径,PC为该手机报具有的图片的个数,SN为手机报的名称,CW为手机报的类型(短信或彩信),CL为新闻内容所属的类别,ST为新闻的标题,RQ为新闻的发布时间,CT为新闻的采集时间,KW为新闻的关键词,TX为新闻的正文。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种手机报中新闻内容的抽取方法,包括以下步骤:
(1)接收预先订阅的手机报信息,并将接收的手机报信息存储在本地,所述手机报的类型包括短信和彩信;存储手机报信息的方法如下:
对于短信类型的手机报,直接将手机报的属性信息和手机报内容存储在数据库中;对于彩信类型的手机报,将手机报的属性信息存储在数据库中,将手机报的实体文件存储在本地磁盘上;
所述手机报的属性信息包括特服号码、手机报实体文件的存储路径、手机报标题、手机报下载地址、信息到达时间、下载结束时间、下载结束状态、该手机报在数据库中记录的唯一标识和手机报的类型;
(2)从本地读取手机报信息;
(3)根据预先配置好的模板,抽取手机报信息中的新闻内容;
当手机报的类型为短信时,抽取手机报信息中的新闻内容的过程包括以下步骤:
①根据发送手机报的特服号码获取对应的模板;
②如果该短信为单条新闻,则进行如下处理:
a.从该短信内容中截取模板中指定长度的文字作为新闻的标题,如果该短信内容不足指定长度,则将整条短信内容作为新闻的标题;
b.将整个短信内容作为新闻内容;
c.生成新闻的唯一标识;
③如果该短信为多条新闻,则进行如下处理:
a.根据模板中配置的多条新闻间的分割符对该短信进行分割,将每一条新闻分割出来;
b.对分割出的每一条新闻,进行与步骤②相同的操作;
当手机报信息的类型为彩信时,抽取手机报信息中的新闻内容的过程如下:
1)从数据库中读取手机报的属性信息,并根据手机报实体文件的存储路径按照文件编号的先后顺序从本地磁盘中依次读取手机报的实体文件;
2)根据手机报的名称获取对应的模板;
3)按照文件编号的先后顺序依次获取实体文件,对每一个实体文件进行如下处理,直到处理完所有实体文件;
判断实体文件类型,如果文件类型为文本类型,则进入文本文件的抽取流程;如果文件类型为图片类型,则进入图片文件的抽取流程;
4)生成抽取的每篇新闻的唯一标识。
2.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:步骤(1)中所述接收预先订阅的手机报信息采用如下方式:
首先配置接收设备需要连接的数据库;然后将已成功订阅了手机报的SIM卡插至接收设备对应的插槽;最后启动彩信接收设备为工作状态,等待接收手机报信息。
3.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:步骤(1)中,按照手机报中内容的先后顺序将彩信接收为多个文件,每个文件标有其顺序编号;将图片单独存储成图片文件,并标明图片在新闻内容中的位置。
4.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:步骤(2)中所述读取手机报信息的过程如下:
(a)手机报信息监控线程定时扫描数据库;
(b)查询是否有新的手机报信息,如有,则进入步骤(c);否则,返回步骤(a);
(c)从所有新的手机报信息中读取一条未读取过的手机报信息记录;
(d)判断该条手机报信息的接收状态,如果接收状态为“已成功接收”,则进入步骤(f);如果接收状态为“接收失败”,则删除该手机报在数据库中的记录及已下载的实体文件,转至步骤(g);如果接收状态为“未接收”或“正在接收中”,则跳过该条手机报信息,转至步骤(g);
(f)将数据库中存储的该手机报信息的所有属性信息读入内存;
(g)判断所有新的手机报信息是否均被读取过,如是,则转至步骤(a);否则,转至步骤(c)。
5.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:所述方法在抽取手机报信息中的新闻内容之前还包括过滤手机报中无用信息的步骤。
6.如权利要求5所述的手机报中新闻内容的抽取方法,其特征在于:步骤(3)中,短信类型的手机报模板的配置项包括:手机报名称、特服号码、手机报包含的新闻的条数和多条新闻间的分隔符;
彩信类型的手机报模板的配置项包括:手机报名称、提取手机报信息中的新闻标题的正则表达式、新闻标题的样式、提取手机报信息中单元的正则表达式、新闻图片样式和新闻正文的样式。
7.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:步骤3)中所述文本文件的抽取流程如下:
a)将文件内容根据换行符进行分割;
b)按照文件内容的先后顺序获取一行内容,对每行内容进行如下处理,直到处理完所有行;
c)根据模板中提取手机报信息中的新闻标题的正则表达式,判断该行内容是否为新闻标题,如是,则进行如下处理:
i)如果之前已经有抽取的新闻内容,则认为新一篇新闻开始,上一篇新闻抽取完毕,将抽取的上一篇新闻内容作为一条完整的新闻按照约定的数据格式保存;
ii)获取模板中新闻标题的样式,如果为单行标题,则该行内容即为该新闻标题;如果为多行标题,则将该行内容暂存如一个临时变量X中;继续判断下一行内容是否为新闻标题,如是,将该行内容追加到临时变量X中;以此类推,直到一行内容为非新闻标题为止,临时变量X中存储的内容即为新闻标题;
d)根据模板中提取手机报信息中单元的正则表达式判断当前行内容是否为单元标识;如果当前行内容为单元标识,并且之前已经有抽取的新闻内容,则上一篇新闻抽取完毕,将抽取的上一篇新闻内容作为一条完整的新闻按照约定的数据格式保存;如果当前行内容不是单元标识,则说明当前行内容为新闻正文,进入步骤e);
e)将当前行的内容追加到当前正在抽取的新闻正文中。
8.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:步骤3)中所述图片文件的抽取流程如下:
a)获取模板中新闻图片样式;
b)如果新闻图片的样式为图片位于新闻前,则将该图片追加到接下来提取的新闻中;
c)如果新闻图片的样式为图片位于新闻后,则将该图片追加到已经解析完毕的最后一篇新闻中。
9.如权利要求8所述的手机报中新闻内容的抽取方法,其特征在于:所述将图片追加到新闻中的处理方式如下:
i)按照约定的格式生成图片的存储路径;
ii)获取接收时存储的图片文件中的图片号,使用该号来标记图片在一篇新闻中的顺序;
iii)在新闻内容中创建图片的html标记,所述html标记中包含图片的本地存储路径;
iv)将该图片文件拷贝至指定的存储路径并重命名为规定格式。
10.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:所述唯一标识是根据发送短信的特服号码、短信的接收时间、该短信在数据库中存储时的主键值生成的字符串;如果该新闻是短信内容的一部分,则还要加上该新闻在短信所有新闻中的顺序号。
11.如权利要求3所述的手机报中新闻内容的抽取方法,其特征在于:所述方法在抽取手机报信息中的新闻内容后还包括删除该新闻内容在数据库中的记录和在本地磁盘上实体文件的步骤。
12.如权利要求1所述的手机报中新闻内容的抽取方法,其特征在于:所述方法在抽取手机报信息中的新闻内容后还包括对抽取的新闻内容按照预先配置的垃圾规则进行垃圾信息过滤的步骤;对新闻内容进行过滤后,还包括提取关键词的步骤,以及对过滤后的新闻内容进行自动分类的步骤。
13.如权利要求12所述的手机报中新闻内容的抽取方法,其特征在于:所述方法在对新闻内容进行自动分类后还包括将新闻内容的图片上传至文件服务器,将标题、正文和关键词上传至数据库的步骤。
14.一种手机报中新闻内容的抽取系统,包括用于接收并存储预先订阅手机报信息的接收装置(101);
用于读取手机报信息的读取装置(102);
以及用于根据预先配置好的模板,抽取手机报信息中的新闻内容的抽取装置(103);
其中,接收装置(101)存储手机报信息的方式为:
对于短信类型的手机报,直接将手机报的属性信息和手机报内容存储在数据库中;对于彩信类型的手机报,将手机报的属性信息存储在数据库中,将手机报的实体文件存储在本地磁盘上;
所述手机报的属性信息包括特服号码、手机报实体文件的存储路径、手机报标题、手机报下载地址、信息到达时间、下载结束时间、下载结束状态、该手机报在数据库中记录的唯一标识和手机报的类;
当手机报的类型为短信时,抽取装置(103)抽取手机报信息中的新闻内容的过程包括以下步骤:
①根据发送手机报的特服号码获取对应的模板;
②如果该短信为单条新闻,则进行如下处理:
a.从该短信内容中截取模板中指定长度的文字作为新闻的标题,如果该短信内容不足指定长度,则将整条短信内容作为新闻的标题;
b.将整个短信内容作为新闻内容;
c.生成新闻的唯一标识;
③如果该短信为多条新闻,则进行如下处理:
a.根据模板中配置的多条新闻间的分割符对该短信进行分割,将每一条新闻分割出来;
b.对分割出的每一条新闻,进行与步骤2)相同的操作;
当手机报信息的类型为彩信时,抽取装置(103)抽取手机报信息中的新闻内容的过程如下:
1)从数据库中读取手机报的属性信息,并根据手机报实体文件的存储路径按照文件编号的先后顺序从本地磁盘中依次读取手机报的实体文件;
2)根据手机报的名称获取对应的模板;
3)按照文件编号的先后顺序依次获取实体文件,对每一个实体文件进行如下处理,直到处理完所有实体文件;
判断实体文件类型,如果文件类型为文本类型,则进入文本文件的抽取流程;如果文件类型为图片类型,则进入图片文件的抽取流程;
4)生成抽取的每篇新闻的唯一标识。
15.如权利要求14所述的手机报中新闻内容的抽取系统,其特征在于:所述系统还包括用于在抽取手机报信息中的新闻内容之前过滤手机报中无用信息的过滤装置I(105)。
16.如权利要求14或15所述的手机报中新闻内容的抽取系统,其特征在于:所述系统还包括用于在抽取手机报信息中的新闻内容后对抽取的新闻内容按照预先配置的垃圾规则进行垃圾信息过滤的过滤装置II(106);用于提取垃圾信息过滤后的新闻内容的关键词的提取装置(107);以及用于将垃圾信息过滤后的新闻内容进行分类的分类装置(109)。
17.如权利要求16所述的手机报中新闻内容的抽取系统,其特征在于:所述系统还包括用于将新闻内容的图片上传至文件服务器(111),将标题、正文和关键词上传至数据库(110)的上传装置(104)。
CN201010515747.2A 2010-10-15 2010-10-15 一种手机报中新闻内容的抽取方法及系统 Expired - Fee Related CN102457817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010515747.2A CN102457817B (zh) 2010-10-15 2010-10-15 一种手机报中新闻内容的抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010515747.2A CN102457817B (zh) 2010-10-15 2010-10-15 一种手机报中新闻内容的抽取方法及系统

Publications (2)

Publication Number Publication Date
CN102457817A CN102457817A (zh) 2012-05-16
CN102457817B true CN102457817B (zh) 2014-11-05

Family

ID=46040379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010515747.2A Expired - Fee Related CN102457817B (zh) 2010-10-15 2010-10-15 一种手机报中新闻内容的抽取方法及系统

Country Status (1)

Country Link
CN (1) CN102457817B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740370B (zh) * 2013-05-10 2018-11-06 合肥工业大学 一种在线Web新闻内容抽取系统
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN103580956A (zh) * 2013-11-05 2014-02-12 北京锐安科技有限公司 一种检测数据完整性的方法及装置
CN105677632A (zh) * 2014-11-19 2016-06-15 富士通株式会社 提取用于抽取实体的模板的方法和设备
CN104679875B (zh) * 2015-03-10 2017-12-15 杭州凡闻科技有限公司 一种基于数字报纸的资讯数据分类方法
CN105472580B (zh) * 2015-11-17 2019-08-06 小米科技有限责任公司 信息的处理方法、装置、终端及服务器
CN106610927B (zh) * 2016-12-19 2021-03-16 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN106658445B (zh) * 2016-12-28 2018-05-29 中卓信(北京)科技有限公司 报表显示方法、装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470728A (zh) * 2007-12-25 2009-07-01 北京大学 一种中文新闻网页正文的自动抽取方法及装置
CN101754118A (zh) * 2008-12-22 2010-06-23 中兴通讯股份有限公司 数据广播中手机报纸的传输方法、发送方法及发送系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030088928A (ko) * 2002-05-15 2003-11-21 정보통신연구진흥원 무선 통신 시스템에서 맞춤정보 제공 시스템 및 그 방법
US8078989B2 (en) * 2008-02-29 2011-12-13 Red Hat, Inc. Internet access GUI for mobile devices
CN101556592A (zh) * 2008-04-09 2009-10-14 北京闻言科技有限公司 一种智能解析互联网内容的方法
CN101286351B (zh) * 2008-05-23 2011-02-23 广州视源电子科技有限公司 生成流媒体增值描述文件及插播多媒体信息的方法、系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470728A (zh) * 2007-12-25 2009-07-01 北京大学 一种中文新闻网页正文的自动抽取方法及装置
CN101754118A (zh) * 2008-12-22 2010-06-23 中兴通讯股份有限公司 数据广播中手机报纸的传输方法、发送方法及发送系统

Also Published As

Publication number Publication date
CN102457817A (zh) 2012-05-16

Similar Documents

Publication Publication Date Title
CN102457817B (zh) 一种手机报中新闻内容的抽取方法及系统
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
CN102713965B (zh) 数据源的可缩放主题聚集
CN102053991B (zh) 用于多语言文档检索的方法及系统
US20140355907A1 (en) Photo and video search
US7584217B2 (en) Photo image retrieval system and program
US12008032B2 (en) Automatic detection and transfer of relevant image data to content collections
CN104035993B (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
US6694302B2 (en) System, method and article of manufacture for personal catalog and knowledge management
CN102624770B (zh) 信息摘录方法及基于云计算的摘录信息网络存储管理系统
US20150278248A1 (en) Personal Information Management Service System
US20110145345A1 (en) Methods, systems,and computer program products for retrieving a file of machine readable data
CN112307318B (zh) 一种内容发布方法、系统及装置
US9679002B2 (en) Method for producing and using a recursive index of search engines
CN103475532A (zh) 硬件检测方法和系统
KR101088787B1 (ko) 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를생성하는 방법
KR101471522B1 (ko) 콘텐츠의 생성 및 소비에 기반한 개인 정보 제공 시스템
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
CN110020078B (zh) 一种生成相关性映射字典及其验证相关性的方法和相关装置
TW201142767A (en) Tool and method for creating teaching material
EP3273365B1 (en) Method for generating search index and server utilizing the same
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
JP2008204007A (ja) 画像辞書生成方法及び装置及びプログラム
CN104598482A (zh) 基于深度优先搜索策略更新图书信息的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141105

Termination date: 20191015