CN107122403A - 一种网页学术报告信息抽取方法和系统 - Google Patents
一种网页学术报告信息抽取方法和系统 Download PDFInfo
- Publication number
- CN107122403A CN107122403A CN201710174575.9A CN201710174575A CN107122403A CN 107122403 A CN107122403 A CN 107122403A CN 201710174575 A CN201710174575 A CN 201710174575A CN 107122403 A CN107122403 A CN 107122403A
- Authority
- CN
- China
- Prior art keywords
- time
- report
- speaker
- academic
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
Description
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种网页学术报告信息抽取方法和系统。
背景技术
随着互联网时代的高速发展,越来越多的的信息发布在网上。而信息的展现形式却是参差不齐的,因此越来越需要一种技术可以将大量优质的信息从互联网的各个角落集中的、规范的挖掘给用户,来提高用户的消费质量。
网页学术报告信息是科研工作者重要的信息获取、交流方式之一,它可以帮组科研工作者快速的发现哪里有和自己研究方向相关联的学术报告,从而参加并进行学术交流、提高学术水平。目前网页学术报告信息在每个研究所、高校等机构都是存在的,但是机构太过分散,每个机构的学术网页网址也都很难查找,而且学术信息的展现形式的混乱导致让用户很难快速的查找和发现与自己相关的学术报告,所以如何快速在大量混乱的机构、网页中找到自己所需要的报告是一个问题。因此能将分散的、格式混乱的学术报告集中、规范的展现给科研工作者是一个非常有价值的工作。
由于网页信息的高度复杂性和高度自然语言化,现有的、配合html标记的规则化关键字匹配方法工作方式单一,可扩展性很低,面对稍有变化的网页就需要大量的重写操作,而且没有考虑到html标记以外的标记内容,最小粒度依赖于DOM树节点的分类,但同一节点中很容易包含不同的内容。现有的基于文档树的机器学习方式针对整体的分类任务和节点类别判断较好,但是针对更精细的、文档树参考价值低的、特征过于宽泛复杂的内容效果还不够,尤其未考虑到内容之间序的关系。
发明内容
基于背景技术存在的技术问题,本发明提出了一种网页学术报告信息抽取方法和系统。
本发明提出的一种网页学术报告信息抽取方法,包括:
S1、将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
S2、删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
S3、获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
S4、判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
S5、获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
优选地,步骤S1,具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,在步骤S1中,所述固定表示标记代表的标记类别是唯一的。
优选地,在步骤S2中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
优选地,在步骤S3中,所述获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,具体包括:有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
优选地,步骤S4中,所述判断步骤S3中属性是否出现重复,其中所述属性不包括举办单位;
优选地,步骤S4中,在根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中之后,还包括:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
优选地,步骤S5,具体包括:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
一种网页学术报告信息抽取系统,包括:
替换分割模块,用于将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
黑名单模块,用于删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
内容提取模块,用于获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
报告分类模块,用于判断内容提取模块中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
内容补充模块,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
优选地,所述替换分割模块,具体用于:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,替换分割模块,还用于:将学术报告网页html标签和内容开头标识替换为对应的固定表示标记,其中所述固定表示标记代表的标记类别是唯一的。
优选地,所述黑名单模块,具体用于:黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
优选地,所述内容提取模块,具体用于:获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,其中有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
优选地,所述报告分类模块,具体用于:判断内容提取模块中属性是否出现重复,其中所述属性不包括举办单位;
优选地,报告分类模块,还用于:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
优选地,所述内容补充模块,具体用于:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
本发明在提取信息时做出了一个假设,同一类有用的信息是连续展现的,比如对于一个摘要,我们不会认为第一段摘要和第二段摘要之间会有不属于摘要信息的存在,那么,这样就可以利用同信息连续展现特性、节点细化功能,将分类任务化为文本切割位置的选择任务,本发明对于非连续展现的信息或无开头标识的信息则缺乏适应,本发明提供一个三层架构来提高可扩展性,即规范-合并-模式架构;规范:解决标签格式多样性问题,提供一个可供定制的匹配选择,使用户可以在为新的网页情况轻松得扩展;合并:主要解决结尾位置问题,使用黑名单方式进行处理,不在名单中的可以去除,保证能正确的结尾;模式:一个网页报告中可能有多个相同属性的标签,比如多个报告时间、多个报告人简介等等,这里就是解决一页多报告、多报告共享属性等标签归属问题,并进行人工修改评测。这个架构摆脱了传统提取信息时最小粒度依赖于DOM树节点的分类,并利用了属性顺序特征分类,考虑到了内容之间序的关系,本发明为了更高的利用所需信息,本发明利用属性之间的一定联系进行深层次的信息提取、规范,如根据发布时间、时间及其前后的时间规范补充非标准时间,根据报告人、报告人简介用分词、规则匹配方式得到更细的姓名、职称、机构,从而一定的克服了节点内精细内容的匹配问题。
本发明扩大了DOM树节点细化的能力,提高了规则适用性,利用了属性顺序特征分类。利用同信息连续展现特性等,将分类任务化为文本切割位置的选择任务,从而准确、规范并易于扩展地提取和整理学术报告信息。
附图说明
图1为本发明提出的一种网页学术报告信息抽取方法的流程示意图;
图2为图1中步骤S1的具体流程图;
图3为图1中步骤S2的具体流程图;
图4为图1中步骤S3的具体流程图;
图5为图1中步骤S4的具体流程图;
图6为图1中步骤S5具体流程图;
图7为本发明提出的一种网页学术报告信息抽取方法的三层架构示意图;
图8为本发明提出的一种网页学术报告信息抽取系统的模块示意图。
具体实施方式
参照图1,本发明提出的一种网页学术报告信息抽取方法,该方法包括:
步骤S1,将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
本步骤具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
具体地,在本步骤中,所述固定表示标记代表的标记类别是唯一的;
在本实施方式中,获取学术网页并对其中的html标签及属性标签进行规范化的处理,即将html标签及属性标签联合起来得到更细致的划分点,其中,所述属性标签为学术报告中特有的、表示内容属性的标记,例如“报告人:”、“报告人简介:”;
参照图2,步骤S1具体包括以下步骤:
步骤S11,下载一个学术报告网站上的每一个学术报告网页,
步骤S12,从已经下载好的学术报告网页中按顺序提取一个学术报告网页,如果提取完毕则结束;
例如,提取报告:“<p>\r\n\t报告题目一:</p>\n<p>AAAAAA</p>AAA<p>报告时间:BBB</p>BBB<p>报告地点:CCC</p><p>报\xa0告\xa0人:DDD</p>DDD<p>内容摘要:</p><p>EEEEEE</p><p>EEE</p><p>报告人简介:</p><p>FFF</p><p>r\n\t报告题目二:</p><p>aaa</p>aaa<p>报告时间:bbb</p><p>报告地点:ccc</p><p>报\xa0告\xa0人:ddd</p><p>ddd内容摘要:</p><p>eeeeee</p><p></p><p>报告人简介:</p><p>fff</p>fff<p>”;
步骤S13,将html转义字符还原,并将表示开始、结束标记的html代码替换为一个固定的结尾表示标记,然后去掉html代码;
例如,由上例得到:“报告题目一:{结尾}AAAAAA{结尾}AAA报告时间:BBB{结尾}BBB报告地点:CCC{结尾}报告人:DDD{结尾}DDD内容摘要:{结尾}EEEEEE{结尾}EEE{结尾}报告人简介:{结尾}FFF{结尾}报告题目二:{结尾}aaa{结尾}aaa报告时间:bbb{结尾}报告地点:ccc{结尾}报告人:ddd{结尾}ddd内容摘要:{结尾}eeeeee{结尾}{结尾}报告人简介:{结尾}fff{结尾}fff”;
步骤S14,根据属性出现规则多层次的依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位等模糊属性为固定的表示标记;
例如,由上例得到:“{题目}{结尾}AAAAAA{结尾}AAA{时间}BBB{结尾}BBB{地点}CCC{结尾}{报告人}DDD{结尾}DDD{报告简介}{结尾}EEEEEE{结尾}EEE{结尾}{报告人简介}{结尾}FFF{结尾}{题目}{结尾}aaa{结尾}aaa{时间}bbb{结尾}{地点}ccc{结尾}{报告人}ddd{结尾}ddd{报告简介}{结尾}eeeeee{结尾}{结尾}{报告人简介}{结尾}fff{结尾}fff”;
步骤S15,整体替换修正,在上一个步骤全部完成的基础上再替换更为复杂的、属性直接存在一定联系的模糊属性标签为固定的表示标记,并有偏好的替换一些模凌两可的标签;
步骤S16,按已经确定好的固定表示标记将这段文本分割;
例如,由上例得到:“属性:内容,1:,0:AAAAAA,0:AAA,3:BBB,0:BBB,4:CCC,0:,2:DDD,0:DDD,6:,0:EEEEEE,0:EEE,0:,5:,0:FFF,0:,1:,0:aaa,0:aaa,3:bbb,0:,4:ccc,0:,2:ddd,0:ddd,6:,0:eeeeee,0:,0:,5:,0:fff,0:fff”,其中0代表结尾,123456代表一般属性。
步骤S2,删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
在本步骤中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
在本实施方式中,根据建立的多样化黑名单确定结尾的位置,这是一种分类的方式,其中,所述黑名单是指一组模糊匹配方法的集合,可以是一组正则表达式,用于确定内容是否属于当前属性;
参照图3,步骤S2具体包括以下步骤:
步骤S21,根据网页的规则和需要,从所有属性适用和单一属性适用的角度分别建立2种黑名单。其中,所述单一属性适用是指某个特定的属性使用的黑名单;
步骤S22,从分割结果中提取一个分割块,如果没有则结束。所述分割结果是指步骤S16所得到的文本分割结果;
步骤S23,判断分割块开头是否为普通属性,若不是则进入步骤S22,否则进入在步骤S24。所述分割块开头是指分割块起始处的分割节点。所述普通属性是指所需提取内容的属性之一,不是指代表结尾的属性;
步骤S24,判断分割块内容是否匹配黑名单,从所有属性适用和单一属性适用的角度分别一次,若不是则进入步骤S25,否则进入在步骤S22;
步骤S25,此分割块作为一类开头;
步骤S26,从分割结果中再提取一个分割块,如果没有则结束;
步骤S27,判断分割块开头是否为普通属性,若不是则进入步骤S28,否则进入在步骤S24;
步骤S28,判断分割块内容是否匹配黑名单,从所有属性适用和单一属性适用的角度分别一次,若不是则进入步骤S29,否则进入在步骤S26;
在步骤S29中,此分割块内容加入此类,继续步骤S21。所述此类是指步骤S25所创建的一类。
步骤S3,获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
在本步骤中,所述获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,具体包括:有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置;
在本实施方式中,由开头和结尾的位置合并提取出所有不同属性的内容;
参照图4,步骤S3具体包括以下步骤:
步骤S31,抽取一个类,从开头到最后内容,抽完则结束,所述一个类是指步骤S2中得到的所有类别中的一个;
步骤S32,判断所抽取类别中空白块连续次数是否超过阈值,是则进入步骤S33,否则进入步骤S34。所述空白块是指类别中的分割块只有开头或中间没有内容;
步骤S33,丢弃此连续空白块及其之后的内容;
步骤S34,判断此类属性是否与上类一致,是则进入步骤S35,否则进入步骤S36,所述上类是指上一次在步骤S31中所抽取的一个类,如果是第一次则没有上一次;
步骤S35,将此类与上一类合并成一个类。
步骤S36,合并此类别的内容,成功分出类别,继续步骤S31;
例如,经过步骤S13后,由上例得到:“属性:内容,1:AAAAAAAAA,3:BBBBBB,4:CCC,2:DDDDDD,6:EEEEEEEEE,5:FFF,1:aaaaaa,3:bbb,4:ccc,2:dddddd,6:eeeeee,5:ffffff”,其中0代表结尾,123456代表一般属性。
步骤S4,判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
本步骤中,判断步骤S3中属性是否出现重复,其中所述属性不包括举办单位;
具体的,在本步骤中,判断网页有多个学术报告之后,还包括:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
具体的,在本步骤中,根据学术报告的属性排列方式将不同属性内容分属到对应的学术报告中之后,还包括:根据同一页面下不同报告的属性缺失差异、每个报告的属性缺失状况、黑白名单关键字的判断、属性字符长度的限制对分析结果进行可信任程度评估;
在本实施方式中,根据类别内容的属性的排列方式确定类别内容的属性分属哪一个报告,达到分离一个网页的多个报告的效果;
参照图5,步骤S4具体包括以下步骤:
步骤S41,生成一个空的报告。所述空的报告是用来存储一个报告的属性内容的,可以是数组或结构体等的形式;
步骤S42,判断分类结果是否遍历完,是则进入步骤S47,否则进入步骤S43,所述分类结果是指步骤S3分出的所有类别;
步骤S43中,从分好的结果中抽取一个类及其属性;
步骤S44中,判断所取的属性是否在生成的报告中已有,是则进入步骤S45,否则进入步骤S46;
步骤S45,再生成一个空的报告,放在上一个报告之前,作为被加入的报告。
步骤S46中,将所取的类加入报告之中,然后进入步骤S42;
例如,直到步骤S407时,由上例得到:“{题目}AAAAAAAAA,{报告人}DDDDDD,{时间}BBBBBB,{地点}CCC,{报告人简介}FFF,{报告简介}EEEEEEEEE;{题目}aaaaaa,{报告人}dddddd,{时间}bbb,{地点}ccc,{报告人简介}ffffff,{报告简介}eeeeee”;
步骤S47,对本网页所有报告缺失属性进行公共信息延展,所述公共信息延展是指将多个报告中出现且仅出现一次的属性类别添加到本网页其他的所有报告之中;
步骤S48,分析计算结果可信度,所述结果可信度是根据同一网页下不同报告的属性缺失差异、每个报告的属性缺失状况、黑白名单关键字的判断、属性字符长度的限制的角度综合得到的结果,本发明实施例对此并不加以限定;
至此分析完一个网页的所有报告以后,再回到步骤S12,直到分析完所有的网页再进行步骤S5。
步骤S5,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中;
本步骤具体包括:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补;
在本实施方式中,使用分词和模糊匹配技术深度规范时间和细化报告人信息;
参照图参照图6,步骤S5具体包括以下步骤:
步骤S51,从前面所有步骤得到的报告中取出一份报告,若取完则结束。
步骤S52,根据职称列表从报告人及其简介中匹配出最高职称,所述职称列表是根据已有的报告人职称生成的一个对应列表,列表按职称词语包含与被包含、高职位到低职位的顺序进行排序,每个职称可能有着不同的表达形式,一般由正则表达式展现;
步骤S53,从报告人及其简介中匹配出报告人机构,利用分词算法和一定规则的正则匹配方法分离出报告人、报告人简介中的机构,并带上相关的、正确的前缀、后缀作为此报告的报告人单位;
步骤S54,从报告人及其简介中匹配出报告人精确姓名,利用分词算法和一定规则的正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名;
步骤S55中,将报告时间补充并化为UTC时间,再返回步骤S51;
最后,针对分析完的数据,和数据库中的信息进行一定偏好的匹配,丢弃冗余的数据,并将所有分析完毕的报告信息分条存入数据库。
参照图7,图7为本发明提出的一种网页学术报告信息抽取方法的三层架构示意图,本发明提供一个三层架构来提高可扩展性,即规范-合并-模式架构;规范:解决标签格式多样性问题,提供一个可供定制的匹配选择,使用户可以在为新的网页情况轻松得扩展;合并:主要解决结尾位置问题,使用黑名单方式进行处理,不在名单中的可以去除,保证能正确的结尾;模式:一个网页报告中可能有多个相同属性的标签,比如多个报告时间、多个报告人简介等等,这里就是解决一页多报告、多报告共享属性等标签归属问题,并进行人工修改评测。这个架构摆脱了传统提取信息时最小粒度依赖于DOM树节点的分类,并利用了属性顺序特征分类,考虑到了内容之间序的关系,本发明为了更高的利用所需信息,本发明利用属性之间的一定联系进行深层次的信息提取、规范,如根据发布时间、时间及其前后的时间规范补充非标准时间,根据报告人、报告人简介用分词、规则匹配方式得到更细的姓名、职称、机构,从而一定的克服了节点内精细内容的匹配问题。
参照图2,本发明提出的一种网页学术报告信息抽取系统,包括:
替换分割模块,用于将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
替换分割模块,具体用于:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
具体的,替换分割模块,还用于:将学术报告网页html标签和内容开头标识替换为对应的固定表示标记,其中所述固定表示标记代表的标记类别是唯一的;
在本实施方式中,获取学术网页并对其中的html标签及属性标签进行规范化的处理,即将html标签及属性标签联合起来得到更细致的划分点,其中,所述属性标签为学术报告中特有的、表示内容属性的标记,例如“报告人:”、“报告人简介:”。
黑名单模块,用于删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
黑名单模块,具体用于:黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
在本实施方式中,根据建立的多样化黑名单确定结尾的位置,这是一种分类的方式,其中,所述黑名单是指一组模糊匹配方法的集合,可以是一组正则表达式,用于确定内容是否属于当前属性。
内容提取模块,用于获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
内容提取模块,具体用于:获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,其中有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
在本实施方式中,由开头和结尾的位置合并提取出所有不同属性的内容。
报告分类模块,用于判断内容提取模块中属性是否出现重复,当判断结果为是时,表示网页有多个学术报告,此时根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;;
报告分类模块,具体用于:判断内容提取模块中属性是否出现重复,其中所述属性不包括举办单位;
具体的,报告分类模块,还用于:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
报告分类模块,还用于:根据同一页面下不同报告的属性缺失差异、每个报告的属性缺失状况、黑白名单关键字的判断、属性字符长度的限制对分析结果进行可信任程度评估;
在本实施方式中,根据类别内容的属性的排列方式确定类别内容的属性分属哪一个报告,达到分离一个网页的多个报告的效果。
内容补充模块,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中;
内容补充模块,具体用于:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
本实施方式扩大了DOM树节点细化的能力,提高了规则适用性,利用了属性顺序特征分类。利用同信息连续展现特性等,将分类任务化为文本切割位置的选择任务,从而准确、规范并易于扩展地提取和整理学术报告信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种网页学术报告信息抽取方法,其特征在于,包括:
S1、将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
S2、删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
S3、获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
S4、判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
S5、获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
2.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S1,具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,在步骤S1中,所述固定表示标记代表的标记类别是唯一的。
3.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,在步骤S2中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
优选地,在步骤S3中,所述获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,具体包括:有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
4.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S4中,所述判断步骤S3中属性是否出现重复,其中所述属性不包括举办单位;
优选地,步骤S4中,在根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中之后,还包括:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
5.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S5,具体包括:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
6.一种网页学术报告信息抽取系统,其特征在于,包括:
替换分割模块,用于将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
黑名单模块,用于删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
内容提取模块,用于获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
报告分类模块,用于判断内容提取模块中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
内容补充模块,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
7.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述替换分割模块,具体用于:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,替换分割模块,还用于:将学术报告网页html标签和内容开头标识替换为对应的固定表示标记,其中所述固定表示标记代表的标记类别是唯一的。
8.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述黑名单模块,具体用于:黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
优选地,内容提取模块,具体用于:获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,其中有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
9.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述报告分类模块,具体用于:判断内容提取模块中属性是否出现重复,其中所述属性不包括举办单位;
优选地,报告分类模块,还用于:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
10.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述内容补充模块,具体用于:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710174575.9A CN107122403B (zh) | 2017-03-22 | 2017-03-22 | 一种网页学术报告信息抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710174575.9A CN107122403B (zh) | 2017-03-22 | 2017-03-22 | 一种网页学术报告信息抽取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122403A true CN107122403A (zh) | 2017-09-01 |
CN107122403B CN107122403B (zh) | 2020-08-07 |
Family
ID=59718103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710174575.9A Active CN107122403B (zh) | 2017-03-22 | 2017-03-22 | 一种网页学术报告信息抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122403B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460021A (zh) * | 2018-03-16 | 2018-08-28 | 安徽大学 | 一种提取论文标题中的问题方法对的方法 |
CN112818087A (zh) * | 2021-02-04 | 2021-05-18 | 北京数衍科技有限公司 | 打印机指令头尾解析方法和装置、设备及存储介质 |
CN117807293A (zh) * | 2024-02-23 | 2024-04-02 | 中国电子科技集团公司第十研究所 | 一种证据信息按需组织与精准分发方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254572A1 (en) * | 2007-01-05 | 2009-10-08 | Redlich Ron M | Digital information infrastructure and method |
CN103440308A (zh) * | 2013-08-27 | 2013-12-11 | 北京理工大学 | 一种基于形式概念分析的数字论文检索方法 |
CN103761312A (zh) * | 2014-01-24 | 2014-04-30 | 福州大学 | 一种多记录网页的信息抽取系统及方法 |
CN103838796A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页结构化信息抽取方法 |
CN103902578A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团四川有限公司 | 一种网页信息抽取方法和装置 |
CN105095466A (zh) * | 2015-07-31 | 2015-11-25 | 山东大学 | 一种web文本信息抽取方法 |
CN106294493A (zh) * | 2015-06-08 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 实现文档格式转换的方法及装置 |
CN106407482A (zh) * | 2016-12-01 | 2017-02-15 | 合肥工业大学 | 一种基于多特征融合的网络学术报告分类方法 |
-
2017
- 2017-03-22 CN CN201710174575.9A patent/CN107122403B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254572A1 (en) * | 2007-01-05 | 2009-10-08 | Redlich Ron M | Digital information infrastructure and method |
CN103838796A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页结构化信息抽取方法 |
CN103902578A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团四川有限公司 | 一种网页信息抽取方法和装置 |
CN103440308A (zh) * | 2013-08-27 | 2013-12-11 | 北京理工大学 | 一种基于形式概念分析的数字论文检索方法 |
CN103761312A (zh) * | 2014-01-24 | 2014-04-30 | 福州大学 | 一种多记录网页的信息抽取系统及方法 |
CN106294493A (zh) * | 2015-06-08 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 实现文档格式转换的方法及装置 |
CN105095466A (zh) * | 2015-07-31 | 2015-11-25 | 山东大学 | 一种web文本信息抽取方法 |
CN106407482A (zh) * | 2016-12-01 | 2017-02-15 | 合肥工业大学 | 一种基于多特征融合的网络学术报告分类方法 |
Non-Patent Citations (1)
Title |
---|
张超: "基于分块的主题信息抽取研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460021A (zh) * | 2018-03-16 | 2018-08-28 | 安徽大学 | 一种提取论文标题中的问题方法对的方法 |
CN108460021B (zh) * | 2018-03-16 | 2021-10-12 | 安徽大学 | 一种提取论文标题中的问题方法对的方法 |
CN112818087A (zh) * | 2021-02-04 | 2021-05-18 | 北京数衍科技有限公司 | 打印机指令头尾解析方法和装置、设备及存储介质 |
CN112818087B (zh) * | 2021-02-04 | 2024-05-28 | 北京数衍科技有限公司 | 打印机指令头尾解析方法和装置、设备及存储介质 |
CN117807293A (zh) * | 2024-02-23 | 2024-04-02 | 中国电子科技集团公司第十研究所 | 一种证据信息按需组织与精准分发方法 |
CN117807293B (zh) * | 2024-02-23 | 2024-05-14 | 中国电子科技集团公司第十研究所 | 一种证据信息按需组织与精准分发方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107122403B (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
US20050066269A1 (en) | Information block extraction apparatus and method for Web pages | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN105068989B (zh) | 地名地址提取方法及装置 | |
CN106126521A (zh) | 目标对象的社交账号挖掘方法及服务器 | |
CN107169001A (zh) | 一种基于众包反馈和主动学习的文本分类模型优化方法 | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
US20020021838A1 (en) | Adaptively weighted, partitioned context edit distance string matching | |
CN102663023A (zh) | 一种提取网页内容的实现方法 | |
CN102760151B (zh) | 开源软件获取与搜索系统的实现方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
CN107122403A (zh) | 一种网页学术报告信息抽取方法和系统 | |
CN104598577A (zh) | 一种网页正文的提取方法 | |
CN107578292A (zh) | 一种用户画像构建系统 | |
CN103873601A (zh) | 一种寻址类查询词的挖掘方法及系统 | |
CN108734159A (zh) | 一种图像中敏感信息的检测方法及系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN107679038B (zh) | 一种文本段落的抽取方法及装置 | |
CN114064851A (zh) | 一种政府办公文档多机检索方法及系统 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
CN109903148A (zh) | 基于分类模型的合同费用计算方法、装置及计算机设备 | |
CN109165373A (zh) | 一种数据处理方法及装置 | |
CN103064966A (zh) | 一种从单记录网页中抽取规律噪音的方法 | |
CN107436931A (zh) | 网页正文抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |