CN105677764A - 信息提取方法和装置 - Google Patents

信息提取方法和装置 Download PDF

Info

Publication number
CN105677764A
CN105677764A CN201511022937.XA CN201511022937A CN105677764A CN 105677764 A CN105677764 A CN 105677764A CN 201511022937 A CN201511022937 A CN 201511022937A CN 105677764 A CN105677764 A CN 105677764A
Authority
CN
China
Prior art keywords
text
paragraph
node
web page
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511022937.XA
Other languages
English (en)
Other versions
CN105677764B (zh
Inventor
秦首科
韩友
陈志扬
马飞超
徐培治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201511022937.XA priority Critical patent/CN105677764B/zh
Publication of CN105677764A publication Critical patent/CN105677764A/zh
Priority to JP2017552070A priority patent/JP6653334B2/ja
Priority to EP16880453.2A priority patent/EP3267332A4/en
Priority to PCT/CN2016/086213 priority patent/WO2017113645A1/zh
Priority to US15/564,187 priority patent/US10679051B2/en
Priority to KR1020177027765A priority patent/KR20170123331A/ko
Application granted granted Critical
Publication of CN105677764B publication Critical patent/CN105677764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。

Description

信息提取方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及信息技术领域,尤其涉及信息提取方法和装置。
背景技术
随着互联网技术的蓬勃发展,互联网上的信息资源越来越丰富。一方面,搜索引擎为网络用户在互联网上快速找到所求信息提供了极大的便利。另一方面,随着互联网上资源的增多,以及搜索引擎中用户行为数据的积累,搜索引擎具备了提供自动问答的能力。相比于传统的搜索引擎,自动问答系统的搜索结果不再是一个排好序的网页列表,而是直接从相关网页中抽取出来的答案,用户无需再花费时间从网页中寻找答案,从而节约了用户时间。
由于自动问答系统索引的内容不再是整篇网页的内容,而是网页内容中包含问答的一个段落或者几句话,且互联网上天然存在的问题以及问题答案的资源较少,因此需要从网页内容中提取问题以及问题答案的信息。
发明内容
本申请的目的在于提出一种改进的信息提取方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种信息提取方法,所述方法包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括:从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
在一些实施例中,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
在一些实施例中,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
在一些实施例中,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类,包括:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在一些实施例中,所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
第二方面,本申请提供了一种信息提取装置,所述装置包括:解析单元,配置用于将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在一些实施例中,所述划分单元包括:识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
在一些实施例中,所述解析单元进一步配置用于:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
在一些实施例中,所述识别子单元进一步配置用于:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
在一些实施例中,所述划分单元进一步配置用于:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
在一些实施例中,所述分类单元进一步配置用于:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在一些实施例中,所述提取单元进一步配置用于:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
本申请提供的信息提取方法和装置,通过将网页文件解析为标签树结构,而后将正文节点包含的内容进行段落划分生成段落块,最后将段落块包含的文本内容进行分类,并基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,从而实现了信息自动、精确的提取。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息提取方法的一个实施例的流程图;
图3是根据本申请的信息提取方法的一个应用场景的示意图;
图4是根据本申请的信息提取方法的又一个实施例的流程图;
图5是根据本申请的信息提取装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息提取方法或信息提取装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、新闻类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供网页文件信息的后台网页服务器。后台网页服务器可以将互联网上的网页文件发送给终端设备,也可以将互联网上的网页文件进行信息分析、提取等处理后将处理结果发送给终端设备。
需要说明的是,本申请实施例所提供的信息提取方法可以由服务器105单独执行,也可以由终端设备101、102、103和服务器105共同执行,还可以由终端设备101、102、103单独执行。相应地,信息提取装置可以设置于终端设备101、102、103中,也可以将信息提取装置设置于服务器105中,还可以将信息提取装置的部分单元设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息提取方法的一个实施例的流程200。所述的信息提取方法,包括以下步骤:
步骤201,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,例如,当上述电子设备为网页服务器时可以从本地获取网页文件,当上述电子设备为移动终端时可以通过有线连接方式或者无线连接方式从网页服务器获取网页文件。其中,上述网页文件可以是各种格式的文件,例如html格式、xhtml格式、dhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式。上述电子设备可以将上述网页文件解析为标签树结构,即将网页文件中的标签按照嵌套关系整理成一棵树状结构。上述电子设备还可以将解析得到的标签树进行过滤处理,去除与网页正文无关的信息所在的节点,其中,上述与网页正文无关的信息可以包括但不限于导航信息、版权声明信息、广告信息等。上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点,例如,可以将包含文本的字数大于设定数量、包含的链接文字少于设定数量的节点设别为正文节点。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例的一些可选的实现方式中,上述电子设备可以首先将预先获取的网页文件进行规范化处理,使上述网页文件符合超文本标记语言规范,例如将只有<title>标签,而没有对应的</title>标签的网页文件中补全</title>,又例如补全<li>、<hr>等结束标签;之后,对对规范化的网页文件进行文档对象模型(DOM,DocumentObjectModel)树解析,生成标签树;最后,依次访问生成的标签树的各个节点,并根据各个节点包含的内容确定出正文节点。例如,分别统计标签树的各个节点包含的文本字数、链接文本字数、段落个数、以及包含的叶子节点中文本个数的方差等统计量,并将统计量与预先设定的阈值进行比较,选取满足条件的节点为正文节点,例如将文本字数多、链接文本字数少、段落个数多、以及包含的叶子节点中文本个数的方差大的节点识别为正文节点。
步骤202,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,每一个段落块与上述网页文件对应的网页正文上的段落相对应,同时,根据各个段落块所关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
在本实施例的一些可选的实现方式中,上述电子设备可以首先从至少一个正文节点包含的内容中识别出网页文件的网页内容的标题,例如上述电子设备可以根据各个节点包含的内容在上述网页文件对应的网页正文中所在的位置、以及各个节点中包含的文本内容,从步骤201中得到的至少一个正文节点中识别出上述网页文件的网页内容的标题;之后将上述至少一个正文节点包含的内容中的、该标题之外的内容进行段落划分,生成各个段落块。
可选的,上述电子设备可以首先根据至少一个正文节点包含的内容在上述网页内容中的位置,从上述至少一个正文节点中选取至少一个候选标题节点,例如,上述电子设备可以查找到网页内容上部设定范围内的文本内容对应的节点,并将查找到的节点作为候选标题节点;之后,计算各个候选标题节点内的文本与上述网页文件的标题(title)标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚(anchor)标签对应的文本的编辑距离;然后,根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序,例如按编辑距离由小到大的顺序进行排序;最后,根据排序结果从上述至少一个候选标题节点中确定一个正文标题节点,并将上述正文标题节点内的文本确定为网页内容的标题。可选的,上述电子设备还可以根据排序结果和与各个候选标题节点关联的标签从上述至少一个候选标题节点中确定一个正文标题节点,例如选取包含标题标签(H标签)、加粗(strong)标签等标题容易出现的标签的,且编辑距离小设定值的候选标题节点为正文标题节点。
在本实施例的一些可选的实现方式中,上述电子设备可以首先识别各个正文节点中的至少一个块元素,如果块元素中包含子块元素,则利用子块元素和换行(br)标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;之后,根据块元素以及子块元素中关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
步骤203,基于各个段落块的标签属性将各个段落块包含的文本内容进行分类。
在本实施例中,上述电子设备可以基于步骤202中得到各个段落块以及各个段落块的标签属性,将各个段落块中包含的文本内容进行分类。例如,可以将标签属性相同的段落块划分为同一类。
步骤204,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,上述电子设备可以采用现有的自然语言处理分析技术对步骤203中得到的分类结果进行分析处理,从各个段落块中所包含的文本内容中提取出问题,例如对各个段落块中所包含的文本内容进行分词、语义分析等一系列处理,从各个段落块中所包含的文本内容中提取出疑问句。提取出问题之后,上述电子设备可以根据提取出的问题在上述网页内容中的位置以及各个段落块中所包含的文本内容提取出与该问题对应的答案。
继续参见图3,图3是根据本实施例的信息提取方法的应用场景的一个示意图。在图3的应用场景中,用户通过利用其进行网页浏览的终端设备输入待搜索答案的问题“前列腺炎的症状”,网页服务器可以从预先存储的多条问题和答案的信息中搜索与问题“前列腺炎的症状”相关联的问题和答案,并将搜索到的问题和答案推送给用户,就会如图3所示。其中,预先存储的多条问题和答案的信息是通过以下方式获取的:首先,将预先获取的网页文件解析为标签树结构,并从标签树中识别出该网页文件的网页正文所在的至少一个正文节点;然后,对正文内容进行段落划分得到段落块,并设定各个段落块的标签属性;最后,对各个段落块包含的文本内容进行分类,并根据分类结果从文本内容中提取出网页内容中包含的问题和答案。
本申请的上述实施例提供的方法通过将网页文件解析为标签树,并将识别出的正文节点包含的内容进行段落划分和标签属性设定,最终提取出网页正文中包含问题和答案的信息,实现了信息的自动、精确的提取。
进一步参考图4,其示出了信息提取方法的又一个实施例的流程400。该信息提取方法的流程400,包括以下步骤:
步骤401,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,并将上述网页文件解析为标签树结构。之后,上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点。
步骤402,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,同时,根据各个段落块所关联的标签的属性为各个段落块设定标签属性。
步骤403,将标签属性相同的段落块划分为同一段落块集合。
在本实施例中,上述电子设备可以将步骤402得到段落块中标签属性相同的段落块划分为同一段落块集合。
步骤404,根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构。
在本实施例中,上述电子设备可以计算各个段落块集合内的各个段落块之间的平均行间隔、最大连续行间隔数、平均字符数、最大字符数等并设定阈值,将有一定行间隔、字符长度均匀且不是很大的段落块识别为短标题结构。
步骤405,将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在本实施例中,上述电子设备可以将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类,例如可以根据段落块内的文本是否包含数字、是否在段落开头部分有强调结构将段落块划分为编号键值型段落、键值型段落、编号型段落以及普通型段落等类别,其中上述编号键值型段落是指有编号且为键值型结构的段落(例如1、提炼中心思想的方法:透过表面分析本质)。
步骤406,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,上述电子设备可以基于步骤405中得到的分类结果,从各个段落块中所包含的文本内容中提取出问题和该问题对应的答案。
在本实施例的一些可选的实现方式中,上述电子设备可以首先根据步骤404中识别出的短标题结构对网页文件对应的网页正文内容进行逻辑块划分,例如可以将识别出的短标题结构以及该短标题结构与下一短标题结构之间的部分划分为一个逻辑块;之后,利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;然后,根据候选问题在上述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;最后,基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息,例如当候选问题与候选答案的首条内容之间的行数超过预定的阈值时,去掉该候选问题与候选答案;当候选答案中包括多条带有数字编号的内容且编号不连续时,去掉该候选答案以及与该候选答案相对应的候选问题;当候选答案中包括的答案条目数小于设定阈值时,去掉该候选答案以及与该候选答案相对应的候选问题,其中答案条目数可以是指答案中包含的条目的数量,每一条目可以是指一个段落,也可以是指一句话;当候选答案中包括的答案条目有多条被判断为是问题(例如多条被判断为问句)时,去掉该候选答案以及与该候选答案相对应的候选问题。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息提取方法的流程400突出了对各个段落块的划分以及各个分块集合中的短标题结构的识别。由此,本实施例描述的方案可以更加准确地识别出网页内容中的问题,从而实现信息的精确提取。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息提取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的信息提取装置500包括:解析单元501、划分单元502、分类单元503和提取单元504。其中,解析单元501配置用于将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点;划分单元502配置用于将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元503配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元504配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,信息提取装置500的解析单元501可以将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,上述划分单元502可以将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性
在本实施例中,上述分类单元503可以基于上述划分单元502得到的各个段落块的标签属性将各个段落块包含的文本内容进行分类。
在本实施例中,上述提取单元504可以基于上述分类单元503得到的分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
本领域技术人员可以理解,上述信息提取装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括解析单元、划分单元、分类单元和提取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,解析单元还可以被描述为“将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种信息提取方法,其特征在于,所述方法包括:
将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;
将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;
基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;
基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括:
从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;
将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
3.根据权利要求1所述的方法,其特征在于,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括:
将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;
对规范化的网页文件进行文档对象模型树解析,生成标签树;
访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
4.根据权利要求2所述的方法,其特征在于,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括:
根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;
计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;
根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;
根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
5.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括:
识别各个正文节点中的至少一个块元素;
如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;
根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
6.根据权利要求1所述的方法,其特征在于,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类,包括:
将标签属性相同的段落块划分为同一段落块集合;
根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;
将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
7.根据权利要求6所述的方法,其特征在于,所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括:
根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;
利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;
根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;
基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
8.一种信息提取装置,其特征在于,所述装置包括:
解析单元,配置用于将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;
划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;
分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;
提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
9.根据权利要求8所述的装置,其特征在于,所述划分单元包括:
识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;
划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
10.根据权利要求8所述的装置,其特征在于,所述解析单元进一步配置用于:
将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;
对规范化的网页文件进行文档对象模型树解析,生成标签树;
访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
11.根据权利要求9所述的装置,其特征在于,所述识别子单元进一步配置用于:
根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;
计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;
根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;
根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
12.根据权利要求8所述的装置,其特征在于,所述划分单元进一步配置用于:
识别各个正文节点中的至少一个块元素;
如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;
根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
13.根据权利要求8所述的装置,其特征在于,所述分类单元进一步配置用于:
将标签属性相同的段落块划分为同一段落块集合;
根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;
将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
14.根据权利要求13所述的装置,其特征在于,所述提取单元进一步配置用于:
根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;
利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;
根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;
基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
CN201511022937.XA 2015-12-30 2015-12-30 信息提取方法和装置 Active CN105677764B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201511022937.XA CN105677764B (zh) 2015-12-30 2015-12-30 信息提取方法和装置
JP2017552070A JP6653334B2 (ja) 2015-12-30 2016-06-17 情報抽出方法及び装置
EP16880453.2A EP3267332A4 (en) 2015-12-30 2016-06-17 Information extraction method and device
PCT/CN2016/086213 WO2017113645A1 (zh) 2015-12-30 2016-06-17 信息提取方法和装置
US15/564,187 US10679051B2 (en) 2015-12-30 2016-06-17 Method and apparatus for extracting information
KR1020177027765A KR20170123331A (ko) 2015-12-30 2016-06-17 정보 추출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511022937.XA CN105677764B (zh) 2015-12-30 2015-12-30 信息提取方法和装置

Publications (2)

Publication Number Publication Date
CN105677764A true CN105677764A (zh) 2016-06-15
CN105677764B CN105677764B (zh) 2020-05-08

Family

ID=56298057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511022937.XA Active CN105677764B (zh) 2015-12-30 2015-12-30 信息提取方法和装置

Country Status (6)

Country Link
US (1) US10679051B2 (zh)
EP (1) EP3267332A4 (zh)
JP (1) JP6653334B2 (zh)
KR (1) KR20170123331A (zh)
CN (1) CN105677764B (zh)
WO (1) WO2017113645A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
WO2017113645A1 (zh) * 2015-12-30 2017-07-06 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106951505A (zh) * 2017-03-16 2017-07-14 北京搜狐新媒体信息技术有限公司 网页信息获得方法及系统
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN107943838A (zh) * 2017-10-30 2018-04-20 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN108062291A (zh) * 2016-11-09 2018-05-22 上海颐为网络科技有限公司 多媒体内容智能转换为词条结构的方法和系统
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108334481A (zh) * 2018-03-01 2018-07-27 四川语言桥信息技术有限公司 文档处理方法以及装置
CN108491536A (zh) * 2018-03-30 2018-09-04 北京智慧正安科技有限公司 法律条文提取方法、装置及计算机可读存储介质
CN108509469A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于分块的网页正文信息提取方法
KR101904486B1 (ko) * 2017-01-13 2018-10-05 (주)엠더블유스토리 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN109276886A (zh) * 2018-08-16 2019-01-29 深圳木狼科技有限公司 一种文本生成方法、系统以及终端设备
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110046355A (zh) * 2019-04-25 2019-07-23 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
CN110209906A (zh) * 2018-02-07 2019-09-06 北京京东尚科信息技术有限公司 用于提取网页信息的方法和装置
CN110222319A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110717044A (zh) * 2019-10-08 2020-01-21 创新奇智(南京)科技有限公司 一种研报正文的文本分类方法
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111061860A (zh) * 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
CN111177301A (zh) * 2019-11-26 2020-05-19 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN112172375A (zh) * 2020-09-03 2021-01-05 安徽理工大学 一种大学生创新创业计划评价分析系统
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN113221516A (zh) * 2020-09-14 2021-08-06 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
US10713329B2 (en) 2018-10-30 2020-07-14 Longsand Limited Deriving links to online resources based on implicit references
CN109740130B (zh) * 2018-11-22 2022-12-09 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN110175233B (zh) * 2019-03-07 2022-03-11 平安科技(深圳)有限公司 目标主体画像分析的方法、装置、计算机装置及存储介质
JP7099397B2 (ja) * 2019-04-16 2022-07-12 株式会社リコー Q&a抽出装置、方法、プログラム、および応答システム
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110704573B (zh) * 2019-09-04 2023-12-22 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN111274239B (zh) * 2019-12-30 2023-07-14 安徽知学科技有限公司 试卷结构化处理方法、装置和设备
CN111784505A (zh) * 2020-06-30 2020-10-16 鼎富智能科技有限公司 一种借贷纠纷判决书提取方法及装置
CN112001183B (zh) * 2020-07-26 2021-11-19 湖南省侍禾教育科技有限公司 一种基于段落语义的中小学试题分割提取方法及系统
CN114070576B (zh) * 2020-08-07 2024-03-08 腾讯科技(深圳)有限公司 内容显示方法、内容生成方法、装置、设备及存储介质
CN112487138A (zh) * 2020-11-19 2021-03-12 华为技术有限公司 带格式文本的信息抽取方法和装置
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN113407890B (zh) * 2021-07-19 2024-01-12 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质
CN113591657B (zh) * 2021-07-23 2024-04-09 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN114610985B (zh) * 2022-05-10 2022-08-19 北京百炼智能科技有限公司 信息提取方法、装置、电子设备及存储介质
CN115757823B (zh) * 2022-11-10 2024-03-05 魔方医药科技(苏州)有限公司 数据处理方法、装置、电子设备和存储介质
CN117236314B (zh) * 2023-11-06 2024-03-01 杭州同花顺数据开发有限公司 支持超长答案的信息抽取方法、系统、装置和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201633A1 (en) * 2007-02-16 2008-08-21 Esobi Inc. Method and system for converting hypertext markup language web page to plain text
US20100299589A1 (en) * 2009-05-19 2010-11-25 Studio Ousia Inc. Keyword display method and keyword display system
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其系统
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
CN104268192A (zh) * 2014-09-20 2015-01-07 广州金山网络科技有限公司 一种网页信息提取方法、装置及终端

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113335A (ja) * 1997-06-13 1999-01-06 Fuji Xerox Co Ltd 質問回答管理装置
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
AU2001217524A1 (en) 2000-01-12 2001-07-24 Jupiter Media Metrix, Inc. System and method for estimating prevalence of digital content on the world-wide-web
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
JP4512826B2 (ja) * 2005-03-03 2010-07-28 国立大学法人 筑波大学 質問応答システム
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
US20090119374A1 (en) * 2007-11-05 2009-05-07 International Business Machines Corporation Adaptive instant messaging awareness
US8255793B2 (en) 2008-01-08 2012-08-28 Yahoo! Inc. Automatic visual segmentation of webpages
WO2010085773A1 (en) * 2009-01-24 2010-07-29 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
WO2012040356A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US20130304730A1 (en) * 2011-01-18 2013-11-14 Google Inc. Automated answers to online questions
CN102631002B (zh) * 2012-05-15 2013-06-05 安徽燕之坊食品有限公司 一种功能性饮料冲剂
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
US9246857B2 (en) * 2013-12-23 2016-01-26 Ctext Technology Llc Method and system for correlating conversations in a messaging environment
CN104462532B (zh) * 2014-12-23 2017-07-07 北京奇虎科技有限公司 网页正文提取的方法和装置
US9875296B2 (en) * 2015-03-25 2018-01-23 Google Llc Information extraction from question and answer websites
US20170063776A1 (en) * 2015-08-27 2017-03-02 International Business Machines Coporation FAQs UPDATER AND GENERATOR FOR MULTI-COMMUNICATION CHANNELS
CN105677764B (zh) 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201633A1 (en) * 2007-02-16 2008-08-21 Esobi Inc. Method and system for converting hypertext markup language web page to plain text
US20100299589A1 (en) * 2009-05-19 2010-11-25 Studio Ousia Inc. Keyword display method and keyword display system
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其系统
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
CN104268192A (zh) * 2014-09-20 2015-01-07 广州金山网络科技有限公司 一种网页信息提取方法、装置及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DINGRONG YUAN等: "A NEW ALGORITHM:EXTRACTION TEXT INFORMATION FROM WEBPAGE BASED ON BLOCK AND TAG-FUNCTION", 《IEEE》 *
张俊英等: "网页文本信息自动提取技术综述", 《计算机应用研究》 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679051B2 (en) 2015-12-30 2020-06-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting information
WO2017113645A1 (zh) * 2015-12-30 2017-07-06 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106446072B (zh) * 2016-09-07 2019-10-18 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN106446072A (zh) * 2016-09-07 2017-02-22 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN108062291A (zh) * 2016-11-09 2018-05-22 上海颐为网络科技有限公司 多媒体内容智能转换为词条结构的方法和系统
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
KR101904486B1 (ko) * 2017-01-13 2018-10-05 (주)엠더블유스토리 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법
CN106951505A (zh) * 2017-03-16 2017-07-14 北京搜狐新媒体信息技术有限公司 网页信息获得方法及系统
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN108509469A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于分块的网页正文信息提取方法
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN107766328B (zh) * 2017-10-24 2020-06-12 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN107943838A (zh) * 2017-10-30 2018-04-20 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN107943838B (zh) * 2017-10-30 2021-09-07 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110209906A (zh) * 2018-02-07 2019-09-06 北京京东尚科信息技术有限公司 用于提取网页信息的方法和装置
CN108334481B (zh) * 2018-03-01 2021-08-27 四川语言桥信息技术有限公司 文档处理方法以及装置
CN108334481A (zh) * 2018-03-01 2018-07-27 四川语言桥信息技术有限公司 文档处理方法以及装置
CN108491536A (zh) * 2018-03-30 2018-09-04 北京智慧正安科技有限公司 法律条文提取方法、装置及计算机可读存储介质
CN109276886A (zh) * 2018-08-16 2019-01-29 深圳木狼科技有限公司 一种文本生成方法、系统以及终端设备
CN110889280B (zh) * 2018-09-06 2023-09-26 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置
CN110046355B (zh) * 2019-04-25 2023-02-24 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
CN110046355A (zh) * 2019-04-25 2019-07-23 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
CN110222319A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110717044A (zh) * 2019-10-08 2020-01-21 创新奇智(南京)科技有限公司 一种研报正文的文本分类方法
CN111177301A (zh) * 2019-11-26 2020-05-19 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN111177301B (zh) * 2019-11-26 2023-05-26 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN110956019A (zh) * 2019-11-27 2020-04-03 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111061860A (zh) * 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
US11687715B2 (en) 2019-12-12 2023-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Summary generation method and apparatus
CN113051390B (zh) * 2019-12-26 2023-09-26 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN112172375A (zh) * 2020-09-03 2021-01-05 安徽理工大学 一种大学生创新创业计划评价分析系统
CN112172375B (zh) * 2020-09-03 2021-11-30 安徽理工大学 一种大学生创新创业计划评价分析系统
CN113221516B (zh) * 2020-09-14 2021-11-30 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统
CN113221516A (zh) * 2020-09-14 2021-08-06 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统

Also Published As

Publication number Publication date
JP6653334B2 (ja) 2020-02-26
JP2018513480A (ja) 2018-05-24
US20180322341A1 (en) 2018-11-08
KR20170123331A (ko) 2017-11-07
EP3267332A1 (en) 2018-01-10
CN105677764B (zh) 2020-05-08
US10679051B2 (en) 2020-06-09
WO2017113645A1 (zh) 2017-07-06
EP3267332A4 (en) 2018-01-24

Similar Documents

Publication Publication Date Title
CN105677764A (zh) 信息提取方法和装置
US8630972B2 (en) Providing context for web articles
CN103166981B (zh) 一种无线网页转码方法及装置
CN106598574A (zh) 页面渲染的方法和装置
JP2005092889A (ja) ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法
CN107153716B (zh) 网页内容提取方法和装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN102541937A (zh) 一种网页信息探测方法及系统
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN105574092A (zh) 信息挖掘方法和装置
CN108681547A (zh) 一种基于小程序的网页内容转换方法及装置
CN106407450A (zh) 文件搜索方法及装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN111339250A (zh) 新类别标签的挖掘方法及电子设备、计算机可读介质
CN104462532A (zh) 网页正文提取的方法和装置
CN110020312A (zh) 提取网页正文的方法和装置
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN111143642A (zh) 网页分类方法、装置、电子设备及计算机可读存储介质
CN105573980A (zh) 信息片段生成方法和装置
Al-Ghuribi et al. A comprehensive survey on web content extraction algorithms and techniques
CN103218420A (zh) 一种网页标题提取方法及装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN103309905A (zh) 对网页进行转码后合并阅读的方法以及服务器
Kim et al. Main content extraction from web documents using text block context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant