CN105677764B - 信息提取方法和装置 - Google Patents
信息提取方法和装置 Download PDFInfo
- Publication number
- CN105677764B CN105677764B CN201511022937.XA CN201511022937A CN105677764B CN 105677764 B CN105677764 B CN 105677764B CN 201511022937 A CN201511022937 A CN 201511022937A CN 105677764 B CN105677764 B CN 105677764B
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- block
- node
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了信息提取方法和装置。所述方法的一具体实施方式包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。
Description
技术领域
本申请涉及计算机技术领域,具体涉及信息技术领域,尤其涉及信息提取方法和装置。
背景技术
随着互联网技术的蓬勃发展,互联网上的信息资源越来越丰富。一方面,搜索引擎为网络用户在互联网上快速找到所求信息提供了极大的便利。另一方面,随着互联网上资源的增多,以及搜索引擎中用户行为数据的积累,搜索引擎具备了提供自动问答的能力。相比于传统的搜索引擎,自动问答系统的搜索结果不再是一个排好序的网页列表,而是直接从相关网页中抽取出来的答案,用户无需再花费时间从网页中寻找答案,从而节约了用户时间。
由于自动问答系统索引的内容不再是整篇网页的内容,而是网页内容中包含问答的一个段落或者几句话,且互联网上天然存在的问题以及问题答案的资源较少,因此需要从网页内容中提取问题以及问题答案的信息。
发明内容
本申请的目的在于提出一种改进的信息提取方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种信息提取方法,所述方法包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括:从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
在一些实施例中,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
在一些实施例中,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
在一些实施例中,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类,包括:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在一些实施例中,所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
第二方面,本申请提供了一种信息提取装置,所述装置包括:解析单元,配置用于将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在一些实施例中,所述划分单元包括:识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
在一些实施例中,所述解析单元进一步配置用于:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
在一些实施例中,所述识别子单元进一步配置用于:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
在一些实施例中,所述划分单元进一步配置用于:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
在一些实施例中,所述分类单元进一步配置用于:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在一些实施例中,所述提取单元进一步配置用于:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
本申请提供的信息提取方法和装置,通过将网页文件解析为标签树结构,而后将正文节点包含的内容进行段落划分生成段落块,最后将段落块包含的文本内容进行分类,并基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,从而实现了信息自动、精确的提取。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的信息提取方法的一个实施例的流程图;
图3是根据本申请的信息提取方法的一个应用场景的示意图;
图4是根据本申请的信息提取方法的又一个实施例的流程图;
图5是根据本申请的信息提取装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息提取方法或信息提取装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、新闻类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供网页文件信息的后台网页服务器。后台网页服务器可以将互联网上的网页文件发送给终端设备,也可以将互联网上的网页文件进行信息分析、提取等处理后将处理结果发送给终端设备。
需要说明的是,本申请实施例所提供的信息提取方法可以由服务器105单独执行,也可以由终端设备101、102、103和服务器105共同执行,还可以由终端设备101、102、103单独执行。相应地,信息提取装置可以设置于终端设备101、102、103中,也可以将信息提取装置设置于服务器105中,还可以将信息提取装置的部分单元设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息提取方法的一个实施例的流程200。所述的信息提取方法,包括以下步骤:
步骤201,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,例如,当上述电子设备为网页服务器时可以从本地获取网页文件,当上述电子设备为移动终端时可以通过有线连接方式或者无线连接方式从网页服务器获取网页文件。其中,上述网页文件可以是各种格式的文件,例如html格式、xhtml格式、dhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式。上述电子设备可以将上述网页文件解析为标签树结构,即将网页文件中的标签按照嵌套关系整理成一棵树状结构。上述电子设备还可以将解析得到的标签树进行过滤处理,去除与网页正文无关的信息所在的节点,其中,上述与网页正文无关的信息可以包括但不限于导航信息、版权声明信息、广告信息等。上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点,例如,可以将包含文本的字数大于设定数量、包含的链接文字少于设定数量的节点设别为正文节点。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例的一些可选的实现方式中,上述电子设备可以首先将预先获取的网页文件进行规范化处理,使上述网页文件符合超文本标记语言规范,例如将只有<title>标签,而没有对应的</title>标签的网页文件中补全</title>,又例如补全<li>、<hr>等结束标签;之后,对对规范化的网页文件进行文档对象模型(DOM,Document Object Model)树解析,生成标签树;最后,依次访问生成的标签树的各个节点,并根据各个节点包含的内容确定出正文节点。例如,分别统计标签树的各个节点包含的文本字数、链接文本字数、段落个数、以及包含的叶子节点中文本个数的方差等统计量,并将统计量与预先设定的阈值进行比较,选取满足条件的节点为正文节点,例如将文本字数多、链接文本字数少、段落个数多、以及包含的叶子节点中文本个数的方差大的节点识别为正文节点。
步骤202,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,每一个段落块与上述网页文件对应的网页正文上的段落相对应,同时,根据各个段落块所关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
在本实施例的一些可选的实现方式中,上述电子设备可以首先从至少一个正文节点包含的内容中识别出网页文件的网页内容的标题,例如上述电子设备可以根据各个节点包含的内容在上述网页文件对应的网页正文中所在的位置、以及各个节点中包含的文本内容,从步骤201中得到的至少一个正文节点中识别出上述网页文件的网页内容的标题;之后将上述至少一个正文节点包含的内容中的、该标题之外的内容进行段落划分,生成各个段落块。
可选的,上述电子设备可以首先根据至少一个正文节点包含的内容在上述网页内容中的位置,从上述至少一个正文节点中选取至少一个候选标题节点,例如,上述电子设备可以查找到网页内容上部设定范围内的文本内容对应的节点,并将查找到的节点作为候选标题节点;之后,计算各个候选标题节点内的文本与上述网页文件的标题(title)标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚(anchor)标签对应的文本的编辑距离;然后,根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序,例如按编辑距离由小到大的顺序进行排序;最后,根据排序结果从上述至少一个候选标题节点中确定一个正文标题节点,并将上述正文标题节点内的文本确定为网页内容的标题。可选的,上述电子设备还可以根据排序结果和与各个候选标题节点关联的标签从上述至少一个候选标题节点中确定一个正文标题节点,例如选取包含标题标签(H标签)、加粗(strong)标签等标题容易出现的标签的,且编辑距离小设定值的候选标题节点为正文标题节点。
在本实施例的一些可选的实现方式中,上述电子设备可以首先识别各个正文节点中的至少一个块元素,如果块元素中包含子块元素,则利用子块元素和换行(br)标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;之后,根据块元素以及子块元素中关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
步骤203,基于各个段落块的标签属性将各个段落块包含的文本内容进行分类。
在本实施例中,上述电子设备可以基于步骤202中得到各个段落块以及各个段落块的标签属性,将各个段落块中包含的文本内容进行分类。例如,可以将标签属性相同的段落块划分为同一类。
步骤204,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,上述电子设备可以采用现有的自然语言处理分析技术对步骤203中得到的分类结果进行分析处理,从各个段落块中所包含的文本内容中提取出问题,例如对各个段落块中所包含的文本内容进行分词、语义分析等一系列处理,从各个段落块中所包含的文本内容中提取出疑问句。提取出问题之后,上述电子设备可以根据提取出的问题在上述网页内容中的位置以及各个段落块中所包含的文本内容提取出与该问题对应的答案。
继续参见图3,图3是根据本实施例的信息提取方法的应用场景的一个示意图。在图3的应用场景中,用户通过利用其进行网页浏览的终端设备输入待搜索答案的问题“前列腺炎的症状”,网页服务器可以从预先存储的多条问题和答案的信息中搜索与问题“前列腺炎的症状”相关联的问题和答案,并将搜索到的问题和答案推送给用户,就会如图3所示。其中,预先存储的多条问题和答案的信息是通过以下方式获取的:首先,将预先获取的网页文件解析为标签树结构,并从标签树中识别出该网页文件的网页正文所在的至少一个正文节点;然后,对正文内容进行段落划分得到段落块,并设定各个段落块的标签属性;最后,对各个段落块包含的文本内容进行分类,并根据分类结果从文本内容中提取出网页内容中包含的问题和答案。
本申请的上述实施例提供的方法通过将网页文件解析为标签树,并将识别出的正文节点包含的内容进行段落划分和标签属性设定,最终提取出网页正文中包含问题和答案的信息,实现了信息的自动、精确的提取。
进一步参考图4,其示出了信息提取方法的又一个实施例的流程400。该信息提取方法的流程400,包括以下步骤:
步骤401,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,并将上述网页文件解析为标签树结构。之后,上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点。
步骤402,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,同时,根据各个段落块所关联的标签的属性为各个段落块设定标签属性。
步骤403,将标签属性相同的段落块划分为同一段落块集合。
在本实施例中,上述电子设备可以将步骤402得到段落块中标签属性相同的段落块划分为同一段落块集合。
步骤404,根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构。
在本实施例中,上述电子设备可以计算各个段落块集合内的各个段落块之间的平均行间隔、最大连续行间隔数、平均字符数、最大字符数等并设定阈值,将有一定行间隔、字符长度均匀且不是很大的段落块识别为短标题结构。
步骤405,将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
在本实施例中,上述电子设备可以将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类,例如可以根据段落块内的文本是否包含数字、是否在段落开头部分有强调结构将段落块划分为编号键值型段落、键值型段落、编号型段落以及普通型段落等类别,其中上述编号键值型段落是指有编号且为键值型结构的段落(例如1、提炼中心思想的方法:透过表面分析本质)。
步骤406,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,上述电子设备可以基于步骤405中得到的分类结果,从各个段落块中所包含的文本内容中提取出问题和该问题对应的答案。
在本实施例的一些可选的实现方式中,上述电子设备可以首先根据步骤404中识别出的短标题结构对网页文件对应的网页正文内容进行逻辑块划分,例如可以将识别出的短标题结构以及该短标题结构与下一短标题结构之间的部分划分为一个逻辑块;之后,利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;然后,根据候选问题在上述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;最后,基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息,例如当候选问题与候选答案的首条内容之间的行数超过预定的阈值时,去掉该候选问题与候选答案;当候选答案中包括多条带有数字编号的内容且编号不连续时,去掉该候选答案以及与该候选答案相对应的候选问题;当候选答案中包括的答案条目数小于设定阈值时,去掉该候选答案以及与该候选答案相对应的候选问题,其中答案条目数可以是指答案中包含的条目的数量,每一条目可以是指一个段落,也可以是指一句话;当候选答案中包括的答案条目有多条被判断为是问题(例如多条被判断为问句)时,去掉该候选答案以及与该候选答案相对应的候选问题。
从图4中可以看出,与图2对应的实施例相比,本实施例中的信息提取方法的流程400突出了对各个段落块的划分以及各个分块集合中的短标题结构的识别。由此,本实施例描述的方案可以更加准确地识别出网页内容中的问题,从而实现信息的精确提取。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息提取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的信息提取装置500包括:解析单元501、划分单元502、分类单元503和提取单元504。其中,解析单元501配置用于将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点;划分单元502配置用于将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元503配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元504配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
在本实施例中,信息提取装置500的解析单元501可以将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点。
在本实施例中,上述划分单元502可以将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性
在本实施例中,上述分类单元503可以基于上述划分单元502得到的各个段落块的标签属性将各个段落块包含的文本内容进行分类。
在本实施例中,上述提取单元504可以基于上述分类单元503得到的分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
本领域技术人员可以理解,上述信息提取装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括解析单元、划分单元、分类单元和提取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,解析单元还可以被描述为“将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种信息提取方法,其特征在于,所述方法包括:
将预先获取的网页文件解析为标签树结构,并根据各个节点的所包含的内容从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;
将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;
基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;
基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息;
其中,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类包括:将标签属性相同的段落块划分为同一段落块集合,根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个段落块集合中的短标题结构,将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类;
所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括:
从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;
将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
3.根据权利要求1所述的方法,其特征在于,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括:
将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;
对规范化的网页文件进行文档对象模型树解析,生成标签树;
访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
4.根据权利要求2所述的方法,其特征在于,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括:
根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;
计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;
根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;
根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
5.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括:
识别各个正文节点中的至少一个块元素;
如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;
根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
6.一种信息提取装置,其特征在于,所述装置包括:
解析单元,配置用于将预先获取的网页文件解析为标签树结构,并根据各个节点的所包含的内容从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;
划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;
分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;
提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息;
其中,所述分类单元配置用于:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个段落块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类;
所述提取单元配置用于:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
7.根据权利要求6所述的装置,其特征在于,所述划分单元包括:
识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;
划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
8.根据权利要求6所述的装置,其特征在于,所述解析单元进一步配置用于:
将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;
对规范化的网页文件进行文档对象模型树解析,生成标签树;
访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
9.根据权利要求7所述的装置,其特征在于,所述识别子单元进一步配置用于:
根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;
计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;
根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;
根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
10.根据权利要求6所述的装置,其特征在于,所述划分单元进一步配置用于:
识别各个正文节点中的至少一个块元素;
如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;
根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511022937.XA CN105677764B (zh) | 2015-12-30 | 2015-12-30 | 信息提取方法和装置 |
US15/564,187 US10679051B2 (en) | 2015-12-30 | 2016-06-17 | Method and apparatus for extracting information |
KR1020177027765A KR20170123331A (ko) | 2015-12-30 | 2016-06-17 | 정보 추출 방법 및 장치 |
JP2017552070A JP6653334B2 (ja) | 2015-12-30 | 2016-06-17 | 情報抽出方法及び装置 |
PCT/CN2016/086213 WO2017113645A1 (zh) | 2015-12-30 | 2016-06-17 | 信息提取方法和装置 |
EP16880453.2A EP3267332A4 (en) | 2015-12-30 | 2016-06-17 | Information extraction method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511022937.XA CN105677764B (zh) | 2015-12-30 | 2015-12-30 | 信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677764A CN105677764A (zh) | 2016-06-15 |
CN105677764B true CN105677764B (zh) | 2020-05-08 |
Family
ID=56298057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511022937.XA Active CN105677764B (zh) | 2015-12-30 | 2015-12-30 | 信息提取方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10679051B2 (zh) |
EP (1) | EP3267332A4 (zh) |
JP (1) | JP6653334B2 (zh) |
KR (1) | KR20170123331A (zh) |
CN (1) | CN105677764B (zh) |
WO (1) | WO2017113645A1 (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677764B (zh) | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN106446072B (zh) * | 2016-09-07 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN108062291A (zh) * | 2016-11-09 | 2018-05-22 | 上海颐为网络科技有限公司 | 多媒体内容智能转换为词条结构的方法和系统 |
CN108090104B (zh) * | 2016-11-23 | 2023-05-02 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
KR101904486B1 (ko) * | 2017-01-13 | 2018-10-05 | (주)엠더블유스토리 | 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법 |
CN106951505B (zh) * | 2017-03-16 | 2021-02-02 | 北京搜狐新媒体信息技术有限公司 | 网页信息获得方法及系统 |
CN108664522A (zh) * | 2017-04-01 | 2018-10-16 | 优信互联(北京)信息技术有限公司 | 网页处理方法及装置 |
CN108509469A (zh) * | 2017-05-17 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种基于分块的网页正文信息提取方法 |
CN107766328B (zh) * | 2017-10-24 | 2020-06-12 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN107943838B (zh) * | 2017-10-30 | 2021-09-07 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN110209906A (zh) * | 2018-02-07 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 用于提取网页信息的方法和装置 |
CN108334481B (zh) * | 2018-03-01 | 2021-08-27 | 四川语言桥信息技术有限公司 | 文档处理方法以及装置 |
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
CN108491536A (zh) * | 2018-03-30 | 2018-09-04 | 北京智慧正安科技有限公司 | 法律条文提取方法、装置及计算机可读存储介质 |
CN109276886B (zh) * | 2018-08-16 | 2022-09-23 | 深圳木狼科技有限公司 | 一种文本生成方法、系统以及终端设备 |
CN110889280B (zh) * | 2018-09-06 | 2023-09-26 | 上海智臻智能网络科技股份有限公司 | 基于文档拆分的知识库建设方法及装置 |
US10713329B2 (en) | 2018-10-30 | 2020-07-14 | Longsand Limited | Deriving links to online resources based on implicit references |
CN109740130B (zh) * | 2018-11-22 | 2022-12-09 | 厦门市美亚柏科信息股份有限公司 | 用于生成文件的方法和装置 |
CN109635103B (zh) * | 2018-12-17 | 2022-05-20 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN110175233B (zh) * | 2019-03-07 | 2022-03-11 | 平安科技(深圳)有限公司 | 目标主体画像分析的方法、装置、计算机装置及存储介质 |
JP7099397B2 (ja) * | 2019-04-16 | 2022-07-12 | 株式会社リコー | Q&a抽出装置、方法、プログラム、および応答システム |
CN110046355B (zh) * | 2019-04-25 | 2023-02-24 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN110427488B (zh) * | 2019-07-30 | 2022-09-23 | 北京明略软件系统有限公司 | 文档的处理方法及装置 |
CN110704573B (zh) * | 2019-09-04 | 2023-12-22 | 平安科技(深圳)有限公司 | 目录存储方法、装置、计算机设备及存储介质 |
CN110569361B (zh) * | 2019-09-06 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN110717044A (zh) * | 2019-10-08 | 2020-01-21 | 创新奇智(南京)科技有限公司 | 一种研报正文的文本分类方法 |
CN111177301B (zh) * | 2019-11-26 | 2023-05-26 | 云南电网有限责任公司昆明供电局 | 一种关键信息识别提取方法及系统 |
CN110956019B (zh) * | 2019-11-27 | 2021-10-26 | 北大方正集团有限公司 | 列表处理系统、方法、装置、计算机可读存储介质 |
CN111061860A (zh) * | 2019-12-12 | 2020-04-24 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN113051390B (zh) * | 2019-12-26 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 知识库构建方法、装置、电子设备和介质 |
CN111274239B (zh) * | 2019-12-30 | 2023-07-14 | 安徽知学科技有限公司 | 试卷结构化处理方法、装置和设备 |
CN111784505A (zh) * | 2020-06-30 | 2020-10-16 | 鼎富智能科技有限公司 | 一种借贷纠纷判决书提取方法及装置 |
CN112001183B (zh) * | 2020-07-26 | 2021-11-19 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
CN114070576B (zh) * | 2020-08-07 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 内容显示方法、内容生成方法、装置、设备及存储介质 |
CN112172375B (zh) * | 2020-09-03 | 2021-11-30 | 安徽理工大学 | 一种大学生创新创业计划评价分析系统 |
CN113255303B (zh) * | 2020-09-14 | 2022-03-25 | 苏州七星天专利运营管理有限责任公司 | 一种文档辅助编辑的方法和系统 |
CN112487138A (zh) * | 2020-11-19 | 2021-03-12 | 华为技术有限公司 | 带格式文本的信息抽取方法和装置 |
CN112541359B (zh) * | 2020-11-27 | 2024-02-02 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
CN113407890B (zh) * | 2021-07-19 | 2024-01-12 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和介质 |
CN113591657B (zh) * | 2021-07-23 | 2024-04-09 | 京东科技控股股份有限公司 | Ocr版面识别的方法、装置、电子设备及介质 |
CN114691865B (zh) * | 2022-03-03 | 2024-09-20 | 支付宝(杭州)信息技术有限公司 | 一种基金产品的审核方法、装置以及设备 |
CN114610985B (zh) * | 2022-05-10 | 2022-08-19 | 北京百炼智能科技有限公司 | 信息提取方法、装置、电子设备及存储介质 |
CN115757823B (zh) * | 2022-11-10 | 2024-03-05 | 魔方医药科技(苏州)有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN117236314B (zh) * | 2023-11-06 | 2024-03-01 | 杭州同花顺数据开发有限公司 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN104268192A (zh) * | 2014-09-20 | 2015-01-07 | 广州金山网络科技有限公司 | 一种网页信息提取方法、装置及终端 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113335A (ja) * | 1997-06-13 | 1999-01-06 | Fuji Xerox Co Ltd | 質問回答管理装置 |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
ATE522036T1 (de) | 2000-01-12 | 2011-09-15 | Jupiter Media Metrix Inc | System und verfahren zur schätzung der verbreitung digitalem inhalts im world-wide-web |
CN100432996C (zh) | 2004-12-07 | 2008-11-12 | 国际商业机器公司 | 基于网页页面布局提取网页核心内容的系统、方法 |
JP4512826B2 (ja) * | 2005-03-03 | 2010-07-28 | 国立大学法人 筑波大学 | 質問応答システム |
US7805289B2 (en) * | 2006-07-10 | 2010-09-28 | Microsoft Corporation | Aligning hierarchal and sequential document trees to identify parallel data |
TW200836075A (en) * | 2007-02-16 | 2008-09-01 | Esobi Inc | Method of converting hypertext markup language web page into pure text and system thereof |
US20090119374A1 (en) * | 2007-11-05 | 2009-05-07 | International Business Machines Corporation | Adaptive instant messaging awareness |
US8255793B2 (en) | 2008-01-08 | 2012-08-28 | Yahoo! Inc. | Automatic visual segmentation of webpages |
US20110213655A1 (en) * | 2009-01-24 | 2011-09-01 | Kontera Technologies, Inc. | Hybrid contextual advertising and related content analysis and display techniques |
JP2011003182A (ja) * | 2009-05-19 | 2011-01-06 | Studio Ousia Inc | キーワード表示方法およびそのシステム |
EP2616926A4 (en) * | 2010-09-24 | 2015-09-23 | Ibm | PROVISION OF QUESTIONS AND ANSWERS WITH DELAYED ASSESSMENT ON THE BASIS OF TEXT WITH LIMITED STRUCTURE |
CN103493045B (zh) * | 2011-01-18 | 2019-07-30 | 谷歌有限责任公司 | 对在线问题的自动回答 |
CN102651002B (zh) * | 2011-02-28 | 2017-08-11 | 深圳市世纪光速信息技术有限公司 | 一种网页信息抽取方法及其系统 |
CN102631002B (zh) * | 2012-05-15 | 2013-06-05 | 安徽燕之坊食品有限公司 | 一种功能性饮料冲剂 |
US20150067476A1 (en) * | 2013-08-29 | 2015-03-05 | Microsoft Corporation | Title and body extraction from web page |
WO2015100321A1 (en) * | 2013-12-23 | 2015-07-02 | Ctext Technology Llc | Method and system for correlating conversations in a messaging environment |
CN104462532B (zh) * | 2014-12-23 | 2017-07-07 | 北京奇虎科技有限公司 | 网页正文提取的方法和装置 |
US9875296B2 (en) * | 2015-03-25 | 2018-01-23 | Google Llc | Information extraction from question and answer websites |
US20170063776A1 (en) * | 2015-08-27 | 2017-03-02 | International Business Machines Coporation | FAQs UPDATER AND GENERATOR FOR MULTI-COMMUNICATION CHANNELS |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
-
2015
- 2015-12-30 CN CN201511022937.XA patent/CN105677764B/zh active Active
-
2016
- 2016-06-17 EP EP16880453.2A patent/EP3267332A4/en not_active Ceased
- 2016-06-17 JP JP2017552070A patent/JP6653334B2/ja active Active
- 2016-06-17 KR KR1020177027765A patent/KR20170123331A/ko active Search and Examination
- 2016-06-17 US US15/564,187 patent/US10679051B2/en active Active
- 2016-06-17 WO PCT/CN2016/086213 patent/WO2017113645A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN104268192A (zh) * | 2014-09-20 | 2015-01-07 | 广州金山网络科技有限公司 | 一种网页信息提取方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
US10679051B2 (en) | 2020-06-09 |
EP3267332A4 (en) | 2018-01-24 |
CN105677764A (zh) | 2016-06-15 |
EP3267332A1 (en) | 2018-01-10 |
KR20170123331A (ko) | 2017-11-07 |
WO2017113645A1 (zh) | 2017-07-06 |
JP6653334B2 (ja) | 2020-02-26 |
US20180322341A1 (en) | 2018-11-08 |
JP2018513480A (ja) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677764B (zh) | 信息提取方法和装置 | |
US11062089B2 (en) | Method and apparatus for generating information | |
US11769072B2 (en) | Document structure extraction using machine learning | |
US9411790B2 (en) | Systems, methods, and media for generating structured documents | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN107577807B (zh) | 用于推送信息的方法和装置 | |
CN107153716B (zh) | 网页内容提取方法和装置 | |
CN107391675B (zh) | 用于生成结构化信息的方法和装置 | |
CN106919711B (zh) | 基于人工智能的标注信息的方法和装置 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
US20150032753A1 (en) | System and method for pushing and distributing promotion content | |
CN109492177B (zh) | 一种基于网页语义结构的网页分块方法 | |
CN107590288B (zh) | 用于抽取网页图文块的方法和装置 | |
CN110020312B (zh) | 提取网页正文的方法和装置 | |
CN103166981A (zh) | 一种无线网页转码方法及装置 | |
CN111339250A (zh) | 新类别标签的挖掘方法及电子设备、计算机可读介质 | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN107977379B (zh) | 用于挖掘信息的方法和装置 | |
CN109325197B (zh) | 用于提取信息的方法和装置 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN110209906A (zh) | 用于提取网页信息的方法和装置 | |
CN111143642A (zh) | 网页分类方法、装置、电子设备及计算机可读存储介质 | |
CN110008807A (zh) | 一种合同内容识别模型的训练方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |