CN107729481B - 一种自定义规则的文本信息抽取结果筛选方法及装置 - Google Patents

一种自定义规则的文本信息抽取结果筛选方法及装置 Download PDF

Info

Publication number
CN107729481B
CN107729481B CN201710961777.8A CN201710961777A CN107729481B CN 107729481 B CN107729481 B CN 107729481B CN 201710961777 A CN201710961777 A CN 201710961777A CN 107729481 B CN107729481 B CN 107729481B
Authority
CN
China
Prior art keywords
node
screening
preset
extraction
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710961777.8A
Other languages
English (en)
Other versions
CN107729481A (zh
Inventor
席丽娜
李德彦
晋耀红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science and Technology (Beijing) Co., Ltd.
Original Assignee
Dingfu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co Ltd filed Critical Dingfu Intelligent Technology Co Ltd
Priority to CN201710961777.8A priority Critical patent/CN107729481B/zh
Publication of CN107729481A publication Critical patent/CN107729481A/zh
Application granted granted Critical
Publication of CN107729481B publication Critical patent/CN107729481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种自定义规则的文本信息抽取结果筛选方法及装置,该方法包括获取待抽取文本信息和预设的模型树,模型树包括至少若干个节点和每个节点对应的抽取表达式集;响应于用户选择所述节点的操作,利用模型树中所选节点对应的抽取表达式集对待抽取文本信息进行信息抽取,得到抽取结果;获取模型树对应的预设节点路径;利用所述预设节点路径的终止节点,按照预设的筛选规则,对抽取结果进行筛选,得到筛选结果,预设的筛选规则包括全节点筛选规则、子节点筛选规则和当前节点筛选规则。本申请利用预设节点路径的终止节点,按照用户所选择的筛选规则,对抽取结果再次进行提取,最终得到用户所需的抽取结果,得到精确地抽取结果,提高抽取效率。

Description

一种自定义规则的文本信息抽取结果筛选方法及装置
技术领域
本申请涉及文本信息挖掘领域,尤其涉及一种自定义规则的文本信息抽取结果筛选方法及装置。
背景技术
文本信息抽取技术是一种从非结构化或半结构化的文本中抽取用户需要的信息,并形成结构化的数据呈现给用户的技术。在实际生活中,文本信息抽取技术有着广泛的应用,如抽取课程类网站主页上的课程名称、内容和老师等信息,或从旅游论坛上抽取联系信息和其对应的功能类别等。
现有的文本信息抽取技术先加载需抽取文本信息对应的抽取规则,将该抽取规则与待抽取文本的内容进行匹配;然后判断待抽取文本中是否存在与该抽取规则相符的文本信息,如果存在,则抽取该文本信息;如果不存在,则判定抽取失败。
但是,现有的文本信息抽取技术中抽取规则与待抽取文本进行匹配的过程中,仅仅考虑抽取出来的文本信息与需抽取文本信息的相关性,从而导致用户必须根据抽取出来的文本信息具体在待抽取文本中的位置或上下文关系,在抽取出来的文本信息中进一步查找所需信息,给用户造成不便,并且抽取结果的精确性较低,例如,用户想抽取特定日期的“银行”这个待抽取文本信息,得到的抽取结果可能是前几个抽取出来的文本信息为其他日期的“银行”,因此,用户还必须在抽取结果中查找该特定日期下关于银行的信息。
发明内容
本申请提供了一种自定义规则的文本信息抽取结果筛选方法及装置,以解决现有的文本信息抽取技术中抽取规则与待抽取文本进行匹配的过程中,仅仅考虑抽取出来的文本信息与需抽取文本信息的相关性,从而导致用户必须根据抽取出来的文本信息具体在待抽取文本中的位置或上下文关系,在抽取出来的文本信息中进一步查找所需信息,给用户造成不便,并且抽取结果的精确性较低的问题。
第一方面,本申请提供了一种自定义规则的文本信息抽取结果筛选方法包括:
获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;
获取所述模型树对应的预设节点路径;
利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
第二方面,本申请还提供了一种基于文本信息抽取结果的筛选装置包括:
第一获取模块,用于获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
抽取模块,用于响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;
第二获取模块,用于获取所述模型树对应的预设节点路径;
筛选模块,用于利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
由以上技术方案可知,本申请提供一种自定义规则的文本信息抽取结果筛选方法及装置,该方法在利用预设的模型树对文本进行信息抽取,得到抽取结果后,利用预设节点路径的终止节点,按照用户所选择的筛选规则,对抽取结果再次进行提取,最终得到用户所需的抽取结果,因此,本申可根据用户的抽取需求,得到精确地抽取结果,并且无需用户自行在繁多的抽取结果中手动查找,提高抽取效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种自定义规则的文本信息抽取结果筛选方法一实施例的方法流程图;
图2为模型树的结构图;
图3为本申请提供的一种自定义规则的文本信息抽取结果筛选方法另一实施例的方法流程图;
图4为本申提供的一种基于文本信息抽取结果的筛选装置的结构示意图。
具体实施方式
参见图1,本申请一实施例提供一种自定义规则的文本信息抽取结果筛选方法包括:
步骤11:获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式。
可根据抽样需求,创建模型树。为了清楚起见,下面首先对模型中的父节点、子节点、子孙节点和父辈节点进行介绍。如图2所示的模型树中,以节点“判决书”为例:
子节点:节点“目录结构”和节点“信息提取”是节点“判决书”的子节点;
子孙节点:所有节点都是节点“判决书”的子孙节点。
以上节点的关系仅仅是示例性的,满足上述所属关系的其他节点在此不再赘述。
模型树的节点关系可根据实际抽取需要构建,并在所需抽取信息的节点设置对应的抽取表达式集,存储在数据库内。在需要抽取相关文本信息时,用户调用预先存储在数据库内的模型树即可,无需用户再次自行编辑复杂的正则表达式,减少用户编写正则表达式的工作量,提高抽取效率。
步骤12:响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果。
抽取表达式可采用正则表达式,正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。正则表达式由一些普通字符和元字符组成,普通字符包括大小写的字母和数字,元字符具有特殊的含义。
具体匹配规则在此不做限定,可采用现有的任何匹配规则进行匹配,本实施例可采用模式匹配法,即从文本的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从文本的第二个字符起与该概念表达式的第一个字符重新比较,直至该概念表达式的每个字符依次与文本中的一个连续的字符序列相等为止,则视为匹配成功,否则匹配失败。依次将每个所选节点的抽取表达式集内的每个抽取表达式进行上述匹配过程,抽取出相匹配的文本信息,得到抽取结果。
对于正则表达式的匹配,两个字符之间可采用任何符合数量要求的字符均可视为匹配成功,例如文本信息中存在“张三,男”、“张小三,男”或者“张美丽,女”,均可视为与正则表达式“.{2,3},(男|女)”匹配成功。
步骤13:获取所述模型树对应的预设节点路径。
预设节点路径可由用户,根据实际需求,在模型树的所有节点路径集合内进行选择得出。以图2所述的模型树为例,此模型树对应的节点路径集合如下:
——判决书—>目录结构
——判决书—>目录结构—>再审
——判决书—>目录结构—>再审—>案件信息
——判决书—>目录结构—>再审—>当事人信息
——判决书—>目录结构—>再审—>当事人信息—>原告人信息
——判决书—>目录结构—>再审—>当事人信息—>被告人信息
——判决书—>目录结构—>再审—>本院查明
——判决书—>目录结构—>再审—>裁判结果
——判决书—>目录结构—>二审
——判决书—>目录结构—>二审—>案件信息
——判决书—>目录结构—>二审—>当事人信息
——判决书—>目录结构—>二审—>本院查明
——判决书—>目录结构—>二审—>裁判结果
——判决书—>信息提取—>再审
——判决书—>信息提取—>再审—>当事人信息
——判决书—>信息提取—>再审—>当事人信息—>原告人信息
——判决书—>信息提取—>再审—>当事人信息—>被告人信息
——判决书—>信息提取—>再审—>裁判结果
——判决书—>信息提取—>二审
——判决书—>信息提取—>二审—>当事人信息
——判决书—>信息提取—>二审—>裁判结果
假设用户已利用模型树上的“信息提取”节点和节点“目录结构”对应的抽取表达式集对文本进行信息抽取后,但是用户对于某些情况下,仅需信息提取下再审的裁判结果,无需如当事人信息等其他抽取结果,用户在节点路径集中选择{判决书—>信息提取—>再审—>裁判结果}这个节点路径即可。
步骤14:利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
终止节点指的是节点路径的结束的节点,例如节点路径{判决书—>信息提取—>再审—>裁判结果},其终止节点为“裁判结果”。预设的筛选规则有用户按照实际需求设置。
利用终止节点,按照预设的筛选规则,在抽取结果中再次进行筛选,得到精确地抽取结果。继续以步骤13中的例子为例,为了得到再审的裁判结果,用户选择{判决书—>信息提取—>再审—>裁判结果},利用该节点路径的终止节点“裁判结果”,按照预设的筛选规则,在抽取结果中筛选出具体裁判结果的文本信息。
预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则,用户可根据所需的抽取结果设置筛选规则,以更加精确的得到筛选结果,满足用户需求。
由以上技术方案可知,本申请实施例提供一种自定义规则的文本信息抽取结果筛选方法该方法在利用预设的模型树对文本进行信息抽取,得到抽取结果后,利用预设节点路径的终止节点,按照用户所选择的筛选规则,对抽取结果再次进行提取,最终得到用户所需的抽取结果,因此,本申可根据用户的抽取需求,得到精确地抽取结果,并且无需用户自行在繁多的抽取结果中手动查找,提高抽取效率。
参见图3,本申请另一实施例提供了一种自定义规则的文本信息抽取结果筛选方法包括:
步骤31:获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式。
文本包括获取来自用户生成内容中的文本信息,优选地,包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息,将这些渠道中的文本内容作为文本信息。其中,新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》等;微博渠道包含新浪微博等;论坛渠道包含天涯、百度贴吧、知乎等。对于新闻渠道,用新闻的标题和报道内容作为文本信息;对于论坛渠道,把帖子的文本内容作为文本信息。对于微博渠道,将微博帖子的文本内容作为文本信息。通过如上方法获取的文本,能很好的获得新的文本。
步骤32:响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果。
步骤33:获取所述模型树对应的预设节点路径。
步骤24:利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
步骤35:根据所述筛选结果及所述模型树中与所述筛选结果相对应的节点,生成key-value键值对集。
步骤36:将所述key-value键值对集输出。
key-value键值对中,key代表节点的编号,value代表该节点对应的抽取结果,由于模型树中的节点都具有不同的编号,所以即使节点名称相同,例如在节点“目录结构”和节点“信息提取”下都有“再审”这个子节点,但是其本质是两个相互不同的节点,因此通过节点编号将此两个节点区分。并且,同一个抽取信息可能对应多个节点,因此,采用key-value键值对,用户可以直观清楚的看出每个节点和其对应的抽取结果,防止由于节点名称相同,或者不同节点抽取的文本信息相同而导引发混淆的情况。
具体地,预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。用户根据实际的筛选需求,选择不同的筛选规则。当预设的筛选规则为子节点筛选规则时,本申请另一实施提供的上述步骤34包括如下步骤:
判断所述预设节点路径的终止节点是否具有子节点;
如果所述终止节点具有子节点,则根据所述子节点,查找与所述子节点相对应的抽取结果。
以图2所示的模型树为例,假设用户已利用模型树上的“信息提取”节点和节点“目录结构”对应的抽取表达式集对文本进行信息抽取后,但是用户对于某些情况下,仅需与信息提取下的再审相关的抽取结果,无需如二审等其他抽取结果,用户在节点路径集中选择{判决书—>信息提取—>再审}这个节点路径,该节点路径的终止节点“再审”。
由于节点“当事人信息”和节点“裁判结果”为该终止节点“再审”的子节点,因此,查找出节点“当事人信息”和“裁判结果”相对应的抽取结果,如原告人信息、被告人信息等,即为用户所需的抽取结果。
根据实际的需求,用户可以同时选择多条节点路径,例如假设用户需要信息提取和目录结构下对应的再审相关的抽取结果,无需如二审等其他抽取结果,用户可在节点路径集中选择{判决书—>信息提取—>再审,判决书—>目录结构—>再审}这两个节点路径。
同样,两个节点路径的终止节点均为“再审”,其中,在节点路径{判决书—>信息提取—>再审}中,节点“当事人信息”和节点“裁判结果”为该终止节点“再审”的子节点,因此,查找出节点“当事人信息”和“裁判结果”相对应的抽取结果,如原告人信息、被告人信息等;在节点路径{判决书—>信息提取—>再审}中,节点“案件信息”、“当事人信息”、“本院查明”和“裁判结果”为节点“再审”的子节点,因此,同时查找出节点“案件信息”、“当事人信息”、“本院查明”和“裁判结果”相对应的抽取结果,即为用户所需的抽取结果。
当预设的筛选规则为全节点筛选规则时,本申请另一实施提供的上述步骤34包括如下步骤:
判断所述预设节点路径的终止节点是否具有子孙节点,所述子孙节点为后继于所述终止节点的第一层级至第N层级的所有节点,其中,后继于所述终止节点的第N层级的节点为最末层级节点,N为大于1的正整数;
以图2的模型树为例,节点“再审”的子孙节点为后继于“再审”的第一层级的“当事人信息”、“案件信息”、“本院查明”和“裁判结果”,以及第二层级的“原告人信息”和“被告人信息”。
如果所述节点路径的终止节点具有子孙节点,则根据所述子孙节点,查找与所述子孙节点相对应的抽取结果。
以图2所示的模型树为例,假设用户已利用模型树上的“信息提取”节点对应的抽取表达式集对文本进行信息抽取后,但是用户对于某些情况下,仅需与再审相关的抽取结果,无需如二审等其他抽取结果,用户在节点路径集中选择{判决书—>信息提取—>再审}这个节点路径,该节点路径的终止节点“再审”。
由于节点“当事人信息”、“原告人信息”、“被告人信息”和“裁判结果”为该终止节点“再审”的子孙节点,因此,查找出节点“当事人信息”、“原告人信息”、“被告人信息”和“裁判结果”相对应的抽取结果,即为用户所需的抽取结果。
根据实际的需求,用户可以同时选择多条节点路径,例如假设用户需要信息提取和目录结构下对应的再审相关的抽取结果,无需如二审等其他抽取结果,用户可在节点路径集中选择{判决书—>信息提取—>再审,判决书—>目录结构—>再审}这两个节点路径。
同样,两个节点路径的终止节点均为“再审”,其中,在节点路径{判决书—>信息提取—>再审}中,节点“当事人信息”、“原告人信息”、“被告人信息”和“裁判结果”为该终止节点“再审”的子孙节点,因此,查找出节点“当事人信息”、“原告人信息”、“被告人信息”和“裁判结果”相对应的抽取结果;在节点路径{判决书—>信息提取—>再审}中,节点“案件信息”、“当事人信息”、“原告人信息”、“被告人信息”、“本院查明”和“裁判结果”为节点“再审”的子孙节点,因此,同时查找出节点“案件信息”、“当事人信息”、“原告人信息”、“被告人信息”、“本院查明”和“裁判结果”相对应的抽取结果,即为用户所需的抽取结果。
当预设的筛选规则为当前节点筛选规则时,本申请另一实施提供的上述步骤34包括如下步骤:
根据所述预设节点路径的终止节点,查找与所述终止节点对应的抽取结果。
以图3所示的模型树为例,用户假设用户已利用模型树上的“信息提取”节点和节点“目录结构”对应的抽取表达式集对文本进行信息抽取后,但是用户对于某些情况下,仅需与信息提取中再审下的被告人相关的抽取结果,无需如二审等其他抽取结果,用户在节点路径集中选择{判决书—>信息提取—>再审—>当事人信息—>被告人信息}这个节点路径,该节点路径的终止节点“被告人信息”,查找出节点“被告人信息”相对应的抽取结果,如被告人姓名、性别等,即为用户所需的抽取结果。
根据实际的需求,用户可同时选择多条节点路径,例如假设用户需要信息提取和目录结构中再审下的被告人相关的抽取结果,无需如二审等其他抽取结果,用户可在节点路径集中选择{判决书—>信息提取—>再审—>当事人信息—>被告人信息,判决书—>目录结构—>再审—>当事人信息—>被告人信息}这两个节点路径。查找出这两个终止节点“被告人信息”相对应的抽取结果,如被告人姓名、性别等,即为用户所需的抽取结果。
参见图4,第二方面,本申请提供一种基于文本信息抽取结果的筛选装置包括:
第一获取模块41,用于获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
抽取模块42,用于响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;
第二获取模块43,用于获取所述模型树对应的预设节点路径;
筛选模块44,用于利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
进一步地,当所述预设的筛选规则为子节点筛选规则时,所述筛选模块41包括:
第一判断单元,用于判断所述预设节点路径的终止节点是否具有对应的子节点;
第一查找单元,用于如果所述预设节点路径的终止节点为父节点,则根据所述父节点对应的子节点,查找与所述子节点相对应的抽取结果。
进一步地,所述预设的筛选规则为全节点筛选规则时,所述筛选模块41包括:
第二判断单元,用于判断所述预设节点路径的终止节点是否具有对应的子孙节点,所述子孙节点为后继于所述终止节点的第一层级至第N层级的所有节点,其中,后继于所述终止节点的第N层级的节点为最末层级节点,N为大于1的正整数;
第二查找单元,用于如果所述节点路径的终止节点为父辈节点,则根据所述父辈节点对应的子孙节点,查找与所述子孙节点相对应的抽取结果。
进一步地,所述预设的筛选规则为当前节点筛选规则时,所述筛选模块41包括:
第三查找单元,用于根据所述预设节点路径的终止节点,查找与所述终止节点对应的抽取结果。
进一步地,所述装置还包括:
生成模块45,用于根据所述筛选结果及所述模型树中与所述筛选结果相对应的节点,生成key-value键值对集;
输出模块46,用于将所述key-value键值对集输出。
由以上技术方案可知,本申请提供一种自定义规则的文本信息抽取结果筛选方法及装置,该方法在利用预设的模型树对文本进行信息抽取,得到抽取结果后,利用预设节点路径的终止节点,按照用户所选择的筛选规则,对抽取结果再次进行提取,最终得到用户所需的抽取结果,因此,本申可根据用户的抽取需求,得到精确地抽取结果,并且无需用户自行在繁多的抽取结果中手动查找,提高抽取效率。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (8)

1.一种自定义规则的文本信息抽取结果筛选方法,其特征在于,所述方法包括:
获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;
获取所述模型树对应的预设节点路径;
利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述终止节点为节点路径的结束的节点;所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
当预设的筛选规则为当前节点筛选规则时,根据所述预设节点路径的终止节点,查找与所述终止节点对应的抽取结果。
2.如权利要求1所述的方法,其特征在于,当预设的筛选规则为子节点筛选规则时,所述利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选包括:
判断所述预设节点路径的终止节点是否具有子节点;
如果所述终止节点具有子节点,则根据所述子节点,查找与所述子节点相对应的抽取结果。
3.如权利要求1所述的方法,其特征在于,当预设的筛选规则为全节点筛选规则时,所述利用所述节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选包括:
判断所述预设节点路径的终止节点是否具有子孙节点,所述子孙节点为后继于所述终止节点的第一层级至第N层级的所有节点,其中,后继于所述终止节点的第N层级的节点为最末层级节点,N为大于1的正整数;
如果所述节点路径的终止节点具有子孙节点,则根据所述子孙节点,查找与所述子孙节点相对应的抽取结果。
4.如权利要求1-3任意一项所述的方法,其特征在于,所述利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果之后包括:
根据所述筛选结果及所述模型树中与所述筛选结果相对应的节点,生成key-value键值对集;
将所述key-value键值对集输出。
5.一种基于文本信息抽取结果的筛选装置,其特征在于,所述装置包括:
第一获取模块,用于获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
抽取模块,用于响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;
第二获取模块,用于获取所述模型树对应的预设节点路径;
筛选模块,用于利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述终止节点为节点路径的结束的节点;所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
所述预设的筛选规则为当前节点筛选规则时,所述筛选模块包括:
第三查找单元,用于根据所述预设节点路径的终止节点,查找与所述终止节点对应的抽取结果。
6.如权利要求5所述的装置,其特征在于,当预设的筛选规则为子节点筛选规则时,所述筛选模块包括:
第一判断单元,用于判断所述预设节点路径的终止节点是否具有子节点;
第一查找单元,用于如果所述节点路径的终止节点具有子节点,则根据所述子节点,查找与所述子节点相对应的抽取结果。
7.如权利要求5所述的装置,其特征在于,当预设的筛选规则为全节点筛选规则时,所述筛选模块包括:
第二判断单元,用于判断所述预设节点路径的终止节点是否具有子孙节点,所述子孙节点为后继于所述终止节点的第一层级至第N层级的所有节点,其中,后继于所述终止节点的第N层级的节点为最末层级节点,N为大于1的正整数;
第二查找单元,用于如果所述节点路径的终止节点具有子孙节点,则根据所述子孙节点,查找与所述子孙节点相对应的抽取结果。
8.如权利要求5-7任意一项所述的装置,其特征在于,所述装置还包括:
生成单元,用于根据所述筛选结果及所述模型树中与所述筛选结果相对应的节点,生成key-value键值对集;
输出单元,用于将所述key-value键值对集输出。
CN201710961777.8A 2017-10-16 2017-10-16 一种自定义规则的文本信息抽取结果筛选方法及装置 Active CN107729481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710961777.8A CN107729481B (zh) 2017-10-16 2017-10-16 一种自定义规则的文本信息抽取结果筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710961777.8A CN107729481B (zh) 2017-10-16 2017-10-16 一种自定义规则的文本信息抽取结果筛选方法及装置

Publications (2)

Publication Number Publication Date
CN107729481A CN107729481A (zh) 2018-02-23
CN107729481B true CN107729481B (zh) 2020-10-13

Family

ID=61211490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710961777.8A Active CN107729481B (zh) 2017-10-16 2017-10-16 一种自定义规则的文本信息抽取结果筛选方法及装置

Country Status (1)

Country Link
CN (1) CN107729481B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150972B (zh) * 2018-07-17 2021-07-23 湖南宸瀚信息科技有限责任公司 一种双层分片的高效区块链的共识机制的工作方法
CN109992761A (zh) * 2019-03-22 2019-07-09 武汉工程大学 一种基于规则的自适应文本信息提取方法及软件存储器
CN112836059B (zh) * 2019-11-25 2024-07-12 北京搜狗科技发展有限公司 医疗图谱建立方法及装置、医疗图谱查询方法及装置
CN112836026B (zh) * 2019-11-25 2024-03-15 北京搜狗科技发展有限公司 基于对话的问诊方法及装置
CN112989795A (zh) * 2021-02-09 2021-06-18 苏宁金融科技(南京)有限公司 一种文本信息提取方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN105630797B (zh) * 2014-10-29 2019-02-26 阿里巴巴集团控股有限公司 数据处理方法及系统
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法

Also Published As

Publication number Publication date
CN107729481A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729481B (zh) 一种自定义规则的文本信息抽取结果筛选方法及装置
Venugopalan et al. Exploring sentiment analysis on twitter data
US10140322B2 (en) Tools and techniques for extracting knowledge from unstructured data retrieved from personal data sources
US8938461B2 (en) Method for organizing large numbers of documents
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
US20150261773A1 (en) System and Method for Automatic Generation of Information-Rich Content from Multiple Microblogs, Each Microblog Containing Only Sparse Information
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN104765729B (zh) 一种跨平台微博社区账户匹配方法
US8775423B2 (en) Data mining across multiple social platforms
US8489626B2 (en) Method and apparatus for recommending a short message recipient
US9245010B1 (en) Extracting and leveraging knowledge from unstructured data
CN104182504A (zh) 一种新闻事件的动态跟踪和总结算法
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
US11182681B2 (en) Generating natural language answers automatically
CN107679038B (zh) 一种文本段落的抽取方法及装置
Wang et al. Who are in the darknet? Measurement and analysis of darknet person attributes
Ferreira et al. Bug report summarization: an evaluation of ranking techniques
Subramanian et al. UP-GNIV: an expeditious high utility pattern mining algorithm for itemsets with negative utility values
CN104346382A (zh) 使用语言查询的文本分析系统和方法
Wang et al. Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
Xu et al. Clustering-based summarization of transactional chatbot logs
US20200137089A1 (en) Restrict transmission of manipulated content in a networked environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant