CN107766328B - 结构化文本的文本信息提取方法、存储介质和服务器 - Google Patents

结构化文本的文本信息提取方法、存储介质和服务器 Download PDF

Info

Publication number
CN107766328B
CN107766328B CN201711000763.6A CN201711000763A CN107766328B CN 107766328 B CN107766328 B CN 107766328B CN 201711000763 A CN201711000763 A CN 201711000763A CN 107766328 B CN107766328 B CN 107766328B
Authority
CN
China
Prior art keywords
text
paragraph
structured
preset
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711000763.6A
Other languages
English (en)
Other versions
CN107766328A (zh
Inventor
杨晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201711000763.6A priority Critical patent/CN107766328B/zh
Priority to PCT/CN2018/074865 priority patent/WO2019080402A1/zh
Publication of CN107766328A publication Critical patent/CN107766328A/zh
Application granted granted Critical
Publication of CN107766328B publication Critical patent/CN107766328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结构化文本的文本信息提取方法,用于解决现有技术对结构化文本进行文本信息提取时效率较低的问题。本发明提供的方法包括:根据预设的段落主题将当前的结构化文本拆分为各个文本段落;针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。本发明还提供存储介质和服务器。

Description

结构化文本的文本信息提取方法、存储介质和服务器
技术领域
本发明涉及信息处理技术领域,尤其涉及一种结构化文本的文本信息提取方法、存储介质和服务器。
背景技术
目前,在很多结构化的文本中存在着大量用户感兴趣的文本信息,例如裁判文书、票务单据等。但是,若要用户个人梳理、摘取其中结构化文本中的内容,这往往需要耗费大量的人力和时间成本,尤其是当结构化文本的数量巨大时,难以满足用户对文本信息的提取需求。
发明内容
本发明实施例提供了一种结构化文本的文本信息提取方法、存储介质和服务器,能够提高结构化文本的文本信息提取效率,满足用户对巨量的结构化文本的文本信息提取需求。
第一方面,提供了一种结构化文本的文本信息提取方法,包括:
根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。
第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的结构化文本的文本信息提取方法的步骤。
第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,首先,根据预设的段落主题将当前的结构化文本拆分为各个文本段落;然后,针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;接着,针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。这样,本发明可以针对结构化文本先拆分后解析的方式,对结构化文本的各个文本段落分别采用解析字符串提取出文本信息,最终得到整个结构化文本的文本信息,大大提高了结构化文本的文本信息提取效率,尤其是在大数据处理方面,可以满足用户对巨量的结构化文本的文本信息提取需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种结构化文本的文本信息提取方法一个实施例流程图;
图2为本发明实施例中一种结构化文本的文本信息提取方法步骤101在一个应用场景下的流程示意图;
图3为本发明实施例中一种结构化文本的文本信息提取方法步骤102在一个应用场景下的流程示意图;
图4为本发明实施例中一种结构化文本的文本信息提取方法在一个应用场景下选取用于汇总的模板的流程示意图;
图5为本发明实施例中一种结构化文本的文本信息提取装置一个实施例结构图;
图6为本发明一实施例提供的服务器的示意图。
具体实施方式
本发明实施例提供了一种结构化文本的文本信息提取方法、存储介质和服务器,用于解决现有技术对结构化文本进行文本信息提取时效率较低的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种结构化文本的文本信息提取方法一个实施例包括:
101、根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
本实施例中,在针对一个结构化文本进行文本信息提取之前,首先需要将该结构化文本拆分为各个文本段落,然后分别进行文本信息的提取。其中,为了确保拆分得到的文本段落满足实际情况的要求,可以针对不同类型的结构化文本预先设定对应的段落主题,在拆分时,根据设定好的段落主题对结构化文本进行拆分。
比如,可以将法律文书作为一种类型的结构化文本。其中,法律文书一般可以分为标题、头部、内容描述、尾部等多个部分,也即多种段落主题。其中,标题部分可以包括文书性质、法院信息、案号信息等段落主题;头部可以包括关于案件相关角色描述的段落主题;内容描述部分包括依据法律条文、判决结果、本院认为等段落主题;尾部部分可以包括法官、日期、书记员等段落主题。因此,在预先确定出这些段落主题之后,后续执行该文本信息提取方法的服务器(下述简称服务器)可以针对这类法律文书按照这些段落主题拆分为各个文本段落。
由上述可知,进一步地,如图2所示,上述步骤101可以包括:
201、从预设的多个段落主题中确定出与所述结构化文本的文本类型对应的段落主题;
202、根据确定出的所述段落主题将所述结构化文本拆分为各个文本段落。
对于上述步骤201和202,可以理解的是,服务器中预先设定共有多种文本类型的结构化文本对应的段落主题,比如可以包括判决书、裁定书、裁决书、票务单据等,这些预先设定好的段落主题建立有与文本类型的对应关系。因此,在拆分之前,可以先根据当前需要拆分的结构化文本的文本类型从这些段落主题中选取对应的段落主题,然后,再根据确定出的段落主题将该结构化文本进行拆分处理,得到各个文本段落。
102、针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
在拆分出各个文本段落之后,需要针对该结构化文本的每个文本段落进行解析、提取文本信息。可以理解的是,在提取文本段落之后,需要针对不同文本段落的特点,选取与该文本段落对应的段落主题相匹配的解析字符串。
需要说明的是,本实施例中,服务器中预先设置有多个解析字符串,这些解析字符串分别与上述的各个段落主题相匹配,其中,一个段落主题至少匹配一个解析字符串,也可以匹配两个以上的解析字符串。举例说明为,针对法律文书中的段落主题“原告”,其中原告为该段落主题的主题关键字,服务器中可以预先设置两个解析字符串与“原告”这个主题关键字对应,也即这两个解析字符串与段落主题“原告”相匹配。那么,当针对某判决书拆分后的一个文本段落时,该文本段落对应的段落主题为“原告”,此时,可以从多个解析字符串中选取出这两个解析字符串。
具体地,本实施例中的解析字符串可以按照一定规则进行制定,比如:
解析字符串A:@key{申请人}$start{申请人}option(()@alias;option())symbol(:)@value;symbol(,)@remark;$end{enter}
对于上述解析字符串A,其中,@key{}用来标注需要解析的文本段落中的属性关键字,$start用来说明以什么开头,$contains用来说明包含什么关键字,option()用来标注选项,若括弧中的文本在对应位置出现了则替换为symbol解析,symbol()用来标注分隔符。$end{}中内容用来标注以什么结尾,若为enter(即段落标记),则代表一直到当前段落的末尾。若后续有“~”,则代表本次解析需迭代,迭代适用于会重复出现多次的文本段落,且每个文本段落均应该列出的情况。
进一步地,针对一个段落主题中存在两个以上主题关键字的情形,如图3所示,上述步骤102可以包括:
301、获取所述文本段落对应的段落主题的主题关键字;
302、若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;
303、将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。
对于上述步骤301,关于主题关键字的获取,一种方式是,服务器上可以预先配置好各个段落主题所对应的主题关键字。比如,对于上述的段落主题“原告”,该段落主题所对应的主题关键字即为“原告”。另一种方式是,服务器也可以预先配置好段落主题所对应的多个主题关键字,即一个段落主题对应多个可能出现的主题关键字。比如,对于上述段落主题“原告”,可以在服务器上预设“原告”、“起诉人”、“申请人”三个主题关键字。当需要获取该文本段落的主题关键字时,服务器检索该文本段落上是否存在上述三个主题关键字中的任何一个,若存在,则取该文本段落上检索到的那个关键字作为本次的主题关键字。
对于上述步骤301~303,可以理解的是,在获取该文本段落对应的段落主题的主题关键字之后,如果获取到的主题关键字存在两个以上,本实施例中为了保证后续提取该文本段落得到的文本信息的信息量最大(信息量最大是用户所追求的),因此,将所有获取到的这些主题关键字相匹配的解析字符串均确定为文本段落对应的段落主题相匹配的解析字符串,在后续解析、提取文本信息时,针对该文本段落,采用这里确定的两个以上的解析字符串分别进行文本信息的提取,详细在后续步骤中说明。
103、针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
可以理解的是,在上述步骤102中,需要分别针对各个文本段落中的每个文本段落选取出相匹配的解析字符串,在选取出之后,步骤103针对每个所述文本段落,采用与其对应的解析字符串对该文本段落进行解析,提取出该文本段落对应的文本信息。
进一步地,若选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,提取文本信息的过程可以包括:采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;然后,将所述两个以上文本信息进行合并处理,得到合并后的文本信息。由上述步骤102中的内容可知,针对一个文本段落可能确定出两个以上的解析字符串与之相匹配,此时,采用两个以上解析字符串分别对该文本段落进行解析,可以得到这两个以上解析字符串分别解析得到的两个以上的文本信息。然后,为了在保证信息量最大化的同时减少冗余数据,可以将这两个以上文本信息进行合并处理,除去其中的重复信息后,即可得到合并后的文本信息,作为该文本段落对应的文本信息。
举例说明,假设该文本段落为:“申请人(一审被告):张三,女,1997年8月17日出生,家住xxxxx。”与该文本段落对应的段落主题相匹配的解析字符串有以下两个:
字符串k1:@key{申请人}$start{申请人}option(()@alias;option())symbol(:)@value;symbol(,)@remark;$end{enter}
字符串k2:@key{申请人}$start{申请人}symbol(:)@value;symbol(,)@remark;$end{enter}
采用上述字符串k1对该文本段落进行解析,提取得到的文本信息为“[{remark=女,1997年8月17日出生,家住xxxxx。,alias=一审被告,value=张三,Applicant=申请人}]”;
采用上述字符串k2对该文本段落进行解析,提取得到的文本信息为“[{remark=女,1997年8月17日出生,家住xxxxx。,value=张三,Applicant=申请人}]”;
将得到的这两个文本信息进行合并处理,得到最终的文本信息为“[{remark=女,1997年8月17日出生,家住xxxxx。,alias=一审被告,value=张三,Applicant=申请人}]”,相当于去掉了字符串k2提取得到的文本信息。
104、在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。
可以理解的是,执行步骤103分别提取得到各个文本段落对应的文本信息之后,可以按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。上述的“模板”是指服务器中预先设置的用于汇总这些文本信息的模板,该模板具体可以为设有一定布局的信息列表,汇总时,将各个文本信息分别填入列表中的各个指定位置即可。
进一步地,服务器中可以预先设置有多个模板,这些模板存储在模板库中。当需要时,在从模板库中选取合适的模板作为用于汇总文本信息的模板,如图4所示,在执行步骤104之前,还可以包括:
401、根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;
402、根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。
对于上述步骤401,可以理解的是,服务器中预设的模板与各种结构化文本的文本类型存在对应关系,在筛选时,根据当前结构化文本的文本类型从模板库中筛选出与该文本类型匹配的两个以上模板。然后,再根据该结构化文本的各个文本段落对应的段落主题步骤401中筛选出的模板中再次进行选取,计算选取出的模板分别与该段落主题的各个匹配度,然后选取出其中与各个段落主题匹配度最高的模板,作为最终用于汇总的模板。
比如,服务器中可以预设有通用型的模板b0,该模板b0可以用于任何文本类型的结构化文本进行文本信息的汇总,另外,服务器中还针对性地设置有与不同文本类型对应的模板b1、b2、b3、b4等。假设当前的结构化文本为判决书,执行步骤401时,筛选出模板b0、b2和b3。其中,模板b2预设有关键字“申请人”、“原告”和“被告”;模板b3预设有关键字“申请人”、“原告”、“被告”和“代理人”。该结构化文本拆分为的各个文本段落对应的段落主题包括以下主题关键字:“申请人”、“原告”、“被告”、“代理人”、“诉讼请求”、“判决结果”。通过模板对应的关键字与段落主题的主题关键字进行匹配,可知,模板b3的匹配度最高,因此,将该模板b3确定为用于汇总该判决书的各个所述文本信息的模板。
本实施例中,首先,根据预设的段落主题将当前的结构化文本拆分为各个文本段落;然后,针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;接着,针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。这样,本实施例可以针对结构化文本先拆分后解析的方式,对结构化文本的各个文本段落分别采用解析字符串提取出文本信息,最终得到整个结构化文本的文本信息,大大提高了结构化文本的文本信息提取效率,尤其是在大数据处理方面,可以满足用户对巨量的结构化文本的文本信息提取需求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种结构化文本的文本信息提取方法,下面将对一种结构化文本的文本信息提取装置进行详细描述。
图5示出了本发明实施例中一种结构化文本的文本信息提取装置一个实施例结构图。
本实施例中,一种结构化文本的文本信息提取装置包括:
段落拆分模块501,用于根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
字符串选取模块502,用于针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
文本信息提取模块503,用于针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
文本信息汇总模块504,用于在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息。
进一步地,若所述字符串选取模块选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,所述文本信息提取模块可以包括:
分别解析单元,用于采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;
合并处理单元,用于将所述两个以上文本信息进行合并处理,得到合并后的文本信息。
进一步地,所述字符串选取模块可以包括:
关键字获取单元,用于获取所述文本段落对应的段落主题的主题关键字;
匹配选取单元,用于若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;
字符串确定单元,用于将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。
进一步地,所述段落拆分模块可以包括:
段落主题确定单元,用于从预设的多个段落主题中确定出与所述结构化文本的文本类型对应的段落主题;
拆分段落单元,用于根据确定出的所述段落主题将所述结构化文本拆分为各个文本段落。
进一步地,所述结构化文本的文本信息提取装置还可以包括:
模板筛选模块,用于根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;
模板选取模块,用于根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。
图6是本发明一实施例提供的服务器的示意图。如图6所示,该实施例的服务器6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如执行上述的结构化文本的文本信息提取方法的程序。所述处理器60执行所述计算机程序62时实现上述各个结构化文本的文本信息提取方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至504的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述服务器6中的执行过程。
所述服务器6可以是本地服务器、云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是服务器6的示例,并不构成对服务器6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述服务器6的内部存储单元,例如服务器6的硬盘或内存。所述存储器61也可以是所述服务器6的外部存储设备,例如所述服务器6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述服务器6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种结构化文本的文本信息提取方法,其特征在于,包括:
根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息;其中,所述预设的模板设有一定布局的信息列表,汇总时将各个文本信息分别填入所述信息列表中的各个指定位置,得到所述结构化文本的文本信息;
在所述根据预设的段落主题将当前的结构化文本拆分为各个文本段落之前,还包括:
预先设定多种文本类型的结构化文本对应的段落主题;
根据当前需要拆分的结构化文本的文本类型选取对应的段落主题;
在按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息之前,还包括:
根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;
根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。
2.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,若选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,所述采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息的步骤具体包括:
采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;
将所述两个以上文本信息进行合并处理,得到合并后的文本信息。
3.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,所述从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串包括:
获取所述文本段落对应的段落主题的主题关键字;
若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;
将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。
4.根据权利要求1所述的结构化文本的文本信息提取方法,其特征在于,所述根据预设的段落主题将当前的结构化文本拆分为各个文本段落包括:
从预设的多个段落主题中确定出与所述结构化文本的文本类型对应的段落主题;
根据确定出的所述段落主题将所述结构化文本拆分为各个文本段落。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述结构化文本的文本信息提取方法的步骤。
6.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
根据预设的段落主题将当前的结构化文本拆分为各个文本段落;
针对每个所述文本段落,从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串;
针对每个所述文本段落,采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息;
在提取得到各个所述文本段落对应的文本信息之后,按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息;其中,所述预设的模板设有一定布局的信息列表,汇总时将各个文本信息分别填入所述信息列表中的各个指定位置,得到所述结构化文本的文本信息;
在所述根据预设的段落主题将当前的结构化文本拆分为各个文本段落之前,还包括:
预先设定多种文本类型的结构化文本对应的段落主题;
根据当前需要拆分的结构化文本的文本类型选取对应的段落主题;
在按照预设的模板汇总各个所述文本信息,得到所述结构化文本的文本信息之前,还包括:
根据所述结构化文本的文本类型从预设的模板库中筛选出与所述文本类型匹配的两个以上模板;
根据各个所述文本段落对应的段落主题从所述两个以上模板中选取出与所述段落主题匹配度最高的模板,作为用于汇总各个所述文本信息的模板。
7.根据权利要求6所述的服务器,其特征在于,若选取出两个以上解析字符串与一个文本段落对应的段落主题相匹配,则针对所述一个文本段落,所述采用选取出的所述解析字符串对所述文本段落进行解析,提取出所述文本段落对应的文本信息的步骤具体包括:
采用所述两个以上解析字符串分别对所述一个文本段落进行解析,得到所述一个文本段落对应的两个以上文本信息;
将所述两个以上文本信息进行合并处理,得到合并后的文本信息。
8.根据权利要求6所述的服务器,其特征在于,所述从预设的各个解析字符串中选取与所述文本段落对应的段落主题相匹配的解析字符串包括:
获取所述文本段落对应的段落主题的主题关键字;
若获取到的所述主题关键字存在两个以上,则分别从预设的各个解析字符串中选取出与所述主题关键字相匹配的解析字符串,其中,一个主题关键字匹配一个以上的解析字符串;
将选取出的所有所述解析字符串确定为与所述文本段落对应的段落主题相匹配的解析字符串。
CN201711000763.6A 2017-10-24 2017-10-24 结构化文本的文本信息提取方法、存储介质和服务器 Active CN107766328B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711000763.6A CN107766328B (zh) 2017-10-24 2017-10-24 结构化文本的文本信息提取方法、存储介质和服务器
PCT/CN2018/074865 WO2019080402A1 (zh) 2017-10-24 2018-01-31 结构化文本的文本信息提取方法、存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711000763.6A CN107766328B (zh) 2017-10-24 2017-10-24 结构化文本的文本信息提取方法、存储介质和服务器

Publications (2)

Publication Number Publication Date
CN107766328A CN107766328A (zh) 2018-03-06
CN107766328B true CN107766328B (zh) 2020-06-12

Family

ID=61270047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711000763.6A Active CN107766328B (zh) 2017-10-24 2017-10-24 结构化文本的文本信息提取方法、存储介质和服务器

Country Status (2)

Country Link
CN (1) CN107766328B (zh)
WO (1) WO2019080402A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及系统
CN108845993B (zh) * 2018-06-06 2022-04-12 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN109033249B (zh) * 2018-07-05 2021-06-18 鼎富智能科技有限公司 公检法领域结构化文书的信息提取方法、装置及存储介质
CN109165344A (zh) 2018-08-06 2019-01-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109448793B (zh) * 2018-10-15 2021-04-20 智慧芽信息科技(苏州)有限公司 基因序列的权利范围标注、检索及信息标注方法、系统
CN114625829A (zh) * 2018-11-09 2022-06-14 医渡云(北京)技术有限公司 文本信息提取方法、装置、介质及电子设备
TWI736831B (zh) * 2019-01-28 2021-08-21 洽吧智能股份有限公司 文字關係解析方法與系統
CN110188328B (zh) * 2019-06-04 2023-12-26 北京市律典通科技有限公司 卷宗结构化处理方法和装置
CN110941946A (zh) * 2019-11-29 2020-03-31 西安四叶草信息技术有限公司 一种信息提取方法、装置、设备及存储介质
CN111352917B (zh) * 2020-02-28 2023-05-16 北京思特奇信息技术股份有限公司 信息录入方法、装置、电子设备及存储介质
CN111488727B (zh) * 2020-03-24 2023-09-19 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN112651236B (zh) * 2020-12-28 2021-10-01 中电金信软件有限公司 提取文本信息的方法、装置、计算机设备和存储介质
CN112668284B (zh) * 2020-12-29 2023-12-15 长春市把手科技有限公司 一种法律文书分段方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN106815206A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5559104B2 (ja) * 2011-07-29 2014-07-23 日本電信電話株式会社 情報抽出方法、情報抽出装置、情報抽出プログラム
CN104252444B (zh) * 2013-06-27 2019-02-22 腾讯科技(北京)有限公司 一种杂志应用的排版方法、模块和系统
US20150294220A1 (en) * 2014-04-11 2015-10-15 Khalid Ragaei Oreif Structuring data around a topical matter and a.i./n.l.p./ machine learning knowledge system that enhances source content by identifying content topics and keywords and integrating associated/related contents
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN106815206A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Also Published As

Publication number Publication date
CN107766328A (zh) 2018-03-06
WO2019080402A1 (zh) 2019-05-02

Similar Documents

Publication Publication Date Title
CN107766328B (zh) 结构化文本的文本信息提取方法、存储介质和服务器
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
JP6653334B2 (ja) 情報抽出方法及び装置
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN107729526B (zh) 一种文本结构化的方法
US20150033116A1 (en) Systems, Methods, and Media for Generating Structured Documents
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
US20140289612A1 (en) Merging web page style addresses
CN111159389A (zh) 基于专利要素的关键词提取方法、终端、可读存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
US20150347406A1 (en) Corpus Generation Based Upon Document Attributes
CN106445918A (zh) 一种中文地址处理方法及系统
CN111159497A (zh) 正则表达式的生成方法及基于正则表达式的数据提取方法
JP2017532655A (ja) カスケーディングスタイルシートファイルの圧縮
CN110866408B (zh) 数据库制作装置以及检索系统
JP6343081B1 (ja) 符号符号分類検索ソフトウェアを記録した記録媒体
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
WO2018208412A1 (en) Detection of caption elements in documents
KR102110523B1 (ko) 문서 분석 기반 주요 요소 추출 시스템 및 방법
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN103377187A (zh) 段落分割方法、装置以及程序
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN110263303B (zh) 文本修改历史的追溯方法及装置
WO2021257195A1 (en) Topic graph-based comment generation
CN112257408A (zh) 一种文本对比的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant