CN111008523A - 一种信息提取方法、装置及服务器 - Google Patents
一种信息提取方法、装置及服务器 Download PDFInfo
- Publication number
- CN111008523A CN111008523A CN201911149818.9A CN201911149818A CN111008523A CN 111008523 A CN111008523 A CN 111008523A CN 201911149818 A CN201911149818 A CN 201911149818A CN 111008523 A CN111008523 A CN 111008523A
- Authority
- CN
- China
- Prior art keywords
- field
- rent
- node
- matching
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000014509 gene expression Effects 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 13
- 238000007726 management method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种信息抽取方法、装置及服务器。能够从房屋租赁合同等文本中匹配并抽取出包含合同标的物的金额相关信息的段落,然后从该段落进一步抽取到包含金额相关的信息的分句和分句中的字段,并对抽取到的分句和字段进行匹配分析,抽取出金额相关的信息;然后根据金额类型确定是否对抽取到的内容进行输出。由此,本申请实施例提供的技术方案,实现了对房屋租赁合同等文本的自动化分析和信息抽取,操作效率高,避免了人力资源和大量时间的消耗,提高信息录入的时效性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息提取方法、装置及服务器。
背景技术
信息抽取是自然语言处理的一项核心内容,是自然语言处理技术领域的重要研究方向。信息抽取的目的是从大量并且复杂的信息中抽取对某项研究或者某种业务有需要的信息,供进一步分析使用。
例如,房屋租赁行业在进行财务管理时,需要对房屋租赁合同中涉及到的标的物(例如:被租赁的房屋)的“租金”“押金”“物业管理费”等金额相关的信息以指定的格式录入到会计系统中,以进行审核和处理。目前,对上述“租金”“押金”“物业管理费”等金额相关的信息的录入一般是由人工完成,即信息录入人员手动查阅房屋租赁合同,从房屋租赁合同中找出“租金”“押金”“物业管理费”等金额相关的信息,然后通过键盘输入的方式手工录入到会计系统中。显然,人工录入的方法操作效率比较低。当录入涉及到的房屋租赁合同数量较多时,录入工作需要消耗大量人力和时间,难以保证录入的实效性。
发明内容
本申请实施例提供了一种信息抽取方法、装置及服务器,以解决现有技术中房屋租赁行业在进行财务管理时,向会计系统录入“租金”“押金”“物业管理费”等金额相关的信息只能依靠人工,导致操作效率低,耗时耗力,难以保证录入时效性的问题。
第一方面,本申请实施例提供了一种信息抽取方法,该方法包括:根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点;对所述第一段落进行切分,得到至少一个分句;根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集中的第一子节点相匹配;对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集中的第二子节点相匹配;根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
第二方面,本申请实施例提供了一种信息抽取装置,该装置包括:第一匹配模块,用于根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点;切分模块,用于对所述第一段落进行切分,得到至少一个分句;第二匹配模块,用于根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集中的第一子节点相匹配;第三匹配模块,用于对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集中的第二子节点相匹配;输出模块,用于根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
第三方面,本申请实施例提供了一种服务器,该服务器包括:处理器和存储器,所述存储器存储有程序指令和抽取模型;当所述存储器存储的程序指令和抽取模型被所述处理器读取或执行时,使得所述服务器执行上述各方面所述的方法。
本申请实施例提供的技术方案,能够从房屋租赁合同等文本中匹配并抽取出包含“租金”“押金”“物业管理费”等金额相关的信息的段落,然后从该段落进一步抽取到包含“租金”“押金”“物业管理费”等金额相关的信息的分句和分句中的字段,并对抽取到的分句和字段进行匹配分析,抽取出时间、金额、金额类型等金额相关的信息;然后根据金额类型确定是否对抽取到的内容进行输出。由此,本申请实施例提供的方法,实现了对房屋租赁合同等文本的自动化分析和信息抽取,操作效率高,避免了人力资源和大量时间的消耗,提高信息录入的时效性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息抽取方法的流程图;
图2是本申请实施例提供的一种信息抽取方法步骤S105的流程图;
图3是本申请实施例提供的一种信息抽取装置的结构示意图;
图4是本申请实施例提供的服务器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
房屋租赁行业在进行财务管理时,需要对房屋租赁合同中涉及到的标的物(例如:被租赁的房屋)的“租金”“押金”“物业管理费”等金额相关的信息以指定的格式录入到会计系统中,以进行审核和处理。目前,对上述“租金”“押金”“物业管理费”等金额相关的信息的录入一般是由人工完成,操作效率比较低。当录入涉及到的房屋租赁合同数量较多时,录入工作需要消耗大量人力和时间,难以保证录入的实效性。
为了提高上述信息的录入效率,减少人力消耗,本申请实施例提供了一种信息抽取方法、装置及服务器。
下面是本申请的方法实施例,提供了一种信息抽取方法,该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。该方法可以用于从房屋租赁合同中抽取“租金”“押金”“物业管理费”等费用的金额信息和其他信息。下面以该方法用于从租赁合同中抽取“租金”信息为例,对该方法进行具体的阐述说明。
图1是本申请实施例提供的信息抽取方法的流程图。如图1所示,该方法可以包括以下步骤:
步骤S101,根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点。
本申请实施例中的抽取模型包括多个节点,一些节点用于从语料,例如房屋租赁合同中抽取段落信息。例如,抽取模型中可以包括以下节点:
-合同审核信息抽取
出租人
承租人
租赁期
租赁起始日
租赁结束日
免租期
免租期开始
免租期截止
租赁面积
物业管理费
组件
税率
提前解约权
还原义务
上述“出租人”“承租人”“租金”等节点均用于从房屋租赁合同中抽取对应的段落信息,即“合同审核信息抽取”,以便于进一步分析和审核。
还有一些节点用于对已抽取的段落信息进行进一步地匹配分析,抽取特定的字段,这些节点可以包括:
-金额分析
-租金金额
日租金金额
月租金金额
季租金金额
年租金金额
无时间租金金额
每平方日租金金额
每平方月租金金额
每平方季租金金额
每平方年租金金额
每平方无时间租金金额
-租金标签
日租金标签
月租金标签
季租金标签
年租金标签
无时间租金标签
每平方日租金标签
每平方月租金标签
每平方季租金标签
每平方年租金标签
每平方无时间租金标签
-租金标签
租金
物业费
押金
其他费用
其中,上述“日租金金额”“月租金金额”“季祖金金额”等节点位于同一个节点集“租金金额”中,它们可以视为节点集“租金金额”中的子节点,用于从段落信息中匹配各种“租金金额”对应的字段;上述“日租金标签”“月租金标签”“季祖金标签”等节点位于节点集“租金标签”中,它们可以视为节点集“租金标签”中的子节点,用于从段落信息中匹配各种“租金标签”对应的字段;上述“租金”“物业费”“押金”等节点位于节点集“金额类型”中,它们可以视作节点集“金额类型”的子节点,用于从段落信息中匹配各种费用类型对应的字段。
在一些实施例中,节点可以包括一个或者多个抽取表达式,利用抽取表达式抽取对应的段落信息或者字段。抽取表达式可以包括表达式本体,以及可选包括表达式前界、表达式后界和距离算子等。各个节点在用于抽取段落信息或者字段时,直接利用抽取表达式与语料进行匹配抽取。
示例地,“出租人”节点中可以包含的抽取表达式为:
c_出租人{0,0}@.*@{0,0}c_出租人后缀
“c_出租人”是该抽取表达式的前界,“c_出租人”中的“c”是个一个概念标识,说明该前界表达的是“出租人”这一概念。本申请实施例中,每个概念中可以包含多个关键词,例如“出租人”概念中可以包括:出租人、租赁人、房主、房东、甲方、租让人等。在本申请实施例中,如果抽取表达式中包含一个概念,那么,在抽取表达式在与语料进行匹配时,需要使用这个概念中的关键词与语料进行匹配,如果匹配成功(例如语料中也包含这一关键词),则说明语料与这个概念匹配。
“c_出租人后缀”是该抽取表达式的后界,“c_出租人后缀”中的“c”说明该后界表达的是“出租人后缀”这一概念。
前后两个“@”之间的内容是该抽取表达式的表达式本体,表达式本体匹配到的内容是抽取表达式要抽取的内容。上述抽取表达式中,表达式本体是“.*”表示抽取的内容是任意字符。
“{0,0}”是一个距离算子,距离算子一般由大括号“{}”以及两个数字x,y组成“{x,y}”的格式,其中,第一个数字x表示最小距离,第二个数字y表示最大距离,距离算子“{x,y}”表示其之前匹配到的内容(概念、关键字、字段等)与其之后匹配到的内容应满足距离大于等于x,并且小于等于y的关系。在上述抽取表达式中,“{0,0}”则表示“c_出租人”和“@.*@”匹配到的内容之间的距离为0。
由此,表达式前界、表达式后界和距离算子构成了抽取表达式的抽取条件。上述抽取表达式所表达的含义是,抽取“c_出租人”之后0个距离内的,“c_出租人后缀”之前0个距离内的任意字符,即:“c_出租人”和“c_出租人后缀”之间的任意字符。
基于上述抽取模型和抽取表达式的定义,为了抽取房屋租赁合同中的“租金”,使用抽取模型中的“租金”节点,从语料中抽取既包含金额,又包含租金名称的段落。这里,抽取到的段落即为第一段落。例如,“租金”节点抽取到的段落为:
2016年1月1日至2016年12月31日:租金为人民币110元/平方米/月,乙方应支付的月租金为人民币17470.31元。
上述段落中,粗体字部分是租金名称,下划线部分是金额。
“租金”节点可以使用抽取表达式匹配到上述租金名称和金额。“租金”节点可以包含的抽取表达式例如:
@.*(c_租金).{0,5}(c_单位金额).*@
上述抽取表达式表示抽取包含“租金”概念和“单位金额”概念,并且“租金”概念和“单位金额”概念之间的距离相距0-5个字符的段落。
需要补充说明的,上述示出的“租金”节点中的抽取表达式仅仅作为一个示例,容易理解的是,“租金”节点可以包含一个抽取表达式或者多个抽取表达式,可以同时对语料进行匹配,如果有一个抽取表达式与某个段落相匹配,则该段落就可以作为第一段落被抽取出来。第一段落可以与“租金”节点中的一个抽取表达式相匹配,也可以与多个抽取表达式相匹配。
在一些实施例中,为了提高语料的质量,进而提高段落抽取的准确性,在执行步骤S101之前,可以对语料进行预处理,例如语料清洗、去除空格文本、去除未登录词等。本领域技术人员可以灵活选择语料预处理的方式,本申请实施例中不做具体限定。
步骤S102,对所述第一段落进行切分,得到至少一个分句。
步骤S101中抽取的第一段落可能包含多个分句,其中有的分句包含租金信息,有的分句不包含租金信息,因此,为了便于进一步地对第一段落进行分析,步骤S102将第一一段落进行切分,得到至少一个分句,每个分句作为一个分析单位。
在一些实施例中,可以将段落中的分号“;”、句号“。”作为分隔符,在分割符所在的位置对句子进行切分。
步骤S103,根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集中的第一子节点相匹配。
为了找出包含有租金信息的分句,步骤S103可以分别将每个分句与“租金金额”节点集中的各个子节点进行匹配,以确定分句是否能够与“租金金额”节点集中的某个子节点匹配,与分句匹配的子节点即为第一子节点,与第一子节点匹配的分句即为第一匹配分句,第一字节点在第一匹配分句中匹配到的内容即为第一字段。
容易理解的是,一个分句可能被“租金金额”节点集中的一个子节点匹配,也可能同时被“租金金额”节点集中的多个子节点匹配。当分句同时被“租金金额”节点集中的多个子节点匹配时,为了从多个匹配的子节点中确定第一子节点,本申请实施例采用了长串匹配原则。长串匹配原则是指:判断每个子节点与第一匹配分句匹配到的内容的长度,找到匹配内容长度最长的子节点,将匹配内容长度最长的子节点作为第一子节点,第一子节点在第一匹配分句中匹配到的内容即作为第一字段。
示例地,分句中的“2.5元/日/平方米”可能同时匹配到以下子节点:
“无时间租金金额”子节点匹配分句中的“2.5元”;
“日租金金额”子节点匹配分句中的“2.5元/日”;
“每平方日租金金额”子节点匹配分句中的“2.5元/日/平方米”
根据长串匹配原则,最终确定分句中的“2.5元/日/平方米”匹配到的子节点(即第一子节点)为“每平方日租金金额”,匹配到字段(即第一字段)为“2.5元/日/平方米”。
步骤S104,对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集中的第二子节点相匹配。
为了进一步确定第一字段是否是租金信息,步骤S104使用抽取模型中的“金额类型”节点集的各个子节点与第一匹配分句中位于第一字段之前的内容进行匹配,如果某个子节点与第一字段之前的内容相匹配,则该子节点为第二子节点,根据第二子节点从第一字段之前的内容中抽取的字段为第二字段。
示例地,如果第一匹配分句为:
2016年1月1日至2016年12月31日:租金为人民币110元/平方米/月
其中,第一字段为“110元/平方米/月”,那么第一字段之前的内容为“2016年1月1日至2016年12月31日:租金为人民币”,上述内容能够与“金额类型”节点集中的“租金”子节点匹配,匹配到的字段为“租金”。即第二子节点为“租金”子节点,第二字段为“租金”。
步骤S105,根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
本申请实施例可以对“金额类型”节点集中的子节点进行分类,例如:将“租金”“物业费”“押金”等明确金额类型的子节点作为第一类子节点,将“其他费用”子节点作为第二类子节点,并根据第二子节点的类别判断是否输出第一字段和第二字段。
具体实现中:如果所述第二子节点是第一类子节点,则对所述第一字段和所述第二字段进行编辑后输出;如果所述第二子节点是第二类子节点,则不对所述第一字段和所述第二字段进行输出。
示例地,步骤S104中确定的第二子节点为“租金”,属于第一类子节点,则对第一字段和所述第二字段进行编辑后输出。相反地,如果步骤S104中确定的第二子节点为“其他费用”,那么第二子节点属于第二类子节点,则不对第一字段和所述第二字段进行输出。
进一步地,本申请实施例可以对“租金金额”节点集中的子节点进行分类,例如:将“日租金金额”“月租金金额”“季租金金额”“年租金金额”“每平方日租金金额”“每平方月租金金额”“每平方季租金金额”等明确租金金额对应时间的子节点作为第三类子节点,将“无时间租金金额”“每平方无时间租金金额”等没有明确租金金额对应时间的子节点作为第四类子节点。
基于上述对第三类子节点和第四类子节点的划分,对第一字段和所述第二字段进行编辑后输出,如图2所示可以包括步骤S201或者步骤S202和步骤S203:
步骤S201,如果所述第一子节点是所述租金金额节点集中的第三类子节点,则根据所述第一子节点的名称确定输出值,并输出金额类型节点集的名称和所述输出值。
示例地,如果第一字段是“2.5元/日/平方米”,那么它匹配到的第一子节点为“每平方日租金金额”,可见,第一子节点属于第三类子节点,此时,根据第一子节点的名称“每平方日租金金额”确定输出值为“日租金”;根据金额类型节点集的名称“金额类型”确定输出的内容为“金额类型:日租金”。另外,由于第一子节点的名称“每平方日租金金额”中包含“平方”,步骤S201还输出“是否单位(平方米)金额:是”;如果第一子节点的名称不包含“平方”,则步骤S201还输出“是否单位(平方米)金额:否”。
步骤S202,如果所述第一子节点不是所述租金金额节点集中的第三类子节点,将所述第一匹配分句与所述抽取模型中的租金标签节点集中的子节点进行匹配。
示例地,如果第一字段是“2.5元”,那么它匹配到的第一子节点为“无时间租金金额”,可见,第一子节点属于第四类子节点,此时,为了明确第一字段的金额类型,将第一匹配分句与“租金标签”节点集中的子节点进行匹配。
步骤S203,根据所述第一匹配分句匹配到的所述租金标签节点集中的子节点的名称确定输出值,并输出金额类型节点集的名称和所述输出值。
示例地,如果第一匹配分句匹配到的“租金标签”节点集中的子节点“日租金标签”,则输出值为“日租金”,根据金额类型节点集的名称“金额类型”确定输出的内容为“金额类型:日租金”。如果第一匹配分句匹配到的“租金标签”节点集中的子节点“每平方月租金标签”,则输出值为“月租金”,根据金额类型节点集的名称“金额类型”确定输出的内容为“金额类型:月租金”,以及,输出“是否单位(平方米)金额:是”。
在一些实施例中,为了确定租金对应的时间,还可以使用抽取模型中的“时间”节点,对第一匹配分句进行一步抽取。具体方法是,使用“时间”节点从第一匹配分句的第一字段之前的内容中抽取第三字段,第三字段与“时间”节点相匹配,第三字段即为包含时间信息的字段。
示例地,如果第一匹配分句是:
2016年1月1日至2016年12月31日:租金为人民币110元/平方米/月,乙方应支付的月租金为人民币17470.31元。
那么,根据“时间”节点可以从中抽取的包含时间信息的字段(即第三字段)为:“2016年1月1日至2016年12月31日”。
根据上述方法,能够从语料中抽取涉及到租金的金额类型、时间、金额数值等信息,其中,涉及到金额数值的内容可以使用汉字和阿拉伯数字等多种方法描述。
示例地,对于下面的语料:
第四至第五年(2020年4月1日至2022年3月31日)月租金为¥52.12元/平方米,即第四至第五年(2020年4月1日至2022年3月31日)内该房屋月租金为人民币捌仟壹佰叁拾壹元整(¥8131.00)此价格为含税价格。
执行上述方法,可以得到以下结果:
{'金额类型':'月租金','时间':'2020年4月1日至2022年3月31日','时间归一化结果':[('2020-04-01','2022-03-31')],'是否单位(平方米)金额':'是','具体金额':['¥52.12元/平方米'],'金额数值':{'¥52.12元/平方米':[52.12]}}
以及,
{'金额类型':'月租金','时间':'2020年4月1日至2022年3月31日','时间归一化结果':[('2020-04-01','2022-03-31')],'是否单位(平方米)金额':'否','具体金额':['捌仟壹佰叁拾壹元整','¥8131.00'],'金额数值':{'捌仟壹佰叁拾壹元整':[8131.0],'¥8131.00':[8131.0]}}
上述方法还可以用于从租赁合同中抽取“押金”“物业管理费”“物业租赁地址”“面积”等信息并输出,并且还可以输出上述信息对应的注释信息。
例如:“物业租赁地址”信息可以对应的注释信息为:此地址是合同中租赁的物业地址;“面积”信息可以对应的注释信息为:此面积指的是物业租赁地址的面积。
在一些实施例中,抽取模型还可以包括至少一个“错误数值”节点,例如:“错误节点”集。“错误节点”集用于与房屋租赁合同的文本进行匹配,以确定语料中是否包含错误数值,例如:“324.243.00元”“32日”“15月”等。错误数值可以在输出的信息中高亮示出,以提示用户进行人工判断和修正。
在一些实施例中,一些房屋租赁合同文本中可能包含多个物业租赁地址,当根据上述方法从房屋租赁合同文本中抽取到多个物业租赁地址时,可以生成对应的提示消息,以提醒用户进行人工判断和处理。
在一些实施例中,本申请实施例在输出上述信息,还可以对信息中涉及到的同一种金额值的不同描述方式进行归一化处理,将不同描述方式的金额值转化成相同的描述方式,例如将汉字、阿拉伯数字等统一转化成阿拉伯数字;然后,对归一化的数值进行一致性判断,如果归一化后的数值一致,则不提示信息,如果归一化后的数值不一致,则生成提示消息,或者在输出的信息中对不一致的数值进行标记,以提醒用户处理。
示例地,归一化的数值加粗部分所示:
{'金额类型':'月租金','时间':'2020年4月1日至2022年3月31日','时间归一化结果':[('2020-04-01','2022-03-31')],'是否单位(平方米)金额':'否','具体金额':['捌仟壹佰叁拾壹元整','¥8131.00'],'金额数值':{'捌仟壹佰叁拾壹元整':[8131.00],'¥8131.00':[8131.00]}}
由以上技术方案可知,本申请实施例提供的方法,能够从房屋租赁合同等文本中匹配并抽取出包含“租金”“押金”“物业管理费”等金额相关的信息的段落,然后从该段落进一步抽取到包含“租金”“押金”“物业管理费”等金额相关的信息的分句和分句中的字段,并对抽取到的分句和字段进行匹配分析,抽取出时间、金额、金额类型等金额相关的信息;然后根据金额类型确定是否对抽取到的内容进行输出。由此,本申请实施例提供的方法,实现了对房屋租赁合同等文本的自动化分析和信息抽取,操作效率高,避免了人力资源和大量时间的消耗,提高信息录入的时效性。
下面是本申请的方法实施例,提供了一种信息抽取装置,该装置可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。该装置可用于执行本申请的方法实施例,有关本申请装置实施例中未公开的技术细节,请参照本申请的方法实施例。
图3是本申请实施例提供的信息抽取装置的结构示意图。如图3所示,该装置包括:
第一匹配模块301,用于根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点;
切分模块302,用于对所述第一段落进行切分,得到至少一个分句;
第二匹配模块303,用于根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集中的第一子节点相匹配;
第三匹配模块304,用于对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集中的第二子节点相匹配;
输出模块305,用于根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
由以上技术方案可知,本申请实施例提供的装置,能够从房屋租赁合同等文本中匹配并抽取出包含“租金”“押金”“物业管理费”等金额相关的信息的段落,然后从该段落进一步抽取到包含“租金”“押金”“物业管理费”等金额相关的信息的分句和分句中的字段,并对抽取到的分句和字段进行匹配分析,抽取出时间、金额、金额类型等金额相关的信息;然后根据金额类型确定是否对抽取到的内容进行输出。由此,本申请实施例提供的装置,实现了对房屋租赁合同等文本的自动化分析和信息抽取,操作效率高,避免了人力资源和大量时间的消耗,提高信息录入的时效性。
本申请实施例还提供了一种服务器。图4是该服务器的示意图。如图4所示,该服务器包括:处理器401和存储器402,所述存储器402存储有程序指令403和抽取模型404;当所述存储器402存储的程序指令403和抽取模型404被所述处理器401读取或执行时,使得所述服务器执行上述各实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种信息抽取方法,其特征在于,包括:
根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点;
对所述第一段落进行切分,得到至少一个分句;
根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集的第一子节点相匹配;
对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集的第二子节点相匹配;
根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
2.根据权利要求1所述的方法,其特征在于,还包括:
对于每个所述第一匹配分句,根据抽取模型中的时间节点,从所述第一字段之前的内容中抽取第三字段,所述第三字段与所述时间节点相匹配;
根据所述输出规则输出所述第三字段。
3.根据权利要求1所述的方法,其特征在于,所述根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的,包括:
如果所述第二子节点是第一类子节点,则对所述第一字段和所述第二字段进行编辑后输出;
如果所述第二子节点是第二类子节点,则不对所述第一字段和所述第二字段进行输出。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一字段和所述第二字段进行编辑后输出,包括:
如果所述第一子节点是所述租金金额节点集中的第三类子节点,则根据所述第一子节点的名称确定输出值,并输出金额类型节点集的名称和所述输出值。
5.根据权利要求3所述的方法,其特征在于,所述对所述第一字段和所述第二字段进行编辑后输出,包括:
如果所述第一子节点不是所述租金金额节点集中的第三类子节点,将所述第一匹配分句与所述抽取模型中的租金标签节点集中的子节点进行匹配;
根据所述第一匹配分句匹配到的所述租金标签节点集中的子节点的名称确定输出值,并输出金额类型节点集的名称和所述输出值。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述节点包括至少一个抽取表达式,所述抽取模型使用抽取表达式进行内容匹配和抽取;所述抽取表达式包括:表达式本体,以及表达式前界、表达式后界、距离算子中的一个或者多个;所述表达式本体用于从语料中匹配要抽取的内容;所述表达式前界、所述表达式后界和所述距离算子用于构成所述抽取表达式的抽取条件。
7.根据权利要求3所述的方法,其特征在于,所述对所述第一字段和所述第二字段进行编辑后输出,还包括:
对输出结果中相同信息的描述进行归一化处理;
对归一化处理的结果进行一致性判断,并根据判断结果生成提示消息。
8.根据权利要求3所述的方法,其特征在于,所述根据抽取模型中的租金节点,从语料中抽取第一段落之前,还包括:
对所述语料进行预处理,所述预处理包括语料清洗、去除空格文本、去除未登录词中的一项或者多项。
9.一种信息抽取装置,其特征在于,包括:
第一匹配模块,用于根据抽取模型中的租金节点,从语料中抽取第一段落,所述抽取模型包括多个节点;
切分模块,用于对所述第一段落进行切分,得到至少一个分句;
第二匹配模块,用于根据抽取模型中的租金金额节点集,从所述至少一个分句抽取第一匹配分句,所述第一匹配分句包含第一字段,所述第一字段与所述租金金额节点集的第一子节点相匹配;
第三匹配模块,用于对于每个所述第一匹配分句,根据抽取模型中的金额类型节点集,从所述第一字段之前的内容中抽取第二字段,所述第二字段与所述金额类型节点集的第二子节点相匹配;
输出模块,用于根据输出规则输出第一字段和所述第二字段,所述输出规则是根据所述第二字段匹配到的所述第二子节点的类型确定的。
10.一种服务器,其特征在于,包括:
处理器和存储器,所述存储器存储有程序指令和抽取模型;
当所述存储器存储的程序指令和抽取模型被所述处理器读取或执行时,使得所述服务器执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149818.9A CN111008523A (zh) | 2019-11-21 | 2019-11-21 | 一种信息提取方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149818.9A CN111008523A (zh) | 2019-11-21 | 2019-11-21 | 一种信息提取方法、装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008523A true CN111008523A (zh) | 2020-04-14 |
Family
ID=70113087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911149818.9A Pending CN111008523A (zh) | 2019-11-21 | 2019-11-21 | 一种信息提取方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008523A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881664A (zh) * | 2020-06-30 | 2020-11-03 | 北京来也网络科技有限公司 | 一种结合rpa和ai的信息抽取方法、装置、设备及介质 |
CN112183076A (zh) * | 2020-08-28 | 2021-01-05 | 北京望石智慧科技有限公司 | 一种物质名称提取方法、装置及存储介质 |
CN112214987A (zh) * | 2020-09-08 | 2021-01-12 | 深圳价值在线信息科技股份有限公司 | 一种信息提取方法、提取装置、终端设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103348598A (zh) * | 2011-01-28 | 2013-10-09 | 起元科技有限公司 | 生成数据模式信息 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
CN109189769A (zh) * | 2018-08-14 | 2019-01-11 | 平安医疗健康管理股份有限公司 | 数据标准化处理方法、装置、计算机设备和存储介质 |
JP2019091158A (ja) * | 2017-11-13 | 2019-06-13 | 株式会社オービック | 通貨換算装置、通貨換算方法および通貨換算プログラム |
CN109918490A (zh) * | 2019-03-01 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种内容抽取方法及装置 |
CN110096626A (zh) * | 2019-03-18 | 2019-08-06 | 平安普惠企业管理有限公司 | 合同文本数据的处理方法、装置、设备及存储介质 |
CN110188107A (zh) * | 2019-06-05 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 一种从表格中抽取信息的方法及装置 |
CN110390000A (zh) * | 2019-07-30 | 2019-10-29 | 同方赛威讯信息技术有限公司 | 一种法律文书自动识别、生成系统及其方法 |
-
2019
- 2019-11-21 CN CN201911149818.9A patent/CN111008523A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103348598A (zh) * | 2011-01-28 | 2013-10-09 | 起元科技有限公司 | 生成数据模式信息 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
JP2019091158A (ja) * | 2017-11-13 | 2019-06-13 | 株式会社オービック | 通貨換算装置、通貨換算方法および通貨換算プログラム |
CN109189769A (zh) * | 2018-08-14 | 2019-01-11 | 平安医疗健康管理股份有限公司 | 数据标准化处理方法、装置、计算机设备和存储介质 |
CN109918490A (zh) * | 2019-03-01 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种内容抽取方法及装置 |
CN110096626A (zh) * | 2019-03-18 | 2019-08-06 | 平安普惠企业管理有限公司 | 合同文本数据的处理方法、装置、设备及存储介质 |
CN110188107A (zh) * | 2019-06-05 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 一种从表格中抽取信息的方法及装置 |
CN110390000A (zh) * | 2019-07-30 | 2019-10-29 | 同方赛威讯信息技术有限公司 | 一种法律文书自动识别、生成系统及其方法 |
Non-Patent Citations (1)
Title |
---|
马春静: "计算机辅助审计实用教程", vol. 1, 上海擦净大学出版社, pages: 7 - 8 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881664A (zh) * | 2020-06-30 | 2020-11-03 | 北京来也网络科技有限公司 | 一种结合rpa和ai的信息抽取方法、装置、设备及介质 |
CN112183076A (zh) * | 2020-08-28 | 2021-01-05 | 北京望石智慧科技有限公司 | 一种物质名称提取方法、装置及存储介质 |
CN112214987A (zh) * | 2020-09-08 | 2021-01-12 | 深圳价值在线信息科技股份有限公司 | 一种信息提取方法、提取装置、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN111008523A (zh) | 一种信息提取方法、装置及服务器 | |
CN110188107B (zh) | 一种从表格中抽取信息的方法及装置 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
CN106557971A (zh) | 基于语音识别技术的财务数据处理方法、系统及终端 | |
CN109101489B (zh) | 一种文本自动摘要方法、装置及一种电子设备 | |
CN101710343A (zh) | 一种基于文本挖掘的本体自动构建系统及方法 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN108197099A (zh) | 一种文本信息提取方法及计算机可读存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN109992752A (zh) | 合同文件的标签标记方法、装置、计算机装置及存储介质 | |
CN112801041A (zh) | 财务数据的报销方法、装置、设备及存储介质 | |
CN106970913A (zh) | 一种时间的提取方法及装置 | |
CN109766552B (zh) | 一种基于公告信息的指代消解方法及装置 | |
CN111292068B (zh) | 一种合同信息审核方法、装置、电子设备及存储介质 | |
Xue et al. | Applying syntactic, semantic and discourse constraints in chinese temporal annotation | |
CN111597813A (zh) | 一种基于命名实体识别提取短信文本摘要的方法及装置 | |
CN107633006B (zh) | 一种词典格式生成方法及电子设备 | |
CN111144116A (zh) | 一种文档知识结构化的抽取方法及装置 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、系统及存储介质 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
Liang et al. | Knowledge representation framework of accounting event in corpus-based financial report text | |
CN109657180B (zh) | 一种智能化网页内容自动模糊抽取系统 | |
Leonov et al. | Development of a Model for Identifying High-Risk Operations for AML/CFT Purposes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co., Ltd Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |