CN110348003B - 文本有效信息的抽取方法及装置 - Google Patents

文本有效信息的抽取方法及装置 Download PDF

Info

Publication number
CN110348003B
CN110348003B CN201910430073.7A CN201910430073A CN110348003B CN 110348003 B CN110348003 B CN 110348003B CN 201910430073 A CN201910430073 A CN 201910430073A CN 110348003 B CN110348003 B CN 110348003B
Authority
CN
China
Prior art keywords
information
extraction
text
extracted
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910430073.7A
Other languages
English (en)
Other versions
CN110348003A (zh
Inventor
晋耀红
李健铨
赵红红
陈夏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Taiyue Xiangsheng Software Co ltd
Original Assignee
Anhui Taiyue Xiangsheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Taiyue Xiangsheng Software Co ltd filed Critical Anhui Taiyue Xiangsheng Software Co ltd
Priority to CN201910430073.7A priority Critical patent/CN110348003B/zh
Publication of CN110348003A publication Critical patent/CN110348003A/zh
Application granted granted Critical
Publication of CN110348003B publication Critical patent/CN110348003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请提供了一种文本有效信息的抽取方法及装置,其中,所述方法包括:确定预设抽取模板信息中的结构化信息;在待抽取文本信息中确定第一抽取信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息;生成最终抽取信息。本申请所提供的文本有效信息的抽取方法及装置能够通过递进式的抽取方法,针对不同的文本情况采用不同的抽取方法,不遗漏地抽取整体文本中的有效信息,进而有效提高文本有效信息的抽取准确率。

Description

文本有效信息的抽取方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本有效信息的抽取方法及装置。
背景技术
文本审核是按照法律法规以及当事人的约定对文本的内容、格式进行审核。通常,文本中的信息包括有效信息和用于辅助描述的无效信息,而对文本的审核,主要是针对文本中的有效信息,因此,在进行文本审核之前,需要首先对文本中的有效信息进行确定。
目前,文本有效信息的抽取方法主要是通过人工确定文本中需要抽取的文本信息。审核人员首先需要仔细阅读全部文本内容,然后凭借自身从业经验在文本中定位各个符合抽取标准的有效信息。但是,待抽取的文本通常篇幅较长,审核人员在阅读上会浪费大量时间,同时,由于审核人员的判断标准过于主观,很容易遗漏文本中的有效信息,或者误判无效信息为有效信息,造成后续文本审核的不准确。
为了提高文本有效信息的确定效率和准确性,现今逐渐采用自动化信息抽取方法,即采用计算机抽取文本中的有效信息。通过语义分析,从整体文本信息中确定与预先设定的待抽取有效信息点相匹配的信息,作为有效信息。但是,文本的种类繁多,计算机难以理解和识别全部种类的文本,这样会令计算机在抽取无法充分理解和识别的种类所对应的文本时,无法准确确定文本中的有效信息,令确定文本有效信息的准确性大大降低。
发明内容
本申请提供了一种文本有效信息的抽取方法及装置,以解决现有计算机抽取文本有效信息准确性低的问题。
第一方面,本申请实施例提供了一种文本有效信息的抽取方法,包括:
确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;
在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;
确定所述预设抽取模板信息中非结构化信息对应的正则表达式;
结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;
利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
第二方面,本申请实施例提供了一种文本有效信息的抽取装置,包括:
结构化信息确定模块,用于确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;
第一抽取信息确定模块,用于在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;
正则表达式生成模块,用于确定所述预设抽取模板信息中非结构化信息对应的正则表达式;
第二抽取信息确定模块,用于结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;
第三抽取信息确定模块,用于利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
最终抽取信息生成模块,用于生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
由以上技术可知,本申请提供了一种文本有效信息的抽取方法及装置,首先,确定预设抽取模板信息中的结构化信息;在待抽取文本信息中确定出与结构化信息的语义相似度大于预设相似度阈值的第一抽取信息。然后,确定预设抽取模板信息中非结构化信息对应的正则表达式,并结合各所述正则表达式,确定待抽取文本信息中与正则表达式相匹配的第二抽取信息。之后,利用自然语言处理工具和深度学习模型,确定待抽取文本信息中与预设抽取模板信息相匹配的第三抽取信息。最后,汇总第一抽取信息、第二抽取信息和第三抽取信息,生成最终抽取信息。可见,本申请所提供的文本有效信息的抽取方法及装置能够通过递进式的抽取方法,针对不同的文本情况采用不同的抽取方法,不遗漏地抽取整体文本中的有效信息,进而有效提高文本有效信息的抽取准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本有效信息的抽取方法的流程图;
图2为本申请实施例提供的一种确定结构化信息的方法的流程图;
图3为本申请实施例提供的一种建立预设抽取模板信息的方法的流程图;
图4为本申请实施例提供的一种确定第一抽取信息的方法的流程图;
图5为本申请实施例提供的一种剔除第一抽取信息中无用信息的方法的流程图;
图6为本申请实施例提供的一种确定正则表达式的方法的流程图;
图7为本申请实施例提供的一种确定第二抽取信息的方法的流程图;
图8为本申请实施例提供的一种剔除第二抽取信息中无用信息的方法的流程图;
图9为本申请实施例提供的一种确定第三抽取信息的方法的流程图;
图10为本申请实施例提供的一种文本有效信息的抽取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
文本审核是按照法律法规以及当事人的约定对文本的内容、格式进行审核。通常,文本中的信息包括有效信息和用于辅助描述的无效信息,而对文本的审核,主要是针对文本中的有效信息,因此,在进行文本审核之前,需要首先对文本中的有效信息进行确定。
目前,文本有效信息的抽取方法主要是通过人工确定文本中需要抽取的文本信息。审核人员首先需要仔细阅读全部文本内容,然后凭借自身从业经验在文本中定位各个符合抽取标准的有效信息。但是,待抽取的文本通常篇幅较长,审核人员在阅读上会浪费大量时间,同时,由于审核人员的判断标准过于主观,很容易遗漏文本中的有效信息,或者误判无效信息为有效信息,造成后续文本审核的不准确。
为了提高文本有效信息的确定效率和准确性,现今逐渐采用自动化信息抽取方法,即采用计算机抽取文本中的有效信息。通过语义分析,从整体文本信息中确定与预先设定的待抽取有效信息点相匹配的信息,作为有效信息。但是,文本的种类繁多,计算机难以理解和识别全部种类的文本,这样会令计算机在抽取无法充分理解和识别的种类所对应的文本时,无法准确确定文本中的有效信息,令确定文本有效信息的准确性大大降低。
由此可见,采用现有的自动化信息抽取方法,虽然抽取效率较高,但是依然存在抽取准确率较低的问题。
为了解决上述问题,本申请实施例提供了一种文本有效信息的抽取方法及装置。
下面是本申请的方法实施例。
图1为本申请实施例提供的一种文本有效信息的抽取方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种可操作设备中。
请参见图1,该方法包括以下步骤:
S1、确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息。
预设抽取模板信息中包含多种有效信息,这些有效信息可以为需要抽取信息的关键词,和/或与需要抽取信息语义相近的词组、短语、短句等,和/或需要抽取信息的关键词及抽取规则。
例如,
预设抽取模板信息:邮编:抽取邮编
公司/机构名:抽取公司/机构名
金额:抽取大写金额、小写金额
产权归属
其中,“邮编”、“公司/机构名”、“金额”、“产权归属”为需要抽取信息的关键词,和/或与需要抽取信息语义相近的词组、短语、短句等。“抽取邮编”、“抽取公司/机构名”、“抽取大写金额、小写金额”为抽取规则。
同时,从上述示例中可以看出,预设抽取模板信息的文本格式也具有区别,“邮编:抽取邮编”、“公司/机构名:抽取公司/机构名”、“金额:抽取大写金额、小写金额”均为具有特定文本格式“××:××”的有效信息,因此,这种预设抽取模板信息即为结构化信息;而“产权归属”则为没有特定文本格式的有效信息,因此,这种预设抽取模板信息即为非结构化信息。需要注意的是,除了示例中所提供的文本格式,预设文本格式还可以为“××-××”、“××*××”等带有特殊符号的文本格式,或者利用空格等进行区分的文本格式等。
具体地,如图2所示,为本申请实施例提供的一种确定结构化信息的方法的流程图,所述方法包括:
S101、利用文本结构模型,识别所述预设抽取模板信息中各有效信息的文本结构;
S102、匹配所述文本结构与预设文本格式,确定结构化信息。
文本结构模型为能够实现检测、识别。定位文本格式的模型或者工具。例如,根据特殊符号识别文本结构的文本结构模型,在文本中,可以使用特殊符号区分各部分内容,例如,“××-××”、“××*××”等。可见,只要识别出特殊符号“/”、“-”、“*”等,即可确定文本是否带有结构,如果文本结构模型识别出的信息与预设文本格式相匹配,则可以将该信息确定为结构化信息;或者,根据文本格式识别文本结构的文本结构模型,在文档中,如果没有特殊符号,可能存在使用文本格式,如段前空格的字符数量、断后空格的字符数量等,区分各部分内容,例如,“××××”等。可见,只要识别出文本格式,即可确定文本是否带有结构,如果文本结构模型识别出的信息与预设文本格式相匹配,则可以将该信息确定为结构化信息。
在确定预设抽取模板信息中的结构化信息之前需要首先建立预设抽取模板信息,如图3所示,为本申请实施例提供的一种建立预设抽取模板信息的方法的流程图,所述方法包括:
S111、从文本库中获取待处理样本,所述待处理样本为包含通用信息和特有领域信息的文本,所述通用信息为各领域文本中均可出现的信息,所述特有领域信息为仅在某一领域文本中出现的信息。
建立预设抽取模板信息所选用的待处理样本需要为同时包含通用信息和特有领域信息两类信息的文本,其中,通用信息包括时间、地点、人物、机构名、邮编、电话等,这类信息能够令待处理样本具有通用性,进而保证生成的预设抽取模板信息具有通用性;其中,特有领域信息包括:产权归属、分期支付、法律后果、连带责任等,这些信息都对应于特有的领域,例如,“产权归属”、“分期支付”对应于合同文本,“法律后果”、“连带责任”对应于法律文本等,这类特有领域信息能够令待处理样本具有特殊性,进而保证生成的预设抽取模板信息具有自己适用的类别,具有针对性,从而令文本有效信息的抽取也具有针对性,不仅能够提高文本有效信息抽取的准确性,还能够提高文本有效信息抽取的效率。
S112、利用语义分析法,提取所述待处理样本中通用信息所对应的通用关键词,以及特有领域信息所对应的特有关键词。
利用语义分析法,将各待处理样本划分为若干词组,并从这些词组中筛选出符合预设通用信息语义范围的通用关键词,以及符合预设特有领域信息语义范围的特有关键词。
S113、训练同类待处理样本的通用关键词和特有关键词,生成领域抽取模板信息,所述同类待处理样本为具有同一特有领域的各待处理样本。
首先,将具有同一特有领域的各个同类待处理样本汇总至一起,形成待处理样本组。然后,以待处理样本组为训练主体,分别训练各个待处理样本组内的同类待处理样本,生成该类待处理样本对应领域的领域抽取模板信息。经过上述训练过程,能够得到各个特有领域所对应的领域抽取模板信息,例如,合同文本领域抽取模板信息、法律文本领域抽取模板信息,课本文本领域抽取模板信息,试卷文本领域抽取模板信息等。
S114、从全部领域抽取模板信息中确定预设抽取模板信息,所述预设抽取模板信息为与待抽取文本信息具有相同特有领域的领域抽取模板信息。
针对当前的待抽取文本信息,需要选择相应领域的领域抽取模板信息,这样才能够有针对性的抽取待抽取文本信息中的有效信息,提高抽取准确性与效率。因此,在获得当前的待抽取文本信息之后,需要首先判断该待抽取文本信息的所属领域,进而确定与其具有相同特有领域的领域抽取模板信息,作为预设抽取模板信息。
在准确确定了预设抽取模板信息之后,开始对待抽取文本信息进行第一抽取。
S2、在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息。
首先,利用预设抽取模板信息中的结构化信息,对待抽取文本信息进行第一次抽取工作。通过计算待抽取文本信息中各个语句与S1中所确定的结构化信息之间的语义相似度,确定第一抽取信息,从而完成对待抽取文本信息的第一次抽取工作。
例如:
结构化信息:邮编:抽取邮编
待抽取文本信息:甲公司邮编:10000;
甲公司传真:123456;
甲公司电话:000-004012;
甲公司的邮编为10000。
其中,“甲公司邮编”和“甲公司的邮编为10000”与“邮编”的语义相似度均为1,而“甲公司传真”和“甲公司电话”与“邮编”的语义相似度均为0,假设预设相似度阈值为0.9,显然,“甲公司邮编”和“甲公司的邮编为10000”与“邮编”的语义相似度大于预设相似度阈值,因此,根据抽取规则“抽取邮编”,得到抽取结果“10000”,则“10000”为第一抽取信息。
具体地,如图4所示,为本申请实施例提供的一种确定第一抽取信息的方法的流程图,所述方法包括:
S201、划分待抽取文本信息为若干单句;
S202、从所述结构化信息中提取待比较信息,所述待比较信息为位于结构化信息中特殊符号之前,或者特殊符号之后的字符;
S203、计算所述单句与各待比较信息的字相似度和词相似度;
S204、结合所述字相似度和所述词相似度,计算单句与待比较信息的语义相似度;
S205、确定第一抽取信息,所述第一抽取信息为语义相似度大于预设相似度阈值的全部单句。
例如:
结构化信息:邮编:抽取邮编
待抽取文本信息:甲方位于武汉市洪山区的科技创新园区,邮编为10000,并保证能够为乙方提供相应的服务与技术支持,同时乙方需要支付相应的预付款和尾款。
首先,将待抽取文本信息划分为单句,得到“甲方位于武汉市洪山区的科技创新园区”,“邮编为10000”,“并保证能够为乙方提供相应的服务与技术支持”,“同时乙方需要支付相应的预付款和尾款”。
然后,从结构化信息中提取待比较信息,可见,本实施例所提供的结构化信息中的特殊符号为“:”,则位于“:”之前的“邮编”即为待比较信息。需要注意的是,待比较信息也可以为特殊符号之后的字符,或者文本格式中指定位置的字符,具体参见实际设定。同时,S201与S202所代表的步骤没有先后顺序,可以根据实际情况选择合适的先后顺序,或者并行。
利用下式计算各个单句与待比较信息的语义相似度,
其中,sentenceSimword代表单句与待比较信息的词相似度,代表单句中的词,代表待比较信息中的词,sentenceSimchar代表单句与待比较信息的字相似度,/>代表单句中的字,/>代表待比较信息中的字,sentenceSim代表单句与待比较信息的语义相似度。
通过计算得到各个单句与待比较信息的语义相似度分别为0,1,0,0。
假设预设相似度阈值为0.9,可见,“邮编为10000”符合预设相似度阈值,则“邮编为10000”为第一抽取信息。
进一步地,通过上述步骤确定的第一抽取信息中仍然包含一些无用信息,例如“邮编为”,如果抽取过多的无用信息,仍然会为抽取后的工作带来巨大的工作量。因此,需要进一步剔除第一抽取信息中的无用信息。如图5所示,为本申请实施例提供的一种剔除第一抽取信息中无用信息的方法的流程图,所述方法包括:
S206、利用语义分析法,划分各待抽取单句为若干词组,所述待抽取单句为语义相似度大于预设相似度阈值的单句;
S207、计算各词组与抽取规则的相似度,得到词组相似度,所述抽取规则为结构化信息中待比较信息以外的字符;
S208、从各待抽取单句中剔除无用词组,得到有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;
S209、确定第一抽取信息,所述第一抽取信息为全部有效单句的集合。
例如,上述示例中得到的第一抽取信息“邮编为10000”,在这里对应为待抽取单句。利用语义分析法,能够将其划分为“邮编”、“为”、“10000”三个词组。结构化信息“邮编:抽取邮编”中的抽取规则为“抽取邮编”,通过语义分析可知,抽取规则为抽取邮编的数字编号。计算每个词组与抽取规则之间的相似度,可以得到词组相似度依次为0.6,0,1。假设预设词组相似度阈值为0.9,则“邮编”和“为”为无用词组,因此,需要从待抽取单句“邮编为10000”中剔除。最后,得到第一抽取信息为“10000”。
可见,由本申请实施例得到的第一抽取信息中仅包含精简的有效信息,而不相关的无用信息全部被剔除,这令第一抽取信息的字符量大大缩减,且精准度大大提高,从而能够有效减轻后续工作的工作量。
依据预设抽取模板信息中的结构化信息对待抽取文本信息进行第一次抽取之后,仅能够抽取与结构化信息相对应的有效信息,但是预设抽取模板信息中还有部分非结构化信息,同样需要针对这些非结构化信息,对待抽取文本信息进行第二次抽取工作。
S3、确定所述预设抽取模板信息中非结构化信息对应的正则表达式。
预设抽取模板信息中包含部分非结构化信息,这些非结构化信息不存在特定的文本格式,因此,根据这些非结构化信息,抽取待抽取文本信息的首要步骤应为确定非结构化信息所表达的意思,即需要先对非结构化信息进行语义分析,然后再根据语义分析的结果,确定待抽取文本信息中与其语义相似度高的信息作为第二抽取信息。但是,对非结构化信息进行语义分析的过程比较繁琐,且耗时时间较长,会降低文本有效信息的抽取效率。由于部分非结构化信息具有可统一性,即这些非结构化信息可以利用特定的正则表达式代替,因此,只要确定这部分非结构化信息对应的正则表达式,再利用这些正则表达式去匹配待抽取文本信息,就可以轻松确定待抽取文本信息中与该非结构化信息对应的文本信息。
具体地,如图6所示,为本申请实施例提供的一种确定正则表达式的方法的流程图,所述方法包括:
S301、利用语义分析法,划分所述非结构化信息为若干词组;
S302、结合各词组的语义和各词组在非结构化信息中的位置,生成对应的正则表达式。
例如,非结构化信息为“产权归属”,利用语义分析法,能够将其划分为“产权”、“归属”两个词组。“产权”的语义即为对财产的所有权、占有权、支配权、使用权、收益权和处置权的文字描述;“归属”的语义即为××归**所有的文字及格式描述。显然,“产权”对应于××的位置,因此,能够对应生成正则表达式为'归(?:.{0,3})所有,其中,“’”用于识别待抽取文本信息中关于产权的描述文字,“归(?:.{0,3})所有”用于识别待抽取文本信息中关于归属的描述文字及格式。
以下示例为本实施例提供的几种非结构化信息对应的正则表达式:
“时间”对应的正则表达式为[在|自](.)*\d+(.)*[日|月|年|天][内|后|止]
“大写金额”对应的正则表达式为[壹|贰|叁|肆|伍|陆|柒|捌|玖](.)*[拾|佰|仟|万|厘|分|角]
“小写金额”对应的正则表达式为\d+(,\d+)*(\.\d+)*万*元,或者¥\d+(,\d+)*(\.\d+)
“产权归属”对应的正则表达式为'归(?:.{0,3})所有
“分期占比”对应的正则表达式为支付.*([\d\.]{1,4}[%%]|[千百]分之[一二三四五六七八九十]+)
“违约情况”对应的正则表达式为(由于|如?因)[甲乙]方[^,。;]*?(导致|致使|造成)[^,。;;]*,
“违约金百分比”对应的正则表达式为[甲乙]方[^,。]*向[乙甲]方支付[^,。]*[款额]的?([\d\.]{1,4}[%%]|[千百]分之[一二三四五六七八九十]+)的?(作为|逾期)?违约金'
可见,在S1给出的示例中,虽然“金额:抽取大写金额、小写金额”属于结构化信息的抽取范围,但是,只有待抽取文本信息中包含金额或者相近语义的词语、短语、短句时,例如,甲方金额:10000元,才能够通过对比语义相似度,从待抽取文本信息中确定第一抽取信息。如果待抽取文本信息中没有能够用于对比语义相似度的词语、短语、短句时,则无法通过S2的步骤来确定第一抽取信息,例如,甲方提供10000元。可见,如果仅靠S1和S2提供的抽取方法,则会遗漏此处的有效信息。但是,可以将“金额:抽取大写金额、小写金额”中的“大写金额”与“小写金额”单独作为非结构化信息,并确定其对应的正则表达式[壹|贰|叁|肆|伍|陆|柒|捌|玖](.)*[拾|佰|仟|万|厘|分|角],以及\d+(,\d+)*(\.\d+)*万*元,或者¥\d+(,\d+)*(\.\d+),进而通过正则表达式,可以从待抽取文本信息中匹配到相应的抽取信息,而无需计算语义相似度。
再如,“违约金百分比”这一预设抽取模板信息,其为典型的非结构化信息,如果通过语义分析,首先对其进行关键词划分,得到“违约金”和“百分比”,并通过语义分析理解两个关键词相结合的语义,最后,再计算待抽取文本信息中各个语句与“违约金百分比”的语义相似度。但是,往往会利用大量的字符描述违约金百分比,因此,如果要计算语义相似度,则会比较困难。如果首先确定“违约金百分比”对应的正则表达式[甲乙]方[^,。]*向[乙甲]方支付[^,。]*[款额]的?([\d\.]{1,4}[%%]|[千百]分之[一二三四五六七八九十]+)的?(作为|逾期)?违约金',则可以根据正则表达式,匹配待抽取文本信息,从而确定相应的抽取信息,而无需计算语义相似度。
S4、结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息。
具体地,如图7所示,为本申请实施例提供的一种确定第二抽取信息的方法的流程图,所述方法包括:
S401、从所述待抽取文本信息中剔除所述第一抽取信息,得到二次待抽取文本信息;
S402、利用语义分析法,划分所述二次待抽取文本信息为若干单句;
S403、匹配所述单句与各正则表达式,确定有效单句,所述有效单句为与正则表达式的匹配度大于预设匹配度阈值的单句;
S404、确定第二抽取信息,所述第二抽取信息为全部有效单句的集合。
由于经S1-S2已经从待抽取文本信息中成功抽取了部分有效信息,这些有效信息无需再次被分析和抽取,因此,为了提高抽取效率,在进行第二次抽取之前,需要首先从待抽取文本信息中剔除第一抽取信息,得到用于第二次抽取的二次待抽取文本信息。
例如,二次待抽取文本信息为:
在系统客户化定制项目中使用到乙方自主开发并在项目启动前已开发完成的产品,其知识产权归乙方所有,甲方及甲方控股的机构拥有此产品非排他的永久使用权。
利用语义分析法,能够将二次待抽取文本信息划分为“在系统客户化定制项目中使用到乙方自主开发并在项目启动前已开发完成的产品”,“其知识产权归乙方所有”,“甲方及甲方控股的机构拥有此产品非排他的永久使用权”三个单句。
非结构化信息为:
产权归属
其对应的正则表达式为'归(?:.{0,3})所有
将三个单句分别与该正则表达式进行匹配,得到匹配度依次为0.1,1,0.4,假设预设匹配度阈值为0.9,则显然“其知识产权归乙方所有”为有效单句,“其知识产权归乙方所有”应为第二抽取信息。
每个非结构化信息所对应的正则表达式都具有特殊性,即同一个非结构化信息可以对应多个正则表达式,但是同一个正则表达式不能够对应多个非结构化信息,这也就保证了,利用正则表达式能够从待抽取文本信息中准确匹配到与非结构化信息相对应的第二抽取信息,而不会混入无关信息,能够提高抽取信息的准确性。对于文本中如合同、法律文件等严谨性要求较高的文本类型,利用正则表达式抽取有效信息非常必要,能够有效满足此类文本的严谨性。
同时,通过上述示例可以了解到,经过S1-S2中计算与结构化信息的语义相似度抽取信息后,为了避免出现抽取遗漏的问题,不仅需要针对非结构化信息进行抽取,同时,需要对待抽取文本信息中实际与结构化信息相对应,但是并未通过S1-S2的步骤被成功抽取的有效信息,利用正则表达式匹配的方法,进行补漏式的确定和抽取,从而有效避免有效信息的抽取遗漏,进而提高文本有效信息的抽取准确性。
进一步地,通过上述步骤确定的第二抽取信息中仍然包含一些无用信息,例如“其知识产权归乙方所有”,中“其知识产权”即为无用信息。如果抽取过多的无用信息,仍然会为抽取后的工作带来巨大的工作量。因此,需要进一步剔除第一抽取信息中的无用信息。如图8所示,为本申请实施例提供的一种剔除第二抽取信息中无用信息的方法的流程图,所述方法包括:
S405、利用语义分析法,划分各所述有效单句为若干词组;
S406、计算各词组与相应非结构化信息的词组相似度;
S407、从各有效单句中剔除无用词组,得到最终有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;
S408、确定第二抽取信息,所述第二抽取信息为全部最终有效单句的集合。
例如有效单句为“其知识产权归乙方所有”,利用语义分析法,可以将其划分为“其”、“知识产权”、“归…所有”、“乙方”四个词组。通过语义分析可知,非结构化信息为“产权归属”的语义应为“产权的归属者”,可见归属者为对应的重点。计算各个词组与非结构化信息的词组相似度依次为0,0.1,0.5,1,假设预设词组相似度阈值为0.9,可见,“其”、“知识产权”、“归…所有”均为无用词组,需要从有效单句中剔除,剔除后得到最终有效单句为“归乙方所有”,即为第二抽取信息。
可见,由本申请实施例得到的第二抽取信息中仅包含精简的有效信息,而不相关的无用信息全部被剔除,这令第二抽取信息的字符量大大缩减,且精准度大大提高,从而能够有效减轻后续工作的工作量。
S5、利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
经过上面两次抽取工作,能够抽取待抽取文本信息中的部分有效信息,但是预设抽取模板信息中还有部分信息既不属于结构化信息,又没有对应的正则表达式,对于这部分信息,可以采用自然语言处理工具和深度学习模型,直接从待抽取文本信息中抽取。
具体地,如图9所示,为本申请实施例提供的一种确定第三抽取信息的方法的流程图,所述方法包括:
S501、从所述二次待抽取文本信息中剔除所述第二抽取信息,得到三次待抽取文本信息;
S502、利用自然语言处理工具,从所述三次待抽取文本信息中提取第一待抽取文本信息;
S503、利用深度学习模型,从所述第三次待抽取文本信息中提取第二待抽取文本信息;
S504、确定第三抽取信息,所述第三抽取信息为所述第一待抽取文本信息与所述第二待抽取文本信息中字符长度较长的文本信息。
首先,从二次待抽取文本信息中剔除已经抽取成功的第二抽取信息,获得需要进行第三次抽取的三次待抽取文本信息。
使用自然语言处理工具直接从三次待抽取文本信息中抽取有效信息,例如CRF(Conditional Random Fields,条件随机场)模型,具体地,通过对各个语句进行词性标注,以及命名实体的识别,进而对三次待抽取文本信息中与预设抽取模板信息相关的信息进行识别和确定,例如时间、人名、地名、机构名等,得到第一待抽取文本信息。
使用深度学习模型直接从三次待抽取文本信息中抽取有效信息,例如BiLSTM-CRF(序列标注)模型,具体地,在BiLSTM-CRF的表示层将每个语句表示为词向量和字向量,向BiLSTM-CRF的BiLSTM层输入词向量和字向量,并由该层输出每个语句的每个词对应的所有标签的得分,BiLSTM-CRF中的CRF层以上述得分作为原始CRF模型的参数,最终获得标签序列的概率。进而根据各标签序列的概率,在三次待抽取文本信息中确定第二待抽取文本信息。
由上述两种方法得到的第一待抽取文本信息和第二待抽取文本信息之间会存在字符长度的差异,默认字符长度越长,所包含的有效信息越全面。因此,在第一待抽取文本信息和第二待抽取文本信息中选择字符长度较长的信息作为第三抽取信息。
本实施例所提供的自然语言处理工具和深度学习模型不仅能够对第一次抽取和第二抽取做补漏式抽取,同时,由于LSTM模型能够考虑输入序列(语句)的上下文信息,CRF模型能够考虑各个参数之前的依赖关系,因此,令所抽取的有效信息更加贴近真实语义情况,进而有效提高有效信息的抽取准确性。
S6、生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
将S1-S5获得的第一抽取信息、第二抽取信息和第三抽取信息汇总,生成最终抽取信息,并对最终抽取信息进行保存,留待之后的应用和处理,例如用于审核、验收等工作。
图10为本申请实施例提供的一种文本有效信息的抽取装置的示意图。该装置可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种可操作设备中。
如图10所示,该装置包括:
结构化信息确定模块1,用于确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;
第一抽取信息确定模块2,用于在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;
正则表达式生成模块3,用于确定所述预设抽取模板信息中非结构化信息对应的正则表达式;
第二抽取信息确定模块4,用于结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;
第三抽取信息确定模块5,用于利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
最终抽取信息生成模块6,用于生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
由以上技术可知,本申请提供了一种文本有效信息的抽取方法及装置,首先,确定预设抽取模板信息中的结构化信息;在待抽取文本信息中确定出与结构化信息的语义相似度大于预设相似度阈值的第一抽取信息。然后,确定预设抽取模板信息中非结构化信息对应的正则表达式,并结合各所述正则表达式,确定待抽取文本信息中与正则表达式相匹配的第二抽取信息。之后,利用自然语言处理工具和深度学习模型,确定待抽取文本信息中与预设抽取模板信息相匹配的第三抽取信息。最后,汇总第一抽取信息、第二抽取信息和第三抽取信息,生成最终抽取信息。可见,本申请所提供的文本有效信息的抽取方法及装置能够通过递进式的抽取方法,针对不同的文本情况采用不同的抽取方法,不遗漏地抽取整体文本中的有效信息,进而有效提高文本有效信息的抽取准确率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (9)

1.一种文本有效信息的抽取方法,其特征在于,所述方法包括:
从文本库中获取待处理样本,所述待处理样本为包含通用信息和特有领域信息的文本,所述通用信息为各领域文本中均可出现的信息,所述特有领域信息为仅在某一领域文本中出现的信息;
利用语义分析法,提取所述待处理样本中通用信息所对应的通用关键词,以及特有领域信息所对应的特有关键词;
训练同类待处理样本的通用关键词和特有关键词,生成领域抽取模板信息,所述同类待处理样本为具有同一特有领域的各待处理样本;
从全部领域抽取模板信息中确定预设抽取模板信息,所述预设抽取模板信息为与待抽取文本信息具有相同特有领域的领域抽取模板信息;
确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;
在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;
确定所述预设抽取模板信息中非结构化信息对应的正则表达式;
结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;
利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
2.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中的结构化信息包括:
利用文本结构模型,识别所述预设抽取模板信息中各有效信息的文本结构;
匹配所述文本结构与预设文本格式,确定结构化信息。
3.根据权利要求1所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息包括:
划分待抽取文本信息为若干单句;
从所述结构化信息中提取待比较信息,所述待比较信息为位于结构化信息中特殊符号之前,或者特殊符号之后的字符;
计算所述单句与各待比较信息的字相似度和词相似度;
结合所述字相似度和所述词相似度,计算单句与待比较信息的语义相似度;
确定第一抽取信息,所述第一抽取信息为语义相似度大于预设相似度阈值的全部单句。
4.根据权利要求3所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息还包括:
利用语义分析法,划分各待抽取单句为若干词组,所述待抽取单句为语义相似度大于预设相似度阈值的单句;
计算各词组与抽取规则的相似度,得到词组相似度,所述抽取规则为结构化信息中待比较信息以外的字符;
从各待抽取单句中剔除无用词组,得到有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;
确定第一抽取信息,所述第一抽取信息为全部有效单句的集合。
5.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中非结构化信息对应的正则表达式包括:
利用语义分析法,划分所述非结构化信息为若干词组;
结合各词组的语义和各词组在非结构化信息中的位置,生成对应的正则表达式。
6.根据权利要求1所述的方法,其特征在于,所述结合各正则表达式,确定待抽取文本信息中的第二抽取信息包括:
从所述待抽取文本信息中剔除所述第一抽取信息,得到二次待抽取文本信息;
利用语义分析法,划分所述二次待抽取文本信息为若干单句;
匹配所述单句与各正则表达式,确定有效单句,所述有效单句为与正则表达式的匹配度大于预设匹配度阈值的单句;
确定第二抽取信息,所述第二抽取信息为全部有效单句的集合。
7.根据权利要求6所述的方法,其特征在于,所述结合各正则表达式,确定待抽取文本信息中的第二抽取信息还包括:
利用语义分析法,划分各所述有效单句为若干词组;
计算各词组与相应非结构化信息的词组相似度;
从各有效单句中剔除无用词组,得到最终有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;
确定第二抽取信息,所述第二抽取信息为全部最终有效单句的集合。
8.根据权利要求6所述的方法,其特征在于,所述利用自然语言处理工具和深度学习模型,确定待抽取文本信息中的第三抽取信息包括:
从所述二次待抽取文本信息中剔除所述第二抽取信息,得到三次待抽取文本信息;
利用自然语言处理工具,从所述三次待抽取文本信息中提取第一待抽取文本信息;
利用深度学习模型,从所述第三次待抽取文本信息中提取第二待抽取文本信息;
确定第三抽取信息,所述第三抽取信息为所述第一待抽取文本信息与所述第二待抽取文本信息中字符长度较长的文本信息。
9.一种用于实现权利要求1所述的方法的文本有效信息的抽取装置,其特征在于,所述装置包括:
结构化信息确定模块,用于确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;
第一抽取信息确定模块,用于在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;
正则表达式生成模块,用于确定所述预设抽取模板信息中非结构化信息对应的正则表达式;
第二抽取信息确定模块,用于结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;
第三抽取信息确定模块,用于利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;
最终抽取信息生成模块,用于生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
CN201910430073.7A 2019-05-22 2019-05-22 文本有效信息的抽取方法及装置 Active CN110348003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430073.7A CN110348003B (zh) 2019-05-22 2019-05-22 文本有效信息的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430073.7A CN110348003B (zh) 2019-05-22 2019-05-22 文本有效信息的抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110348003A CN110348003A (zh) 2019-10-18
CN110348003B true CN110348003B (zh) 2023-10-17

Family

ID=68174634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430073.7A Active CN110348003B (zh) 2019-05-22 2019-05-22 文本有效信息的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110348003B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310423B (zh) * 2020-02-28 2023-11-03 鼎富智能科技有限公司 一种文本信息生成方法及装置
CN111400451B (zh) * 2020-03-16 2023-05-09 北京百度网讯科技有限公司 信息抽取方法、信息抽取装置和电子设备
CN113111238A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的极端行为识别方法与装置、设备及介质
CN111639487A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN109460551A (zh) * 2018-10-29 2019-03-12 北京知道创宇信息技术有限公司 签名信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
正则表达式及其在信息抽取中的应用;张静等;《电脑知识与技术》;20090525(第15期);全文 *

Also Published As

Publication number Publication date
CN110348003A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110348003B (zh) 文本有效信息的抽取方法及装置
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
Shaalan et al. NERA: Named entity recognition for Arabic
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
Almeman et al. Automatic building of arabic multi dialect text corpora by bootstrapping dialect words
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
KR20110083623A (ko) 음역을 위한 기계 학습
CN111783449B (zh) 一种裁判文书中判决结果的要素提取方法及装置
US20140149106A1 (en) Categorization Based on Word Distance
CN112258144B (zh) 基于自动构建目标实体集的政策文件信息匹配和推送方法
Béchet et al. Detecting and extracting named entities from spontaneous speech in a mixed-initiative spoken dialogue context: How May I Help You? sm, tm
Ingólfsdóttir et al. Named entity recognition for icelandic: Annotated corpus and models
CN111259645A (zh) 一种裁判文书结构化方法及装置
CN112257442B (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN107656909B (zh) 一种基于文档混合特征的文档相似度判定方法和装置
Lu et al. Language model for Mongolian polyphone proofreading
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
Rytting et al. DECCA Repurposed: Detecting transcription inconsistencies without an orthographic standard
CN113779230B (zh) 一种基于法条理解的法条推荐方法、系统及设备
CN115310462B (zh) 一种基于nlp技术的元数据识别翻译方法及系统
CN117556050B (zh) 数据分类分级方法、装置、电子设备及存储介质
Loftsson Named Entity Recognition for Icelandic: Annotated Corpus and Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant