CN108170715B - 一种文本结构化处理方法 - Google Patents

一种文本结构化处理方法 Download PDF

Info

Publication number
CN108170715B
CN108170715B CN201711251130.2A CN201711251130A CN108170715B CN 108170715 B CN108170715 B CN 108170715B CN 201711251130 A CN201711251130 A CN 201711251130A CN 108170715 B CN108170715 B CN 108170715B
Authority
CN
China
Prior art keywords
text
information
user
classification
entered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711251130.2A
Other languages
English (en)
Other versions
CN108170715A (zh
Inventor
朱敬华
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201711251130.2A priority Critical patent/CN108170715B/zh
Publication of CN108170715A publication Critical patent/CN108170715A/zh
Application granted granted Critical
Publication of CN108170715B publication Critical patent/CN108170715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本处理技术领域,提供了一种文本分类内容提取方法,包含步骤确定所述分类项目;对所述文本进行格式化处理,得到预处理文本;从所述预处理文本中获取各所述分类项目对应的初始内容;分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容。此外,基于所述文本分类内容提取方法,本发明还提供一种文本结构化处理方法。基于本发明所提供的技术方案,可实现对普通格式文本的规范化处理,不仅包括对文本整体的格式的统一整理,使其能更好的应用于计算机的分析处理,还包括针对文本个体的差异类信息进行规范化处理,使得最终对于该些文本的分析统计更加准确。

Description

一种文本结构化处理方法
技术领域
本发明关于文本处理技术领域,尤其涉及一种文本分类内容提取方法及文本结构化处理方法。
背景技术
书面语言是指人们在书写和阅读文章时所使用的语言,它是在口语的基础上发展来的,是在文字产生之后才出现的,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。
文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。广义“文本”:任何由书写所固定下来的任何话语。狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。简单来说,人们日常工作生活中使用到的使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。
文本也是计算机的一种文档类型,该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。
计算机技术的应用范围越来越广泛和深入,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等,都可以从网络上获取到同类型的范本,再根据实际应用情况进行调整,用户便可进行使用。
随着大数据时代的到来,数据的处理和分析都需依赖于历史文本数据,但就算是相同类型的各历史文本中也会存在个体化差异,例如,同公司的两位不同员工的劳动合同,虽然大体的条款内容相同,但员工信息、入职时间、薪资情况或多或少都会存在差异,为了能够准确的获取到相关信息,不仅需要对文本的结构化特征进行提取归纳,还应实现对个体差异信息的捕获,以便于信息统计或者后续的使用,然而为了满足这些需求,需要结合多种技术手段来实现,其中具体的实现方法是目前正在探索的方向。
发明内容
为了实现文本的结构化处理,首先需对待处理的文本进行初始化处理,以为后续其他处理提供良好的基础,因此,本发明提供了一种文本分类内容提取方法,包含步骤:
确定所述分类项目;
对所述文本进行格式化处理,得到预处理文本;
从所述预处理文本中获取各所述分类项目对应的初始内容;
分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容。
在一实施方式中,所述对所述文本进行格式化处理包含将所述文本格式转化为文本格式,并进行分句处理。
在一实施方式中,所述从所述预处理文本中获取各所述分类项目对应的初始内容包含利用正则表达式或关键词搜索从所述预处理文本中获得各所述分类项目对应的初始内容。
在一实施方式中,所述分别对各个所述分类项目对应的初始内容进行确认包含基于支持向量机分类器对所述初始内容进行分类识别。
此外,基于上述文本分类内容提取方法,本发明还提供了一种文本结构化处理方法,包含步骤:
基于上述文本分类内容提取方法对所述文本进行分类内容提取,以获得包含所述文本的分类项目及各所述分类项目对应内容的规范化文本;
预测所述规范化文本中的用户录入位置;
基于所述用户录入位置获取用户录入信息,并对所述用户录入信息进行规范化处理。
在一实施方式中,预测所述规范化文本中的用户录入位置包含步骤:
确定所述文本与历史样本的相似度;
判断所述相似度的最高值是否大于预设阈值;
若大于,则选取相似度最高的所述历史样本为参考样本,基于所述参考样本的录入位置预测所述文本中的录入位置;
若不大于,则基于预设神经网络模型对所述用户录入位置进行预测。
在一实施方式中,所述基于预设神经网络模型对所述用户录入位置进行预测包含步骤:
将所述规范化文本内容转换成多个序列;
基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值;
根据所述输出值确定所述用户录入位置。
在一实施方式中,所述文本为合同文本,所述用户录入信息包含付款信息,其中所述基于所述用户录入位置获取用户录入信息,并对所述用户录入信息进行规范化处理包含对所述用户录入信息中的所述付款信息进行规范化处理。
在一实施方式中,所述对所述用户录入信息中的所述付款信息进行规范化处理具体包含步骤:
从所述规范化文本中分别提取出与所述金额信息和所述付款方式相关的语句;
从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;
从所述付款方式相关的语句中提取出所述付款方式,包括:
对所述付款方式相关的语句进行句法分析;
在所述句法分析结果上进行语义角色标注;
基于预设的推理逻辑获取所述付款方式。
此外,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文本分类内容提取方法。
以及一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文本结构化处理方法。
综上所述,基于本发明所提供的技术方案,可实现对普通格式文本的规范化处理,不仅包括对文本整体的格式的统一整理,使其能更好的应用于计算机的分析处理,还包括针对文本个体的差异类信息进行规范化处理,使得最终对于该些文本的分析统计更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1绘示本发明一较佳实施例所提供的文本分类内容提取方法流程图;
图2绘示本发明另一较佳实施例所提供的文本结构化处理方法流程图;
图3绘示图2所示实施例中步骤S202的方法流程图;
图4绘示图3所示实施例中步骤S301的方法流程图;
图5绘示图3所示实施例中步骤S304的具体实现方法流程图;
图6绘示图5所示实施例中获得预设神经网络模型的训练方法流程图;
图7绘示图6所示实施例中步骤S602中设定每个输入值对应的输出值的方法流程图;
图8绘示图2所示实施例中对所述用户录入信息中的付款信息进行规范化处理方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明所提供的技术方案较佳的,可应用于具有规范格式、包含用户录入内容及固定内容的行业文本,例如合同、协议、证明文件等。本说明书中将以合同为例,对本发明所提供的技术方案进行详细说明。值得注意的是,本发明所提供的技术方案的应用范围并不限于此。
实施例一:
请参照图1,图1绘示本发明一较佳实施例所提供的文本分类内容提取方法流程图。如图1所示,所述方法具体包含以下步骤:
S101,确定所述分类项目。
具体而言,确定所述分类项目也就是确定对文本内容的分类进行梳理,并确定各分类项目,以合同文本为例,可基于语义框架理论,根据合同内容结构化抽取的项目需求,制定出相应的合同表示方法,每一份合同由标题(title),头部(head),条款(clauses),底部(bottom)四大部分组成,也就是说一份合同文本的分类项目包含标题(title),头部(head), 条款(clauses)和底部(bottom)。
由此可见,文本的分类项目确定,首先可基于文本本身的结构特征进行提取基本框架,再根据实际项目需求来设定分类粒度,以最终确定分类项目。
S102,对所述文本进行格式化处理,得到预处理文本。
日常使用的文本,尤其是合同、证明文件之类的,大多数都是Word文档格式,由于Word 文档格式的文本中包含了很多格式信息,不利于对文本内容的提取。对所述文本进行格式化处理包含将文本格式转化为文本(.txt)格式,并进行分句处理,使得文本内容由单独的句子组成,从而消除文档格式对内容提取的影响,以便于后续的信息处理。
S103,从所述预处理文本中获取各所述分类项目对应的初始内容。
通过上述步骤确认了文本的分类项目,并得到预处理文本,从所述预处理文本中获取各所述分类项目对应的初始内容的方法,可包含利用正则表达式或关键词搜索技术从所述预处理文本中获得各所述分类项目对应的初始内容。
值得注意的是,由于无论是基于正则表达式技术,还是关键词搜索技术来获取分类项目对应的内容,都会出现不准确、或者一个分类项目对应多项内容的情况,所以在本步骤中得到的为各分类项目对应的初始内容,后续还需对其进行筛选和确认。
S104,分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容。
具体的,可基于支持向量机(SVM)分类器分别对各分类项目对应的初始内容进行分类识别。其中SVM分类器是基于大量历史样本训练得到的,可较准确的分辨出初始内容的是否属于对应的分类。
在具体的实现过程中,svm分类器对结果的识别判断有1或0两种,0代表不相关信息,但结果为1的也会有多条结果,此时再根据置信度或者概率,选择结果为1且置信度或者概率最高的结果为分类项目对应的分类内容。
通过上述步骤对文本的初始化处理,可获得文本的分类项目及各分类项目对应的分类内容,且对表示格式也进行了调整,使得初始化的内容可直接转换成数据库等表示方式,以为后续的统计、分析等处理提供基础。
实施例二:
请参照图2,图2绘示本发明另一较佳实施例所提供的文本结构化处理方法流程图。如图2所示,所述方法具体包含以下步骤:
S201,基于图1所示实施例提供的文本分类内容提取方法对所述文本进行分类内容提取,以获得包含所述文本的分类项目及各所述分类项目对应内容的规范化文本。
其中,具体的实现方法可参照实施例一,在此不再赘述。
S202,预测所述规范化文本中的用户录入位置。
如上文所述,虽然同类型的文本,个体之间还是存在差异,以合同为例,两份购房合同,可能结构、条款等信息大部分相同,用户信息、交易信息等具体的信息总是存在差异,而这些有差异的信息往往是根据实际情况,用户手工填写的,众所周知,中文表达方式多种多样,就算了相同的含义,最终的文字记录也会存在差异,例如表示合同金额的语句,可能包含“总额1万元”、“总金额10000元”或“总计壹万元整”等,然而,计算机在做信息统计时,往往只能通过简单的格式或固定特征来获取该些信息,如果直接对该些信息进行处理,容易出现偏差,基于此,在文本结构化处理的过程中,需要考虑到这些因素,发现并统一这些表达方式,以提供后续信息的统计和分析的准确性。
本发明所提供的实施例中,预测所述规范化文本中的用户录入位置的具体方法可参照图 3,图3绘示图2所示实施例中步骤S202的方法流程图。如图3所示预测所述规范化文本中的用户录入位置的具体方法可包含步骤:
S301,确定所述文本与历史样本的相似度。
其中所述相似度的具体计算方法可参照图4,图4绘示图3所示实施例中步骤S301的方法流程图,如图4所示,所述文本相似度计算方法包含步骤:
S401,对待比较的第一文本和第二文本进行预处理,得到所述第一文本和所述第二文本中分别包含的属性值。
S402,基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度。
S403,基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。
具体而言,在本实施例中,步骤S401中的待比较的第一文本为上述待处理文本,第二文本为上述历史样本。对该两份文本的预处理具体包含分别对待处理文本和历史样本进行分词处理,其中,在进行分词处理之后,将基于行业词典对分词结果进行校验,其中行业词典的选取与上述样本的选取类似,即根据实际的应用范围来选取或创建,例如贴近于待处理文本的行业词典来对分词结果进行校验,可较大程度的保证分词的正确率。
值得注意的是,在本方法中对待处理文本的分词处理和对历史样本的分词处理并非同步进行,历史样本的预处理在构建历史文本库时已完成并保存了结果,如此一来,将该些可预见的工作内容进行前置处理,则减轻了计算文本相似度时的处理任务量,提升了作业速度。
经过预处理后,基于分词结果可获得待处理文本和历史样本中各自包含的属性值。更进一步的,为了使得后续计算结果更加精准,可引入权重的概念,即对各个属性值进行权重设置,具体的,权重值的设置可根据分词出现的频率、经语义分析后在文本中的重要程度等维度进行考量,本发明对此并不作限制。
在步骤S402中,基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度的方法可包含,基于预设公式对文本中的属性值进行相似度的计算,具体公式如下:
Figure BDA0001491747410000051
其中,c1,c2分别表示所述第一文本,即待处理文本和第二文本,即历史样本,ci表示文本c的第i个属性,
Figure BDA0001491747410000052
为两份所述待比较文本对应属性的相似度,V(ci)表示文本第i个属性的值,
Figure BDA0001491747410000053
为所述待比较文本中对应属性值的相似度。
具体的,根据属性值的数据类型确定
Figure BDA0001491747410000054
的取值,其中,当所述属性值的数据类型为数字时,
Figure BDA0001491747410000055
取值为1;当所述属性值的数据类型为文本时,
Figure BDA0001491747410000056
的取值为根据预设文本训练模型计算出的结果。其中,预设文本训练模型可包含基于word2vec事先训练一个文本相似度计算模型。
如此一来,根据属性值的数据类型不同,设置不同的计算方法,可在一定程度上提升计算结果的准确性。
在步骤S403中,基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度的方法可包含,基于预设公式对文本中的属性值进行相似度的计算,具体公式如下:
Figure BDA0001491747410000057
其中,c1,c2分别表示第一文本,即待处理文本和第二文本,即历史样本,ci表示文本c 的第i个属性,wi为第i个属性的权重,S(c1,c2)为两份所述待比较文本的相似度,
Figure BDA0001491747410000061
为两份所述待比较文本中对应属性的相似度。
也就是说基于步骤S402中对每个属性值的相似度的计算结果,以及各个属性值对应的权重值最终可计算得出两个文本的相似度。
值得注意的是,图4所示的文本相似度计算方法的应用范围并不限于本发明所提供的实施例,也可以应用在其他需要对两个文件相似度进行计算的应用领域。其中的属性值的确定、权重的设定以及
Figure BDA0001491747410000062
函数的具体实现方法均可根据实际需求进行设定,并不受限于本说明书中揭露的内容。
S302,判断所述相似度的最高值是否大于预设阈值。
在完成所述文本与历史样本的相似度计算后,将所得到的各个相似度与预设阈值进行比较,以从众多历史样本中选择出可用于参考的历史样本。
S303,若大于,则选取相似度最高的所述历史样本为参考样本,基于所述参考样本的录入位置预测所述文本中的录入位置。
当有历史样本的相似度大于阈值时,则选择相似度最高的历史样本作为参考文本,来预测所述文本的录入位置。具体的,可基于参考文本的录入位置预测所述文本中的录入位置。其中,所述录入位置是指用户输入的内容的填写位置,例如合同文本中,甲方姓名、合同金额等根据实际情况填写的内容的位置。
S304,若不大于,则基于预设神经网络模型对所述用户录入位置进行预测。
请参照图5,图5绘示图3所示实施例中步骤S304的具体实现方法流程图,如图5所示,基于预设神经网络模型对所述用户录入位置进行预测的方法具体包含步骤:
S501,将所述规范化文本内容转换成多个序列。
其中,将文本内容转换成多个序列是指按照一定的预设规则,将文本内容拆分成具有一定顺序的数据列,本实施例中,所述序列的顺序为文本内容的前后顺序。文本内容转换的方式可包含按照句式结构对所述文本内容进行转换,以及按照内容特征对所述文本内容进行转换。采用不同的文本内容转换方式,得到的结果也可能会不同,在实际的应用过程中,可基于文本内容的具体特性来选取相应的方式。
S502,基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值。
首先,预设神经网络模型是基于历史样本数据,训练得到的。请参照图6,图6绘示图5 所示实施例中获得预设神经网络模型的训练方法流程图。如图6所示,获得所述预设神经网络模型的训练方法包含步骤:
S601,准备训练样本文本。其中,训练样本文本与待处理的文本(即待定位的)类型相同,所述类型相同可包含所属的大类相同,或类型完全相同,以合同为例,若待定位的合同为劳动合同,那么样本文本的选取可以为所有的合同,也可以是特意针对劳动合同而准备的。
可以理解的是,若训练样本文本的类型与待处理文本的相似度越高,那么以该些样本训练出的模型的应用精度较高,准确度也可能会在一定程度上有所提升,但该模型的应用范围就仅限于该类文本,比较受限;若训练样本文本的类型是在某一个大类上与待处理文本相同或者相近,那么其所包含的文本具有一定的多样性,基于该些样本训练出来的模型可能在针对该待处理文本的处理时得到的结果会有一定偏差,但其可应用的范围比较广,故训练样本的选取应综合考虑各方面因素来进行选取。若两种类型训练样本想要训练出针对同一待处理文本结果在很大程度上相同的话,那么第二种训练样本的数量可能比第一种训练样本的数量大很多。由此可见,训练样本的选取可以根据实际的应用需求和实现能力来确定。
S602,从所述样本中提取输入值,并设定每个输入值对应的输出值。
其中,在本实施例中,输入值的提取方法还包含,将所述训练样本文本转换成多个序列,其中每个序列为一个输入值。具体的转换方法可参照步骤S501中的文本内容转换方法,值得注意的是,从训练样本文本中提取得到输入值中所使用的文本内容转换方法与所述文本内容转换成多个序列的方法相一致。
如此一来,每一个训练样本文本都被拆分成多个序列,即提取出多个输入值,训练样本文本的数量也是大量的,从而获得了大量了输入值。
请参照图7,图7绘示图6所示实施例中步骤S602中设定每个输入值对应的输出值的方法流程图。如图7所示,所述方法包含步骤:
S701,设定标识录入点的识别信息。根据文本的类型不同,其所需录入的信息类型也不同,如述劳动合同,其中可能包含:生效日期、终止日期、薪资构成、个人信息等需要录入的信息,那么在这些信息出现的位置就可标记为录入点,也就是说,可以设定该些信息为识别信息,并通过该些识别信息来确定该序列中是否出现需要录入内容,以及内容的类型。具体的,以买卖合同为例,其中可以设定合同事项、合同金额、付款条件及付款进度、收款方信息、合同有效期中的一项或者多项为识别信息。
值得注意的是,识别信息的确定是基于具体的文本内容及应用需求进行设置的,各个类型的文本所设定的识别信息可能各不相同。
S702,判断所述输入值中是否包含所述识别信息。
其中,具体的判断方法,可以基于行业词典进行匹配来实现。
S703,根据所述判断结果和预设数据格式,获得所述对应的输出值。
由于识别信息可能会包含多种,那么可以采用向量的数据格式来记录一个输入值中是否包含各个识别信息。例如,上述买卖合同中,若设定识别信息包含合同事项、合同金额、付款条件及付款进度、收款方信息、合同有效期这五类,那么针对一个输入值,可以使用5维向量(0,0,0,0,1)来表示输出值,其中,0表示不包含,1表示包含,对应具体的识别信息来看,输出值(0,0,0,0,1)表示该条输入值中仅包含合同有效期,而不包含其他识别信息。
请再次回到图6,步骤S603,选取神经网络算法。
通过上述步骤,已经可获得用于训练神经网络模型的输入输出样本,选取合适的神经网络算法,才能获得更符合需求的训练模型,本发明的实施例中,选取RNN神经网络算法。RNN 神经网络有记忆功能,可以将上文的特征传递下来。每个合同是一个条款序列,合同内的条款之间有一定的关联性,所以具有记忆功能的网络效果更佳。具体的RNN网络可以选择LSTM 或者双向循环网络。
S604,基于所述训练样本,对所述神经网络算法进行训练,获得所述预设神经网络模型。
在经过上述准备之后,则可以基于输入值和输出值对神经网络算法进行训练,以获得神经网络模型,即所述预设神经网络模型。
值得注意的是,对在训练过程中,也需阶段性的对当前模型进行验证,以确定是否继续训练或停止。
请再次参考图5,步骤S503,根据所述输出值确定用户录入位置。
经过步骤S501和S502的处理后,待处理文本已转换成多个序列,即多个输入值。分别基于已获得的预设神经网络模型对该些输入值进行计算,获得相应的输出值,结合输出值和识别信息,则可获知该序列中是否包含录入点,从而实现对录入点的定位。
上述方法借助预先训练得到的神经网络模型可获知文本中的录入点的位置,并且可通过对识别信息的设置,可根据输出值确定该输入值即序列中是否包含录入点,以及所包含的录入信息的类型;由于序列拆分的方法可根据实际需求进行设定,故可通过对文本内容拆分方法的调整以及实际需求来确定录入点定位。
如此一来,当通过上述方法获知各序列中所包含的录入信息时,再基于序列所在文本中的位置,则可定位到录入点在文中的具体位置,以便于后续信息的处理。
请再次参照图2,步骤S203,基于所述用户录入位置获取用户录入信息,并对所述用户录入信息进行规范化处理。
基于上述步骤S201和S202可获得一个规范化文本,并对用户录入信息进行了定位,根据定位则可直接获取用户输入的内容,但是由于用户的表达方式不同,为了保证后续的统计或者分析的精准度,需对该些信息的表述方式进行统一。
以合同文本为例,在买卖合同中,用户录入信息中通常会包含付款信息,请参照图8,图8绘示图2所示实施例中对所述用户录入信息中的付款信息进行规范化处理方法流程图,所述方法具体包含如下步骤:
S801,从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句。
具体而言,合同文本具有一定的固定结构,但每个结构部分所包含的具体内容有所差异,一般而言,同类合同文本中,各部分包含的具体内容有些是固定的,而有些则需要通过用户基于实际情况进行输入,例如甲方、乙方的身份信息、合同生效日期、金额信息和付款方式等。
具体的通过上文所述的录入位置预测方法可获得用户录入信息,再基于关键词或正则表达式等方式确定与金额信息和付款方式相关的语句。
S803,从所述金额信息相关的语句中提取出所述金额信息。
具体而言,金额信息包含金额分类、金额数量和货币单位,以语句“本合同含税总金额: 74245元”为例,其中,“总额”表示金额分类,“74245”表示金额数量,“元”表示货币单位,那么从该语句从提取出的金额信息为“总额74245元”。由于合同中表示金额的方式有多种,通过提取出这三类信息,则可明确具体的金额信息,具体可参照表1,如下:
Figure BDA0001491747410000091
表1
如表1所示,各合同中的金额信息相关语句表述方式会存在差异,例如“总金额”、“总计”、“合计”等均表示金额分类为:总额。而语句“汽车配件销售(轮胎)元/个1850”总并没有直接与金额分类相关的词语,但可理解其表示的金额分类为:单价。
本实施例中,确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。其中预设的短文本分类器是基于大量合同文本训练得出的。
具体而言,通过句法分析可对语句的词语语法进行分析,再基于预设的短文本分类器对相关词语进行归类分析,从而确定语句中的金额分类。由于预设的短文本分类器是基于大量合同文本训练得出,故可更准确的对词语进行分类分析,从而得出更贴近实际的分析结果。
如上文所述,金额信息中更包含金额数量和货币单位,而该部分信息的提取主要借助条件随机场模型来实现。
具体而言,首先基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,之后基于特定标注获取金额信息,其中基于特定标注获取所述金额信息具体包含从所述序列化标注后的各元素中查找获得标注为数字和单位的元素,分别确认为所述金额信息中的金额数量和货币单位。其中,预设条件随机场模型是通过合同文本样本对条件随机场算法训练得出。
举例而言,语句“本合同含税总金额:74245元”,经过条件随机场模型进行序列化标注后得到结果“本/pron合同/noun含税/finance总金额/amount:/colon 74245/number元/unit”,其中标注“number”对应的元素为金额数量,“unit”对应的元素为货币单位,由此可从语句中提取出金额数量和货币单元。
如此一来,经过上述处理,可合同相关语句中提取出准确的金额信息,并使用统一的表达方式进行整理输出。
S805,从所述付款方式相关的语句中提取出所述付款方式。具体可包括以下步骤:
对所述付款方式相关的语句进行句法分析。
在所述句法分析结果上进行语义角色标注。
基于预设的推理逻辑获取所述付款方式。
具体的,以合同文本中的付款方式相关语句为例,具体语句内容如下:
“1、付款方式,选择第1种
1)甲方交货并经乙方验收合格,甲方开具由国家税务局监制的正式发票后3个工作日内,乙方通过银行转账一次性付清货款。
2)签订合同后,预付定金30000元整,甲方交货并经乙方验收合格后3个工作日内付清尾款。
3)其他约定。”
首先,对“1、付款方式,选择第1种”这个句子,进行句法分析,再基于句法分析结果进行语义角色标注。
基于上述语义角色标注可推断出付款方式为“第1种”,再基于预设的推理逻辑从下文中获取“第一种”所指代的具体内容为:“1)甲方交货并经乙方验收合格,甲方开具由国家税务局监制的正式发票后3个工作日内,乙方通过银行转账一次性付清货款。”
其中预设的推理逻辑可以是基于对样本的分析后得出的固定推理逻辑,也可以是基于本体知识库的逻辑推理引擎来实现。
如此一来,通过步骤S805可从相关语句中提取出正确、具体的付款方式。
通过上述步骤S801至S805,可从合同文本中正确的提取出付款信息,包括金额信息和付款进度。这重要两项信息对合同文本的语义理解非常重要,且相对其他,如合同标题、生效日期等表述方式相对规范的信息而言,用户对其的表述可能包含多种情况,本发明所提供的技术方法,结合句法分析、短文本分类器、条件随机场模型等技术可提取出金额信息,并基于语义角色标注和设定的推理逻辑来实现付款方式的提取,不仅可准确获取文本中的相关信息,而且能按照固定的格式进行统一输出,便于后续的统计、归类处理。
综上所述,本发明实施例二所提供的技术方案,可实现对普通格式文本的规范化处理,不仅包括对文本整体的格式的统一整理,使其能更好的应用于计算机的分析处理,还包括针对文本个体的差异类信息进行规范化处理,使得最终对于该些文本的分析统计更加准确。
基于同样的发明构思,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现图1所示实施例中的所述的文本分类内容提取方法。
以及提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现图2所示实施例中的所述的文本结构化处理方法。
本发明所提供的文本信息提取技术完全基于计算机来实现,较于传统的人工模式,处理效率大幅度提升,节省了人力成本。
值得注意的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文本结构化处理方法,其特征在于,所述方法包含步骤:
确定分类项目;
对文本进行格式化处理,得到预处理文本;
从所述预处理文本中获取各所述分类项目对应的初始内容;
分别对各个所述分类项目对应的初始内容进行确认,以获取各个所述分类项目对应的分类内容;
对所述文本进行分类内容提取,以获得包含所述文本的分类项目及各所述分类项目对应内容的规范化文本;
预测所述规范化文本中的用户录入位置;
基于所述用户录入位置获取用户录入信息,并对所述用户录入信息进行规范化处理。
2.如权利要求1所述的文本结构化处理方法,其特征在于,所述对所述文本进行格式化处理包含将所述文本的 格式转化为文本格式,并进行分句处理。
3.如权利要求1所述的文本结构化处理方法,其特征在于,所述从所述预处理文本中获取各所述分类项目对应的初始内容包含利用正则表达式或关键词搜索从所述预处理文本中获得各所述分类项目对应的初始内容。
4.如权利要求1所述的文本结构化处理方法,其特征在于,所述分别对各个所述分类项目对应的初始内容进行确认包含基于支持向量机分类器对所述初始内容进行分类识别。
5.如权利要求1所述的文本结构化处理方法,其特征在于,预测所述规范化文本中的用户录入位置包含步骤:
确定所述文本与历史样本的相似度;
判断所述相似度的最高值是否大于预设阈值;
若大于,则选取相似度最高的所述历史样本为参考样本,基于所述参考样本的录入位置预测所述文本中的录入位置;
若不大于,则基于预设神经网络模型对所述用户录入位置进行预测。
6.如权利要求5所述的文本结构化处理方法,其特征在于,所述基于预设神经网络模型对所述用户录入位置进行预测包含步骤:
将所述规范化文本内容转换成多个序列;
基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值;
根据所述输出值确定所述用户录入位置。
7.如权利要求1所述的文本结构化处理方法,其特征在于,所述文本为合同文本,所述用户录入信息包含付款信息,其中所述基于所述用户录入位置获取用户录入信息,并对所述用户录入信息进行规范化处理包含对所述用户录入信息中的所述付款信息进行规范化处理。
8.如权利要求7所述的文本结构化处理方法,其特征在于,所述对所述用户录入信息中的所述付款信息进行规范化处理具体包含步骤:
从所述规范化文本中分别提取出与金额信息和付款方式相关的语句;
从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;
从所述付款方式相关的语句中提取出所述付款方式,包括:
对所述付款方式相关的语句进行句法分析;
在所述句法分析结果上进行语义角色标注;
基于预设的推理逻辑获取所述付款方式。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述文本结构化处理方法。
CN201711251130.2A 2017-12-01 2017-12-01 一种文本结构化处理方法 Active CN108170715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711251130.2A CN108170715B (zh) 2017-12-01 2017-12-01 一种文本结构化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711251130.2A CN108170715B (zh) 2017-12-01 2017-12-01 一种文本结构化处理方法

Publications (2)

Publication Number Publication Date
CN108170715A CN108170715A (zh) 2018-06-15
CN108170715B true CN108170715B (zh) 2020-10-23

Family

ID=62525082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711251130.2A Active CN108170715B (zh) 2017-12-01 2017-12-01 一种文本结构化处理方法

Country Status (1)

Country Link
CN (1) CN108170715B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657207B (zh) * 2018-11-29 2023-11-03 爱保科技有限公司 条款的格式化处理方法和处理装置
CN109933783A (zh) * 2019-01-31 2019-06-25 华融融通(北京)科技有限公司 一种不良资产经营领域的合同要素化方法
CN110825872B (zh) * 2019-09-11 2023-05-23 成都数之联科技股份有限公司 一种提取和分类诉讼请求信息的方法及系统
CN112668323B (zh) * 2019-10-14 2024-02-02 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统
CN111353271A (zh) * 2020-02-28 2020-06-30 中科鼎富(北京)科技发展有限公司 一种合同文本的处理方法、装置、存储介质和电子设备
CN111798352A (zh) * 2020-05-22 2020-10-20 平安国际智慧城市科技股份有限公司 企业状态监管方法、装置、设备及计算机可读存储介质
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN113051875B (zh) * 2021-03-22 2024-02-02 北京百度网讯科技有限公司 信息转换模型的训练方法、文本信息的转换方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1681643B1 (en) * 2005-01-14 2010-05-05 TheFind, Inc. Method and system for information extraction
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CA2873834A1 (en) * 2012-05-18 2013-11-21 Tata Consultancy Services Limited System and method for creating structured event objects
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN107145584A (zh) * 2017-05-10 2017-09-08 西南科技大学 一种基于n‑gram模型的简历解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1681643B1 (en) * 2005-01-14 2010-05-05 TheFind, Inc. Method and system for information extraction
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CA2873834A1 (en) * 2012-05-18 2013-11-21 Tata Consultancy Services Limited System and method for creating structured event objects
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN107145584A (zh) * 2017-05-10 2017-09-08 西南科技大学 一种基于n‑gram模型的简历解析方法

Also Published As

Publication number Publication date
CN108170715A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108170715B (zh) 一种文本结构化处理方法
US20210382878A1 (en) Systems and methods for generating a contextually and conversationally correct response to a query
Jung Semantic vector learning for natural language understanding
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
CN112035653B (zh) 一种政策关键信息提取方法和装置、存储介质、电子设备
US9286290B2 (en) Producing insight information from tables using natural language processing
US8073877B2 (en) Scalable semi-structured named entity detection
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
US20230136368A1 (en) Text keyword extraction method, electronic device, and computer readable storage medium
US20150227505A1 (en) Word meaning relationship extraction device
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
US11657076B2 (en) System for uniform structured summarization of customer chats
Curtotti et al. Corpus based classification of text in Australian contracts
US20230028664A1 (en) System and method for automatically tagging documents
Derczynski et al. Gate-time: Extraction of temporal expressions and event
EP4141818A1 (en) Document digitization, transformation and validation
CN112464927B (zh) 一种信息提取方法、装置及系统
US11734517B1 (en) Systems and methods for measuring automatability of report generation using a natural language generation system
CN111199151A (zh) 数据处理方法、及数据处理装置
Han et al. A novel part of speech tagging framework for nlp based business process management
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
CN113095078A (zh) 关联资产确定方法、装置和电子设备
Gabay et al. CORPUS17: a philological corpus for 17th c. French
CN110717029A (zh) 一种信息处理方法和系统
US20240071047A1 (en) Knowledge driven pre-trained form key mapping

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant