CN110795525A - 文本结构化方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本结构化方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110795525A
CN110795525A CN201910877774.5A CN201910877774A CN110795525A CN 110795525 A CN110795525 A CN 110795525A CN 201910877774 A CN201910877774 A CN 201910877774A CN 110795525 A CN110795525 A CN 110795525A
Authority
CN
China
Prior art keywords
entity
text
keyword
value
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910877774.5A
Other languages
English (en)
Other versions
CN110795525B (zh
Inventor
洪科元
李斌
章秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910877774.5A priority Critical patent/CN110795525B/zh
Publication of CN110795525A publication Critical patent/CN110795525A/zh
Application granted granted Critical
Publication of CN110795525B publication Critical patent/CN110795525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及文本处理技术领域,公开了一种文本结构化方法、装置、电子设备及计算机可读存储介质,其中,文本结构化方法包括:基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息;根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值;基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。本申请实施例的方法,可以灵活选择相应的预定义模板,从而高效地完成文本结构化,而且可以实现对具有不同格式的不同类型的待结构化文本的全面覆盖。

Description

文本结构化方法、装置、电子设备及计算机可读存储介质
技术领域
本申请实施例涉及文本处理技术领域,具体而言,本申请涉及一种文本结构化方法、装置、电子设备及计算机可读存储介质。
背景技术
随着信息技术的不断发展和普及,无纸化办公得到了广泛应用,将纸质资料转换为相应的电子文本,例如将纸质票据文本转换为电子票据文本,不仅能有效减少信息整理的复杂度,延长信息保存的时长,而且能够节省人工整理成本。
在这些电子文本中,往往含有大量有用的信息,有效利用这些电子文本挖掘出有用信息已经成为一个很迫切的需求。通过人工进行有用信息提取的工作量极其巨大,如果能利用计算机自动提取出有用的信息,那将具有非常重要的意义。然而,目前的电子文本(例如电子票据文本)几乎都是以自然语言形式存在的非结构化文本或半结构化文本,计算机无法直接进行处理,因此,需要将非结构化文本或半结构化文本,处理为计算机可以直接进行处理的结构化文本(比如表格、结构图、流程图等)。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种文本结构化方法,包括:
基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息;
根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值;
基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。
一方面,提供了一种文本结构化装置,包括:
第一确定模块,用于基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息;
第二确定模块,用于根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值;
处理模块,用于基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。
在一种可能的实现方式中,预定义模板包括以下至少一项信息:
预设实体关键词;预设实体关键词与该预设实体关键词的实体值间的位置关系;预设实体关键词的实体值满足的预定模式。
在一种可能的实现方式中,第一确定模块在基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值时,具体用于:
根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词;
根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值。
在一种可能的实现方式中,第一确定模块在根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词时,具体用于:
通过字符完全匹配的方式,根据预设实体关键词,确定待结构化文本的目标实体关键词。
在一种可能的实现方式中,第一确定模块在根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值时,具体用于:
确定待结构化文本的至少两个文本块;
根据位置关系,确定目标实体关键词所在文本块所对应的候选文本块,并确定一个候选文本块中的文本词为目标实体关键词的一个候选实体值。
在一种可能的实现方式中,第一确定模块在确定待结构化文本的至少两个文本块时,具体用于:
根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块,位置信息包括文本词的横坐标、文本词的纵坐标、文本词的高度值、文本词的宽度值。
在一种可能的实现方式中,第一确定模块在根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块时,具体用于:
根据位置信息与第一预定比例,确定横向坐标轴方向上的相邻文本词间的第一距离,根据位置信息与第二预定比例,确定纵向坐标轴方向上的相邻文本词间的第二距离,第一预定比例表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比,第二预定比例表示纵向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的高度比;
当第一距离满足第一预定条件,将横向坐标轴方向上的相邻文本词划分为一个文本块;
当第二距离满足第二预定条件,将纵向坐标轴方向上的相邻文本词划分为一个文本块。
在一种可能的实现方式中,第二确定模块具体用于:
根据预定义模板中的预设实体关键词的实体值满足的预定模式,对候选实体值进行评分,得到第一评分结果;
根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分,得到第二评分结果;
根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值。
在一种可能的实现方式中,实体依存关系模型是基于预训练的语言表示模型BERT,根据样本实体关键词与样本实体关键词的样本实体值确定出的分类模型;
第二确定模块在根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分时,具体用于:
根据分类模型的预定函数,确定候选实体值属于每个目标实体关键词的概率值,并依据概率值确定候选实体值与每个目标实体关键词间语义相关度评分的第二评分结果。
在一种可能的实现方式中,第二确定模块在根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值时,具体用于:
基于预定排序方式,根据第一评分结果与第二评分结果,对候选实体值进行排序;
根据TextRank算法,对排序后的候选实体值进行语义完整性评分;
确定语义完整性评分最高的候选实体值为目标实体值。
在一种可能的实现方式中,处理模块具体用于:
根据预定义模板中预设实体关键词的实体值满足的预定模式,将目标实体值转换为预定义格式;
对目标实体关键词与预定义格式的目标实体值进行键值对的结构化表示,生成目标结构。
一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的文本结构化方法。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的文本结构化方法。
本申请实施例提供的文本结构化方法,通过基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,并根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值,以及基于预定义模板,对目标实体关键词与目标实体值进行结构化,使得可以根据待结构化文本的版面信息和实体信息,灵活选择相应的预定义模板,从而不仅可以基于预定义模板快速、高效地完成文本结构化,而且可以通过选择预定义模板的灵活选择,实现对具有不同格式的不同类型的待结构化文本的全面覆盖,此外,可以采用统一的方法或程序,从候选实体值中确定目标实体值,具有一定的通用性。
本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的文本结构化方法的流程示意图;
图2为本申请实施例的聚合文本块的示意图;
图3为本申请实施例的预设实体关键词与预设实体关键词的实体值间的位置关系示意图;
图4为本申请实施例的确定候选文本块的示意图;
图5为本申请实施例的BERT网络结构示意图;
图6为本申请实施例的文本结构化的过程示意图;
图7为本申请实施例的文本结构化装置的基本结构示意图;
图8为本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。
BLOCK(文本块):指票据类页面文本中,在空间上处于一个自然文本框内的文本集合。
召回:指将满足条件的候选项收回到候选集当中。
半结构化数据:指在组织形式上存在一定的结构化信息的数据。
实体:指能够独立存在的,作为一切属性的基础的万物本原的东西。
分类:指按照种类、等级或性质分别归类。
相关性:指两个变量的关联程度。
语言模型:指根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。
Fine-tune:指利用新样本数据对训练好的模型参数进行微调。
OCR(Optical Character Recognition,光学字符识别):是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷制品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种文本结构化方法,该方法由计算机设备执行,该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示,该方法包括:
步骤S110,基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息。
具体地,待结构化文本可以是非结构化的文本信息,也可以是半结构化的文本信息,文本信息可以是各种类型的票据文本、学术文献或专利等,本申请实施例不对其作限制。
具体地,在对待结构化文本进行结构化处理时,可以根据待结构文本的版面信息以及实体关键词及实体关键词的实体值的格式信息等实体信息,选择相应的预定义模板,从而基于预定义模板,快速、高效地确定出待结构化文本的目标实体关键词及目标实体关键词的候选实体值,为后续的结构化表示提供前提保障。其中,目标实体关键词的候选实体值可以是一个,也可以是多个,本申请实施例不对其作限制。
具体地,在对待结构化文本进行结构化处理之前,可以预先生成有针对各种格式的各种类型的非结构化文本或半结构化文本的相应模板(即预定义模板),实现对具有不同格式的不同类型的待结构化文本的全面覆盖。
步骤S120,根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值。
具体地,通常实体关键词与实体值之间满足一一对应关系,比如一个实体关键词对应唯一的一个实体值。于是,在基于预定义模板确定出目标实体关键词及目标实体关键词的候选实体值之后,可以根据实体依存关系模型与预定义模板,从一个或多个候选实体值中,确定出目标实体关键词的目标实体值,从而得到与目标实体关键词满足一一对应关系的目标实体值。
其中,对不同格式的不同类型的待结构化文本,均可以采用统一的方法或程序,从一个或多个候选实体值中确定出相应的目标实体值,从而具有一定的通用性。
步骤S130,基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。
具体地,在确定出目标实体关键词的目标实体值后,可以基于预定义模板,对目标实体关键词与该确定出的目标实体关键词的目标实体值进行结构化,生成目标结构,从而将待结构化文本转换为结构化文本。
本申请实施例提供的文本结构化方法,通过基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,并根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值,以及基于预定义模板,对目标实体关键词与目标实体值进行结构化,使得用户可以根据待结构化文本的版面信息和实体信息,灵活选择相应的预定义模板,从而不仅可以基于预定义模板快速、高效地完成文本结构化,而且可以通过选择预定义模板的灵活选择,实现对具有不同格式的不同类型的待结构化文本的全面覆盖,此外,可以采用统一的方法或程序,从候选实体值中确定目标实体值,具有一定的通用性。
下文将以待结构化文本是票据文本为例,对本申请实施例的文本结构化方法进行介绍:
待结构化的票据文本不仅种类繁多(包含银行代收面函、划款指令、进出口货物报关单、进出口单智能审单记录卡、发票、提单等等),而且页面版式也多种多样。此外,各类票据文本中不仅存在大量的半结构化票据文本、非结构化票据文本等,而且各类票据文本的实体词也存在各种各样的表达形式。于是,可以预先针对各种格式的各种类型的非结构化文本或半结构化文本,生成相应的预定义模板,从而得到各种各样的预定义模板,进而通过各种模板实现对具有不同格式的不同类型的待结构化文本的全面覆盖,比如,一种格式的票据文本对应一个预定义模板,又比如,一种类型的票据文本对应一个预定义模板,又比如,一种格式下的一种类型的票据文本对应一个预定义模板。
在一种可能的实现方式中,预先生成的针对某种格式、某种类型的非结构化文本或半结构化文本的预定义模板,可以包括预设实体关键词、预设实体关键词与该预设实体关键词的实体值间的位置关系、预设实体关键词的实体值满足的预定模式等相关信息。
具体地,不同行业的票据文本、不同格式的票据文本或不同类型的票据文本,其页面版式(或称作版面信息)也往往不同,而票据信息的非结构化或半结构化与票据文本的页面版式密切相关。于是,在对待结构化的票据文本进行结构化处理的过程中,可以根据待结构化的票据文本的版面信息和实体信息(包括实体关键词及实体关键词的实体值的格式信息等),选择相应的预定义模板,从而可以基于该预定义模板中的预设实体关键词、预设实体关键词与该预设实体关键词的实体值间的位置关系、预设实体关键词的实体值满足的预定模式等相关信息,
在一种可能的实现方式中,在基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值的过程中,可以根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词;以及根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值。
具体地,当预定义模板中包括预设实体关键词时,可以根据预定义模板中的预设实体关键词,确定出待结构化的票据文本中的目标实体关键词,即依据预定义模板中的预设实体关键词,搜索出待结构化的票据文本中的实体关键词(即目标实体关键词)。
具体地,在待结构化的票据文本的票据信息中,实体关键词与实体值之间的依赖关系,主要表现为短距离依赖,即实体值通常位于实体关键词的周边。于是,当预定义模板中包括预设实体关键词与该预设实体关键词的实体值间的位置关系时,可以根据该位置关系,确定出待结构化的票据文本的目标实体关键词的候选实体值,其中,该候选实体值位于目标实体关键词周边,其可能是一个、也可能是两个,也可能是多个。
具体地,在根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词的过程中,可以通过字符完全匹配的方式,根据预设实体关键词,确定待结构化文本的目标实体关键词。
假如预设实体关键词为“开票人”,则可以通过字符完全匹配的方式,搜索出待结构化的票据文本中的“开票人”,并将待结构化的票据文本中的“开票人”作为待结构化的票据文本的目标实体关键词。又假如预设实体关键词为“DRAWER(开票人)”,则可以通过字符完全匹配的方式,搜索出待结构化的票据文本中的“DRAWER”,并将待结构化的票据文本中的“DRAWER”作为待结构化的票据文本的目标实体关键词。
换言之,上述的字符完全匹配是指目标实体关键词中的每一个字符均需要与预设实体关键词中的相应字符匹配一致。在一个示例中,比如,根据位置顺序,目标实体关键词“开票人”中的第一个字符“开”需与预设实体关键词“开票人”中的第一个字符“开”匹配一致;又比如,根据位置顺序,目标实体关键词“开票人”中的第二个字符“票”需与预设实体关键词“开票人”中的第二个字符“票”匹配一致;再比如,根据位置顺序,目标实体关键词“开票人”中的第三个字符“人”需与预设实体关键词“开票人”中的第三个字符“人”匹配一致。在另一个示例中,比如,根据位置顺序,目标实体关键词“DRAWER”中的第一个字符“D”需与预设实体关键词“DRAWER”中的第一个字符“D”匹配一致;又比如,目标实体关键词“DRAWER”中的第二个字符“R”需与预设实体关键词“DRAWER”中的第二个字符“R”匹配一致,依次类推,目标实体关键词“DRAWER”中的第六个字符“R”需与预设实体关键词“DRAWER”中的第六个字符“R”匹配一致。
在一种可能的实现方式中,在根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值的过程中,可以先确定待结构化文本的至少两个文本块,再根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定目标实体关键词所在文本块所对应的候选文本块,并确定一个候选文本块中的文本词为目标实体关键词的一个候选实体值。
具体地,在确定待结构化文本的至少两个文本块的过程中,可以根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块,其中,位置信息包括文本词的横坐标、文本词的纵坐标、文本词的高度值、文本词的宽度值。在上述的至少两个文本块中,目标关键词占用一个文本块,目标关键词的候选实体值占用一个或多个文本块。
具体地,在将各个文本词聚合为至少两个文本块的过程中,可以对待结构化的票据文本中的每一个文本词,根据其位置信息(包括文本词的横坐标、文本词的纵坐标、文本词的高度值及文本词的宽度值等),将位置上在一起的文本词(例如左右相邻的文本词、上下相邻的文本词)合并为一个文本块(BLOCK)。
具体地,在根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块的过程中,可以基于预定计算公式,根据各个文本词的位置信息与第一预定比例,确定横向坐标轴方向上的相邻文本词间的第一距离,接着当第一距离满足第一预定条件,将横向坐标轴方向上的相邻文本词划分为一个文本块。其中,第一预定比例表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比。
在实际应用中,该预定计算公式可以为如下式(1)所示的计算公式:
y1=Min((W1.x+W1.width-W2.x),(W2.x+W2.width-W1.x))-p1*Min(W1.width-W2.width) (1)
其中,W1,W2分别表示相邻的两个文本词,x表示文本词的横坐标,p1表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比,width表示文本词的宽度值,y1表示横向坐标轴方向上的相邻文本词间的第一距离。
在一示例中,当y1满足第一预定条件时,将横向坐标轴方向上的相邻文本词W1与W2划分为一个文本块。上述的第一预定条件可以为y1≤0,即当y1≤0时,认为W1与W2在同一个BLOCK内,将它们合并为一个BLOCK,否则认为它们位于相邻的两个BLOCK内。
具体地,在根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块的过程中,可以基于预定计算公式,根据各个文本词的位置信息与第二预定比例,确定纵向坐标轴方向上的相邻文本词间的第二距离,接着当第二距离满足第二预定条件时,将纵向坐标轴方向上的相邻文本词划分为一个文本块。
在实际应用中,该预定计算公式可以为如下式(2)所示的计算公式:
y2=Min((W1.y+W1.height-W2.y),(W2.y+W2.height-W1.y))-p2*Min(W1.height,W2.height) (2)
其中,W1,W2分别表示相邻的两个文本词,y表示文本词的纵坐标,p2表示纵向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的高度比,height表示文本词的宽度值,y2表示纵向坐标轴方向上的相邻文本词间的第二距离。
在一示例中,当y2满足第二预定条件时,将横向坐标轴方向上的相邻文本词W1与W2划分为一个文本块。上述的第二预定条件可以为y2≤0,即当y2≤0时,认为W1与W2在同一个BLOCK内,将它们合并为一个BLOCK,否则认为它们位于相邻的两个BLOCK内。
如图2所示,给出了将待结构化的票据文本划分为至少两个文本块的示意图,其中,图2中的每个黑线框代表一个文本块。
具体地,针对具体的某一类票据文本,可基于经验主义来配置其对应的预定义模板,其中,预定义模板中列举有实体关键词和实体值之间可能存在的位置关系。例如,对于银行代收面函的实体关键词“DRAWER(票据人)”,其实体值可能位于实体关键词的右方或下方,则银行代收面函对应的预定义模板中的位置关系可以为如图3所求的位置关系。
其中,当根据预定义模板中的预设实体关键词,在银行代收面函中搜索到实体关键词“DRAWER”时,若预定义模板中配置了实体关键词与实体值间的位置关系为:实体值位于实体关键词的右方或下方,且位于右方与位于下方的概率均为50%,即“DRAWER”的实体值可能会位于其右方或下方,且位于右方与位于下方的概率均为50%,此时可以将位于“DRAWER”所在文本块右方的文本块“JIAXING LIFETONY METAL CO.LTD CHINA”以及位于“DRAWER”所在文本块下方的文本块“TENOR”,作为“DRAWER”所在文本块的候选文本块,即根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定目标实体关键词所在文本块所对应的候选文本块。
具体地,在确定出候选文本块后,可以将确定出的一个候选文本块中的文本词作为实体关键词的一个候选实体值,即将“JIAXING LIFETONY METAL CO.LTD CHINA”作为“DRAWER”的候选实体值,以及将“TENOR”作为“DRAWER”的候选实体值,如图4所示。
在一种可能的实现方式中,在确定出待结构化的票据文本的目标实体关键词的候选实体值后,根据实体关键词与实体值间的一一对应关系,需要从候选实体值中确定出与目标实体关键词相对应的目标实体值。
具体地,在从候选实体值中确定出与目标实体关键词相对应的目标实体值的过程中,可以根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值。其中,在根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值的过程中,可以执行如下操作:
根据预定义模板中的预设实体关键词的实体值满足的预定模式,对候选实体值进行评分,得到第一评分结果;
根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分,得到第二评分结果;
根据第一评分结果与所述第二评分结果,从候选实体值中确定目标实体关键词的目标实体值。
具体地,当预定义模板中包括预设实体关键词的实体值满足的预定模式时,可以根据该预定模式,对目标实体关键词的一个或多个候选实体值进行评分,得到第一评分结果,即得到各个候选实体值分别对应的评分结果。
具体地,可以根据预训练的实体依存关系模型,对目标实体关键词与每个候选实体值之间进行语义相关度评分,得到第二评分结果,即得到目标实体关键词与候选实体值之间分别对应的语义相关度评分的评分结果。
其中,在分析实体关键词与候选实体值之间的语义相关度(或称依存关系)时,可以其转换为一个分类问题,比如以实体关键词为具体的类别,此时,可以采用BERT(Bidirectional Encoder Representations from Transformers)预训练模型结合分类任务,来预测候选实体值与实体关键词之间的语义相关度。BERT是一种由谷歌提出的新型的语言模型,通过联合调节所有层中的双向Transformer来预训练双向深度表示(Embedding),在11项自然语言处理任务上刷新了记录。BERT的网络结构如图5所示,在图5中,E1、E2、E3、E4及E5表示encoding(输入编码),trm表示Transformer(一种使用注意力机制提升训练速度的模型),T1、T2、T3、T4及T5表示target(目标编码)。
具体地,在BERT预训练模型的基础上,可以采用与待结构化的票据文本相匹配的样本数据,来对预训练的实体依存关系模型进行微调,得到相应的调整后的实体依存关系模型(记作分类模型),其中,样本数据为实体关键词与实体值之间的对应关系数据。换言之,结合样本实体关键词与样本实体值之间的对应关系数据,fine-tune出分类模型,也就是说,依存关系模型是基于预训练的语言表示模型BERT,根据样本实体关键词与样本实体关键词的样本实体值确定出的分类模型。
具体地,在根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分的过程中,可以根据上述确定出的分类模型的预定函数,确定候选实体值属于每个目标实体关键词的概率值,并依据概率值确定候选实体值与每个目标实体关键词间语义相关度评分的第二评分结果。换言之,在对候选实体值进行分类时(即确定候选实体的实体关键词),可以通过预定函数(比如softmax函数)对候选实体值的类别进行判断,从而输出候选实体值属于每个类别(即实体关键词)的概率值(比如概率得分)。在确定出候选实体值属于每个类别的概率值后,可以依据该得到的概率值确定候选实体值与每个实体关键词间的语义相关度评分的评分结果(即上述的第二评分结果),比如可以将得到的概率值直接作为语义相关度评分的评分结果,又比如对概率值进行转换处理,将转换处理的结果作为语义相关度评分的评分结果。
进一步地,上述的softmax函数的定义形式如下式(3):
Figure BDA0002204909700000141
其中,ai表示输入的实体值属于i类别的概率,zi为第i类的概率值,k为类别数量,表示一共有k个类别。
具体地,在得到第一评分结果与第二评分结果后,可以根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值。其中,在根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值的过程中,可以执行如下操作:
基于预定排序方式,根据第一评分结果与第二评分结果,对候选实体值进行排序;
根据TextRank算法,对排序后的候选实体值进行语义完整性评分;
确定语义完整性评分最高的候选实体值为所述目标实体值。
在一示例中,可以根据如下公式(4)所示的计算公式的计算结果,基于预定排序方式,根据第一评分结果与第二评分结果,对候选实体值进行排序。
score=log(s1)+s2 (4)
其中,s1为第一评分结果,s2为第二评分结果,score为根据第一评分结果与第二评分结果计算得到的评分结果。
具体地,上述的预定排序方式可以为升序排序,也可以是降序排序。在得到score后,可以根据score对候选实体值进行升序排序或降序排序。其中,假如上述排序为降序排序,则在对候选实体值进行升序排序或降序排序后,可以根据TextRank算法,对排序后的候选实体值进行语义完整性评分,相当于对排序后的候选实体值进行语义完整性排序,并将排序第一的候选实体值作为实体关键词的实体值(即目标实体值),即将语义完整性最好的候选实体值作为目标实体值。
具体地,不同的候选实体值确定策略,可能会将同一个候选实体值的不同形式召回到候选实体值集中,从合法性上来说,他们都是该实体关键词的合法实体值,但从语义上来说,可能存在某个候选实体值并不是一个完整的语义片段的情况,例如对实体关键字“DRAWER”的右侧实体值进行召回时,会将“JIAXING LIFETONY METAL CO.LTD CHINA”、“JIAXING LIFETONY METAL CO.LTD”以及“CHINA”都召回到实体值候选集中,但“JIAXINGLIFETONY METAL CO.LTD”和“CHINA”在语义上是不完整的,所以需要从语义完整性上去挑选出更合理的候选实体值。本申请实施例采用TextRank来对候选实体值的语义完整性进行评估。
其中,TextRank算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(例如单词、句子)并建立图模型,针对文本当中的句子或短语的重要性进行判断而设计的算法。其利用投票原理,让句子或短语之间互相打分,得分越高的句子或短语就越重要,TextRank的计算公式如下式(5)所示:
Figure BDA0002204909700000161
其中,WS(Vi)表示候选实体值i的重要性得分,WS(Vj)表示候选实体值j的重要性得分,d是阻尼系数,在一示例中,取值为0.85(即d=0.85),wji表示实体值i对实体值j的重要程度打分,wjk表示实体值k对实体值j的重要程度打分。Vi表示当前实体值节点i,Vj表示当前实体值节点j,In(Vi)表示当前实体值节点i的入度,out(Vj)表示当前实体值节点j的出度。
例如,在对候选实体值进行语义完整性判断的实现上,利用候选实体值之间的相似度来互相打分,相似度越高,则当前候选实体值对目标候选实体值的打分就越高,反之则越低。相似度公式如下式(6)所示:
Figure BDA0002204909700000162
其中,|Si|表示候选实体值i的单词个数,|Sj|表示候选实体值j的单词个数,比如上述的“JIAXING”即为一个单词,|{Wk|Wk∈Si∩Wk∈Sj}|表示实体值i和实体值j均包括的单词的个数,Wk表示实体值i和实体值j均包括的单词,Similarity(Si,Sj)表示实体值i和实体值j的相似度。
在一种可能的实现方式中,在基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构的过程中,可以执行如下操作:
根据预定义模板中预设实体关键词的实体值满足的预定模式,将目标实体值转换为预定义格式;
对目标实体关键词与预定义格式的目标实体值进行键值对的结构化表示,生成目标结构。
具体地,在根据预定义模板中预设实体关键词的实体值满足的预定模式,将确定出的目标实体值转换为预定义格式后,可以根据需求将目标实体关键词与预定义格式的目标实体值进行结构化表示,其中,在进行结构化表示的过程中,可以将目标实体关键词作为关键字(key),将预定义格式的目标实体值作为key对应的值(value),即采用key-value的形式,对目标实体关键词与预定义格式的目标实体值进行键值对的结构化表示,生成目标结构,得到结构化表示的实体关键词与实体值。
具体地,图6给出了本申请实施例的文本结构化的基本过程,在图6中可以执行如下过程:
步骤S1:确定预定义模板,该模板主要包含的信息为待提取实体关键词(即预设实体关键词)、待提取实体关键词与待提取实体值之间的可能位置关系、待提取实体值满足的规则模式等;
步骤S2:通过模板解析器加载预定义模板,并将预定义模板转换为具体的函数实现;
步骤S3:输入待结构化的票据文本,并利用模板解析器依据预定义模板的待提取实体关键词,从待结构化的票据文本中搜索出相应的目标实体关键词,其中,搜索过程采用字符完全匹配的方式;
步骤S4:搜索出目标实体关键词之后,利用模板解析器依据预定义模板定义的实体关键词与实体值之间的位置对应关系,从待结构化的票据文本中召回所有可能的候选实体值;
步骤S5:对得到的候选实体值,利用模板解析器依据预定义模板定义的规则模式进行合法性打分,其中,满足规则模式的候选实体值将获得正向加分,不满足规则模式的候选实体值将获得负向加分;
步骤S6:对得到的候选实体值,利用依存关系提取模型,对目标实体关键词与实候选体值之间进行依存关系打分(即语义相关度打分),其中,目标实体关键词与候选实体值的相关性越高,得分越高,目标实体关键词与实体值的相关性越低,得分越低;
步骤S7:结合步骤S5的规则模式打分结果和步骤S6的语义相关度打分结果,对候选实体值进行排序,并选出得分最高的候选实体值作为该目标实体关键词对应的实体值(即目标实体值);
步骤S8:利用模板解析器,依据1预定义模板定义的规则模式对步骤S7得到的目标实体值进行格式转换,将目标实体值转换为预定义的标准格式,并输出目标实体关键词与目标实体值的关系表示。
通过本申请实施例的方法,不仅可自定义模板,灵活高效,从而可以通过自定义模板可以快速完成对待结构化的票据文本的文本结构化,而且结合了位置信息,对复杂版式页面有很好的效果,弥补了单纯文本语义不全的缺陷,此外,还结合了语义信息,提高了准确率,使文本结构化结果更加合理可靠。
图7为本申请又一实施例提供的一种文本结构化装置的结构示意图,如图7所示,该装置70可以包括第一确定模块71、第二确定模块72与处理模块73,其中:
第一确定模块71,用于基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,预定义模板是根据待结构化文本的版面信息和实体信息确定的,实体信息包括实体关键词及实体关键词的实体值的格式信息;
第二确定模块72,用于根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值;
处理模块73,用于基于预定义模板,对目标实体关键词与目标实体值进行结构化,生成目标结构。
在一种可能的实现方式中,预定义模板包括以下至少一项信息:
预设实体关键词;预设实体关键词与该预设实体关键词的实体值间的位置关系;预设实体关键词的实体值满足的预定模式。
在一种可能的实现方式中,第一确定模块在基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值时,具体用于:
根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词;
根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值。
在一种可能的实现方式中,第一确定模块在根据预定义模板中的预设实体关键词,确定待结构化文本的目标实体关键词时,具体用于:
通过字符完全匹配的方式,根据预设实体关键词,确定待结构化文本的目标实体关键词。
在一种可能的实现方式中,第一确定模块在根据预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定待结构化文本的目标实体关键词的候选实体值时,具体用于:
确定待结构化文本的至少两个文本块;
根据位置关系,确定目标实体关键词所在文本块所对应的候选文本块,并确定一个候选文本块中的文本词为目标实体关键词的一个候选实体值。
在一种可能的实现方式中,第一确定模块在确定待结构化文本的至少两个文本块时,具体用于:
根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块,位置信息包括文本词的横坐标、文本词的纵坐标、文本词的高度值、文本词的宽度值。
在一种可能的实现方式中,第一确定模块在根据待结构化文本中各个文本词的位置信息,将各个文本词聚合为至少两个文本块时,具体用于:
根据位置信息与第一预定比例,确定横向坐标轴方向上的相邻文本词间的第一距离,根据位置信息与第二预定比例,确定纵向坐标轴方向上的相邻文本词间的第二距离,第一预定比例表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比,第二预定比例表示纵向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的高度比;
当第一距离满足第一预定条件,将横向坐标轴方向上的相邻文本词划分为一个文本块;
当第二距离满足第二预定条件,将纵向坐标轴方向上的相邻文本词划分为一个文本块。
在一种可能的实现方式中,第二确定模块具体用于:
根据预定义模板中的预设实体关键词的实体值满足的预定模式,对候选实体值进行评分,得到第一评分结果;
根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分,得到第二评分结果;
根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值。
在一种可能的实现方式中,实体依存关系模型是基于预训练的语言表示模型BERT,根据样本实体关键词与样本实体关键词的样本实体值确定出的分类模型;
第二确定模块在根据实体依存关系模型,对目标实体关键词与候选实体值之间进行语义相关度评分时,具体用于:
根据分类模型的预定函数,确定候选实体值属于每个目标实体关键词的概率值,并依据概率值确定候选实体值与每个目标实体关键词间语义相关度评分的第二评分结果。
在一种可能的实现方式中,第二确定模块在根据第一评分结果与第二评分结果,从候选实体值中确定目标实体关键词的目标实体值时,具体用于:
基于预定排序方式,根据第一评分结果与第二评分结果,对候选实体值进行排序;
根据TextRank算法,对排序后的候选实体值进行语义完整性评分;
确定语义完整性评分最高的候选实体值为目标实体值。
在一种可能的实现方式中,处理模块具体用于:
根据预定义模板中预设实体关键词的实体值满足的预定模式,将目标实体值转换为预定义格式;
对目标实体关键词与预定义格式的目标实体值进行键值对的结构化表示,生成目标结构
本申请实施例提供的装置,通过基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,并根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值,以及基于预定义模板,对目标实体关键词与目标实体值进行结构化,使得用户可以根据待结构化文本的版面信息和实体信息,灵活选择相应的预定义模板,从而不仅可以基于预定义模板快速、高效地完成文本结构化,而且可以通过选择预定义模板的灵活选择,实现对具有不同格式的不同类型的文本的全面覆盖,此外,可以采用统一的方法或程序,从候选实体值中确定目标实体值,具有一定的通用性。
需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
本申请另一实施例提供了一种电子设备,如图8所示,图8所示的电子设备800包括:处理器801和存储器803。其中,处理器801和存储器803相连,如通过总线802相连。进一步地,电子设备800还可以包括收发器804。需要说明的是,实际应用中收发器804不限于一个,该电子设备800的结构并不构成对本申请实施例的限定。
其中,处理器801应用于本申请实施例中,用于实现图7所示的第一确定模块、第二确定模块及处理模块的功能。
处理器801可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器801也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线802可包括一通路,在上述组件之间传送信息。总线802可以是PCI总线或EISA总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器803可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器803用于存储执行本申请方案的应用程序代码,并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码,以实现图7所示实施例提供的文本结构化装置的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:
通过基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,并根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值,以及基于预定义模板,对目标实体关键词与目标实体值进行结构化,使得用户可以根据待结构化文本的版面信息和实体信息,灵活选择相应的预定义模板,从而不仅可以基于预定义模板快速、高效地完成文本结构化,而且可以通过选择预定义模板的灵活选择,实现对具有不同格式的不同类型的文本的全面覆盖,此外,可以采用统一的方法或程序,从候选实体值中确定目标实体值,具有一定的通用性。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例所示的方法。其中:通过基于预定义模板,确定待结构化文本的目标实体关键词及目标实体关键词的候选实体值,并根据实体依存关系模型与预定义模板,从候选实体值中确定目标实体关键词的目标实体值,以及基于预定义模板,对目标实体关键词与目标实体值进行结构化,使得用户可以根据待结构化文本的版面信息和实体信息,灵活选择相应的预定义模板,从而不仅可以基于预定义模板快速、高效地完成文本结构化,而且可以通过选择预定义模板的灵活选择,实现对具有不同格式的不同类型的文本的全面覆盖,此外,可以采用统一的方法或程序,从候选实体值中确定目标实体值,具有一定的通用性。
本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种文本结构化方法,其特征在于,包括:
基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,所述预定义模板是根据所述待结构化文本的版面信息和实体信息确定的,所述实体信息包括实体关键词及所述实体关键词的实体值的格式信息;
根据实体依存关系模型与所述预定义模板,从所述候选实体值中确定所述目标实体关键词的目标实体值;
基于所述预定义模板,对所述目标实体关键词与所述目标实体值进行结构化,生成目标结构。
2.根据权利要求1所述的方法,其特征在于,所述预定义模板包括以下至少一项信息:
预设实体关键词;预设实体关键词与该预设实体关键词的实体值间的位置关系;预设实体关键词的实体值满足的预定模式。
3.根据权利要求2所述的方法,其特征在于,所述基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,包括:
根据所述预定义模板中的预设实体关键词,确定所述待结构化文本的目标实体关键词;
根据所述预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定所述待结构化文本的目标实体关键词的候选实体值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预定义模板中的预设实体关键词,确定所述待结构化文本的目标实体关键词,包括:
通过字符完全匹配的方式,根据所述预设实体关键词,确定所述待结构化文本的目标实体关键词。
5.根据权利要求3所述的方法,其特征在于,所述根据所述预定义模板中的预设实体关键词与该预设实体关键词的实体值间的位置关系,确定所述待结构化文本的目标实体关键词的候选实体值,包括:
确定所述待结构化文本的至少两个文本块;
根据所述位置关系,确定所述目标实体关键词所在文本块所对应的候选文本块,并确定一个候选文本块中的文本词为所述目标实体关键词的一个候选实体值。
6.根据权利要求5所述的方法,其特征在于,所述确定所述待结构化文本的至少两个文本块,包括:
根据所述待结构化文本中各个文本词的位置信息,将所述各个文本词聚合为至少两个文本块,所述位置信息包括文本词的横坐标、文本词的纵坐标、文本词的高度值、文本词的宽度值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待结构化文本中各个文本词的位置信息,将所述各个文本词聚合为至少两个文本块,包括:
根据所述位置信息与第一预定比例,确定横向坐标轴方向上的相邻文本词间的第一距离,根据所述位置信息与第二预定比例,确定纵向坐标轴方向上的相邻文本词间的第二距离,所述第一预定比例表示横向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的宽度比,所述第二预定比例表示纵向坐标轴方向上的相邻文本词间的空白部分尺寸与文本词尺寸的高度比;
当所述第一距离满足第一预定条件,将横向坐标轴方向上的相邻文本词划分为一个文本块;
当所述第二距离满足第二预定条件,将纵向坐标轴方向上的相邻文本词划分为一个文本块。
8.根据权利要求2所述的方法,其特征在于,所述根据实体依存关系模型与所述预定义模板,从所述候选实体值中确定所述目标实体关键词的目标实体值,包括:
根据所述预定义模板中的预设实体关键词的实体值满足的预定模式,对所述候选实体值进行评分,得到第一评分结果;
根据所述实体依存关系模型,对所述目标实体关键词与所述候选实体值之间进行语义相关度评分,得到第二评分结果;
根据所述第一评分结果与所述第二评分结果,从所述候选实体值中确定所述目标实体关键词的目标实体值。
9.根据权利要求8所述的方法,其特征在于,所述实体依存关系模型是基于预训练的语言表示模型BERT,根据样本实体关键词与所述样本实体关键词的样本实体值确定出的分类模型;
所述根据所述实体依存关系模型,对所述目标实体关键词与所述候选实体值之间进行语义相关度评分,包括:
根据所述分类模型的预定函数,确定所述候选实体值属于每个目标实体关键词的概率值,并依据所述概率值确定所述候选实体值与每个目标实体关键词间语义相关度评分的第二评分结果。
10.根据权利要求8所述的方法,其特征在于,所述根据所述第一评分结果与所述第二评分结果,从所述候选实体值中确定所述目标实体关键词的目标实体值,包括:
基于预定排序方式,根据所述第一评分结果与所述第二评分结果,对所述候选实体值进行排序;
根据TextRank算法,对排序后的候选实体值进行语义完整性评分;
确定语义完整性评分最高的候选实体值为所述目标实体值。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述基于所述预定义模板,对所述目标实体关键词与所述目标实体值进行结构化,生成目标结构,包括:
根据所述预定义模板中预设实体关键词的实体值满足的预定模式,将所述目标实体值转换为预定义格式;
对所述目标实体关键词与所述预定义格式的目标实体值进行键值对的结构化表示,生成目标结构。
12.一种文本结构化装置,其特征在于,包括:
第一确定模块,用于基于预定义模板,确定待结构化文本的目标实体关键词及所述目标实体关键词的候选实体值,所述预定义模板是根据所述待结构化文本的版面信息和实体信息确定的,所述实体信息包括实体关键词及所述实体关键词的实体值的格式信息;
第二确定模块,用于根据实体依存关系模型与所述预定义模板,从所述候选实体值中确定所述目标实体关键词的目标实体值;
处理模块,用于基于所述预定义模板,对所述目标实体关键词与所述目标实体值进行结构化,生成目标结构。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-11任一项所述的文本结构化方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-11任一项所述的文本结构化方法。
CN201910877774.5A 2019-09-17 2019-09-17 文本结构化方法、装置、电子设备及计算机可读存储介质 Active CN110795525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877774.5A CN110795525B (zh) 2019-09-17 2019-09-17 文本结构化方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877774.5A CN110795525B (zh) 2019-09-17 2019-09-17 文本结构化方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110795525A true CN110795525A (zh) 2020-02-14
CN110795525B CN110795525B (zh) 2023-09-15

Family

ID=69427255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877774.5A Active CN110795525B (zh) 2019-09-17 2019-09-17 文本结构化方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110795525B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN111597224A (zh) * 2020-04-17 2020-08-28 北京百度网讯科技有限公司 结构化信息的生成方法、装置、电子设备和存储介质
CN111815400A (zh) * 2020-06-16 2020-10-23 上海中通吉网络技术有限公司 跨境贸易电子商务物流信息通关申报方法及设备
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112241458A (zh) * 2020-10-13 2021-01-19 北京百分点信息科技有限公司 文本的知识结构化处理方法、装置、设备和可读存储介质
CN112668306A (zh) * 2020-12-22 2021-04-16 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备
CN113705733A (zh) * 2021-09-29 2021-11-26 平安医疗健康管理股份有限公司 医疗票据图像处理方法及装置、电子设备、存储介质
CN113946648A (zh) * 2021-12-22 2022-01-18 北京德风新征程科技有限公司 结构化信息生成方法、装置、电子设备和介质
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
WO2023159771A1 (zh) * 2022-02-25 2023-08-31 来也科技(北京)有限公司 基于rpa和ai的发票处理方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US20080187221A1 (en) * 2007-02-07 2008-08-07 Fuji Xerox Co., Ltd. Document processing apparatus, document processing method, recording medium and data signal
US20110213783A1 (en) * 2002-08-16 2011-09-01 Keith Jr Robert Olan Method and apparatus for gathering, categorizing and parameterizing data
US20130054512A1 (en) * 2011-08-15 2013-02-28 Medcpu, Inc. System and method for text extraction and contextual decision support
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105638A1 (en) * 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US20110213783A1 (en) * 2002-08-16 2011-09-01 Keith Jr Robert Olan Method and apparatus for gathering, categorizing and parameterizing data
US20080187221A1 (en) * 2007-02-07 2008-08-07 Fuji Xerox Co., Ltd. Document processing apparatus, document processing method, recording medium and data signal
US20130054512A1 (en) * 2011-08-15 2013-02-28 Medcpu, Inc. System and method for text extraction and contextual decision support
CN105488105A (zh) * 2015-11-19 2016-04-13 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐伟等: "网页中商品"属性―值"关系的自动抽取方法研究", 中文信息学报 *
曾道建等: "面向非结构化文本的开放式实体属性抽取", 江西师范大学学报(自然科学版) *
程显毅等: "属性和属性值组合的概念模板", 北京大学学报(自然科学版) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159414B (zh) * 2020-04-02 2020-07-14 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备
CN111597224A (zh) * 2020-04-17 2020-08-28 北京百度网讯科技有限公司 结构化信息的生成方法、装置、电子设备和存储介质
CN111597224B (zh) * 2020-04-17 2023-09-15 北京百度网讯科技有限公司 结构化信息的生成方法、装置、电子设备和存储介质
CN111815400A (zh) * 2020-06-16 2020-10-23 上海中通吉网络技术有限公司 跨境贸易电子商务物流信息通关申报方法及设备
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112241458B (zh) * 2020-10-13 2022-10-28 北京百分点科技集团股份有限公司 文本的知识结构化处理方法、装置、设备和可读存储介质
CN112241458A (zh) * 2020-10-13 2021-01-19 北京百分点信息科技有限公司 文本的知识结构化处理方法、装置、设备和可读存储介质
CN112668306B (zh) * 2020-12-22 2021-07-27 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN112668306A (zh) * 2020-12-22 2021-04-16 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN113705733A (zh) * 2021-09-29 2021-11-26 平安医疗健康管理股份有限公司 医疗票据图像处理方法及装置、电子设备、存储介质
CN113946648A (zh) * 2021-12-22 2022-01-18 北京德风新征程科技有限公司 结构化信息生成方法、装置、电子设备和介质
WO2023159771A1 (zh) * 2022-02-25 2023-08-31 来也科技(北京)有限公司 基于rpa和ai的发票处理方法、装置、设备和介质
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN116522935B (zh) * 2023-03-29 2024-03-29 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备

Also Published As

Publication number Publication date
CN110795525B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN110795525B (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
Jung Semantic vector learning for natural language understanding
US11615246B2 (en) Data-driven structure extraction from text documents
Cao et al. A novel neural topic model and its supervised extension
CN112711953B (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN104199965B (zh) 一种语义信息检索方法
CN107315797A (zh) 一种网络新闻获取及文本情感预测系统
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN109992668A (zh) 一种基于自注意力的企业舆情分析方法和装置
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN111753514B (zh) 一种专利申请文本的自动生成方法和装置
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN112883730A (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法
Wu et al. A study on natural language processing classified news
Rahman et al. A dynamic strategy for classifying sentiment from Bengali text by utilizing Word2vector model
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN112613318B (zh) 实体名称归一化系统及其方法、计算机可读介质
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018314

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant