CN113821586A - 文本分段方法、装置及电子设备 - Google Patents
文本分段方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113821586A CN113821586A CN202110368267.6A CN202110368267A CN113821586A CN 113821586 A CN113821586 A CN 113821586A CN 202110368267 A CN202110368267 A CN 202110368267A CN 113821586 A CN113821586 A CN 113821586A
- Authority
- CN
- China
- Prior art keywords
- text
- characters
- character
- sentences
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 297
- 238000000605 extraction Methods 0.000 claims description 70
- 230000004927 fusion Effects 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 101100172288 Pseudomonas fluorescens biotype A endX gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种文本分段方法、装置以及电子设备,方法包括:获取待处理的文本,以及所述文本中多个字符的属性信息;根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量;根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量;根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率;根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果。实现了结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本分段方法、装置及电子设备。
背景技术
通常,许多公司的人力资源部门都会囤积到大量人才的简历,经整理收集成为简历库。但是简历文本并不是一个完全结构化的内容,它的模板多种多样,格式花样层出不穷,因而在分类整理和精确检索上存在非常多的困难。为了能够充分利用简历库,需要将简历按照标签整理为结构化的内容,例如:姓名,电话,邮箱,学历,毕业院校,工作经历,职业标签,职位意向,技术特征,等等。而这,催生了简历解析技术的需求。简历解析,就是针对各种不同格式的简历,按照要求提取结构化字段的过程,是后续进一步的人才职位匹配工作的基础,也是充分利用简历库,节约成本的有效方式。
但是简历文本在逻辑上,有着它固有的特点:内容上它通常是呈分段排列。目前,在对简历文本进行解析分段方面,有通过神经网络Bi-LSTM(Bidirectional long short-term memory,双向长短时间记忆网络)模型,对简历文本中语句进行处理得到每个语句的分段标签,进而通过序列组合得到不同的分段,再对分段内容进行关键信息的提取的方法,但是这种方法在对简历文本进行分段时利用的文本信息少,分段准确性差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请提出一种文本分段方法、装置及电子设备,以解决相关技术中的文本分段方法存在的分段准确性差的技术问题。
本申请第一方面实施例提出了一种文本分段方法,包括:获取待处理的文本,以及所述文本中多个字符的属性信息;根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量;根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量;根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率;根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果。
本申请第二方面实施例提出了一种文本分段装置,包括:第一获取模块,用于获取待处理的文本,以及所述文本中多个字符的属性信息;提取模块,用于根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量;第一确定模块,用于根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量;第二确定模块,用于根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率;第三确定模块,用于根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果。
本申请第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请第一方面实施例提出的文本分段方法。
本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请第一方面实施例提出的文本分段方法。
本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请第一方面实施例提出的文本分段方法。
本申请提出的技术方案,具有如下有益效果:
通过获取待处理的文本,以及文本中多个字符的属性信息后,根据文本以及多个字符的属性信息,提取多个字符的向量,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量,根据多个语句的向量,确定多个语句属于各个段落标签的概率,进而根据多个语句属于各个段落标签的概率,确定文本的分段结果,实现了结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的文本分段方法的流程示意图;
图2为本申请实施例二所提供的文本分段方法的流程示意图;
图3为本申请实施例二所提供的分段预测模型的架构示例图;
图4为本申请实施例三所提供的文本分段装置的结构示意图;
图5为本申请实施例四所提供的文本分段装置的结构示意图;
图6示出了适于用来实现本申请实施方式的示例性电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
相关技术中,在对文本例如简历文本进行解析分段方面,有通过神经网络Bi-LSTM模型,对文本中语句进行处理得到每个语句的分段标签,进而通过序列组合得到不同的分段,再对分段内容进行关键信息的提取的方法,但是这种方法在对文本进行分段时利用的文本信息少,分段准确性差。
本申请主要针对相关技术中的文本分段方法的分段准确性差的技术问题,提出一种文本分段方法。
本申请实施例的文本分段方法,通过获取待处理的文本,以及文本中多个字符的属性信息后,根据文本以及多个字符的属性信息,提取多个字符的向量,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量,根据多个语句的向量,确定多个语句属于各个段落标签的概率,进而根据多个语句属于各个段落标签的概率,确定文本的分段结果,实现了结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。
下面参考附图描述本申请实施例的文本分段方法、装置、电子设备及存储介质。
图1为本申请实施例一所提供的文本分段方法的流程示意图。
需要说明的是,本申请实施例以该文本分段方法被配置于文本分段装置中来举例说明,该文本分段装置可以应用于任一电子设备中,以使该电子设备可以执行文本的准确分段功能。
其中,电子设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该文本分段方法可以包括以下步骤:
步骤101,获取待处理的文本,以及文本中多个字符的属性信息。
其中,待处理的文本,可以为任意有格式要求的文本,例如简历文本、论文、专利文本等,本申请对此不作限制。另外,待处理的文本,可以是文本分段装置从文本库中获取的,也可以是用户上传至文本分段装置的,也可以是文本分段装置通过其它方式获取的,本申请对此不作限制。
多个字符的属性信息,包括以下参数中的至少一种:字符字体、字符是否粗体、字符尺寸和字符位置。
其中,字符位置,具体可以为字符在预设坐标系中的坐标值。
在示例性实施例中,可以结合Java语言中的PDF提取工具,提取文本中多个字符的属性信息。
在示例性实施例中,多个字符的属性信息包括字符尺寸时,为了方便后续对文本中的多个字符的字符尺寸进行处理,可以对多个字符的字符尺寸进行归一化处理。其中,对多个字符的字符尺寸进行归一化处理的过程可以为:获取文本中各个字符的字符尺寸,统计具有相同字符尺寸的字符的数量,将对应的字符数量最多的字符尺寸作为标准尺寸,将其它字符的字符尺寸缩放至标准尺寸,以实现对文本中各字符的字符尺寸的归一化处理。
在示例性实施例中,多个字符的属性信息包括字符位置时,若文本的页数大于1,为了方便后续对文本中的多个字符的字符位置进行处理,可以对多个字符的字符位置进行归一化处理。其中,对多个字符的字符尺寸进行归一化处理的过程可以为:获取文本中第i个页面的各个字符的字符位置,i的初始值为1;确定第i个页面中的最大字符位置;根据第i个页面中的最大字符位置,对第i+1个页面中各个字符的字符位置进行更新处理,得到第i+1个页面中各个字符的归一化后字符位置;对i进行加1处理,并重复执行上述步骤,直至i的值大于页数。
其中,根据第i个页面中的最大字符位置,对第i+1个页面中各个字符的字符位置进行更新处理,具体可以为,对于第i+1个页面中的每个字符,将第i+1个页中该字符的字符位置的坐标数值,与第i个页面中的最大字符位置的坐标数值相加,得到第i+1页面中该字符的归一化后字符位置的坐标数值。
需要说明的是,对于第2个页面,在确定第2个页面中各个字符的归一化后字符位置时,是利用第1个页面中的最大字符位置,对第2个页面中各个字符的字符位置进行更新处理,对于第3个页面及之后的页面,在确定该页面中各个字符的归一化后字符位置时,是利用该页面的前一个页面中的归一化后的最大字符位置,对该页面中各个字符的字符位置进行更新处理。即本申请实施例中,在i大于等于2时,是根据第i个页面中的归一化后的最大字符位置,对第i+1个页面中各个字符的字符位置进行更新处理,得到第i+1个页面中各个字符的归一化后字符位置。
相应的,可以通过以下公式(1),对多个字符的字符尺寸进行归一化处理。
其中,i为当前页面的页数索引,即当前页面为第i个页面,为第i个页面归一化后的x轴坐标,为第i个页面归一化后的y轴坐标,为第i个页面的归一化之前的当前的x轴坐标,为第i个页面的归一化之前的当前的y轴坐标,为第i-1个页面归一化后的x轴坐标,为第i-1个页面归一化后的y轴坐标。
举例来说,假设文本的页数为2页,其中,第1个页面中的最小字符位置,即左下角的字符位置的坐标为(0.0,0.0),最大字符位置,即右上角的字符位置的坐标为(556.0,677.1),第2个页面中的最小字符位置,即左下角的字符位置的坐标为(0.0,0.0),最大字符位置,即右上角的字符位置的坐标为(468.9,654.7)。则经过归一化后,第1个页面中的各字符的字符位置不变,左下角的字符位置的坐标仍为(0.0,0.0),右上角的字符位置的坐标仍为(556.0,677.1),而第2个页面中的左下角的字符位置的坐标更新为(556.0,677.1),右上角的字符位置的坐标为(556.0+468.9,677.1+654.7)。
通过对文本中各个字符的字符位置进行归一化处理,可以在形式上将文本的各个页面统一成以同一坐标原点计量的坐标数值,方便后续对文本中各个字符的字符位置进行处理。
在示例性实施例中,多个字符的属性信息包括字符尺寸和字符位置时,若文本的页数大于1,还可以对多个字符的字符尺寸以及字符位置进行归一化处理。
相应的,在步骤101之后,还可以包括:
在多个字符的属性信息包括字符尺寸时,对多个字符的字符尺寸进行归一化处理;
和/或,
在多个字符的属性信息包括字符位置,且文本的页数大于1时,对多个字符的字符位置进行归一化处理。
步骤102,根据文本以及多个字符的属性信息,提取多个字符的向量。
步骤103,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量。
步骤104,根据多个语句的向量,确定多个语句属于各个段落标签的概率。
其中,段落标签,为待处理的文本的格式要求中规定的标签,比如以待处理的文本为简历文本为例,由于简历文本中通常会要求记录求职者的基本信息、教育背景、工作经历、职业意向等,则段落标签可以为“基本信息”、“教育背景”、“工作经历”、“职位意向”等等。
在示例性实施例中,可以预先训练得到分段预测模型,分段预测模型中包括多个网络层,从而通过各个网络层,分别实现根据文本以及多个字符的属性信息,提取多个字符的向量,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量,以及根据多个语句的向量,确定多个语句属于各个段落标签的概率。具体过程将在下述实施例中进行说明,此处不作赘述。
步骤105,根据多个语句属于各个段落标签的概率,确定文本的分段结果。
在示例性实施例中,根据多个语句属于各个段落标签的概率,确定文本的分段结果时,针对每个语句,可以获取语句属于各个段落标签的概率中的最大概率,将最大概率对应的段落标签,确定为语句对应的段落标签,进而将文本中的各个语句,按照对应的段落标签进行组合,得到文本的分段结果。
举例来说,假设待处理的文本为简历文本,段落标签包括“基本信息”、“教育背景”、“工作经历”、“职位意向”,文本中包括10个语句,其中,第1、2个语句属于“基本信息”段落标签的概率最大,第3、5个语句属于“工作经历”段落标签的概率最大,第4、6句属于“教育背景”段落标签的概率最大,第7-10个语句属于“职位意向”段落标签的概率最大,则可以按照对应的段落标签,将第1、2个语句组合,将第3、5个语句组合,将第4、6个语句组合,将第7-10个语句组合,得到文本的分段结果。
本申请实施例的文本分段方法,在对文本进行分段时,由于将文本以及文本中的各个字符的字符字体、字符是否粗体、字符尺寸和字符位置等属性信息作为文本分段依据,利用多维度的信息进行分段,从而大大提高了文本分段准确性。
本申请实施例的文本分段方法,通过获取待处理的文本,以及文本中多个字符的属性信息后,根据文本以及多个字符的属性信息,提取多个字符的向量,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量,根据多个语句的向量,确定多个语句属于各个段落标签的概率,进而根据多个语句属于各个段落标签的概率,确定文本的分段结果,实现了结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。
通过上述分析可知,本申请实施例中,可以预先构建分段预测模型,以根据文本以及多个字符的属性信息,确定多个语句属于各个段落标签的概率,下面结合图2,对本申请实施例中的文本分段方法中,根据文本以及多个字符的属性信息,确定多个语句属于各个段落标签的概率的过程进行进一步说明。
图2为本申请实施例二所提供的文本分段方法的流程示意图。如图2所示,文本分段方法具体可以包括以下步骤:
步骤201,获取待处理的文本,以及文本中多个字符的属性信息。
其中,多个字符的属性信息包括以下参数中的至少一种:字符字体、字符是否粗体、字符尺寸和字符位置。
需要说明的是,步骤201的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤202,将文本以及多个字符的属性信息,输入分段预测模型中的字符向量提取层,以获取多个字符的向量。
在示例性实施例中,可以预先训练得到分段预测模型,其中,分段预测模型包括字符向量提取层。字符向量提取层的输入为文本以及文本中多个字符的属性信息,字符向量提取层的输出为多个字符的向量,从而将文本以及多个字符的属性信息,输入分段预测模型中的字符向量提取层,可以获取多个字符的向量。
步骤203,将多个字符的向量,输入分段预测模型中的字符向量融合层,以获取多个字符的融合后向量。
在示例性实施例中,分段预测模型还可以包括字符向量融合层,字符向量提取层与字符向量融合层依次连接,字符向量融合层的输入为字符向量提取层输出的多个字符的向量,字符向量融合层的输出为多个字符的融合后向量。从而可以利用分段预测模型中的字符向量融合层,获取多个字符的融合后向量。
步骤204,将多个字符的融合后向量,作为多个字符的向量。
在示例性实施例中,可以将分段预测模型的字符向量融合层输出的多个字符的融合后向量,作为多个字符的向量。从而通过依次排列的字符向量提取层和字符向量融合层,可以提取文本中多个字符的向量。
步骤205,将文本中的多个语句以及每个语句中字符的向量输入分段预测模型中的语句向量提取层,以获取多个语句的向量。
在示例性实施例中,分段预测模型还可以包括语句向量提取层,字符向量融合层与语句向量提取层依次连接,语句向量提取层的输入为文本中的多个语句以及每个语句中字符的向量,语句向量提取层的输出为多个语句的向量。从而可以根据文本中的多个语句以及每个语句中字符的向量,利用分段预测模型中的语句向量提取层,获取多个语句的向量。
步骤206,将多个语句对应的向量,输入分段预测模型中的语句向量融合层,以获取多个语句的融合后向量。
在示例性实施例中,分段预测模型还可以包括语句向量融合层,语句向量提取层与语句向量融合层依次连接,语句向量融合层的输入为语句向量提取层输出的多个语句对应的向量,语句向量融合层的输出为多个语句的融合后向量。从而可以利用分段预测模型中的语句向量融合层,获取多个语句的融合后向量。
步骤207,将多个语句的融合后向量,作为多个语句的向量。
在示例性实施例中,可以将分段预测模型的语句向量融合层输出的多个语句的融合后向量,作为多个语句的向量。从而通过依次排列的语句向量提取层和语句向量融合层,可以提取文本中多个语句的向量。
步骤208,将多个语句的向量,输入分段预测模型中的分段预测层,以获取多个语句属于各个段落标签的概率。
在示例性实施例中,分段预测模型还可以包括分段预测层,语句向量融合层与分段预测层依次连接,分段预测层的输入为语句向量融合层输出的多个语句的融合后向量,分段预测层的输出为多个语句属于各个段落标签的概率,从而可以利用分段预测层确定多个语句属于各个段落标签的概率。
需要说明的是,分段预测层在确定多个语句属于各个段落标签的概率时,还可以结合语句向量融合层输出的多个语句的融合后向量以及文本中多个字符的属性信息共同确定多个语句属于各个段落标签的概率,从而进一步提高确定的多个语句属于各个段落标签的概率的准确性,进而提高根据多个语句属于各个段落标签的概率确定的文本的分段结果的准确性。
参考图3,分段预测模型可以包括依次排列的字符向量提取层、字符向量融合层、语句向量提取层、语句向量融合层和分段预测层。字符向量提取层,可以对输入的文本以及文本中多个字符的属性信息进行处理,从而输出多个字符的向量。字符向量融合层的输入端与字符向量提取层的输出端连接,字符向量融合层可以对字符向量提取层输出的多个字符的向量进行处理,从而输出多个字符融合后的向量。语句向量提取层的输入端与字符向量融合层的输出端连接,可以将多个字符融合后的向量作为多个字符的向量,将文本中的多个语句以及每个语句中字符的向量输入语句向量提取层,从而语句向量提取层可以对每个语句中字符的向量进行处理,输出多个语句的向量。语句向量融合层的输入端与语句向量提取层的输出端连接,语句向量融合层可以对语句向量提取层输出的多个语句的向量进行处理,从而输出多个语句的融合后向量。分段预测层的输入端与语句向量融合层的输出端连接,语句向量融合层输出的多个语句的融合后向量可以输入分段预测层,从而分段预测层可以对语句向量融合层输出的多个语句的融合后向量进行处理,输出多个语句属于各个段落标签的概率。进而可以根据多个语句属于各个段落的概率,确定文本的分段结果。
可以理解的,在利用分段预测模型实现上述步骤之前,还需要先训练得到分段预测模型,即,在步骤202之前,还可以包括:
构建初始的分段预测模型,其中,初始的分段预测模型包括:依次排列的初始的字符向量提取层、初始的字符向量融合层、初始的语句向量提取层、初始的语句向量融合层和初始的分段预测层;其中,依次排列的初始的字符向量提取层和初始的字符向量融合层,用于提取多个字符的向量;依次排列的初始的语句向量提取层和初始的语句向量融合层,用于提取多个语句的向量;初始的分段预测层,用于确定多个语句属于各个段落标签的概率;
获取训练数据,其中,训练数据包括:文本样本以及对应的分段结果样本;
以文本样本为分段预测模型的输入,以分段结果样本为分段预测模型的输出,结合分段预测模型输出的文本样本中各个语句属于各个段落标签的概率以及分段结果样本建立目标函数,结合目标函数值对分段预测模型的系数进行调整,以实现训练。
在示例性实施例中,初始的字符向量提取层,可以采用经过预训练的语言表示模型实现,比如,初始的字符向量提取层,可以为经过预训练的BERT模型。其中,BERT模型是一种语言表示模型,BERT代表来自Transformer语言模型的双向编码器表示(BidirectionalEncoder Representations from Transformers)。BERT模型利用transformer的架构,在大规模的无标注语料上进行无监督学习预训练。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation(表示),即文本的语义表示,然后将文本的语义表示在特定NLP(Natural Language Processing,自然语言处理)任务中作微调,最终应用于该NLP任务。
本申请实施例中,可以将经过预训练的BERT模型作为分段预测模型的初始的字符向量提取层,基于BERT模型,结合文本中各个字符的属性信息,重新定义BERT模型的特征输入,通过对经过预训练的BERT模型进行进一步训练,对经过预训练的BERT模型进行微调,使得微调后的BERT模型能够对文本以及多个字符的属性信息进行处理,获取多个字符的向量。
其中,重新定义的BERT模型的特征输入可以为:
{
x_coordinate【x坐标】
y_coordinate【y坐标】
bool_bold【是否粗体】
font_size【字体大小】
input_ids【字符索引】
input_mask【是否有效值】
}
初始的字符向量融合层,可以采用残差网络结构Residual-FFN(Residual-Feed-Forward Network,残差前馈网络)实现。其中,残差网络是由一系列残差块组成的,残差块分成直接映射部分和残差部分,残差部分一般由两个或者三个FFN(Feed-ForwardNetwork,前馈神经网络)构成。
本申请实施例中,可以将残差网络结构作为分段预测模型的初始的字符向量融合层,将初始的字符向量提取层输出的多个字符的向量作为残差网络结构的输入向量,利用残差网络结构进一步进行特征拟合提取,得到多个字符的融合后向量。
其中,初始的语句向量提取层,可以采用注意力权重机制Attention-Weighted-Sum(注意力权重加权求和)模型实现,利用该模型作为初始的语句向量提取层,将文本中的多个语句以及每个语句中字符的向量输入语句向量提取层后,语句向量提取层可以依据每个语句中每个字符的重要性,对每个语句中每个字符的字符向量进行加权求和,获取各个语句的向量。
初始的语句向量融合层,可以采用Residual-BiGRU(残差双向循环神经网络)实现,利用该网络作为初始的语句向量融合层,将多个语句对应的向量作为特征输入初始的语句向量融合层后,语句向量融合层可以对每个语句的向量进行时序特征拟合,得到每个语句的融合后向量,每个语句的融合后向量具有前后依赖关系。
初始的分段预测层,可以采用任意能够计算边缘概率损失的模型实现。其中,初始的分段预测层,可以利用初始的语句向量融合层输出的多个语句的融合后向量,计算文本的整体边缘概率,从而得到多个语句属于各个段落标签的概率。
在示例性实施例中,训练数据,可以包括文本样本以及对应的分段结果样本。
需要说明的是,在获取训练数据后,还可以获取文本样本中多个字符的属性信息,从而利用文本样本中多个字符的属性信息对初始的分段预测模型进行训练。具体获取文本样本中多个字符的属性信息的方法,可以参考上述实施例中步骤101的详细描述,此处不再赘述。
另外,在获取文本样本中多个字符的属性信息后,为了方便后续对文本样本中的多个字符的属性信息进行处理,还可以在多个字符的属性信息包括字符尺寸时,对多个字符的字符尺寸进行归一化处理;和/或在多个字符的属性信息包括字符位置,且文本的页数大于1时,对多个字符的字符位置进行归一化处理。
在示例性实施例中,可以将文本样本中每个字符属性信息,制作成词典式的训练语料。其中,训练数据格式可以为以下格式:
其中,startX和endX,分别表示字符的字符位置的x轴坐标的最小值和最大值;startY和endY,分别表示字符的字符位置的y坐标的最小值和最大值;fontSize表示字符的字体大小;unicode为字符的文本信息。
在示例性实施例中,在对初始的分段预测模型进行训练时,可以将训练数据中包括的文本样本以及文本样本中多个字符的属性信息输入初始的分段预测模型,通过初始的分段预测模型中依次排列的字符向量提取层和初始的字符向量融合层,可以提取文本样本中多个字符的向量,通过初始的分段预测模型中依次排列的初始的语句向量提取层和初始的语句向量融合层,可以提取文本样本中多个语句的向量。通过初始的分段预测模型中初始的分段预测层,可以确定文本样本中各个语句属于各个段落标签的概率。
在示例性实施例中,可以以文本样本为分段预测模型的输入,以分段结果样本为分段预测模型的输出,结合分段预测模型输出的文本样本中各个语句属于各个段落标签的概率以及分段结果样本,建立目标函数。在将文本样本输入初始的分段预测模型,得到文本样本中各个语句属于各个段落标签的概率后,可以将文本样本对应的分段结果样本以及文本样本中各个语句属于各个段落标签的概率代入目标函数,得到目标函数值,进而结合目标函数值对初始的分段预测模型的系数进行调整,以实现对初始的分段预测模型的训练,得到训练好的分段预测模型。从而通过训练好的分段预测模型实现上述根据待处理的文本以及多个字符的属性信息,确定待处理的文本的分段结果的步骤。
步骤209,根据多个语句属于各个段落标签的概率,确定文本的分段结果。
其中,步骤209的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
本申请实施例的文本分段方法,在获取待处理的文本,以及文本中多个字符的属性信息后,可以将文本以及多个字符的属性信息,输入分段预测模型中的字符向量提取层,以获取多个字符的向量,将多个字符的向量,输入分段预测模型中的字符向量融合层,以获取多个字符的融合后向量,将多个字符的融合后向量,作为多个字符的向量,将文本中的多个语句以及每个语句中字符的向量输入分段预测模型中的语句向量提取层,以获取多个语句的向量,将多个语句对应的向量,输入分段预测模型中的语句向量融合层,以获取多个语句的融合后向量,将多个语句的融合后向量,作为多个语句的向量,将多个语句的向量,输入分段预测模型中的分段预测层,以获取多个语句属于各个段落标签的概率,进而根据多个语句属于各个段落标签的概率,确定文本的分段结果。由此,实现了利用分段预测模型,结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。另外,由于利用分段预测模型确定文本的分段结果,无需依赖人工总结文本规则,减少了人力成本。且由于对于任意格式的文本均能通过分段预测模型实现对文本准确分段,提高了模型的泛化性。
图4为本申请实施例三所提供的文本分段装置的结构示意图。
如图4所示,该文本分段装置400可以包括:第一获取模块410、提取模块420、第一确定模块430、第二确定模块440和第三确定模块450。
其中,第一获取模块410,用于获取待处理的文本,以及文本中多个字符的属性信息;
提取模块420,用于根据文本以及多个字符的属性信息,提取多个字符的向量;
第一确定模块430,用于根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量;
第二确定模块440,用于根据多个语句的向量,确定多个语句属于各个段落标签的概率;
第三确定模块450,用于根据多个语句属于各个段落标签的概率,确定文本的分段结果。
在示例性实施例中,多个字符的属性信息包括以下参数中的至少一种:字符字体、字符是否粗体、字符尺寸和字符位置。
进一步地,在本申请实施例的一种可能的实现方式中,参考图5,文本分段装置400还可以包括:
处理模块460,用于在多个字符的属性信息包括字符尺寸时,对多个字符的字符尺寸进行归一化处理;和/或,在多个字符的属性信息包括字符位置,且文本的页数大于1时,对多个字符的字符位置进行归一化处理。
进一步地,在本申请实施例的一种可能的实现方式中,处理模块460,具体用于:
获取文本中第i个页面的各个字符的字符位置,i的初始值为1;
确定第i个页面中的最大字符位置;
根据第i个页面中的最大字符位置,对第i+1个页面中各个字符的字符位置进行更新处理,得到第i+1个页面中各个字符的归一化后字符位置;
对i进行加1处理,并重复执行上述步骤,直至i的值大于页数。
进一步地,在本申请实施例的一种可能的实现方式中,提取模块420,具体用于:
将文本以及多个字符的属性信息,输入分段预测模型中的字符向量提取层,以获取多个字符的向量;
将多个字符的向量,输入分段预测模型中的字符向量融合层,以获取多个字符的融合后向量;
将多个字符的融合后向量,作为多个字符的向量。
进一步地,在本申请实施例的一种可能的实现方式中,第一确定模块430,具体用于:
将文本中的多个语句以及每个语句中字符的向量输入分段预测模型中的语句向量提取层,以获取多个语句的向量;
将多个语句对应的向量,输入分段预测模型中的语句向量融合层,以获取多个语句的融合后向量;
将多个语句的融合后向量,作为多个语句的向量。
进一步地,在本申请实施例的一种可能的实现方式中,第二确定模块440,具体用于:
将多个语句的向量,输入分段预测模型中的分段预测层,以获取多个语句属于各个段落标签的概率。
进一步地,在本申请实施例的一种可能的实现方式中,文本分段装置400还可以包括:
构建模块470,用于构建初始的分段预测模型,其中,初始的分段预测模型包括:依次排列的初始的字符向量提取层、初始的字符向量融合层、初始的语句向量提取层、初始的语句向量融合层和初始的分段预测层;其中,依次排列的初始的字符向量提取层和初始的字符向量融合层,用于提取多个字符的向量;依次排列的初始的语句向量提取层和初始的语句向量融合层,用于提取多个语句的向量;初始的分段预测层,用于确定多个语句属于各个段落标签的概率;
第二获取模块480,用于获取训练数据,其中,训练数据包括:文本样本以及对应的分段结果样本;
训练模块490,用于以文本样本为分段预测模型的输入,以分段结果样本为分段预测模型的输出,结合分段预测模型输出的文本样本中各个语句属于各个段落标签的概率以及分段结果样本建立目标函数,结合目标函数值对分段预测模型的系数进行调整,以实现训练。
进一步地,在本申请实施例的一种可能的实现方式中,第三确定模块450,具体用于:
针对每个语句,获取语句属于各个段落标签的概率中的最大概率;
将最大概率对应的段落标签,确定为语句对应的段落标签;
将文本中的各个语句,按照对应的段落标签进行组合,得到文本的分段结果。
需要说明的是,前述文本分段方法实施例中的解释说明也适用于该实施例的文本分段装置,此处不再赘述。
本申请实施例的文本分段装置,通过获取待处理的文本,以及文本中多个字符的属性信息后,根据文本以及多个字符的属性信息,提取多个字符的向量,根据文本中的多个语句以及每个语句中字符的向量,确定多个语句的向量,根据多个语句的向量,确定多个语句属于各个段落标签的概率,进而根据多个语句属于各个段落标签的概率,确定文本的分段结果,实现了结合文本以及文本中多个字符的属性信息,确定文本的分段结果,提高了文本分段的准确性。
为了实现上述实施例,本申请还提出一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请前述实施例提出的文本分段方法。
为了实现上述实施例,本申请还提出一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请前述实施例提出的文本分段方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请前述实施例提出的文本分段方法。
图6示出了适于用来实现本申请实施方式的示例性电子设备的框图。图6显示的电子设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (20)
1.一种文本分段方法,其特征在于,包括:
获取待处理的文本,以及所述文本中多个字符的属性信息;
根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量;
根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量;
根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率;
根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果。
2.根据权利要求1所述的方法,其特征在于,所述多个字符的属性信息包括以下参数中的至少一种:字符字体、字符是否粗体、字符尺寸和字符位置。
3.根据权利要求1或2所述的方法,其特征在于,在获取待处理的文本,以及所述文本中多个字符的属性信息之后,还包括:
在所述多个字符的属性信息包括字符尺寸时,对所述多个字符的字符尺寸进行归一化处理;
和/或,
在所述多个字符的属性信息包括字符位置,且所述文本的页数大于1时,对所述多个字符的字符位置进行归一化处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述各个字符的字符位置进行归一化处理,包括:
获取所述文本中第i个页面的各个字符的字符位置,所述i的初始值为1;
确定所述第i个页面中的最大字符位置;
根据所述第i个页面中的最大字符位置,对所述第i+1个页面中各个字符的字符位置进行更新处理,得到所述第i+1个页面中各个字符的归一化后字符位置;
对所述i进行加1处理,并重复执行上述步骤,直至所述i的值大于所述页数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量,包括:
将所述文本以及所述多个字符的属性信息,输入分段预测模型中的字符向量提取层,以获取所述多个字符的向量;
将所述多个字符的向量,输入所述分段预测模型中的字符向量融合层,以获取所述多个字符的融合后向量;
将所述多个字符的融合后向量,作为所述多个字符的向量。
6.根据权利要求1或5所述的方法,其特征在于,所述根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量,包括:
将所述文本中的多个语句以及每个语句中字符的向量输入分段预测模型中的语句向量提取层,以获取所述多个语句的向量;
将所述多个语句对应的向量,输入所述分段预测模型中的语句向量融合层,以获取所述多个语句的融合后向量;
将所述多个语句的融合后向量,作为所述多个语句的向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率,包括:
将所述多个语句的向量,输入所述分段预测模型中的分段预测层,以获取所述多个语句属于各个段落标签的概率。
8.根据权利要求1所述的方法,其特征在于,在根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量之前,还包括:
构建初始的分段预测模型,其中,所述初始的分段预测模型包括:依次排列的初始的字符向量提取层、初始的字符向量融合层、初始的语句向量提取层、初始的语句向量融合层和初始的分段预测层;其中,依次排列的初始的字符向量提取层和初始的字符向量融合层,用于提取所述多个字符的向量;依次排列的初始的语句向量提取层和初始的语句向量融合层,用于提取所述多个语句的向量;初始的分段预测层,用于确定多个语句属于各个段落标签的概率;
获取训练数据,其中,所述训练数据包括:文本样本以及对应的分段结果样本;
以所述文本样本为所述分段预测模型的输入,以所述分段结果样本为所述分段预测模型的输出,结合所述分段预测模型输出的所述文本样本中各个语句属于各个段落标签的概率以及所述分段结果样本建立目标函数,结合目标函数值对所述分段预测模型的系数进行调整,以实现训练。
9.根据权利要求1所述的方法,其特征在于,所述根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果,包括:
针对每个语句,获取所述语句属于各个段落标签的概率中的最大概率;
将所述最大概率对应的段落标签,确定为所述语句对应的段落标签;
将所述文本中的所述各个语句,按照对应的段落标签进行组合,得到所述文本的分段结果。
10.一种文本分段装置,其特征在于,包括:
第一获取模块,用于获取待处理的文本,以及所述文本中多个字符的属性信息;
提取模块,用于根据所述文本以及所述多个字符的属性信息,提取所述多个字符的向量;
第一确定模块,用于根据所述文本中的多个语句以及每个语句中字符的向量,确定所述多个语句的向量;
第二确定模块,用于根据所述多个语句的向量,确定所述多个语句属于各个段落标签的概率;
第三确定模块,用于根据所述多个语句属于各个段落标签的概率,确定所述文本的分段结果。
11.根据权利要求10所述的装置,其特征在于,所述多个字符的属性信息包括以下参数中的至少一种:字符字体、字符是否粗体、字符尺寸和字符位置。
12.根据权利要求10或11所述的装置,其特征在于,还包括:
处理模块,用于在所述多个字符的属性信息包括字符尺寸时,对所述多个字符的字符尺寸进行归一化处理;
和/或,
在所述多个字符的属性信息包括字符位置,且所述文本的页数大于1时,对所述多个字符的字符位置进行归一化处理。
13.根据权利要求12所述的装置,其特征在于,所述处理模块,具体用于:
获取所述文本中第i个页面的各个字符的字符位置,所述i的初始值为1;
确定所述第i个页面中的最大字符位置;
根据所述第i个页面中的最大字符位置,对所述第i+1个页面中各个字符的字符位置进行更新处理,得到所述第i+1个页面中各个字符的归一化后字符位置;
对所述i进行加1处理,并重复执行上述步骤,直至所述i的值大于所述页数。
14.根据权利要求10所述的装置,其特征在于,所述提取模块,具体用于:
将所述文本以及所述多个字符的属性信息,输入分段预测模型中的字符向量提取层,以获取所述多个字符的向量;
将所述多个字符的向量,输入所述分段预测模型中的字符向量融合层,以获取所述多个字符的融合后向量;
将所述多个字符的融合后向量,作为所述多个字符的向量。
15.根据权利要求10或14所述的装置,其特征在于,所述第一确定模块,具体用于:
将所述文本中的多个语句以及每个语句中字符的向量输入分段预测模型中的语句向量提取层,以获取所述多个语句的向量;
将所述多个语句对应的向量,输入所述分段预测模型中的语句向量融合层,以获取所述多个语句的融合后向量;
将所述多个语句的融合后向量,作为所述多个语句的向量。
16.根据权利要求15所述的装置,其特征在于,所述第二确定模块,具体用于:
将所述多个语句的向量,输入所述分段预测模型中的分段预测层,以获取所述多个语句属于各个段落标签的概率。
17.根据权利要求10所述的装置,其特征在于,还包括:
构建模块,用于构建初始的分段预测模型,其中,所述初始的分段预测模型包括:依次排列的初始的字符向量提取层、初始的字符向量融合层、初始的语句向量提取层、初始的语句向量融合层和初始的分段预测层;其中,依次排列的初始的字符向量提取层和初始的字符向量融合层,用于提取所述多个字符的向量;依次排列的初始的语句向量提取层和初始的语句向量融合层,用于提取所述多个语句的向量;初始的分段预测层,用于确定多个语句属于各个段落标签的概率;
第二获取模块,用于获取训练数据,其中,所述训练数据包括:文本样本以及对应的分段结果样本;
训练模块,用于以所述文本样本为所述分段预测模型的输入,以所述分段结果样本为所述分段预测模型的输出,结合所述分段预测模型输出的所述文本样本中各个语句属于各个段落标签的概率以及所述分段结果样本建立目标函数,结合目标函数值对所述分段预测模型的系数进行调整,以实现训练。
18.根据权利要求10所述的装置,其特征在于,所述第三确定模块,具体用于:
针对每个语句,获取所述语句属于各个段落标签的概率中的最大概率;
将所述最大概率对应的段落标签,确定为所述语句对应的段落标签;
将所述文本中的所述各个语句,按照对应的段落标签进行组合,得到所述文本的分段结果。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368267.6A CN113821586A (zh) | 2021-04-06 | 2021-04-06 | 文本分段方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368267.6A CN113821586A (zh) | 2021-04-06 | 2021-04-06 | 文本分段方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113821586A true CN113821586A (zh) | 2021-12-21 |
Family
ID=78912432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368267.6A Pending CN113821586A (zh) | 2021-04-06 | 2021-04-06 | 文本分段方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821586A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040010758A1 (en) * | 2002-07-12 | 2004-01-15 | Prateek Sarkar | Systems and methods for triage of passages of text output from an OCR system |
US20040181758A1 (en) * | 2003-03-14 | 2004-09-16 | Satoshi Shinpuku | Text and question generating apparatus and method |
US20130014007A1 (en) * | 2011-07-07 | 2013-01-10 | Aquafadas | Method for creating an enrichment file associated with a page of an electronic document |
US20150199329A1 (en) * | 2014-01-10 | 2015-07-16 | Samsung Electronics Co., Ltd. | Text display method and apparatus of electronic device |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
US20200311207A1 (en) * | 2019-03-28 | 2020-10-01 | Adobe Inc. | Automatic text segmentation based on relevant context |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
-
2021
- 2021-04-06 CN CN202110368267.6A patent/CN113821586A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040010758A1 (en) * | 2002-07-12 | 2004-01-15 | Prateek Sarkar | Systems and methods for triage of passages of text output from an OCR system |
US20040181758A1 (en) * | 2003-03-14 | 2004-09-16 | Satoshi Shinpuku | Text and question generating apparatus and method |
US20130014007A1 (en) * | 2011-07-07 | 2013-01-10 | Aquafadas | Method for creating an enrichment file associated with a page of an electronic document |
US20150199329A1 (en) * | 2014-01-10 | 2015-07-16 | Samsung Electronics Co., Ltd. | Text display method and apparatus of electronic device |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
US20200311207A1 (en) * | 2019-03-28 | 2020-10-01 | Adobe Inc. | Automatic text segmentation based on relevant context |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN112016310A (zh) | 文本纠错方法、系统、设备及可读存储介质 | |
US10372821B2 (en) | Identification of reading order text segments with a probabilistic language model | |
CN113220836B (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN107301248B (zh) | 文本的词向量构建方法和装置、计算机设备、存储介质 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
CN111985229A (zh) | 一种序列标注方法、装置及计算机设备 | |
CN109783796A (zh) | 预测文本内容中的样式破坏 | |
CN108897869B (zh) | 语料标注方法、装置、设备和存储介质 | |
CN112836052A (zh) | 一种汽车评论文本观点挖掘方法、设备及存储介质 | |
CN112016314A (zh) | 一种基于bert模型的医疗文本理解方法及系统 | |
EP2577454A2 (en) | Methods and systems for automated creation, recognition and display of icons | |
CN112002323A (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN117454884B (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN112308048B (zh) | 基于少量标注数据的病历完整性判别的方法、装置及系统 | |
CN113761867A (zh) | 地址识别方法、装置、计算机设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN113821586A (zh) | 文本分段方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |