CN110362832A - 一种段落合并的方法、装置、存储介质及电子设备 - Google Patents

一种段落合并的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110362832A
CN110362832A CN201910650448.0A CN201910650448A CN110362832A CN 110362832 A CN110362832 A CN 110362832A CN 201910650448 A CN201910650448 A CN 201910650448A CN 110362832 A CN110362832 A CN 110362832A
Authority
CN
China
Prior art keywords
text data
vector
paragraph
target text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910650448.0A
Other languages
English (en)
Other versions
CN110362832B (zh
Inventor
任翔远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shannon Huiyu Technology Co Ltd
Original Assignee
Beijing Shannon Huiyu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shannon Huiyu Technology Co Ltd filed Critical Beijing Shannon Huiyu Technology Co Ltd
Priority to CN201910650448.0A priority Critical patent/CN110362832B/zh
Publication of CN110362832A publication Critical patent/CN110362832A/zh
Application granted granted Critical
Publication of CN110362832B publication Critical patent/CN110362832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种段落合并的方法、装置、存储介质及电子设备,其中,该方法包括:确定文本数据的位置向量和语义向量;在文档内容中依次选取多个目标文本数据;确定目标文本数据的隐含层向量;根据目标文本数据的隐含层向量判断目标文本数据是否与其他目标文本数据属于同一段落;之后重新依次选取目标文本数据,并重复上述过程,直至遍历文档内容中所有的文本数据;统计所有的判断结果,将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。通过本发明实施例提供的段落合并的方法、装置、存储介质及电子设备,判断依据包含位置向量和语义向量,且可以兼顾更大范围的上下文语义信息,判断结果更加准确,从而可以优化段落合并的准确率。

Description

一种段落合并的方法、装置、存储介质及电子设备
技术领域
本发明涉及文本处理的技术领域,具体而言,涉及一种段落合并的方法、装置、存储介质及电子设备。
背景技术
随着信息技术的应用和发展,人们撰写创造了越来越多的文档,且文档中的文本内容也越来越多样。在机器学习领域,一般以句子为单位分割文档;在信息抽取需要搜索相关信息时,由于句子数量较多,以句子来分割文档会导致抽取效率低的问题,此时一般会合并同段落的句子,从而将文档内容以段落为单位来分割,方便在信息抽取时搜索相关信息,可以有效提高在信息抽取的效率。
现有分割文档段落的方法一般基于文档句子的缩进和行距,但这种方法仅限于简单的纯文本文档,由于插入图像、跨页、插入表格等导致文档中某个段落包含远距离的句子,从而很难正确划分段落,限制了划分段落时的准确率。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种段落合并的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种段落合并的方法,包括:
获取包含多个文本数据的文档内容,并确定每个所述文本数据的位置向量,所述位置向量是向量形式表示的、所述文本数据在所述文档内容中的位置;
对所述文本数据进行分词处理,确定所述文本数据的每个分词的词向量,并基于所有的所述词向量生成所述文本数据的语义向量;
根据所述位置向量,在所述文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据;
将多个所述目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个所述目标文本数据所对应的隐含层向量;所述目标文本数据的向量编码为根据所述目标文本数据的位置向量和语义向量生成的编码;
根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落;
之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历所述文档内容中所有的文本数据;
统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
在一种可能的实现方式中,所述基于所有的所述词向量生成所述文本数据的语义向量包括:
计算所述词向量wi在所述文本数据中的权重ωi,且:
其中,f(wi)表示所述词向量wi的词频,D表示所述文档内容包含的文本数据的总数量,d(wi)表示所述文档内容中包含所述词向量wi的文本数据的数量,a为非零常数;
根据所述文本数据的每个所述词向量的权重进行加权平均,确定所述文本数据的语义向量W:
n为所述文本数据包含的词向量数量。
在一种可能的实现方式中,在确定所述文本数据的位置向量和语义向量之后,该方法还包括:
对所述文本数据的位置向量和语义向量进行拼接处理,生成所述文本数据的向量编码。
在一种可能的实现方式中,所述目标文本数据是在所述文档内容中选取的多个位置依次相邻的文本数据;
所述根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落包括:
将所述目标文本数据的所述隐含层向量作为预先训练好的分类器的输入,基于所述分类器的输出判断所述目标文本数据是否与相邻的其他目标文本数据属于同一段落。
在一种可能的实现方式中,所述统计所有的判断结果包括:
统计与第一文本数据相关的所有判断结果,确定所述第一文本数据与其他相邻的第二文本数据是否属于同一段落,在所述第一文本数据与所述第二文本数据属于同一段落时,建立所述第一文本数据与所述第二文本数据之间的同段落关系;所述第一文本数据和所述第二文本数据是所述文档内容中不同的两个文本数据;
确定所述文档内容中每个文本数据与其他相邻的文本数据之间的同段落关系,并生成由多个属于同一段落的文本数据组成的文本段落,所述文本段落中的文本数据至少与所述文本段落中的一个其他文本数据之间具有同段落关系。
第二方面,本发明实施例还提供了一种段落合并的装置,包括:
获取模块,用于获取包含多个文本数据的文档内容,并确定每个所述文本数据的位置向量,所述位置向量是向量形式表示的、所述文本数据在所述文档内容中的位置;
语义处理模块,用于对所述文本数据进行分词处理,确定所述文本数据的每个分词的词向量,并基于所有的所述词向量生成所述文本数据的语义向量;
选取模块,用于根据所述位置向量,在所述文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据;
隐含层向量生成模块,用于将多个所述目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个所述目标文本数据所对应的隐含层向量;所述目标文本数据的向量编码为根据所述目标文本数据的位置向量和语义向量生成的编码;
判断模块,用于根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落;
循环模块,用于之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历所述文档内容中所有的文本数据;
段落合并模块,用于统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
在一种可能的实现方式中,所述语义处理模块包括:
权重计算单元,用于计算所述词向量wi在所述文本数据中的权重ωi,且:
其中,f(wi)表示所述词向量wi的词频,D表示所述文档内容包含的文本数据的总数量,d(wi)表示所述文档内容中包含所述词向量wi的文本数据的数量,a为非零常数;
语义处理单元,用于根据所述文本数据的每个所述词向量的权重进行加权平均,确定所述文本数据的语义向量W:
n为所述文本数据包含的词向量数量。
在一种可能的实现方式中,该装置还包括拼接模块;
在确定所述文本数据的位置向量和语义向量之后,所述拼接模块用于:对所述文本数据的位置向量和语义向量进行拼接处理,生成所述文本数据的向量编码。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的段落合并的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的段落合并的方法。
本发明实施例上述第一方面提供的方案中,根据文本数据的位置和语义生成向量编码,之后基于向量编码来判断文本数据的上下文关系;其判断依据包含位置向量和语义向量,判断结果更加准确。同时,选取多个目标文本数据作为一组,基于循环神经网络提取出目标文本数据的隐含层向量来判断文本数据的上下文关系,其可以兼顾更大范围的上下文语义信息,进一步增加判断结果的准确性,从而可以优化段落合并的准确率。且该方式不需要人工参与即可实现段落合并,可以解放人力。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种段落合并的方法的流程图;
图2示出了本发明实施例所提供的一种段落合并的装置的结构示意图;
图3示出了本发明实施例所提供的用于执行段落合并的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种段落合并的方法,参见图1所示,包括:
步骤101:获取包含多个文本数据的文档内容,并确定每个文本数据的位置向量,位置向量是向量形式表示的、文本数据在文档内容中的位置。
本发明实施例中,文档内容是包含多个文本数据的文档,具体可以使word文档、Web文档等。其中,该文本数据具体可以为一句话或者多句话,可根据实际情况而定。同时,每个文本数据位于该文档内容的不同位置,例如第一个文本数据位于该文档内容的第一行,第二个文本数据位于该文档内容的第二行和第三行等。基于文本数据在文档内容中的位置即可确定该文本数据的位置向量。具体的,可以建立该文档内容的坐标系,确定该文本数据在该坐标系中的边界或边界坐标,将该边界或边界坐标作为该文本数据的位置信息。例如,可以将文本数据在该坐标系中的上下左右四个边界坐标(即文本数据开始位置的左上角坐标、左下角坐标,以及文本数据结束位置的右上角坐标和右下角坐标)组成的四维特征向量作为文本数据的位置向量。
步骤102:对文本数据进行分词处理,确定文本数据的每个分词的词向量,并基于所有的词向量生成文本数据的语义向量。
本发明实施例中,文本数据包含多个词,可以基于分词模型对该文本数据进行分词处理,从而可以确定文本数据的每个分词;或者直接将文本数据中的每个词作为一个分词。之后基于词向量模型可以确定每个分词的词向量,例如Word2Vec词向量等。同时,可以基于该文本数据的所有词向量进行编码,生成该文本数据的语义向量。
步骤103:根据位置向量,在文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据。
本发明实施例中,基于文本数据在文档内容中的位置,选取出多个文本数据,即目标文本数据。例如,可以选取该文档内容中某片区域内的所有文本数据作为目标文本数据;或者,在确定文本数据的位置向量时,同时可以按照位置向量对文本数据进行排序,确定文本数据在文档内容中的顺序,之后按照顺序依次选取出多个目标文本数据;或者,在文档内容中选取多个位置依次相邻的文本数据作为目标文本数据。例如,文档内容中包含四个文本数据A、B、C、D,且文本数据A与文本数据B相邻,文本数据B还与文本数据C相邻,文本数据C还与文本数据D相邻;若需要选取三个文本数据作为目标文本数据,则选取位置依次相邻的文本数据的一种过程如下:首先选取文本数据A,由于文本数据B与文本数据A相邻,之后可以选取文本数据B;同理,最后可以选取文本数据C,从而按照位置选取出了依次相邻的三个文本数据。
步骤104:将多个目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个目标文本数据所对应的隐含层向量;目标文本数据的向量编码为根据目标文本数据的位置向量和语义向量生成的编码。
本发明实施例中,在步骤104之前,可以先确定每个文本数据的向量编码。具体的,对文本数据的位置向量和语义向量进行拼接处理,生成文本数据的向量编码。若确定了每个文本数据的向量编码,则在选取出目标文本数据后即可确定目标文本数据的向量编码,且多个目标文本数据按照选取的顺序依次排列,并依次作为循环神经网络的输入,从而在该循环神经网络的隐含层可以得到结合了上下文的隐含层向量。具体的,该循环神经网络可以是双向门控循环单元网络(BiGRU),基于双向门控循环单元网络获得各个目标文本数据结合上下文的隐含层向量。
步骤105:根据目标文本数据的隐含层向量判断目标文本数据是否与其他目标文本数据属于同一段落。
本发明实施例中,循环神经网络的输入是排序后的目标文本数据,则该隐含层向量可以表征目标文本数据与相邻的其他文本数据之间是否有关联关系,即其他的目标文本数据是否是该目标文本数据的上文或下文。若该目标文本数据是其相邻的其他目标文本数据的上文或下文,则该目标文本数据与该其他目标文本数据属于同一段落。
具体的,根据隐含层向量可以判断当前的目标文本数据与上一个相邻的目标文本数据是否属于同一段落。例如,排序后的四个目标文本数据依次是a、b、c、d,相对应的隐含层向量为A、B、C、D;由于隐含层向量B至少是基于目标文本数据a和b生成的,此时基于隐含层向量B即可确定目标文本数据b的上一句是否是目标文本数据a。
可选的,目标文本数据是在文档内容中选取的多个位置依次相邻的文本数据;上述步骤105“根据目标文本数据的隐含层向量判断目标文本数据是否与其他目标文本数据属于同一段落”具体包括:将目标文本数据的隐含层向量作为预先训练好的分类器的输入,基于分类器的输出判断目标文本数据是否与相邻的其他目标文本数据属于同一段落。
本发明实施例中,在确定隐含层向量后,基于分类器对结果进行分类从而可以判断当前的目标文本数据是否是相邻的其他目标文本数据的上下文,即判断当前的目标文本数据是否与相邻的其他目标文本数据属于同一段落。具体的,
隐藏层向量可以使用一个全连接网络加Sigmoid函数进行二分类,并输出分类的概率,概率大于0.5则为正,两个目标文本数据是上下文关系,当前的目标文本数据可以与上一句拼接合并成一个段落;否则为负,即不进行拼接。
步骤106:之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历文档内容中所有的文本数据。
本发明实施例中,在执行完步骤105后,从新从文档内容中选取新的文本数据作为目标文本数据,并重复执行上述步骤104和105,直至对所有的文本数据均进行了判断。
步骤107:统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
本实施例中,在对文档内容中的所有文本数据均进行判断之后,可以统计所有的判断结果,从而可以确定哪些文本数据属于同一个段落,并可以将其合并为一个完整的段落。
本发明实施例提供的一种段落合并的方法,根据文本数据的位置和语义生成向量编码,之后基于向量编码来判断文本数据的上下文关系;其判断依据包含位置向量和语义向量,判断结果更加准确。同时,选取多个目标文本数据作为一组,基于循环神经网络提取出目标文本数据的隐含层向量来判断文本数据的上下文关系,其可以兼顾更大范围的上下文语义信息,进一步增加判断结果的准确性,从而可以优化段落合并的准确率。且该方式不需要人工参与即可实现段落合并,可以解放人力。
在上述实施例的基础上,步骤102“基于所有的词向量生成文本数据的语义向量”具体包括:
步骤A1:计算词向量wi在文本数据中的权重ωi,且:
其中,f(wi)表示词向量wi的词频,D表示文档内容包含的文本数据的总数量,d(wi)表示文档内容中包含词向量wi的文本数据的数量,a为非零常数,避免分母为零。一般情况下,a=1。
步骤A2:根据文本数据的每个词向量的权重进行加权平均,确定文本数据的语义向量W:
n为文本数据包含的词向量数量。
本发明实施例中,分词的词向量的权重表示该分词可以代表该文本数据的可能性。具体的,该分词的词频越高、且在其他文本数据中出现的次数越少,即d(wi)越小,说明该分词的权重越大。具体的,以词向量为三维数组为例,举例说明生成语义向量的过程,该过程具体如下:
文档内容中的一个文本数据为“办理专项附加扣除政策归纳起来有三步”,对该文本数据进行分词处理后,可以确定分词输出:“办理/专项/附加/扣除/政策/归纳/起来/有/三/步”,共10个分词,每个分词的词向量如下:
“办理”:[0.87857117,0.06118841,0.21843992]
“专项”:[0.6995219,0.19065294,0.41510242]
……
之后确定每个词向量的权重,例如“办理”的权重为0.2,“专项”的权重为0.3,……之后即可对每个词向量进行加权处理,处理结果依次是:
0.2×[0.87857117,0.06118841,0.21843992]
=[0.17571423,0.01223768,0.04368798]
0.3×[0.6995219,0.19065294,0.41510242]
=[0.20985657,0.05719588,0.12453073]
最后求向量的平均值:
([0.17571423,0.01223768,0.04368798]+[0.20985657,0.05719588,0.12453073]+…)/10=[0.1,0.2,0.3]
即该文本数据的语义向量为[0.1,0.2,0.3]。
此外,若该文本数据的位置为“上80下90左60右120”,则其位置向量可以直接表示为[80,90,60,120]。将语义向量和位置向量拼接获得的向量编码为:[0.1,0.2,0.3,80,90,60,120]。
本发明实施例中,将文档内的文本数据先通过分词分成多个单词,再将单词进行向量化表示,并将单词的向量基于求取的权重做加权平均获得整个句子语义的向量化表示,即语义向量。然后将向量化表示的句子语义以及句子的位置向量进行拼接。使用加权平均确定的语义向量和直接将边界坐标进行转化为位置向量,可以降低网络的复杂程度,从而使得网络在段落拼接的任务上有更强的泛化性能。
在上述实施例的基础上,步骤107“统计所有的判断结果”包括:
步骤B1:统计与第一文本数据相关的所有判断结果,确定第一文本数据与其他相邻的第二文本数据是否属于同一段落,在第一文本数据与第二文本数据属于同一段落时,建立第一文本数据与第二文本数据之间的同段落关系;第一文本数据和第二文本数据是文档内容中不同的两个文本数据。
本发明实施例中,选取文档内容中的一个文本数据作为第一文本数据,基于位置向量可以确定与该第一文本数据相邻的其他文本数据,即第二文本数据。在上述其他实施例判断两个文本数据是否有上下文关系的过程中,已经可以确定哪些文本数据是第二文本数据,并可以确定该第二文本数据与第一文本数据是否属于同一段落,即可以确定第二文本数据与第一文本数据是否具有同段落关系。
步骤B2:确定文档内容中每个文本数据与其他相邻的文本数据之间的同段落关系,并生成由多个属于同一段落的文本数据组成的文本段落,文本段落中的文本数据至少与文本段落中的一个其他文本数据之间具有同段落关系。
本发明实施例中,在步骤B1之后,可以将其他的文本数据作为第一文本数据,再次执行上述步骤B1,直至遍历文档内容中的所有文本数据。本领域技术人员可以理解,步骤B2可以与步骤106一起执行遍历的过程。在遍历所有文本数据之后,即可将属于同一段落的文本数据组成的文本段落,其中,该文本段落中包含多个文本数据,且文本数据之间具有同段落关系。例如,文本段落包括四个文本数据ABCD,则文本数据A至少与文本数据BCD中的一个具有同段落关系。
本发明实施例提供的一种段落合并的方法,根据文本数据的位置和语义生成向量编码,之后基于向量编码来判断文本数据的上下文关系;其判断依据包含位置向量和语义向量,判断结果更加准确。同时,选取多个目标文本数据作为一组,基于循环神经网络提取出目标文本数据的隐含层向量来判断文本数据的上下文关系,其可以兼顾更大范围的上下文语义信息,进一步增加判断结果的准确性,从而可以优化段落合并的准确率。且该方式不需要人工参与即可实现段落合并,可以解放人力。使用加权平均确定的语义向量和直接将边界坐标进行转化为位置向量,可以降低网络的复杂程度,从而使得网络在段落拼接的任务上有更强的泛化性能。
以上详细介绍了段落合并的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种段落合并的装置,参见图2所示,包括:
获取模块21,用于获取包含多个文本数据的文档内容,并确定每个所述文本数据的位置向量,所述位置向量是向量形式表示的、所述文本数据在所述文档内容中的位置;
语义处理模块22,用于对所述文本数据进行分词处理,确定所述文本数据的每个分词的词向量,并基于所有的所述词向量生成所述文本数据的语义向量;
选取模块23,用于根据所述位置向量,在所述文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据;
隐含层向量生成模块24,用于将多个所述目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个所述目标文本数据所对应的隐含层向量;所述目标文本数据的向量编码为根据所述目标文本数据的位置向量和语义向量生成的编码;
判断模块25,用于根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落;
循环模块26,用于之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历所述文档内容中所有的文本数据;
段落合并模块27,用于统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
在上述实施例的基础上,所述语义处理模块22包括:
权重计算单元,用于计算所述词向量wi在所述文本数据中的权重ωi,且:
其中,f(wi)表示所述词向量wi的词频,D表示所述文档内容包含的文本数据的总数量,d(wi)表示所述文档内容中包含所述词向量wi的文本数据的数量,a为非零常数;
语义处理单元,用于根据所述文本数据的每个所述词向量的权重进行加权平均,确定所述文本数据的语义向量W:
n为所述文本数据包含的词向量数量。
在上述实施例的基础上,该装置还包括拼接模块;
在确定所述文本数据的位置向量和语义向量之后,所述拼接模块用于:对所述文本数据的位置向量和语义向量进行拼接处理,生成所述文本数据的向量编码。
在上述实施例的基础上,所述目标文本数据是在所述文档内容中选取的多个位置依次相邻的文本数据;
所述隐含层向量生成模块24用于:将所述目标文本数据的所述隐含层向量作为预先训练好的分类器的输入,基于所述分类器的输出判断所述目标文本数据是否与相邻的其他目标文本数据属于同一段落。
在上述实施例的基础上,所述段落合并模块27统计所有的判断结果包括:
统计与第一文本数据相关的所有判断结果,确定所述第一文本数据与其他相邻的第二文本数据是否属于同一段落,在所述第一文本数据与所述第二文本数据属于同一段落时,建立所述第一文本数据与所述第二文本数据之间的同段落关系;所述第一文本数据和所述第二文本数据是所述文档内容中不同的两个文本数据;
确定所述文档内容中每个文本数据与其他相邻的文本数据之间的同段落关系,并生成由多个属于同一段落的文本数据组成的文本段落,所述文本段落中的文本数据至少与所述文本段落中的一个其他文本数据之间具有同段落关系。
本发明实施例提供的一种段落合并的装置,根据文本数据的位置和语义生成向量编码,之后基于向量编码来判断文本数据的上下文关系;其判断依据包含位置向量和语义向量,判断结果更加准确。同时,选取多个目标文本数据作为一组,基于循环神经网络提取出目标文本数据的隐含层向量来判断文本数据的上下文关系,其可以兼顾更大范围的上下文语义信息,进一步增加判断结果的准确性,从而可以优化段落合并的准确率。且该方式不需要人工参与即可实现段落合并,可以解放人力。使用加权平均确定的语义向量和直接将边界坐标进行转化为位置向量,可以降低网络的复杂程度,从而使得网络在段落拼接的任务上有更强的泛化性能。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的段落合并的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图3示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的段落合并的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种段落合并的方法,其特征在于,包括:
获取包含多个文本数据的文档内容,并确定每个所述文本数据的位置向量,所述位置向量是向量形式表示的、所述文本数据在所述文档内容中的位置;
对所述文本数据进行分词处理,确定所述文本数据的每个分词的词向量,并基于所有的所述词向量生成所述文本数据的语义向量;
根据所述位置向量,在所述文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据;
将多个所述目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个所述目标文本数据所对应的隐含层向量;所述目标文本数据的向量编码为根据所述目标文本数据的位置向量和语义向量生成的编码;
根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落;
之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历所述文档内容中所有的文本数据;
统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
2.根据权利要求1所述的方法,其特征在于,所述基于所有的所述词向量生成所述文本数据的语义向量包括:
计算所述词向量wi在所述文本数据中的权重ωi,且:
其中,f(wi)表示所述词向量wi的词频,D表示所述文档内容包含的文本数据的总数量,d(wi)表示所述文档内容中包含所述词向量wi的文本数据的数量,a为非零常数;
根据所述文本数据的每个所述词向量的权重进行加权平均,确定所述文本数据的语义向量W:
n为所述文本数据包含的词向量数量。
3.根据权利要求1所述的方法,其特征在于,在确定所述文本数据的位置向量和语义向量之后,还包括:
对所述文本数据的位置向量和语义向量进行拼接处理,生成所述文本数据的向量编码。
4.根据权利要求1所述的方法,其特征在于,所述目标文本数据是在所述文档内容中选取的多个位置依次相邻的文本数据;
所述根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落包括:
将所述目标文本数据的所述隐含层向量作为预先训练好的分类器的输入,基于所述分类器的输出判断所述目标文本数据是否与相邻的其他目标文本数据属于同一段落。
5.根据权利要求4所述的方法,其特征在于,所述统计所有的判断结果包括:
统计与第一文本数据相关的所有判断结果,确定所述第一文本数据与其他相邻的第二文本数据是否属于同一段落,在所述第一文本数据与所述第二文本数据属于同一段落时,建立所述第一文本数据与所述第二文本数据之间的同段落关系;所述第一文本数据和所述第二文本数据是所述文档内容中不同的两个文本数据;
确定所述文档内容中每个文本数据与其他相邻的文本数据之间的同段落关系,并生成由多个属于同一段落的文本数据组成的文本段落,所述文本段落中的文本数据至少与所述文本段落中的一个其他文本数据之间具有同段落关系。
6.一种段落合并的装置,其特征在于,包括:
获取模块,用于获取包含多个文本数据的文档内容,并确定每个所述文本数据的位置向量,所述位置向量是向量形式表示的、所述文本数据在所述文档内容中的位置;
语义处理模块,用于对所述文本数据进行分词处理,确定所述文本数据的每个分词的词向量,并基于所有的所述词向量生成所述文本数据的语义向量;
选取模块,用于根据所述位置向量,在所述文档内容中依次选取多个文本数据,并将选取的文本数据作为目标文本数据;
隐含层向量生成模块,用于将多个所述目标文本数据的向量编码按照选取顺序依次作为循环神经网络的输入,并确定每个所述目标文本数据所对应的隐含层向量;所述目标文本数据的向量编码为根据所述目标文本数据的位置向量和语义向量生成的编码;
判断模块,用于根据所述目标文本数据的所述隐含层向量判断所述目标文本数据是否与其他目标文本数据属于同一段落;
循环模块,用于之后重新依次选取多个文本数据作为目标文本数据,并重复上述判断目标文本数据是否与其他目标文本数据属于同一段落的过程,直至遍历所述文档内容中所有的文本数据;
段落合并模块,用于统计所有的判断结果,基于统计结果确定属于同一段落的所有的文本数据,并将属于同一段落的所有的文本数据按照位置顺序合并为一个段落。
7.根据权利要求6所述的装置,其特征在于,所述语义处理模块包括:
权重计算单元,用于计算所述词向量wi在所述文本数据中的权重ωi,且:
其中,f(wi)表示所述词向量wi的词频,D表示所述文档内容包含的文本数据的总数量,d(wi)表示所述文档内容中包含所述词向量wi的文本数据的数量,a为非零常数;
语义处理单元,用于根据所述文本数据的每个所述词向量的权重进行加权平均,确定所述文本数据的语义向量W:
n为所述文本数据包含的词向量数量。
8.根据权利要求6所述的装置,其特征在于,还包括拼接模块;
在确定所述文本数据的位置向量和语义向量之后,所述拼接模块用于:对所述文本数据的位置向量和语义向量进行拼接处理,生成所述文本数据的向量编码。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一项所述的段落合并的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任意一项所述的段落合并的方法。
CN201910650448.0A 2019-07-18 2019-07-18 一种段落合并的方法、装置、存储介质及电子设备 Active CN110362832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650448.0A CN110362832B (zh) 2019-07-18 2019-07-18 一种段落合并的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650448.0A CN110362832B (zh) 2019-07-18 2019-07-18 一种段落合并的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110362832A true CN110362832A (zh) 2019-10-22
CN110362832B CN110362832B (zh) 2023-01-17

Family

ID=68221145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650448.0A Active CN110362832B (zh) 2019-07-18 2019-07-18 一种段落合并的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110362832B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN113312906A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 划分文本的方法、装置、存储介质及电子设备
CN113361260A (zh) * 2021-06-10 2021-09-07 北京字节跳动网络技术有限公司 一种文本处理方法、装置、设备以及存储介质
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173527A1 (en) * 2004-09-22 2011-07-14 Yonatan Zunger Determining Semantically Distinct Regions of a Document
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173527A1 (en) * 2004-09-22 2011-07-14 Yonatan Zunger Determining Semantically Distinct Regions of a Document
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111079641B (zh) * 2019-12-13 2024-04-16 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN113361260A (zh) * 2021-06-10 2021-09-07 北京字节跳动网络技术有限公司 一种文本处理方法、装置、设备以及存储介质
CN113312906A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 划分文本的方法、装置、存储介质及电子设备
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110362832B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN110362832A (zh) 一种段落合并的方法、装置、存储介质及电子设备
Rubin et al. Statistical topic models for multi-label document classification
WO2020117991A1 (en) Generating integrated circuit floorplans using neural networks
KR20180064371A (ko) 다수의 객체 입력을 인식하기 위한 시스템 및 그 방법 및 제품
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN104361415B (zh) 一种展示信息的选取方法及装置
CN105653737A (zh) 用于内容文档排序的方法、设备和电子设备
CN110472082A (zh) 数据处理方法、装置、存储介质及电子设备
CN110489424A (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN102549578A (zh) 分类装置以及分类方法
CN107909141A (zh) 一种基于灰狼优化算法的数据分析方法及装置
CN108959259B (zh) 新词发现方法及系统
CN110032650A (zh) 一种训练样本数据的生成方法、装置及电子设备
CN111309215A (zh) Unity中滑动列表的处理方法、装置、设备和存储介质
CN110347841A (zh) 一种文档内容分类的方法、装置、存储介质及电子设备
US20120078821A1 (en) Methods for unsupervised learning using optional pólya tree and bayesian inference
CN106991084B (zh) 一种文档评估方法及装置
CN106776757B (zh) 用户完成网银操作的指示方法及装置
Hao Evaluating attribution methods using white-box LSTMs
CN110019821A (zh) 文本类标训练方法和识别方法、相关装置及存储介质
CN108446738A (zh) 一种聚类方法、装置及电子设备
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN107958061A (zh) 一种文本相似度的计算方法及计算机可读存储介质
JP5210224B2 (ja) アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant