CN117592480A - 一种文档切分方法、装置、设备及介质 - Google Patents
一种文档切分方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117592480A CN117592480A CN202311368747.8A CN202311368747A CN117592480A CN 117592480 A CN117592480 A CN 117592480A CN 202311368747 A CN202311368747 A CN 202311368747A CN 117592480 A CN117592480 A CN 117592480A
- Authority
- CN
- China
- Prior art keywords
- document
- segmentation
- fragments
- original document
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000012634 fragment Substances 0.000 claims abstract description 89
- 238000005520 cutting process Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例涉及一种文档切分方法、装置、设备及介质,用以将文档切分为规定大小的文档片段,同时保证切分结果的语义完整,提高切分质量。所述方法包括:获取待切分的原始文档;基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;将所述多个文档片段作为对所述原始文档的切分结果。
Description
技术领域
本申请涉及人工智能领域,尤其是涉及一种文档切分方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,各种各样的智能产品,如智能客服、智能机器人等得到广泛的应用,此类智能产品可以与用户进行对话,例如,通过语音或者文字的方式,接收用户提出的问题,并给出相应的答复。
在具备对话功能的智能产品中,通常存在文档切分的问题,因为对话功能所使用的语言模型对输入的字符是有限制的,所以语言模型在进行学习训练时,针对一个字数较多的长文档,就需要先对长文档进行切分,然后将切分后的文档片读输入语言模型进行学习,同时,对长文档切分时,需要保证切分尽量不破坏原文的连贯性。
目前,在对文档进行切分时,通常是根据字数和段落进行切分,此种切分方式,一方面现有技术还无法做到正确识别章节或者段落,因为通过换行符或者标点符号识别章节或者段落,在实际操作中总能找到例外的情况;另一方面,切分的质量难以保证,容易将相互关联的内容切分到不同的文档片段中,例如,文档中包括问答对的情况,将问题和答案切分到不同的文档片段中,导致对文档片段的索引,可以找到问题,但是找不到问题对应的答案。
因此,在文本处理过程中,如何将原始的长文档,按照要求切分成规定大小的文档片段,且在切分过程中,尽量保证相关联内容被切分到同一文档片段中成为一个难题。需要重新设计一种文档切分的方法,以解决上述难题。
发明内容
本申请实施例提供一种文档切分方法、装置、设备及介质,用以将文档切分为规定大小的文档片段,同时保证切分结果的语义完整,提高切分质量。
第一方面,本申请实施例提供一种文档切分方法,包括:
获取待切分的原始文档;
基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;
针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;
将所述多个文档片段作为对所述原始文档的切分结果。
在一种可能的实施方式中,本申请实施例提供的上述方法中,所述将所述多个文档片段作为对所述原始文档的切分结果,包括:
将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;
按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;
将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。
在一种可能的实施方式中,本申请实施例提供的上述方法中,对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。
在一种可能的实施方式中,本申请实施例提供的上述方法中,所述基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,包括:
在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。
第二方面,本申请实施例提供一种文档切分装置,包括:
获取单元,用于获取待切分的原始文档;
第一切分单元,用于基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;
第二切分单元,用于针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;
处理单元,用于将所述多个文档片段作为对所述原始文档的切分结果。
在一种可能的实施方式中,本申请实施例提供的上述装置中,所述处理单元,具体用于:
将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;
按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;
将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。
在一种可能的实施方式中,本申请实施例提供的上述装置中,所述第二切分单元对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。
在一种可能的实施方式中,本申请实施例提供的上述装置中,所述第一切分单元,具体用于:
在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如本申请实施例第一方面所提供的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如本申请实施例第一方面所提供的方法。
本申请实施例提供的文档切分方法、装置、设备及介质,获取待切分的原始文档之后,首先基于预设切分方式,对原始文档进行初次切分,获得多个文本块,然后针对获得的每个文本块,进行二次切分,得到多个文档片段,具体对文本块进行二次切分时,提取文本块的语义特征,并基于语义特征,对文本块进行切分,以将文本块切分为语义完整的文档片段,与现有技术根据字数和段落的切分方式相比,通过两次切分,可以将文档切分为规定大小的文档片段,同时在二次切分时,基于文本块的语义特征进行切分,能够保证切分结果的语义完整,提高切分质量。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本申请实施例中的一种应用场景的一个可选的示意图;
图2为本申请实施例提供的文档切分方法的示意流程图;
图3为本申请实施例提供的一种文档切分结果的示意图;
图4为本申请实施例提供的另一文档切分结果的示意图;
图5为本申请实施例提供的文档切分方法的具体流程的示意流程图;
图6为本申请实施例提供的文档切分装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图;
图8为本申请实施例提供的另一电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例的设计思想进行简要介绍:
随着人工智能技术的发展,各种各样的智能产品,如智能客服、智能机器人等得到广泛的应用,此类智能产品可以与用户进行对话,例如,通过语音或者文字的方式,接收用户提出的问题,并给出相应的答复。
在具备对话功能的智能产品中,通常存在文档切分的问题,因为对话功能所使用的语言模型对输入的字符是有限制的,所以语言模型在进行学习训练时,针对一个字数较多的长文档,就需要先对长文档进行切分,然后将切分后的文档片读输入语言模型进行学习,同时,对长文档切分时,需要保证切分尽量不破坏原文的连贯性。
目前,在对文档进行切分时,通常是根据字数和段落进行切分,此种切分方式,一方面现有技术还无法做到正确识别章节或者段落,因为通过换行符或者标点符号识别章节或者段落,在实际操作中总能找到例外的情况;另一方面,切分的质量难以保证,容易将相互关联的内容切分到不同的文档片段中,例如,文档中包括问答对的情况,将问题和答案切分到不同的文档片段中,导致对文档片段的索引,可以找到问题,但是找不到问题对应的答案。
有鉴于此,本申请实施例提供一种文档切分方法、装置、设备及介质,获取待切分的原始文档之后,首先基于预设切分方式,对原始文档进行初次切分,获得多个文本块,然后针对获得的每个文本块,进行二次切分,得到多个文档片段,具体对文本块进行二次切分时,提取文本块的语义特征,并基于语义特征,对文本块进行切分,以将文本块切分为语义完整的文档片段,与现有技术根据字数和段落的切分方式相比,通过两次切分,可以将文档切分为规定大小的文档片段,同时在二次切分时,基于文本块的语义特征进行切分,能够保证切分结果的语义完整,提高切分质量。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括多个智能产品中的任一智能产品110和多个服务器中的任一个服务器120。
在本申请实施例中,智能产品110包括但不限于手机、电脑、智能机器人等产品;服务器120则是智能产品的后台服务端。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的文档切分方法,可以由服务器120执行,也可以由智能产品110执行,本申请实施例对此不做限定。
以在智能产品110中执行为例,智能产品110获取待切分的原始文档之后,首先基于预设切分方式,对原始文档进行初次切分,获得多个文本块,然后针对获得的每个文本块,进行二次切分,得到多个文档片段,具体对文本块进行二次切分时,提取文本块的语义特征,并基于语义特征,对文本块进行二次切分,最后将切分得到的多个文档片段作为对原始文档的切分结果。
在一种可选的实施方式中,智能产品110与服务器120之间可以通过通信网络进行通信,通信网络是有线网络或无线网络。
需要说明的是,图1所示只是举例说明,实际上智能产品和服务器的数量和通信方式均不受限制,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点,在本申请实施例中不做具体限定。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文档切分方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
如图2所示,其为本申请实施例中的一种文档切分方法的实施流程图,该方法的具体实施流程如下S201-S204:
S201,获取待切分的原始文档。
需要说明的是,原始文档是指需要进行切分的文档,其可以由用户提供,可以是用于语言模型训练的学习文档,也可以其他文档,例如:用于切分测试的测试文档等,本申请实施例对此不做限定。
另外,本申请实施例对原始文档包括的字符数量不做限制。
具体实施时,获取待切分的原始文档,可以请求用户上传原始文档,也可以从服务器下载原始文档,还可以从预先存储的位置复制,本申请实施例对此不做限定。
S202,基于预设切分方式,对原始文档进行初次切分,获得多个文本块,文本块内包含的字符数量小于第一预设阈值。
基于预设切分方式,对原始文档进行初次切分,其目的是将原始文档切分为语言模型支持的最大输入长度,因此,第一预设阈值的设置可以根据语言模型支持的最大输入长度设定,其可以小于或者等于语言模型支持的最大输入长度。例如,语言模型的最大输入长度为100个字符,则第一预设阈值可以设置为100,也可以设置为95。
其中,预设切分方式,可以是按照段落进行切分,具体来说,在原始文档中,通过检测换行符,在原始文档中进行,保证切分后的文本块中包含的是字符数量小于第一预设阈值。当然,预设切分方式,也可以是其他方式,例如按照章节进行切分等。
具体实施时,在基于预设切分方式,对原始文档进行初次切分之前,本申请实施例还可以统计原始文档包含的字符数量,在确定原始文档包含的字符数量大于第二预设阈值时,再基于预设切分方式,对原始文档进行初次切分,其中,第二预设阈值大于或等于第一预设阈值。
第二预设阈值可以根据语言模型支持的最大输入长度确定,举例来说,仍假设语言模型支持的最大输入长度为100个字符,则第二预设阈值可以设置为100,第一预设阈值若设置为100,则第二预设阈值与第一预设阈值相等;第一预设阈值若设置为95,则第二预设阈值大于第一预设阈值。
需要说明的是,本申请实施例中,在确定原始文档包含的字符数量小于或等于第二预设阈值时,可以不基于预设切分方式,对原始文档进行初次切分,但是仍然可以对此类原始文档进行二次切分,以将此类原始文档切分为多个语义完整的文档片段。
具体实施时,在基于预设切分方式,对原始文档进行初次切分,获得多个文本块之后,还可以记录多个文本块在原始文档中的顺序,作为预先记录的顺序,以避免文本块顺序混乱,且可以便于后续对文档片段进行合并时的排序。
S203,针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取文本块的语义特征,并基于语义特征,将文本块切分为文档片段。
具体实施时,在对原始文档进行初次切分得到多个文本块之后,可以对每个文本块进行二次切分,将每个文本块切分为至少一个文档片段,具体在将文本块切分为文档片段时,可以将文本块输入预先配置的语义分割模型中,提取文本块的语义特征,然后基于文本块的语义特征,将文本块切分为语义完整的文档片段。
需要说明的是,预先配置的语义分割模型,可以采用如下方式训练生成:首先获取训练文档数据,并对训练文档数据进行预处理和清洗,保证训练文档数据的质量,然后可以以训练文档数据为输入和输出,训练基础模型,最后以训练文档数据为输入,以训练文档数据切分后的结果为输出,对基础模型中的参数进行微调,直至模型的损失函数满足设定的收敛条件,此时,将参数调整后的基础模型作为语义分割模型。
在本申请其他实施例中,预先配置的语义分割模型,也可以采用现有的开放接口的模型,本申请实施例对此不做限定。
具体实施时,在对获得的多个文本块进行二次切分时,采用预先记录的顺序进行二次切分。
S204,将多个文档片段作为对原始文档的切分结果。
具体实施时,在将多个文本块切分为文档片段之后,本申请实施例可以将切分得到的文档片段作为切分结果,也可以对部分相邻的文档片段进行合并处理,得到合并后的目标文档片段,然后将合并得到的目标文档片段和未合并的文档片段,作为对原始文档的切分结果。
需要说明的是,由于合并之前各个文档片段均是语义完整的文档片段,因此,合并处理得到的目标文档片段仍然是语义完整的文档片段,则对部分相邻的文档片段进行合并处理,不仅能够使得单个目标文档片段尽可能达到语言模型的最大输入长度,而且合并后的目标文档片段仍是语义完整的文档片段,保证切分的质量。
实际应用中,在将多个文本块切分为文档片段之后,可以将多个文档片段,依照预先记录的顺序排列,得到排列结果,然后按照预先设定的文档片段长度要求,将排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段,将合并得到的目标文档片段和未合并的文档片段,作为对原始文档的切分结果。其中,预先设定的文档片段长度要求,可以根据语言模型支持的最大输入长度设定,预先设定的文档片段长度可以小于或等于语言模型支持的最大输入长度。
在一个示例中,如图3所示,假设待切分的文档X经过初次切分,得到文本块A、文本块B、文本块C和文本块D,文本块A经过二次切分,得到文档片段A1、A2、A3;文本块B经过二次切分,得到文档片段B1、B2;文本块C经过二次切分,得到文档片段C1、C2、C3;文本块D经过二次切分,得到文档片段D1、D2;此时可以将文档片段A1、A2、A3、B1、B2、C1、C2、C3、D1和D2作为切分结果。
在另一示例中,如图4所示,仍沿用上述示例的切分方案,还可以对相邻的部分文档片段进行合并处理,例如,将文档片段A3和文档片段B1合并为目标文档片段E1,将文档片段B2和文档片段C1合并为目标文档片段E2,则此时可以将文档片段A1、A2、E1、E2、C2、C3、D1和D2作为切分结果。
下面结合图5对本申请实施例提供的文档切分方法的具体流程进行详细说明,如图5所示,包括:
S501,获取待切分的原始文档。
S502,基于预设切分方式,对原始文档进行初次切分,得到多个文本块。
当然,具体实施时,步骤S502执行之前,还可以根据原始文档包含的字符数量判读是否需要进行切分,在确定需要对原始文档进行切分时,执行步骤502,否则,可以不对原始文档进行切分,也可以基于原始文档的语义特征对原始文档进行切分。
S503,基于每个文本块的语义特征,对每个文本块进行二次切分,得到多个文档片段。其中,每个文本块可以被切分为一个或多个文档片段。
S504,将文档片段按预先记录的顺序排列,其中,预先记录的顺序为文档片段所属的文本块在原始文档中的顺序,当然,每个文本块切分得到的文档片段,同样按照文档片段在文本块内的顺序排列。
S505,将排列结果中部分相邻的文档片段进行合并处理,得到合并后的目标文档片段。
S506,将合并得到的目标文档片段和未合并的文档片段作为切分结果。
基于相同的发明构思,本申请实施例还提供一种文档切分装置,如图6所示,本申请实施例提供的文档切分装置,包括:
获取单元601,用于获取待切分的原始文档;
第一切分单元602,用于基于预设切分方式,对原始文档进行初次切分,获得多个文本块,文本块内包含的字符数量小于第一预设阈值;
第二切分单元603,用于针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取文本块的语义特征,并基于语义特征,将文本块切分为文档片段;
处理单元604,用于将多个文档片段作为对原始文档的切分结果。
在一种可能的实施方式中,处理单元604,具体用于:
将多个文档片段,依照预先记录的顺序排列,得到排列结果,预先记录的顺序为初次切分后多个文本块在原始文档中的位置顺序;
按照预先设定的文档片段长度要求,将排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;
将合并得到的目标文档片段和未合并的文档片段,作为对原始文档的切分结果。
在一种可能的实施方式中,第二切分单元603对获得的多个文本块进行二次切分时,采用预先记录的顺序进行二次切分。
在一种可能的实施方式中,第一切分单元602,具体用于:
在确定原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对原始文档进行初次切分,获得多个文本块,其中,第二预设阈值大于或等于第一预设阈值。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以通过文档切分对待切分的原始文档进行切分处理。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图7所示,包括存储器701,通讯模块703以及一个或多个处理器702。
存储器701,用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器701可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器701也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器701可以是上述存储器的组合。
处理器702,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器702,用于调用存储器701中存储的计算机程序时实现上述文档切分方法。
通讯模块703用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器701、通讯模块703和处理器702之间的具体连接介质。本公开实施例在图7中以存储器701和处理器702之间通过总线704连接,总线704在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器701中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文档切分方法。处理器702用于执行上述的文档切分方法,如图2所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的智能产品110。在该实施例中,电子设备的结构可以如图8所示,包括:通信组件810、存储器820、显示单元830、摄像头840、传感器850、音频电路860、蓝牙模块870、处理器880等部件。
通信组件810用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器820可用于存储软件程序及数据。处理器880通过运行存储在存储器820的软件程序或数据,从而执行智能产品110的各种功能以及数据处理。存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器820存储有使得智能产品110能运行的操作系统。本申请中存储器820可以存储操作系统及各种应用程序,还可以存储执行本申请实施例文档切分方法的代码。
显示单元830还可用于显示由用户输入的信息或提供给用户的信息以及智能产品110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元830可以包括设置在智能产品110正面的显示屏832。其中,显示屏832可以采用液晶显示器、发光二极管等形式来配置。显示单元830可以用于呈现本申请实施例中的图像或文字。
显示单元830还可用于接收输入的数字或字符信息,产生与智能产品110的用户设置以及功能控制有关的信号输入,具体地,显示单元830可以包括设置在智能产品110正面的触控屏831,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏831可以覆盖在显示屏832之上,也可以将触控屏831与显示屏832集成而实现智能产品110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元830可以显示应用程序以及对应的操作步骤。
摄像头840可用于捕获静态图像,用户可以将摄像头840拍摄的图像通过客户端发送给聊天对方的用户。摄像头840可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器870转换成数字图像信号。
智能产品还可以包括至少一种传感器850,比如加速度传感器851、距离传感器852、指纹传感器853、温度传感器854。智能产品110还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路860、扬声器861、传声器862可提供用户与智能产品110之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出。智能产品110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出至通信组件810以发送给比如另一智能产品110,或者将音频数据输出至存储器820以便进一步处理。
蓝牙模块870用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,智能产品可以通过蓝牙模块870与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器880是智能产品的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器820内的软件程序,以及调用存储在存储器820内的数据,执行智能产品的各种功能和处理数据。在一些实施例中,处理器880可包括一个或多个处理单元;处理器880还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器880中。本申请中处理器880可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的文档切分方法。另外,处理器880与显示单元830耦接。
在一些可能的实施方式中,本申请提供的文档切分方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文档切分方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种文档切分方法,其特征在于,包括:
获取待切分的原始文档;
基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;
针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;
将所述多个文档片段作为对所述原始文档的切分结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个文档片段作为对所述原始文档的切分结果,包括:
将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;
按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;
将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。
3.根据权利要求2所述的方法,其特征在于,对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。
4.根据权利要求1或2所述的方法,其特征在于,所述基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,包括:
在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。
5.一种文档切分装置,其特征在于,包括:
获取单元,用于获取待切分的原始文档;
第一切分单元,用于基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;
第二切分单元,用于针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;
处理单元,用于将所述多个文档片段作为对所述原始文档的切分结果。
6.根据权利要求5所述的装置,其特征在于,所述处理单元,具体用于:
将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;
按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;
将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。
7.根据权利要求6所述的装置,其特征在于,所述第二切分单元对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。
8.根据权利要求5或6所述的装置,其特征在于,所述第一切分单元,具体用于:
在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311368747.8A CN117592480A (zh) | 2023-10-20 | 2023-10-20 | 一种文档切分方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311368747.8A CN117592480A (zh) | 2023-10-20 | 2023-10-20 | 一种文档切分方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117592480A true CN117592480A (zh) | 2024-02-23 |
Family
ID=89912342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311368747.8A Pending CN117592480A (zh) | 2023-10-20 | 2023-10-20 | 一种文档切分方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592480A (zh) |
-
2023
- 2023-10-20 CN CN202311368747.8A patent/CN117592480A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8825533B2 (en) | Intelligent dialogue amongst competitive user applications | |
KR20210037619A (ko) | 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 | |
KR20210134675A (ko) | 사용자 시연을 통하여 명령들을 학습하고 실행 가능하게 하기 위한 방법 및 시스템 | |
JP2022088304A (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
US11443438B2 (en) | Network module and distribution method and apparatus, electronic device, and storage medium | |
US20210211479A1 (en) | Media stream network action decisions | |
US20230206420A1 (en) | Method for detecting defect and method for training model | |
CN110472558B (zh) | 图像处理方法和装置 | |
CN116303962B (zh) | 对话生成方法、深度学习模型的训练方法、装置和设备 | |
CN103678704A (zh) | 一种基于图片信息的识图方法、系统、设备及装置 | |
KR20210090576A (ko) | 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램 | |
JP7337172B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
KR20200115660A (ko) | 인텔리전트 지원 방법 | |
CN113449773A (zh) | 模型更新方法、装置、存储介质及电子设备 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
JP2024502400A (ja) | グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出 | |
CN109947526B (zh) | 用于输出信息的方法和装置 | |
CN116186545A (zh) | 预训练模型的训练、应用方法、装置、电子设备及介质 | |
CN114510305B (zh) | 模型训练方法、装置、存储介质及电子设备 | |
CN113033552B (zh) | 文本识别方法、装置和电子设备 | |
CN117592480A (zh) | 一种文档切分方法、装置、设备及介质 | |
CN111784567B (zh) | 用于转换图像的方法、装置、电子设备和计算机可读介质 | |
CN111754984B (zh) | 文本选取的方法、装置、设备和计算机可读介质 | |
CN117121441A (zh) | 使用基于图像的有噪声内容的电子消息传送方法 | |
US10902251B2 (en) | Digital assessment user interface with editable recognized text overlay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |