CN117688926A - 文档切分方法、电子设备及计算机可读存储介质 - Google Patents
文档切分方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117688926A CN117688926A CN202311385955.9A CN202311385955A CN117688926A CN 117688926 A CN117688926 A CN 117688926A CN 202311385955 A CN202311385955 A CN 202311385955A CN 117688926 A CN117688926 A CN 117688926A
- Authority
- CN
- China
- Prior art keywords
- document
- paragraph
- paragraphs
- semantic information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000011218 segmentation Effects 0.000 title claims abstract description 62
- 230000004044 response Effects 0.000 claims description 21
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000010219 correlation analysis Methods 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文档切分方法、电子设备及计算机可读存储介质。该文档切分方法包括:基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求。通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。
Description
技术领域
本申请涉及文档切分技术领域,具体涉及一种文档切分方法、电子设备及计算机可读存储介质。
背景技术
随着移动互联网和内容领域的快速发展,对文档内容的阅读及理解需求越来越强烈。现有技术中,常常会利用一些软件对文档进行切分来进行阅读理解,但在现有技术领域,文档切分往往按照字数进行切分,切分形成的段落往往语义不完整,影响用户阅读体验。
发明内容
为了解决上述问题,本申请提出了一种文档切分方法、电子设备及计算机可读存储介质,以提升用户的阅读体验。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种文档切分方法,该文档切分方法包括:基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求。
其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤包括:响应于某一文档段落的字数大于第一预设字数阈值,则对文档段落进行切分;响应于某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并,其中,第二预设字数阈值小于第一预设字数阈值。
其中,对文档段落进行切分的步骤包括:对文档段落进行分句标识检索;响应于文档段落检索到分句标识,将分句标识所处的位置作为切分位置将文档段落进行切分。
其中,对文档段落进行分句标识检索的步骤包括:从文档段落的中间位置分别向文档段落的段首及段尾进行分句标识检索;获取与中间位置距离最近的分句标识所处的位置。
其中,对文档段落进行切分的步骤还包括:响应于文档段落无法检索到分句标识,则基于预设长度阈值或基础语义对文档段落进行切分。
其中,响应于某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并的步骤,包括:响应于某一文档段落的字数小于第二预设字数阈值,且与之相邻的下一文档段落对应语义信息的与该文档信息的语义信息的相关度大于或等于第一预设相关度阈值,则文档段落与下一文档段落进行合并。
其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤,还包括:响应于不相邻的两个文档段落的语义信息的相关度大于第二预设相关度阈值,则在两个文档段落进行合并。
其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤包括:基于每一文档段落的语义信息进行段落内的语义信息的相关度分析,以将多个文档段落切分为多个子段落;对相邻的子段落进行语义相关度分析,响应于相邻的子段落的语义相关度大于第三预设相关度阈值,则合并相邻的子段落。
其中,基于每一文档段落的语义信息进行段落内的语义信息的相关度分析的步骤,包括:对每一文档段落的相邻的句段进行语义信息的相关度分析;响应于相邻的句段的相关度小于第四预设相关度阈值,则基于相邻的句段的分句位置对文档段落进行切分。
其中,多个文档段落显示于交互界面,交互界面还设有菜单按钮,且交互界面在菜单按钮被触发后显示若干菜单选项,以供用户选择,文档切分方法还包括:响应于用户对某一文档段落选择的菜单选项为切分操作,获取用户的切分位置,对文档段落进行切分操作;响应于用户对某两个文档段落选择的菜单选项为拼接操作,获取用户选择两个文档段落,对两个文档段落进行拼接操作。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器以及与处理器连接的存储器,其中,存储器中存储有程序数据,处理器执行存储器存储的程序数据,以执行实现上述任一项的文档切分方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其内部存储有程序指令,程序指令被执行以实现上述任一项的文档切分方法。
本申请的有益效果是:区别于现有技术的情况,本申请的文档切分可以基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求,因此,通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请文档切分方法第一实施例的流程示意图;
图2是本申请文档切分一实施例的示意图;
图3是图1中步骤S103一具体实施例的流程示意图;
图4是图3中步骤S201一具体实施例的流程示意图;
图5是图4中步骤S301一具体实施例的流程示意图;
图6是图1中步骤S103一具体实施例的流程示意图;
图7是图6中步骤S501一具体实施例的流程示意图;
图8是本申请文档切分方法第二实施例的流程示意图;
图9是本申请交互界面切分操作一实施例的示意图;
图10是本申请交互界面合并操作一实施例的示意图;
图11是本申请电子设备一实施例的结构示意图;
图12是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着移动互联网和内容领域的快速发展,对文档内容的阅读及理解需求越来越强烈。现有技术中,常常会利用一些软件对文档进行切分来进行阅读理解,但在现有技术领域,文档切分往往按照字数进行切分,切分形成的段落往往语义不完整,影响用户阅读体验。
为了解决上述问题,本申请首先提出了一种文档切分方法,请参阅图1,图1是本申请文档切分方法第一实施例的流程示意图。如图1所示,本实施例的文档切分方法的具体包括步骤S101至步骤S103:
步骤S101:基于输入文档的段落对输入文档进行切分,以获取多个文档段落。
其中,在本实施例中,输入文档的可以为通用型文档,即输入文档的文件类型可以不作限制,其中,输入文档格式包括但不限于Word、PDF、TXT和XML等,且本实施例可以对输入的不同文档格式进行解析纯文本格式的文档,并基于输入文档的段落对纯文本格式的输入文档进行切分,以获取多个文档段落。
示例性地,以输入文档的格式Word为例,本实施例的文档切分方法会获取Word文档里面的分段符号,并基于分段符号对输入文档进行切分,从而获取多个文档段落。
步骤S102:分别获取每一个文档段落的字数和/或语义信息。
在对输入的文档进行切分后,可以分别获取每一个文档段落的字数和/或语义信息。其中在获取每一个文档段落的语义信息时,可以利用训练好的语义信息提取模型对每一个文档段落进行语义信息提取,从而获取每一个文档段落的语义信息。其中,语义信息提前模型可以用深度学习模型进行实现。
步骤S103:基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求。
在获取每一个文档段落的字数和/或语义信息之后,可以基于字数和/或语义信息对每一个文档段落进行调整。即,在本实施例中,可以只基于字数对文档段落进行调整,也可以基于语义信息对文档段落进行调整,或者可以基于字数与语义信息对文档段落进行调整,基于字数及语义信息对文档段落进行调整时,可以防止基于字数对文档段落进行调整时语义割裂,也可以防止基于语义信息对文档段落进行调整时文档段落超过预设长度要求。
其中,在本实施例中,调整包括切分和合并,为了提高用户阅读体验,在对文档段落进行调整时,可以对调整后的每个文档段落的字数进行限制,即对每一个文档段落设置预设长度要求,在调整过程中,可以基于预设长度需求对文档段落进行切分或合并,即若某一个文档段落的字数大于预设长度,则可以进行切分,若相邻的某两个文档段落的字数均小于一定预设长度或者语义信息的相关度较大,则将两者进行合并,经过多次调整后,最终形成的多个文档段落可以在满足预设长度的要求下确保语义完整,从而提高了用户的阅读体验。
此外,若输入文档形成多个文档段落输入至大模型中进行知识构建以形成知识库,在本实施例中则可以将预设长度要求设置为大模型的输入长度的需求。因此,在后续输入至大模型中时,本实施例获取的多个文档段落在输入至大模型中之前无需进行二次处理,从而有利于提高后续的知识构建的效率。
在一应用场景中,请参阅图2,图2是本申请文档切分一实施例的示意图。如图2所示,在本实施例中,用户将输入文档放入交互界面的上传文件框内,则可以选择系统设置的切分策略对输入文档进行切分,也可以选择自定义切分,设置单段范围长度(即设置预设长度要求),最后点击“切分”按钮,即可获取如图2所示满足切分策略或满足自定义切分的多个文档段落。
区别于现有技术的情况,本申请的文档切分可以基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求,因此,通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。
可选地,基于字数和/或语义信息对每一个文档段落进行调整的方法如图3所示,请参阅图3,图3是图1中步骤S103一具体实施例的流程示意图。如图3所示,本实施例可以通过如图3所示的方法实现步骤S103,具体实施步骤包括步骤S201至步骤S202:
步骤S201:响应于某一文档段落的字数大于第一预设字数阈值,则对文档段落进行切分。
在本实施例中,可以基于字数对每一个文档段落进行调整,在获取每一文档段落的字数后,可以将文档段落的字数与第一预设字数阈值进行比较,若该文档段落的字数大于第一预设字数阈值,则将该文档段落进行切分,其中切分的方法如下文所述,在此不再赘述。
其中,第一预设字数阈值可以基于存储的切分策略进行获取,在其他实施例中,第一预设字数阈值也可以由用户自行设置。
步骤S202:响应于某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并,其中,第二预设字数阈值小于第一预设字数阈值。
即在将输入文档的文档段落进行切分后,若某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并,其中,第二预设字数阈值小于第一预设字数阈值。
其中,在实际合并过程中,在文档合并之后,还需判断合并之后形成的文档段落总字数是否大于第一预设字数阈值,若大于第一预设字数阈值,则撤销该两个段落的合并操作。其中,第二预设字数阈值也可以基于存储的切分策略进行获取,或者由用户自行设置。
在其他实施中,在对文档段落进行合并时,还可以利用下述方法进行实现:
响应于某一文档段落的字数小于第二预设字数阈值,且与之相邻的下一文档段落对应语义信息的与该文档信息的语义信息的相关度大于或等于第一预设相关度阈值,则文档段落与下一文档段落进行合并。
即为了进一步提高用户的阅读体验,保证每一段落的语义信息均完整且相关,在进行对文档段落进行合并时,还需考虑与之相邻的下一文档段落对应语义信息的与该文档信息的语义信息的相关度大于或等于第一预设相关度阈值,相邻的两个文档段落的相关度大于第一预设相关度阈值时,才能将两者进行合并,否则将不进行合并。
示例性地,设第一预设字数阈值为2000,第二预设字数阈值为200,若某一文档段落的字数为150,但该段文档段落的与下一文档段落的语义信息的相关度远远小于第一预设相关度阈值,即使该文档段落的字数小于第二预设字数阈值,也不将该文档段落与下一文档段落进行合并,而是作为一个独立的文档段落。
与前文所述相同,在实际合并过程中,在文档合并之后,还需判断合并之后形成的文档段落总字数是否大于第一预设字数阈值,若大于第一预设字数阈值,则撤销该两个段落的合并操作。
可选地,对文档段落进行切分的方法如图4所示,请参阅图4,图4是图3中步骤S201一具体实施例的流程示意图。如图4所示,本实施例可以通过如图4所示的方法实现步骤S201,具体实施步骤包括步骤S301至步骤S303:
步骤S301:对文档段落进行分句标识检索。
在本实施例中,若某一文档段落的字数大于第一预设字数阈值,则需要对文档段落进行切分,此时可以对文档段落进行分句标识检索。
其中,在进行分句检索时,可以优选地从文档段落的中间位置对分句标识进行检索,其中文档段落的中心位置的获取方式可以为:获取文档段落的字数的一半,将文档段落的字数一半所处的位置作为所述文档的中间位置,从该位置起分别向段首及段尾两侧进行分句标识检索。其中,分句标识可以设置为句号或者分号,在其他实施例中,也可以采用其他方式获取文档段落的中间位置。
在其他实施例中,也可以从文档段落的其他位置对文档段落进行分句检索,例如段首或者段尾,在此不作限定。
具体地,请参阅图5,图5是图4中步骤S301一具体实施例的流程示意图。如图5所示,本实施例可以通过如图5所示的方法实现步骤S301,具体实施步骤包括步骤S401至步骤S402:
步骤S401:从文档段落的中间位置分别向文档段落的段首及段尾进行分句标识检索。
如前文所述,在获取文档段落的中间位置后,分别向文档段落的段首及段尾进行分句标识检索。即中间位置分别向段首及段尾进行字符位移,判断该字符是否为分句标识。
步骤S402:获取与中间位置距离最近的分句标识所处的位置。
响应于该字符为分句标识,记录该分句标识所处的位置,并获取与中间位置最近的分句标识所处的位置。
步骤S302:响应于文档段落检索到分句标识,将分句标识所处的位置作为切分位置将文档段落进行切分。
在对文档段落进行检索时,若在该文档段落能够检索到分句标识,则按照分句标识所处的位置作为切分位置将文档段落进行切分。
步骤S303:响应于文档段落无法检索到分句标识,则基于预设长度阈值或基础语义对文档段落进行切分。
在对文档段落进行检索时,若该文档段落无法检索到分句标识,但该文档段落的字数大于第一预设字数阈值,需要进行切分,则可以基于预设长度阈值或者基础语义对其进行切分。
可选地,在其他实施例中,基于字数和/或语义信息对每一个文档段落进行调整还可以下述方法:
在本实施例中,可以先基于语义信息对文档段落进行调整,响应于不相邻的两个文档段落的语义信息的相关度大于第二预设相关度阈值,则在两个文档段落进行合并。
其中,在本申请中,第二预设相关度阈值大于第一预设相关度阈值。
示例性地,若在输入文档中,前文的某一文档段落为某一专有名称的简要介绍,后文中与之间隔的某一文档段落为该专有名称的详细说明,但这两个文档段落的语义信息的相似度极高,大于设置的第二预设相关度阈值,则可以对这两个不相邻的文档段落进行合并。
同理,若需要将调整后的段落输入至大模型进行知识构建以形成知识库,在本实施例中将不相邻的两个文档段落进行实际合并过程中,仍需将判断段落进行合并之后形成的文档段落的总字数是否大于第一预设字数阈值,若大于第一预设字数阈值,则撤销该两个段落的合并操作。
可选地,基于字数和/或语义信息对每一个文档段落进行调整的方法如图6所示,请参阅图6,图6是图1中步骤S103一具体实施例的流程示意图。如图6所示,本实施例可以通过如图6所示的方法实现步骤S103,具体实施步骤包括步骤S501至步骤S502:
步骤S501:基于每一文档段落的语义信息进行段落内的语义信息的相关度分析,以将多个文档段落切分为多个子段落。
在本实施例中,只需获取每一个文档段落的语义信息,无需对字数进行限制。
在获取每一个文档段落语义信息之后,可以基于文档段落的语义信息对每一个文档段落进行调整,无需对段落的字数进行限制。其中,调整也包括切分和合并,在本实施例中为了提高用户阅读体验,为了使每个文档段落都具有连贯且完整的语义信息,在调整过程中,可以基于语义信息对文档段落进行切分或合并,即若某一个文档段落的句段之间语义信息的相关度不高,则可以进行切分,若相邻的某两个文档段落的语义信息的相关度较大,则可以将两者进行合并,经过多次调整后,最终形成的多个文档段落都具有连贯且完整的语义信息,也提高了用户的阅读体验。
此外,在本实施例中若输入文档形成多个文档段落输入至大模型中进行知识构建以形成知识库,在本实施例中则需进行二次处理,再将其输入至大模型中进行处理。
在获取了每一文档段落的语义信息后,其中,语义信息包括段落中每一个句段的语义信息,此时,则可以基于文档段落的每一个句段的语义信息进行段落内句段的语义信息的相关度分析,从而基于句段之间的语义信息的相关度对文档段落进行分段,在对输入文档的每一个文档段落进行操作后,便可以获取多个语义完整且连贯的子段落。
步骤S502:对相邻的子段落进行语义相关度分析,响应于相邻的子段落的语义相关度大于第三预设相关度阈值,则合并相邻的子段落。
在获取多个子段落后,还可以对相邻的子段落进行语义相关度分析,若相邻的子段落的语义相关度大于第三预设相关度阈值,则合并相邻的子段落。其中,第三预设相关度阈值可以由用户设置,也可以基于系统存储的切分策略进行获取。
可选地,基于每一文档段落的语义信息进行段落内的语义信息的相关度分析的方法如图7所示,请参阅图7,图7是图6中步骤S501一具体实施例的流程示意图。如图7所示,本实施例可以通过如图7所示的方法实现步骤S501,具体实施步骤包括步骤S601至步骤S602:
步骤S601:对每一文档段落的相邻的句段进行语义信息的相关度分析。
如前文所述,进行文档段落内的语义信息的相关度分析时,可以将文档段落的相邻的句段进行语义信息的相关度分析。
步骤S602:响应于相邻的句段的相关度小于第四预设相关度阈值,则基于相邻的句段的分句位置对文档段落进行切分。
若响应于相邻的句段的相关度小于第四预设相关度阈值,则基于相邻的句段的分句位置对文档段落进行切分。其中,第四预设相关度阈值可以由用户设置,也可以基于系统存储的切分策略进行获取。
可选地,请参阅图8,图8是本申请文档切分方法第二实施例的流程示意图。在本实施例中,基于上述任一实施例的文档切分方法生成的多个文档段落显示于交互界面,其中,交互界面上还设有菜单按钮,且交互界面在菜单按钮被触发后显示若干菜单选项,以供用户选择。如图8所示,在本实施例中文档切分方法还包括步骤S701至步骤S702:
步骤S701:响应于用户对某一文档段落选择的菜单选项为切分操作,获取用户的切分位置,对文档段落进行切分操作。
在本实施例中,在经过上述文档切分方法将输入文档切分为多个文档段落后,如图9所示,图9是本申请交互界面切分操作一实施例的示意图。在图9中实施例中,用户可以在某一个文档段落的某一个位置设置一个切分位置,并且在交互界面点击切分,此时则可以对该文档段落进行切分操作,以形成如图9所示的两个文档段落。
步骤S702:响应于用户对某两个文档段落选择的菜单选项为拼接操作,获取用户选择两个文档段落,对两个文档段落进行拼接操作。
如图10所示,图10是本申请交互界面合并操作一实施例的示意图。在图10中的实施例中,用户可以在选择某两个文档段落,并且在交互界面点击合并,此时则可以对两个文档段落进行切分操作,以形成如图10的一个文档段落。
区别于现有技术的情况,本申请的文档切分可以基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求,因此,通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。
可选地,本申请进一步提出一种电子设备,请参阅图11,图11是本申请电子设备一实施例的结构示意图,该电子设备200包括处理器201及与处理器201连接的存储器202。
处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器202用于存储处理器201运行所需的程序数据。
处理器201还用于执行存储器202存储的程序数据以实现上述任一项的文档切分方法。
可选地,本申请进一步提出一种计算机可读存储介质。请参阅图12,图12是本申请计算机可读存储介质一实施例的结构示意图。
本申请实施例的计算机可读存储介质300内部存储有程序指令310,程序指令310被执行以实现上述任一实施例的文档切分方法。
其中,程序指令310可以形成程序文件以软件产品的形式存储在上述存储介质中,以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
本实施例计算机可读存储介质300可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器等。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各方法实施例中的步骤。
另外,上述功能如果以软件功能的形式实现并作为独立产品销售或使用时,可存储在一个移动终端可读取存储介质中,即,本申请还提供一种存储有程序数据的存储装置,所述程序数据能够被执行以实现上述实施例的方法,该存储装置可以为如U盘、光盘、服务器等。也就是说,本申请可以以软件产品的形式体现出来,其包括若干指令用以使得一台智能终端执行各个实施例所述方法的全部或部分步骤。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的机构、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种文档切分方法,其特征在于,包括:
基于输入文档的段落对所述输入文档进行切分,以获取多个文档段落;
分别获取每一个所述文档段落的字数和/或语义信息;
基于所述字数和/或所述语义信息对每一个所述文档段落进行调整,以使调整后形成的所述多个文档段落均满足预设长度要求。
2.根据权利要求1所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,包括:
响应于某一所述文档段落的字数大于第一预设字数阈值,则对所述文档段落进行切分;
响应于某一所述文档段落的字数小于或等于第二预设字数阈值,则将所述文档段落与相邻的下一所述文档段落进行合并,其中,所述第二预设字数阈值小于所述第一预设字数阈值。
3.根据权利要求2所述的文档切分方法,其特征在于,所述对所述文档段落进行切分的步骤,包括:
对所述文档段落进行分句标识检索;
响应于所述文档段落检索到所述分句标识,将所述分句标识所处的位置作为切分位置将所述文档段落进行切分。
4.根据权利要求3所述的文档切分方法,其特征在于,所述对所述文档段落进行分句标识检索的步骤,包括:
从所述文档段落的中间位置分别向所述文档段落的段首及段尾进行分句标识检索;
获取与所述中间位置距离最近的所述分句标识所处的位置。
5.根据权利要求3所述的文档切分方法,其特征在于,所述对所述文档段落进行切分的步骤,还包括:
响应于所述文档段落无法检索到所述分句标识,则基于预设长度阈值或基础语义对所述文档段落进行切分。
6.根据权利要求2所述的文档切分方法,其特征在于,所述响应于某一所述文档段落的字数小于或等于第二预设字数阈值,则将所述文档段落与相邻的下一所述文档段落进行合并的步骤,包括:
响应于某一所述文档段落的字数小于第二预设字数阈值,且与之相邻的下一所述文档段落对应所述语义信息的与该文档信息的语义信息的相关度大于或等于第一预设相关度阈值,则所述文档段落与下一所述文档段落进行合并。
7.根据权利要求2所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,还包括:
响应于不相邻的两个所述文档段落的语义信息的相关度大于第二预设相关度阈值,则在两个所述文档段落进行合并。
8.根据权利要求1所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,包括:
基于每一所述文档段落的语义信息进行段落内的语义信息的相关度分析,以将所述多个文档段落切分为多个子段落;
对相邻的所述子段落进行语义相关度分析,响应于所述相邻的子段落的语义相关度大于第三预设相关度阈值,则合并相邻的所述子段落。
9.根据权利要求8所述的文档切分方法,其特征在于,所述基于每一所述文档段落的语义信息进行段落内的语义信息的相关度分析的步骤,包括:
对每一所述文档段落的相邻的句段进行语义信息的相关度分析;
响应于相邻的所述句段的相关度小于第四预设相关度阈值,则基于相邻所述的句段的分句位置对所述文档段落进行切分。
10.根据权利要求1所述的文档切分方法,其特征在于,所述多个文档段落显示于交互界面,所述交互界面还设有菜单按钮,且所述交互界面在所述菜单按钮被触发后显示若干菜单选项,以供用户选择,所述文档切分方法还包括:
响应于用户对某一所述文档段落选择的菜单选项为切分操作,获取所述用户的切分位置,对所述文档段落进行切分操作;
响应于用户对某两个所述文档段落选择的菜单选项为拼接操作,获取用户选择两个所述文档段落,对两个所述文档段落进行拼接操作。
11.一种电子设备,其特征在于,所述电子设备包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器执行所述存储器存储的所述程序数据,以执行实现权利要求1-10任一项所述的文档切分方法。
12.一种计算机可读存储介质,其特征在于,其内部存储有程序指令,所述程序指令被执行以实现权利要求1-10任一项所述的文档切分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385955.9A CN117688926A (zh) | 2023-10-23 | 2023-10-23 | 文档切分方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385955.9A CN117688926A (zh) | 2023-10-23 | 2023-10-23 | 文档切分方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688926A true CN117688926A (zh) | 2024-03-12 |
Family
ID=90132766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311385955.9A Pending CN117688926A (zh) | 2023-10-23 | 2023-10-23 | 文档切分方法、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688926A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072339A (zh) * | 2024-03-26 | 2024-05-24 | 深圳英飞无限科技有限公司 | 一种基于大语言模型辅助标题提取的文档分割方法和系统 |
-
2023
- 2023-10-23 CN CN202311385955.9A patent/CN117688926A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072339A (zh) * | 2024-03-26 | 2024-05-24 | 深圳英飞无限科技有限公司 | 一种基于大语言模型辅助标题提取的文档分割方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
CN107223241B (zh) | 上下文缩放 | |
US10592737B2 (en) | Mathematical formula learner support system | |
CN107766325B (zh) | 文本拼接方法及其装置 | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2010073114A (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
CN117688926A (zh) | 文档切分方法、电子设备及计算机可读存储介质 | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
US20130054226A1 (en) | Recognizing chemical names in a chinese document | |
US20060204134A1 (en) | Method and system of viewing digitized roll film images | |
US20220301285A1 (en) | Processing picture-text data | |
US20070185832A1 (en) | Managing tasks for multiple file types | |
US20060167899A1 (en) | Meta-data generating apparatus | |
CN111602129B (zh) | 针对注释和墨迹的智能搜索 | |
WO2018208412A1 (en) | Detection of caption elements in documents | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
US9336185B1 (en) | Generating an electronic publication sample | |
CN102346771A (zh) | 信息展现方法及装置 | |
CN114492303A (zh) | 电子书的排版处理方法、电子设备及存储介质 | |
CN114818688A (zh) | 一种文本关键内容提取方法、装置及服务器 | |
CN113378526A (zh) | Pdf段落处理方法、装置、存储介质及设备 | |
CN113255645A (zh) | 一种文本行图片的解码方法、装置和设备 | |
US9535884B1 (en) | Finding an end-of-body within content | |
CN111666522A (zh) | 信息处理方法、装置、设备和存储介质 | |
CN111143719A (zh) | 论文在线出版方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |