CN117520549A - 一种文档切分方法、装置、设备及可读存储介质 - Google Patents
一种文档切分方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117520549A CN117520549A CN202311549681.2A CN202311549681A CN117520549A CN 117520549 A CN117520549 A CN 117520549A CN 202311549681 A CN202311549681 A CN 202311549681A CN 117520549 A CN117520549 A CN 117520549A
- Authority
- CN
- China
- Prior art keywords
- document
- type
- fragment
- segmentation
- snippet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000012634 fragment Substances 0.000 claims abstract description 168
- 230000015654 memory Effects 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文档切分方法、装置、设备及可读存储介质,涉及计算机技术领域,以提高获得的文档片段的质量和相关性。该方法包括:将待处理文档进行第一切分,得到至少一个文档片段;将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。本申请实施例可以提高获得的文档片段的质量和相关性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档切分方法、装置、设备及可读存储介质。
背景技术
利用生成式大模型外挂知识库进行文档问答是当前一项重要手段。在这个技术中,需要以文档切片向量化为前提。文档切片需要更好地适配不同类型的问题,如细节型和概括型问题。其中,细节型问题主要涉及事实类、单片段的知识,例如:“XX软件的价格是多少?”;概括型问题,主要涉及事务流程、概括总结、多片段的知识,需要在理解的基础上对文本做进一步的加工,例如:“XX软件的操作步骤是什么”。
传统的文档切片方法通常仅根据字符长度阈值进行分割。但是,这种方式获得的文档切片或片段的质量和相关性不高。
发明内容
本申请实施例提供一种文档切分方法、装置、设备及可读存储介质,以提高获得的文档片段的质量和相关性。
第一方面,本申请实施例提供了一种文档切分方法,包括:
将待处理文档进行第一切分,得到至少一个文档片段;
将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;
对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;
利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
第二方面,本申请实施例还提供一种文档切分装置,包括:
第一切分模块,用于将待处理文档进行第一切分,得到至少一个文档片段;
第一分类模块,用于将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
第二切分模块,用于对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;
第三切分模块,用于对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;
第一处理模块,用于利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的文档切分方法中的步骤。
第四方面,本申请实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的文档切分方法中的步骤。
在本申请实施例中,通过将至少一个文档片段进行分类得到第一类型文档片段和第二类型文档片段,并分别对第一类型文档片段和第二类型文档片段进行切分处理,从而根据切分后的结果得到文档切分片段集合。从而,利用本申请实施例的方案,由于对至少一个文档片段进行了分类并基于分类结果进行再切分,因此,可保证切分后得到的文档片段的质量以及相关性。
附图说明
图1是本申请实施例提供的文档切分方法的流程图之一;
图2是本申请实施例提供的文档切分方法的流程图之二;
图3是本申请实施例提供的文档切分装置的结构图。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的文档切分方法的流程图,如图1所示,包括以下步骤:
步骤101、将待处理文档进行第一切分,得到至少一个文档片段。
其中,所述待处理文档可以是任意的文档,如包括汉字,英文字符的文档等等。
在此的第一切分也可称为粗切分,指的是切分粒度较大的切分。例如,采用较长的切分字符长度进行的切分。此外,在此还可以使用自然语言处理技术和机器学习算法进行切分,以识别更有意义的文档切分的分割点。
步骤102、将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段。
在此,可利用深度学习算法对所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;其中,所述第一类型文档片段包括细节型文档片段,所述第二类型文档片段包括概括型文档片段。
其中,细节型文档可以指的是包括细节型问题的文档。细节型问题主要涉及事实类、单片段的知识,例如:“XX软件的价格是多少?”;概括型文档可以指的是包括概括型问题的文档。概括型问题,主要涉及事务流程、概括总结、多片段的知识,需要在理解的基础上对文本做进一步的加工,例如:“XX软件的操作步骤是什么”。
在具体应用中,例如可以利用深度学习技术,如卷积神经网络或循环神经网络,对步骤101得到的至少一个文档片段进行自动分类,得到不同类型的粗粒度片段集合。以下为第一类型文档片段和第二类型文档片段的实例:
例如,细节型文档片段,例如:
fine_text_1={段落1:XX软件的适用范围描述,
段落2:XX软件的特点描述}
fine_text_2={段落3:XX软件的硬件需求描述,
段落4:XX软件的销售价格或套餐描述,
段落5:XX软件的售后支持描述}
例如,概括型文档片段,例如:
corse_text_1={段落10:XX软件的使用步骤1的相关描述,
段落11:XX软件的使用步骤2的相关描述,
段落12:XX软件的使用步骤3的相关描述,
段落13:XX软件的常见问题和注意事项}。
步骤103、对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段。
对于第一类型文档片段,在此可对其进行细粒度的切分,例如,在此进行的切分所采用的切分字符长度小于所述第一切分采用的切分字符长度。
例如,可利用预设的切分字符长度对所述第一类型文档片段进行切分;其中,所述预设的切分字符长度小于所述第一切分采用的切分字符长度。其中,该预设的切分字符长度可以为固定的切分字符长度。
例如,还可引入动态长度调整机制,根据文档片段的内容和/或类型,自动调整切片的长度,从而避免一个完整段落被跨片段切分,以确保切片更适合用于细节型问答。
具体的,在此,可获取所述第一类型文档片段的内容类型,并根据所述内容类型确定所述第一类型文档片段对应的切分字符长度。之后,利用所述切分字符长度对所述第一类型文档片段进行切分;其中,所述切分字符长度小于所述第一切分采用的切分字符长度。该内容类型可根据第一类型文档片段所包括的内容确定。
例如:fine_text_2={段落3:XX软件的硬件需求描述(300字),段落4:XX软件的销售价格或套餐描述(300字),段落5:XX软件的售后支持描述(300字)},按照固定阈值500字切分的话,段落4会被切分到多个子片段中。而动态长度调整机制可将段落3、4、5分别作为三个子片段,也即第一类型文档片段。例如:对于细节型问题“XX软件的价格是多少?”,若“价格”和对应的数值被切分在不同的片段中,可能无法召回对应的片段,或者不可信,因此,可通过动态的切分字符长度,将“价格”和对应的数值切分到相同的片段中。
步骤104、对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段。
此步骤可包括如下过程:
S1:对所述至少一个第二类型文档片段进行标题提取,得到所述至少一个第二类型文档片段的标题。
其中,在此不对如何进行标题提取进行限定,例如,可根据设定的某种规则进行标题的提取或主题的提取。
S2:利用所述至少一个第二类型文档片段的标题以及所述至少一个第二类型文档片段,得到至少一个第三类型文档片段。
提取出的标题可作为对应的第二类型文档片段的开头(例如,第二类型文档片段的原有内容之前),从而形成第三类型文档片段。当然,提取出的标题也可放置在其他位置。
S3:将所述至少一个第三类型文档片段通过大模型进行片段概括,得到第一候选文档片段,以及,将所述至少一个第三类型文档片段进行第二切分,得到第二候选文档片段。
在将所述至少一个第三类型文档片段通过大模型进行片段概括,得到第一候选文档片段的过程中,需要对第三类型文档片段的字符长度进行判断。若某个第三类型文档片段的字符长度超过某个预设的阈值,则需对该文档片段进行段落压缩,从而保证压缩的文档片段的字符长度小于或等于该预设的阈值。之后,经过段落压缩得到的文档片段以及未进行段落压缩的第三类型文档片段,进行片段概括。
具体的,将所述至少一个第三类型文档片段中的第一目标文档片段进行段落压缩,得到第二目标文档片段;将所述第二目标文档片段以及所述至少一个第三类型文档片段中的第三目标文档片段通过大模型进行片段概括,得到所述至少一个第二类型文档片段;其中,所述第一目标文档片段的字符长度大于预设阈值,所述第三目标文档片段的字符长度小于或等于所述预设阈值。
在进行段落压缩时,可基于某个预设的规则进行截取、压缩,例如,从该文档片段的开头部分删除某些字符等。例如:将某个概括型的粗粒度片段corse_text_i压缩后得到text_i。
在进行片段概括时,将所述第二目标文档片段以及所述至少一个第三类型文档片段中的第三目标文档片段通过大模型进行片段概括,例如,通过ChatGPT、ChatGLM等进行流程抽取或概括总结,使得到的结果更适合用于概括型问答。
例如:将text_i作为参数拼接到prompt_template模板中,再将拼好的prompt整体作为大模型的输入,通过大模型的生成结果,从而得到输出。
例如,text_i=“““AT+是一款广泛使用的财务软件,它为企业提供了全面的财务管理和会计功能。下面将详细扩充提供的操作手册中的每个步骤,以便更好地理解它们的功能和作用:\n一、系统登录\n1.1下载T+浏览器\n在AT+的系统登录之前,首次需要下载T+浏览器。T+浏览器是一个定制的浏览器,它的作用是为了更好地支持T+财务软件的运行。它包含了一些特定的配置和插件,以提高软件性能和用户体验。用户首次登录T+系统时,会在普通浏览器打开软件地址后,得到一个提示,让他们下载并安装T+浏览器。\nT+浏览器的功能:\n提供了T+财务软件所需的特定设置,以确保软件能够顺利运行。\n包括安全性功能,帮助保护财务数据的安全。\n可以自动更新,以确保始终与T+财务软件兼容。\n1.2软件登录\n一旦T+浏览器安装完成,用户即可登录T+财务软件。登录过程如下:\n使用T+浏览器访问T+软件的登录地址。\n在登录页面,用户需要选择“普通用户”,这表示他们是一般的系统用户,而不是管理员或其他角色。\n用户需要输入由软件工程师分配的用户名和密码。这些凭据用于验证用户的身份,确保只有授权的用户能够访问系统。\n用户还需要选择适用的账套。账套是财务软件中的一个重要概念,它允许用户管理不同的企业、部门或项目的财务数据。在选择账套时,用户可以根据需要切换到不同的财务实体。\n最后,用户点击“登陆”按钮,进入软件。\n软件登录的功能和作用:\n验证用户身份,确保只有授权用户能够登录系统,保障数据的安全性。\n允许用户选择适用的账套,以便在不同实体之间切换,管理不同的财务数据。\n启动AT+软件,使用户能够访问财务管理和会计功能,执行各种财务操作。”””
prompt_template=f‘任务:针对下列文本进行流程抽取,如果没有具体流程,则进行概括总结。文本:{}’.format(text_i);
output=“““AT+财务软件操作流程:\n一、系统登录\n1.1、下载T+浏览器\n首次登陆需要用浏览器打开软件地址,第一次登陆会提示下载T+浏览器,按照提示下载安装T+浏览器,然后打开T+浏览器,输入软件登陆地址。\nT+浏览器,\n1.2、软件登陆\n按键盘上的“回车键(enter)”打开软件登陆页面,如下:\n选择选择“普通用户”,输入软件工程师分配的用户名和密码,选择对应的账套,以下以demo为例,如下图:\n点击登陆,进入软件”””。
在将所述至少一个第三类型文档片段进行第二切分,得到第二候选文档片段时,由于知识溯源的要求,通常需要按固定的长度阈值(经验值,如:500字)对第三类型文档片段进行片段切分,所以需要将第三类型文档片段切分成细粒度的子片段,同时尽量将抽取的相同或相近标题所对应的段落(第三类型文档片段)分在同一个片段中,并补充此类片段可能涉及到的细节型问答知识。
例如:某片段涉及“安全操作流程”的5个步骤描述,该片段被切分为子片段1和子片段2,两个子片段中都加上“安全操作流程的步骤共有5项,该片段是其中1/2”,加入到整体片段集中,便于对“安全操作流程的步骤”进行检索时两个片段都能被召回,以保证结果的完整性。
S4:利用所述第一候选文档片段和所述第二候选文档片段得到所述至少一个第二类型文档片段。
在上述过程中,通过对概括型的片段进行流程抽取或概括总结,以得到新的知识片段,保证了知识的完整性,例如:对于概括型问题“XX软件的操作步骤是什么”,检索时便可以将涉及完整流程的单个片段或多个片段召回。
步骤105、利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
在本申请实施例中,通过将至少一个文档片段进行分类得到第一类型文档片段和第二类型文档片段,并分别对第一类型文档片段和第二类型文档片段进行切分处理,从而根据切分后的结果得到文档切分片段集合。从而,利用本申请实施例的方案,由于对至少一个文档片段进行了分类并基于分类结果进行再切分,因此,可保证切分后得到的文档片段的质量以及相关性,也可使生成式大模型能够更精确地提供知识。
参见图2,图2是本申请实施例提供的文档切分方法的流程图,如图2所示,包括以下步骤:
步骤201、对待处理的文档文本进行粗切分。例如,可采用基于规则或机器学习算法的方法,具体的描述可参照步骤101的描述。
步骤202、对粗切分后的文档文本片段进行片段分类,具体的是划分为细节型文档片段和概括型文档片段。
步骤203、对于细节型文档片段,进行片段细切,从而使得获得的切分结果更适用细节型问答。具体的描述可参照步骤103的描述。
步骤204、对于概括型文档片段,可首先进行标题提取,将得到的标题放置于原始的概括型文档片段的开头,从而得到第三类型文档片段。具体的描述可参照步骤S1和S2的描述。
步骤205、对第三类型文档片段执行节点细切,得到第二候选文档片段。
步骤206、对第三类型文档片段执行段落压缩、片段概括,得到第一候选文档片段,以提高每个片段的信息密度和相关性,使其更适合用于概括型问答。
其中,步骤205和206的具体描述可参照步骤S3的描述。
步骤207、利用步骤203的结果和步骤205、206的结果得到片段集合。
通过以上的描述可以看出,利用本申请实施例的方案,可提高文档片段的相关性和质量,使生成式大模型能够更精确地提供知识;同时,利用本申请实施例的方案,可提高文档片段的适配性,以支持多种问答类型。
参见图3,图3是本申请实施例提供的文档切分装置的结构图。如图3所示,文档切分装置包括:
第一切分模块301,用于将待处理文档进行第一切分,得到至少一个文档片段;
第一分类模块302,用于将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
第二切分模块303,用于对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;
第三切分模块304,用于对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;
第一处理模块305,用于利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
其中,所述第一分类模块还用于:
利用深度学习算法对所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
其中,所述第一类型文档片段包括细节型文档片段,所述第二类型文档片段包括概括型文档片段。
其中,所述第三切分模块包括:
主题提取子模块,用于对所述至少一个第二类型文档片段进行标题提取,得到所述至少一个第二类型文档片段的标题;
第一获取子模块,用于利用所述至少一个第二类型文档片段的标题以及所述至少一个第二类型文档片段,得到至少一个第三类型文档片段;
片段概括子模块,用于将所述至少一个第三类型文档片段通过大模型进行片段概括,得到第一候选文档片段,以及,将所述至少一个第三类型文档片段进行第二切分,得到第二候选文档片段;
第二获取子模块,用于利用所述第一候选文档片段和所述第二候选文档片段得到所述至少一个第二类型文档片段;
其中,所述第二切分采用的切分字符长度小于所述第一切分采用的切分字符长度。
可选的,所述片段概括子模块:
段落压缩单元,用于将所述至少一个第三类型文档片段中的第一目标文档片段进行段落压缩,得到第二目标文档片段;
片段概括单元,用于将所述第二目标文档片段以及所述至少一个第三类型文档片段中的第三目标文档片段通过大模型进行片段概括,得到所述至少一个第二类型文档片段;
其中,所述第一目标文档片段的字符长度大于预设阈值,所述第三目标文档片段的字符长度小于或等于所述预设阈值。
可选的,所述第二切分模块包括:
获取子模块,用于获取所述第一类型文档片段的内容类型;
确定子模块,用于根据所述内容类型确定所述第一类型文档片段对应的切分字符长度;
切分子模块,用于利用所述切分字符长度对所述第一类型文档片段进行切分;
其中,所述切分字符长度小于所述第一切分采用的切分字符长度。
可选的,所述第二切分模块还用于,利用预设的切分字符长度对所述第一类型文档片段进行切分;
其中,所述预设的切分字符长度小于所述第一切分采用的切分字符长度。
本申请实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前所述的文档切分方法中的步骤。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述文档切分方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种文档切分方法,其特征在于,包括:
将待处理文档进行第一切分,得到至少一个文档片段;
将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;
对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;
利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段,包括:
利用深度学习算法对所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
其中,所述第一类型文档片段包括细节型文档片段,所述第二类型文档片段包括概括型文档片段。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段,包括:
对所述至少一个第二类型文档片段进行标题提取,得到所述至少一个第二类型文档片段的标题;
利用所述至少一个第二类型文档片段的标题以及所述至少一个第二类型文档片段,得到至少一个第三类型文档片段;
将所述至少一个第三类型文档片段通过大模型进行片段概括,得到第一候选文档片段,以及,将所述至少一个第三类型文档片段进行第二切分,得到第二候选文档片段;
利用所述第一候选文档片段和所述第二候选文档片段得到所述至少一个第二类型文档片段;
其中,所述第二切分采用的切分字符长度小于所述第一切分采用的切分字符长度。
4.根据权利要求3所述的方法,其特征在于,所述将所述至少一个第三类型文档片段通过大模型进行片段概括,得到所述至少一个第二类型文档片段,包括:
将所述至少一个第三类型文档片段中的第一目标文档片段进行段落压缩,得到第二目标文档片段;
将所述第二目标文档片段以及所述至少一个第三类型文档片段中的第三目标文档片段通过大模型进行片段概括,得到所述至少一个第二类型文档片段;
其中,所述第一目标文档片段的字符长度大于预设阈值,所述第三目标文档片段的字符长度小于或等于所述预设阈值。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段,包括:
获取所述第一类型文档片段的内容类型;
根据所述内容类型确定所述第一类型文档片段对应的切分字符长度;
利用所述切分字符长度对所述第一类型文档片段进行切分;
其中,所述切分字符长度小于所述第一切分采用的切分字符长度。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段,包括:
利用预设的切分字符长度对所述第一类型文档片段进行切分;
其中,所述预设的切分字符长度小于所述第一切分采用的切分字符长度。
7.一种文档切分装置,其特征在于,包括:
第一切分模块,用于将待处理文档进行第一切分,得到至少一个文档片段;
第一分类模块,用于将所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
第二切分模块,用于对所述第一类型文档片段进行第一文档切分处理,得到至少一个第一类型文档片段;
第三切分模块,用于对所述第二类型文档片段进行第二文档切分处理,得到至少一个第二类型文档片段;
第一处理模块,用于利用所述至少一个第一类型文档片段和所述至少一个第二类型文档片段,得到文档切分片段集合。
8.根据权利要求7所述的装置,其特征在于,所述第一分类模块还用于:
利用深度学习算法对所述至少一个文档片段进行分类,得到第一类型文档片段和第二类型文档片段;
其中,所述第一类型文档片段包括细节型文档片段,所述第二类型文档片段包括概括型文档片段。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如权利要求1至6中任一项所述的文档切分方法中的步骤。
10.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任一项所述的文档切分方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311549681.2A CN117520549B (zh) | 2023-11-20 | 2023-11-20 | 一种文档切分方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311549681.2A CN117520549B (zh) | 2023-11-20 | 2023-11-20 | 一种文档切分方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520549A true CN117520549A (zh) | 2024-02-06 |
CN117520549B CN117520549B (zh) | 2024-07-02 |
Family
ID=89750969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311549681.2A Active CN117520549B (zh) | 2023-11-20 | 2023-11-20 | 一种文档切分方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520549B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543637A (zh) * | 2019-09-06 | 2019-12-06 | 知者信息技术服务成都有限公司 | 一种中文分词方法及装置 |
CN113918686A (zh) * | 2021-08-30 | 2022-01-11 | 杭州摸象大数据科技有限公司 | 智能问答模型构建方法、装置、计算机设备及存储介质 |
US20220121821A1 (en) * | 2020-10-20 | 2022-04-21 | Jade Global, Inc. | Extracting data from documents using multiple deep learning models |
CN114386407A (zh) * | 2021-12-23 | 2022-04-22 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN114416976A (zh) * | 2021-12-23 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本标注方法、装置及电子设备 |
CN114936276A (zh) * | 2022-06-07 | 2022-08-23 | 来也科技(北京)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-11-20 CN CN202311549681.2A patent/CN117520549B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543637A (zh) * | 2019-09-06 | 2019-12-06 | 知者信息技术服务成都有限公司 | 一种中文分词方法及装置 |
US20220121821A1 (en) * | 2020-10-20 | 2022-04-21 | Jade Global, Inc. | Extracting data from documents using multiple deep learning models |
CN113918686A (zh) * | 2021-08-30 | 2022-01-11 | 杭州摸象大数据科技有限公司 | 智能问答模型构建方法、装置、计算机设备及存储介质 |
CN114386407A (zh) * | 2021-12-23 | 2022-04-22 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN114416976A (zh) * | 2021-12-23 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本标注方法、装置及电子设备 |
CN114936276A (zh) * | 2022-06-07 | 2022-08-23 | 来也科技(北京)有限公司 | 答案生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117520549B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102005032734B4 (de) | Indexextraktion von Dokumenten | |
US20100280981A1 (en) | Information filtering system, information filtering method and information filtering program | |
CN112445912B (zh) | 一种故障日志分类方法、系统、设备以及介质 | |
CN107463548A (zh) | 短语挖掘方法及装置 | |
CN112732655A (zh) | 针对无格式日志的在线解析方法及系统 | |
US20210136032A1 (en) | Method and apparatus for generating summary of url for url clustering | |
CN113450147A (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
CN117556010A (zh) | 基于知识库与大模型的文档生成系统、方法、设备及介质 | |
CN115605947A (zh) | 微分段安全语音转录 | |
CN115314268B (zh) | 基于流量指纹和行为的恶意加密流量检测方法和系统 | |
CN113409020A (zh) | 一种电子档案管理系统及方法 | |
EP2553612A1 (en) | System | |
Tardy et al. | Align then summarize: Automatic alignment methods for summarization corpus creation | |
CN115098440A (zh) | 电子档案查询方法、装置、存储介质和设备 | |
Plaisted et al. | DIP: a log parser based on" disagreement index token" conditions | |
CN117520549B (zh) | 一种文档切分方法、装置、设备及可读存储介质 | |
CN111858476A (zh) | 文件处理方法、装置、电子设备和计算机可读存储介质 | |
CN109977423B (zh) | 一种生词处理方法、装置、电子设备和可读存储介质 | |
US20230290168A1 (en) | Selecting files for intensive text extraction | |
CN112685389B (zh) | 数据管理方法、数据管理装置、电子设备及存储介质 | |
KR102321707B1 (ko) | 비정형 문서의 활용을 위한 데이터 가공 방법 | |
CN114547059A (zh) | 平台数据的更新处理方法、装置及计算机设备 | |
US11783088B2 (en) | Processing electronic documents | |
CN113378525A (zh) | Pdf文档段落呈现方法、装置、存储介质及设备 | |
CN115495737A (zh) | 恶意程序失效方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |