CN113673255A - 文本功能区域拆分方法、装置、计算机设备及存储介质 - Google Patents
文本功能区域拆分方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113673255A CN113673255A CN202110984025.XA CN202110984025A CN113673255A CN 113673255 A CN113673255 A CN 113673255A CN 202110984025 A CN202110984025 A CN 202110984025A CN 113673255 A CN113673255 A CN 113673255A
- Authority
- CN
- China
- Prior art keywords
- text
- line
- feature line
- feature
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011842 forensic investigation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本功能区域拆分方法、装置、计算机设备及存储介质。该方法通过获取待拆分文本,并将待拆分文本输入至预先训练得到的神经网络模型中,得到神经网络模型输出的初始特征行,基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到合并特征行,然后,将合并特征行输入至神经网络模型中进行增强判断,得到目标特征行,最后根据目标特征行对待拆分文本进行拆分。可以看出,通过神经网络模型中进行增强的判断,大大提高和段落的划分准确率,而人工智能的技术性能上也远远高于正则的模式,在遇到大的文本时仍然能够高效、迅速、准确的进行功能段落的划分。
Description
技术领域
本发明涉及大数据科学领域,特别涉及一种文本功能区域拆分方法、装置、计算机设备及存储介质。
背景技术
法律文书在语义上是有明确的功能段落划分的,现有的分析手段多基于正则的专家模式去进行分析,一方面在段落的划分上无法使用上下文的语义关联,准确率较低不符合自然意义上的段落划分,另一方面在遇到大的文本时分析会特别慢,效率低,而人工智能技术的出现为大数据的数据分析和数据价值挖掘提供的了一种较佳的解决方案。
现有的人工智能技术在文本处理方面存在的问题是在文本距离过长的情况下无法关联语义,并且在法律文书中自然段落的开始行、结束行的表述特征在往往比较相近,只结合特征行的上下文错误率会较高,因此亟需一种能够提高特征判断准确率的方法。
发明内容
基于此,本申请实施例提供了一种文本功能区域拆分方法、装置、计算机设备及存储介质,用于解决现有段落划分不够准确和效率低、速度慢的问题
第一方面,提供了一种文本功能区域拆分方法,该方法包括:
获取待拆分文本;
将所述待拆分文本输入至预先训练得到的神经网络模型中,得到所述神经网络模型输出的初始特征行;
基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行;
将所述合并特征行输入至所述神经网络模型中,得到目标特征行;
根据所述目标特征行对所述待拆分文本进行拆分。
可选地,所述神经网络模型的训练方式包括:
获取训练文本,通过预设的关键字对所述训练文本进行标注得到初始特征行,所述初始特征行包括至少一组预设的关键字;
根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行;
通过正样本集和负样本集对所述神经网络模型进行训练,其中,所述正样本集包括所述初始特征行与所述合并特征行,所述负样本集包括所述训练文本中非正样本集的所有行。
可选地,所述合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行,将所述合并特征行输入至所述神经网络模型中,得到目标特征行,包括:
将所述第一合并特征行输入至所述神经网络模型中,得到第一目标特征行,根据所述第一目标特征行以及所述第一目标特征行在所述待拆分文本中的上下文信息得到第二合并特征行;
将所述第二合并特征行输入至所述神经网络模型中,得到第二目标特征行,根据所述第二目标特征行以及所述第二目标特征行在所述待拆分文本中的上下文信息得到第三合并特征行;
将所述第三合并特征行输入至所述神经网络模型中,得到目标特征行。
可选地,所述第一合并特征行,基于初始特征行以及所述初始特征行在待拆分文本中的上一行文本进行合并得到。
可选地,所述第二合并特征行,基于初始特征行以及所述初始特征行在待拆分文本中的下一行文本进行合并得到。
可选地,所述第三合并特征行,基于初始特征行及所述初始特征行的下一个特征行进行合并得到所述第三合并特征行。
第二方面,提供了一种文本功能区域拆分装置,该装置包括:
获取模块,用于获取待拆分文本;
第一输出模块,用于将所述待拆分文本输入至预先训练得到的神经网络模型中,得到所述神经网络模型输出的初始特征行;
合并模块,用于基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行;
第二输出模块,用于将所述合并特征行输入至所述神经网络模型中,得到目标特征行;
拆分模块,用于根据所述目标特征行对所述待拆分文本进行拆分。
可选地,所述装置还包括:
训练模块,用于获取训练文本,通过预设的关键字对所述训练文本进行标注得到初始特征行,所述初始特征行包括至少一组预设的关键字;
根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行;
通过正样本集和负样本集对所述神经网络模型进行训练,其中,所述正样本集包括所述初始特征行与所述合并特征行,所述负样本集包括所述训练文本中非正样本集的所有行。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的文本功能区域拆分方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的文本功能区域拆分方法。
本申请实施例提供的技术方案通过获取待拆分文本,并将待拆分文本输入至预先训练得到的神经网络模型中,得到神经网络模型输出的初始特征行,基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到合并特征行,然后,将合并特征行输入至神经网络模型中进行增强判断,得到目标特征行,最后根据目标特征行对待拆分文本进行拆分。可以看出,因使用了增强的样本学习和增强的判断,大大提高和段落的划分准确率,而人工智能的技术性能上也远远高于正则的模式,在遇到大的文本时仍然能够高效、迅速、准确的进行功能段落的划分。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种文本功能区域拆分方法的步骤流程图;
图2为本申请实施例提供的一种文本功能区域拆分方法的方法的流程图;
图3为本申请实施例提供的一种文本功能区域拆分装置的框图;
图4为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文本功能区域拆分方法进行详细介绍。
请参考图1,其示出了本申请实施例提供的一种文本功能区域拆分方法的流程图,该方法可以包括以下步骤:
步骤101,获取待拆分文本;
在本申请实施例中,待拆分文本指的是法律文书文本,其可以具有txt、doc、docx等格式。
步骤102,将待拆分文本输入至预先训练得到的神经网络模型中,得到神经网络模型输出的初始特征行。
其中,神经网络模型可以是BiLSTM(Bi-directional Long Short-Term Memory)模型。
在本申请实施例中,在首先需要对神经网络模型进行训练,训练方式具体包括:
步骤1021,获取训练文本,训练样本指的是法律文书文本,标注该法律文书的段落划分特征关键字,如一行文本为审:“现在开始法庭调查”标识“开始法庭调查”为法庭调查段落的开始,审:“现在开始法庭辩论”标注“开始法庭辩论”为法庭辩论段落的开始。
步骤1022,将标注的行生成为一个样本,该标注的行可以及为训练样本中的初始特征行。
然后,根据初始特征行及初始特征行在训练文本中的上下文信息得到合并特征行,其具体包括了:
步骤1023,取标注的特征行的上一行数据与特征行合并为一行数据,如审:“现在开始法庭调查”的上一行数据为审:没有,合并为审:没有审:“现在开始法庭调查”,保留“开始法庭调查”为特征关键字,生成为一个样本。
步骤1024,取标注的特征行的下一行数据与特征行合并为一行数据,如审:“现在开始法庭调查”的下一行数据为审:原告的起诉意见,合并为审:“现在开始法庭调查”审:原告的起诉意见,保留“开始法庭调查”为特征关键字,生成为一个样本。
步骤1025,取标注的特征行的上一特征行与本特征行合并为一行数据,如审:“现在开始法庭辩论”的上一特征行为审:“现在开始法庭调查”,合并为审:“现在开始法庭调查”审:“现在开始法庭辩论”,保留“开始法庭调查”、“开始法庭辩论”为特征关键字,生成为一个样本。
通过步骤1022至步骤1025及得到了所有样本(即合并特征行),将步骤1022至步骤1025得到的所有样本作为正样本集。
步骤1026,取文书其他所有未标注的不包含特征字的行,每行生成为一个学习样本。
将步骤1026得到的所有学习样本作为负样本集。
即,标注的样本行同时合并上一行的文本为一个学习样本,标注关键字为正样本,未标注字为负样本;合并下一行的文本为一个学习样本,标注关键字为正样本,未标注字为负样本;合并上一个段落的标识行为一个学习样本,标注关键字为正样本,未标注字为负样本;取所有未标注的行为学习的负样本。
步骤1027,通过得到的正样本集和负样本集输入到模型中对该模型进行训练,计算出特征关键字的特征向量,判断训练的阈值达到学习的要求,保存该模型,本申请实施例中初始深度学习模型为加载有实体提取目标函数的深度学习模型并可以建模上下文信息的BiLSTM模型,
步骤1028,将待拆分文本输入至训练完成的神经网络模型中,输出每一行的判断结果是否包含有段落划分的特征字的行,即得到神经网络模型输出的初始特征行。
其中,取一篇文书的文本(即待拆分文本),按顺序行一行一行判断,判断每一行是否包括段落划分的关键字特征。
步骤103,基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到初始特征行对应的合并特征行。
步骤104,将合并特征行输入至神经网络模型中,得到目标特征行。
在本申请实施例中,合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行,
其中第一合并特征行是基于初始特征行以及该初始特征行在待拆分文本中的上一行文本进行合并得到;
第二合并特征行是基于初始特征行以及该初始特征行在待拆分文本中的下一行文本进行合并得到;
第三合并特征行是基于初始特征行及该初始特征行的下一个特征行进行合并得到。
其中,通过第一合并特征行、第二合并特征行以及第三合并特征行输入至神经网络模型中,得到目标特征行的具体过程包括了:
步骤1031,取判断出来的初始特征行与初始特征行的上一行文本合并(即第一合并特征行)再次通过模型进行判断是否包含有特征关键字,如不包含将该行归为上一个识别出来的特征行的段落,如果判断有继续进行下一步的增强判断;
步骤1032,取步骤1031判断出来的特征行与特征行的下一行文本合并(即第二合并特征行)再次通过模型进行判断是否包含有特征关键字,如不包含将该行归为上一个识别出来的特征行的段落,如果判断有继续进行下一步的增强判断;
步骤1033,取步骤1032判断出来的特征行与特征行的上一行特征行合并(即第三合并特征行)再次通过模型进行判断是否包含有特征关键字,如不包含将该行归为上一个识别出来的特征行的段落,如果判断有则进行下一步的增强判断,或输出目标特征行。
即取存在段落划分特征字的行与自己上一行合并再次判断,如新的特征判断为不存在,取消该行的特征标识;取特征行与自己下一行合并再次判断,如新的特征判断为不存在,取消该行的特征标识;取特征行的上一个特征行合并再次判断,如新的特征判断为不存在,取消该行的特征标识。
步骤105,根据目标特征行对待拆分文本进行拆分。
在做完所有的增强判断后,按照最后判断出来的特征行(即输出的目标特征行)对文书进行段落的划分。
其中,判断出来得到的特征行为段落划分的起始行或段落的结尾行,未判断出特征的行根据特征行划分归为特征行的段落,将该结果输出。
可以看出,本申请对法律文书的进行区域功能段落的划分方法方法包括:一种可结合文本上下文信息特征的神经网络模型,数据样本的增强生成方法,根据数据样本中标注的关键字训练生成对应的特征模型,基于该特征模型的判断结果输出段落信息,在特征识别上不仅可以结合文本当前行的上下文信息,还可以结合相邻行的文字特征信息,并且结合了段落之间的特征信息,可以更高效、准确的对法律文书进行功能段落区域的划分。
请参考图3,其示出了本申请实施例提供的一种文本功能区域拆分装置300的框图。如图3所示,该装置300可以包括:获取模块301、第一输出模块302、合并模块303、第二输出模块304、拆分模块305。
获取模块301,用于获取待拆分文本;
第一输出模块302,用于将待拆分文本输入至预先训练得到的神经网络模型中,得到神经网络模型输出的初始特征行;
合并模块303,用于基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到初始特征行对应的合并特征行;
第二输出模块304,用于将合并特征行输入至神经网络模型中,得到目标特征行;
拆分模块305,用于根据目标特征行对待拆分文本进行拆分。
在本申请一个实施例中,该装置300还包括:
训练模块306,用于获取训练文本,通过预设的关键字对训练文本进行标注得到初始特征行,初始特征行包括至少一组预设的关键字;
根据初始特征行及初始特征行在训练文本中的上下文信息得到合并特征行;
通过正样本集和负样本集对神经网络模型进行训练,其中,正样本集包括初始特征行与合并特征行,负样本集包括训练文本中非正样本集的所有行。
关于文本功能区域拆分装置的具体限定可以参见上文中对于文本功能区域拆分方法的限定,在此不再赘述。上述文本功能区域拆分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
对应于图1中的文本功能区域拆分方法,本申请实施例还提供了一种计算机设备,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述文本功能区域拆分方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述文本功能区域拆分方法,从而能够基于本发明快速准确的实现对卷宗的分类和命名。
本领域技术人员可以理解,如图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本功能区域拆分方法的步骤。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种文本功能区域拆分方法,其特征在于,所述方法包括:
获取待拆分文本;
将所述待拆分文本输入至预先训练得到的神经网络模型中,得到所述神经网络模型输出的初始特征行;
基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行;
将所述合并特征行输入至所述神经网络模型中,得到目标特征行;
根据所述目标特征行对所述待拆分文本进行拆分。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练方式包括:
获取训练文本,通过预设的关键字对所述训练文本进行标注得到初始特征行;
根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行;
通过正样本集和负样本集对所述神经网络模型进行训练,其中,所述正样本集包括所述初始特征行与所述合并特征行,所述负样本集包括所述训练文本中非正样本集的所有行。
3.根据权利要求1所述的方法,其特征在于,所述合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行,将所述合并特征行输入至所述神经网络模型中,得到目标特征行,包括:
将所述第一合并特征行输入至所述神经网络模型中,得到第一目标特征行,根据所述第一目标特征行以及所述第一目标特征行在所述待拆分文本中的上下文信息得到第二合并特征行;
将所述第二合并特征行输入至所述神经网络模型中,得到第二目标特征行,根据所述第二目标特征行以及所述第二目标特征行在所述待拆分文本中的上下文信息得到第三合并特征行;
将所述第三合并特征行输入至所述神经网络模型中,得到目标特征行。
4.根据权利要求3所述的方法,其特征在于,所述第一合并特征行,基于初始特征行以及所述初始特征行在待拆分文本中的上一行文本进行合并得到。
5.根据权利要求3所述的方法,其特征在于,所述第二合并特征行,基于初始特征行以及所述初始特征行在待拆分文本中的下一行文本进行合并得到。
6.根据权利要求3所述的方法,其特征在于,所述第三合并特征行,基于初始特征行及所述初始特征行的下一个特征行进行合并得到所述第三合并特征行。
7.一种文本功能区域拆分装置,其特征在于,所述装置包括:
获取模块,用于获取待拆分文本;
第一输出模块,用于将所述待拆分文本输入至预先训练得到的神经网络模型中,得到所述神经网络模型输出的初始特征行;
合并模块,用于基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行;
第二输出模块,用于将所述合并特征行输入至所述神经网络模型中,得到目标特征行;
拆分模块,用于根据所述目标特征行对所述待拆分文本进行拆分。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取训练文本,通过预设的关键字对所述训练文本进行标注得到初始特征行,所述初始特征行包括至少一组预设的关键字;
根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行;
通过正样本集和负样本集对所述神经网络模型进行训练,其中,所述正样本集包括所述初始特征行与所述合并特征行,所述负样本集包括所述训练文本中非正样本集的所有行。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6任一所述的文本功能区域拆分方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一所述的基于文本功能区域拆分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984025.XA CN113673255B (zh) | 2021-08-25 | 2021-08-25 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984025.XA CN113673255B (zh) | 2021-08-25 | 2021-08-25 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673255A true CN113673255A (zh) | 2021-11-19 |
CN113673255B CN113673255B (zh) | 2023-06-30 |
Family
ID=78546304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984025.XA Active CN113673255B (zh) | 2021-08-25 | 2021-08-25 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673255B (zh) |
Citations (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242684A (ja) * | 1998-02-26 | 1999-09-07 | Ricoh Co Ltd | 文書分割装置及び方法 |
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
US20110066659A1 (en) * | 2009-09-15 | 2011-03-17 | Ilya Geller | Systems and methods for creating structured data |
US20110219003A1 (en) * | 2005-10-20 | 2011-09-08 | Jiandong Bi | Determination of passages and formation of indexes based on paragraphs |
JP2013101679A (ja) * | 2013-01-30 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
US20140129597A1 (en) * | 2011-07-29 | 2014-05-08 | Yozosoft Co., Ltd. | Document Merging Method |
CN104317786A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种文本段落切片方法及系统 |
US20160048482A1 (en) * | 2014-08-18 | 2016-02-18 | Golden Board Cultural anf Creative Ltd., Co. | Method for automatically partitioning an article into various chapters and sections |
CN106815205A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN107391457A (zh) * | 2017-07-26 | 2017-11-24 | 成都科来软件有限公司 | 一种基于文本行的文档分段方法及装置 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
KR20190043857A (ko) * | 2017-10-19 | 2019-04-29 | 배재대학교 산학협력단 | 문서 내 문단 추출 장치 및 방법 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN110046355A (zh) * | 2019-04-25 | 2019-07-23 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110362832A (zh) * | 2019-07-18 | 2019-10-22 | 北京香侬慧语科技有限责任公司 | 一种段落合并的方法、装置、存储介质及电子设备 |
CN110532563A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
CN110598191A (zh) * | 2019-11-18 | 2019-12-20 | 江苏联著实业股份有限公司 | 一种基于神经网络的复杂pdf结构解析方法及装置 |
CN110674635A (zh) * | 2019-09-27 | 2020-01-10 | 北京妙笔智能科技有限公司 | 一种用于文本段落划分的方法和装置 |
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
US20200311207A1 (en) * | 2019-03-28 | 2020-10-01 | Adobe Inc. | Automatic text segmentation based on relevant context |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN111931482A (zh) * | 2020-09-22 | 2020-11-13 | 苏州思必驰信息科技有限公司 | 文本分段方法和装置 |
CN112632258A (zh) * | 2020-12-30 | 2021-04-09 | 太平金融科技服务(上海)有限公司 | 文本数据处理方法、装置、计算机设备和存储介质 |
CN112733545A (zh) * | 2020-12-28 | 2021-04-30 | 中电金信软件有限公司 | 文本分块方法、装置、计算机设备和存储介质 |
CN112749544A (zh) * | 2020-12-28 | 2021-05-04 | 苏州思必驰信息科技有限公司 | 段落分割模型的训练方法及系统 |
CN112784578A (zh) * | 2021-03-16 | 2021-05-11 | 北京华宇元典信息服务有限公司 | 法律要素提取方法、装置和电子设备 |
CN113076720A (zh) * | 2021-04-29 | 2021-07-06 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
US20210216725A1 (en) * | 2020-01-14 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing information |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
-
2021
- 2021-08-25 CN CN202110984025.XA patent/CN113673255B/zh active Active
Patent Citations (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242684A (ja) * | 1998-02-26 | 1999-09-07 | Ricoh Co Ltd | 文書分割装置及び方法 |
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
US20110219003A1 (en) * | 2005-10-20 | 2011-09-08 | Jiandong Bi | Determination of passages and formation of indexes based on paragraphs |
US20110066659A1 (en) * | 2009-09-15 | 2011-03-17 | Ilya Geller | Systems and methods for creating structured data |
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
US20140129597A1 (en) * | 2011-07-29 | 2014-05-08 | Yozosoft Co., Ltd. | Document Merging Method |
JP2013101679A (ja) * | 2013-01-30 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
US20160048482A1 (en) * | 2014-08-18 | 2016-02-18 | Golden Board Cultural anf Creative Ltd., Co. | Method for automatically partitioning an article into various chapters and sections |
CN104317786A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种文本段落切片方法及系统 |
CN106815205A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN107391457A (zh) * | 2017-07-26 | 2017-11-24 | 成都科来软件有限公司 | 一种基于文本行的文档分段方法及装置 |
KR20190043857A (ko) * | 2017-10-19 | 2019-04-29 | 배재대학교 산학협력단 | 문서 내 문단 추출 장치 및 방법 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
US20200311207A1 (en) * | 2019-03-28 | 2020-10-01 | Adobe Inc. | Automatic text segmentation based on relevant context |
CN110046355A (zh) * | 2019-04-25 | 2019-07-23 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110362832A (zh) * | 2019-07-18 | 2019-10-22 | 北京香侬慧语科技有限责任公司 | 一种段落合并的方法、装置、存储介质及电子设备 |
CN110532563A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
CN110674635A (zh) * | 2019-09-27 | 2020-01-10 | 北京妙笔智能科技有限公司 | 一种用于文本段落划分的方法和装置 |
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN110598191A (zh) * | 2019-11-18 | 2019-12-20 | 江苏联著实业股份有限公司 | 一种基于神经网络的复杂pdf结构解析方法及装置 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
US20210216725A1 (en) * | 2020-01-14 | 2021-07-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing information |
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN111783399A (zh) * | 2020-06-24 | 2020-10-16 | 北京计算机技术及应用研究所 | 一种法律裁判文书信息抽取方法 |
CN111931482A (zh) * | 2020-09-22 | 2020-11-13 | 苏州思必驰信息科技有限公司 | 文本分段方法和装置 |
CN112733545A (zh) * | 2020-12-28 | 2021-04-30 | 中电金信软件有限公司 | 文本分块方法、装置、计算机设备和存储介质 |
CN112749544A (zh) * | 2020-12-28 | 2021-05-04 | 苏州思必驰信息科技有限公司 | 段落分割模型的训练方法及系统 |
CN112632258A (zh) * | 2020-12-30 | 2021-04-09 | 太平金融科技服务(上海)有限公司 | 文本数据处理方法、装置、计算机设备和存储介质 |
CN112784578A (zh) * | 2021-03-16 | 2021-05-11 | 北京华宇元典信息服务有限公司 | 法律要素提取方法、装置和电子设备 |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113076720A (zh) * | 2021-04-29 | 2021-07-06 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
Non-Patent Citations (3)
Title |
---|
于佳: "语音文档的故事分割技术研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 2, pages 138 - 126 * |
王炳浩: "面向对话文本的主题分割技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, pages 138 - 4697 * |
钟茂生: "文本主题分割技术的研究进展", 《第三届全国信息检索与内容安全学术会议》, pages 85 - 92 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673255B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291570B (zh) | 一种实现司法文书中要素识别的方法及装置 | |
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108319668A (zh) | 生成文本摘要的方法及设备 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN117501283A (zh) | 文本到问答模型系统 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
Abate et al. | Development of Amharic morphological analyzer using memory-based learning | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
CN116484808A (zh) | 一种公文用可控文本生成方法及装置 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN117709355B (zh) | 一种提高大语言模型训练效果的方法、装置及介质 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN109508557A (zh) | 一种关联用户隐私的文件路径关键词识别方法 | |
CN113673255B (zh) | 文本功能区域拆分方法、装置、计算机设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Indirakanth et al. | Sarcasm Identification Of Dravidian Languages (Malayalam and Tamil). | |
CN105808522A (zh) | 一种语义联想的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240611 Address after: No. 08, 11th Floor, Building 2-17, No. 2 Fufeng Road, Fengtai District, Beijing, 100071 (1208) Patentee after: Lutiantong (Beijing) Information Technology Co.,Ltd. Country or region after: China Address before: 100085 a303, 2 / F, block a, No.9, Shangdi 3rd Street, Haidian District, Beijing Patentee before: BEIJING LEDICT TECHNOLOGY Co.,Ltd. Country or region before: China |