CN112507711B - 文本摘要抽取方法及系统 - Google Patents

文本摘要抽取方法及系统 Download PDF

Info

Publication number
CN112507711B
CN112507711B CN202011416522.1A CN202011416522A CN112507711B CN 112507711 B CN112507711 B CN 112507711B CN 202011416522 A CN202011416522 A CN 202011416522A CN 112507711 B CN112507711 B CN 112507711B
Authority
CN
China
Prior art keywords
sentence
document
semantic
sentences
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011416522.1A
Other languages
English (en)
Other versions
CN112507711A (zh
Inventor
郑茂盛
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202011416522.1A priority Critical patent/CN112507711B/zh
Publication of CN112507711A publication Critical patent/CN112507711A/zh
Application granted granted Critical
Publication of CN112507711B publication Critical patent/CN112507711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本摘要抽取方法及系统。所述方法包括:通过对待抽取裁判文书分割处理,得到若干个待处理句子;基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;对句子语义向量进行相似句过滤处理,得到过滤后句子;对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各过滤后句子的权值;获取权值达到权值阈值范围的过滤后句子,得到各重要句子;对各重要句子进行通顺度排序处理,得到文本摘要,实现自动抽取裁判文书(如民事案件裁判文书)的文本摘要,优化了摘要抽取过程,保证了摘要结果的关联性,增强了文本摘要语义的通顺性。

Description

文本摘要抽取方法及系统
技术领域
本申请涉及文本摘要处理技术领域,具体而言,涉及一种文本摘要抽取方法及系统。
背景技术
文本摘要指用于尽可能简明扼要地对文本进行概括总结,文本摘要在阅读文本过程中发挥着重要的作用。随着人工智能的发展,文本摘要也可以自动化形成,无需人工撰写。然而,文本可根据不同的领域分为不同的种类,不同种类的文本具有不同的文本特征。例如,法律领域的文本包括法律判决文书;法律判决文书包括民事案件判决文书。判决文书的格式模块等文本特征不同于其他文本。目前,尚未有完善易用的裁判文书摘要自动抽取方法,且传统自动抽取文本摘要的方法,抽取的摘要存在部分内容相似或重复,且摘要语义上存在不通顺的问题。
针对相关技术中传统自动抽取文本摘要的方法,抽取的摘要存在部分内容相似或重复,且摘要语义上存在不通顺的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本摘要抽取方法及系统,以解决传统自动抽取文本摘要的方法,抽取的摘要存在部分内容相似或重复,且摘要语义上存在不通顺的问题。
为了实现上述目的,第一方面,本申请提供了一种文本摘要抽取方法。
根据本申请的文本摘要抽取方法,包括以下步骤:
对待抽取裁判文书进行分割处理,得到若干个待处理句子;
基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;
对句子语义向量进行相似句过滤处理,得到过滤后句子;
对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应过滤后句子的权值;
根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子;
对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要。
在其中一个实施例中,得到对应待抽取裁判文书的文本摘要的步骤之后包括:
基于预训练语言模型,对文本摘要进行通顺度检测;
在文本摘要的通顺度高于预设通顺度阈值时,反馈对应待抽取裁判文书的文本摘要。
在其中一个实施例中,基于预训练语言模型,对文本摘要进行通顺度检测的步骤之后包括:
在文本摘要的通顺度低于预设通顺度阈值时,获取文本摘要的第一个句子作为当前句子;
在文本摘要除第一个句子之外的剩余句子中,获取与当前句子之间的通顺度最大的句子作为下一句子;
把当前句子与下一句子合并,并将合并后的句子作为新的当前句子,直至剩余句子为空时,将新的当前句子确认为文本摘要。
在其中一个实施例中,对待抽取裁判文书进行分割处理,得到若干个待处理句子的步骤包括:
基于裁判文书段落特征,对待抽取裁判文书进行分段处理,得到若干段待处理段落;
基于标点符号特征,依次对各个待处理段落进行分句处理,得到各待处理句子。
在其中一个实施例中,基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量的步骤包括:
基于BERT预训练模型,对各待处理句子进行向量表示处理,得到句子语义向量。
在其中一个实施例中,对句子语义向量进行相似句过滤处理,得到若干过滤后句子的步骤包括:
基于聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合;
依次对各聚类后句子集合中的聚类中心句子进行句子语义补充处理,得到各过滤后句子;句子语义为对法律文本实体识别得到。
在其中一个实施例中,基于聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合的步骤包括:
基于kmeans聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合;其中,聚类的类别数以句子语义向量的总句子数量的五分之一为基准。
在其中一个实施例中,文书语义特征包括连接词语义特征和裁判文书特征;
基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应文书语义特征的过滤后句子的权值的步骤包括:
若文书语义特征为连接词语义特征,则将连接词的重复频率作为相应文书语义特征的权重;
若文书语义特征为裁判文书特征,则将历史原被告判决倾向权重作为相应文书语义特征的权重。
在其中一个实施例中,根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子的步骤包括:
基于textrank算法和通顺度模型,对各过滤后句子的权值进行处理;
根据处理的结果,获取权值达到权值阈值范围的过滤后句子,并将权值达到权值阈值范围的过滤后句子作为重要句子。
第二方面,本申请还提供了一种文本摘要抽取系统,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一项文本摘要抽取方法的步骤。
在本申请实施例中,提供了一种文本摘要抽取方法,通过对待抽取裁判文书进行分割处理,得到若干个待处理句子;基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;对句子语义向量进行相似句过滤处理,得到过滤后句子;对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应过滤后句子的权值;根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子;对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要,实现自动抽取法律裁判文书(如民事案件裁判文书)的文本摘要。本申请针对裁判文书(如民事案件裁判文书)的特点,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文本摘要抽取方法的应用环境示意图;
图2是根据本申请实施例提供的文本摘要抽取方法的第一流程示意图;
图3是根据本申请实施例提供的文本摘要抽取方法的第二流程示意图;
图4是根据本申请实施例提供的句子重要度处理步骤的流程示意图;
图5是根据本申请实施例提供的文本摘要抽取系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提供的文本摘要抽取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本摘要抽取方法,以该方法应用于图1的终端102为例进行说明,包括以下步骤:
步骤S210,对待抽取裁判文书进行分割处理,得到若干个待处理句子。
其中,待抽取裁判文书可以是法律判决文书,例如,待抽取裁判文书可以是民事案件裁判文书。待处理句子可以是基于句号、感叹号或分号等标点符号结尾的句子。
具体地,可基于句子标点符号为分割点,对待抽取裁判文书进行分割处理,进而可得到各个待处理句子。
步骤S220,基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量。
其中,预训练语言模型指的是用来预测句子语义的机器训练模型。
具体地,可基于预训练语言模型对各待处理句子进行句子语义训练,并对训练后的各个句子语义进行向量表示处理,进而可得到句子语义向量。
进一步的,训练数据集为裁判文书数据集。该训练数据集利用了裁判文书的案由分类,即将相同案由的一组文书文本归并为一组,将同一组的文本视为一个类别,如果有N个文本组,则视为N分类问题,具有天然的分类属性。通过对裁判文书数据集进行监督训练,并将[CLS]标记的embedding(嵌入)拼接一个线性层,输出维度和类别数相同,对该输出和ground truth计算交叉熵损失。后续步骤使用时,将[CLS]标记(放在第一个句子的首位,)在最后一个隐层中的embedding作为句子的编码,进而可得到较强的高层语义理解和高性能文本表示的句子语义向量。
步骤S230,对句子语义向量进行相似句过滤处理,得到过滤后句子。
其中,相似句指的是一对句子中,含有相同词组的数量大于预设阈值的句子对。相似句还可以是一对句子中,语义相对值大于预设阈值的句子对。
具体地,通过对句子语义向量中的各个待处理句子进行相似句过滤处理,进而可过滤掉相似度高或相同的句子,得到若干过滤后句子。
步骤S240,对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应过滤后句子的权值。
其中,文书语义特征可以是裁判文书中各个待处理句子和词组的语义特征,文书语义特征还可以是裁判文书的原被告判决倾向权重特征或民事案件要点等特征。
具体地,通过对各过滤后句子进行文书语义特征抽取处理,根据抽取的结果,可得到各文书语义特征。并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,根据权重处理的结果,进而可得到对应文书语义特征的过滤后句子的权值,实现对各过滤后句子的权重分配。
步骤S250,根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子。
其中,重要句子指的是权值达到权值阈值范围的过滤后句子;重要句子可用来作为文本摘要的句子。
具体地,根据各过滤后句子的权值,将各过滤后句子的权值与权重阈值范围进行比对处理,根据比对处理的结果,获取权值达到权值阈值范围的过滤后句子作为重要句子,进而可得到各重要句子。
步骤S260,对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要。
其中,通顺度指的是相邻句子之间的通顺度。
具体地,可对基于相邻句子之间的通顺度,对各重要句子进行通顺度排序处理,根据处理的结果,进而可得到对应待抽取裁判文书的文本摘要,实现自动抽取裁判文书的文本摘要。
上述实施例中,通过对待抽取裁判文书进行分割处理,得到若干个待处理句子;基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;对句子语义向量进行相似句过滤处理,得到过滤后句子;对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应文书语义特征的过滤后句子的权值;根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子;对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要,实现自动抽取法律裁判文书(如民事案件裁判文书)的文本摘要。针对裁判文书(如民事案件裁判文书)的特点,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
在一个实施例中,得到对应待抽取裁判文书的文本摘要的步骤之后包括:
基于预训练语言模型,对文本摘要进行通顺度检测;
在文本摘要的通顺度高于预设通顺度阈值时,反馈对应待抽取裁判文书的文本摘要。
具体地,可对处理得到的待抽取裁判文书的文本摘要通过通顺度模型进行文本通顺度检查,其中,通顺度模型可以是基于预训练语言模型得到。
进一步的,通过对文本摘要进行通顺度检测,并根据检测的结果,在文本摘要的通顺度高于预设通顺度阈值时,判定该文本摘要为可用文本摘要,进而反馈输出对应待抽取裁判文书的文本摘要。
在一个具体的实施例中,基于预训练语言模型,对文本摘要进行通顺度检测的步骤之后包括:
在文本摘要的通顺度低于预设通顺度阈值时,获取文本摘要的第一个句子作为当前句子;
在文本摘要除第一个句子之外的剩余句子中,获取与当前句子之间的通顺度最大的句子作为下一句子;
把当前句子与下一句子合并,并将合并后的句子作为新的当前句子,直至剩余句子为空时,将新的当前句子确认为文本摘要。
具体地,可对处理得到的待抽取裁判文书的文本摘要通过通顺度模型进行文本通顺度检查,其中,通顺度模型可以是基于预训练语言模型得到。通过对文本摘要进行通顺度检测,并根据检测的结果,在文本摘要的通顺度低于预设通顺度阈值时,则判定该文本摘要为不可以文本摘要,需要对该文本摘要进行通顺性纠正。
进一步的,具体的通顺性纠正过程为:可将该文本摘要拆分成若干句子,并获取该文本摘要的第一个句子作为当前句子。以当前句子为基础,计算后续每句话与当前句子的通顺度,即在文本摘要除第一个句子之外的剩余句子中,获取与当前句子之间的通顺度最大的句子作为下一句子。把当前句子与下一句子进行合并,并将合并后的句子作为新的当前句子,直至剩余句子为空时,将新的当前句子确认为文本摘要,并馈输出该文本摘要。
上述实施例中,通过对处理得到的对应待抽取裁判文书的文本摘要进行文本通顺度检测,在文本摘要的整体通顺度大于预设阈值时,才输出文本摘要,否则需要对文本摘要进行通顺度纠正,在纠正成功后才输出文本摘要,进而提高了对裁判文书文本摘要抽取的准确度。
在一个实施例中,如图3所示,提供了一种文本摘要抽取方法,以该方法应用于图1的终端102为例进行说明,包括以下步骤:
步骤S310,基于裁判文书段落特征,对待抽取裁判文书进行分段处理,得到若干段待处理段落。
其中,裁判文书的文本格式较为规范,除本身按照标准格式文本撰写具有独特的分段之外,可以根据诸如“本院查明”、“原告诉称”、“本院认为”等关键词特征对裁判文书进行分段。裁判文书段落特征是裁判文书比较显著的一个独有特征,在摘要抽取过程中可以使用段落特征过滤或加权候选句子。
步骤S320,基于标点符号特征,依次对各个待处理段落进行分句处理,得到各待处理句子。
其中,标点符号特征可以但不限于是句号、分号、感叹号或问号等符号特征。
在一个示例中,在进行语义向量表示、统计学特征提取等过程中,是以词为基本单位进行操作的,所以可以使用成熟的分词工具,加入自定义的词典,对裁判文书分句后的文本进行分词。
步骤S330,基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量。
步骤S340,对句子语义向量进行相似句过滤处理,得到过滤后句子。
步骤S350,对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应过滤后句子的权值。
步骤S360,根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子。
步骤S370,对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要。
其中,上述步骤S330、步骤S340、步骤S350、步骤S360和步骤S370的具体内容过程可参考上文内容,此处不再赘述。
上述实施例中,通过基于裁判文书段落特征,对待抽取裁判文书进行分段处理,得到若干段待处理段落;基于标点符号特征,依次对各个待处理段落进行分句处理,得到各待处理句子;基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;对句子语义向量进行相似句过滤处理,得到若干过滤后句子;对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应文书语义特征的过滤后句子的权值;根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子;对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要,实现自动抽取法律裁判文书(如民事案件裁判文书)的文本摘要。针对裁判文书(如民事案件裁判文书)的特点,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
在一个实施例中,基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量的步骤包括:
基于BERT预训练模型,对各待处理句子进行向量表示处理,得到句子语义向量。
其中,BERT(Bidirectional Encoder Representations from Transformers)预训练模型指的是一种以Transformers为主要框架的双向编码表征模型。
具体而言,句子语义向量的句子语义表示编码器基于BERT实现。训练数据集是裁判文数据数据集。该数据集利用了裁判文书的案由分类,即将相同案由的一组文书文本归并为一组,将同一组的文本视为一个类别,如果有N个文本组,则视为N分类问题,具有天然的分类属性。通过对裁判文书数据集的BERT监督训练分类模型。训练时采用的模型是基于BERT预训练模型,进而可基于BERT预训练模型,对各待处理句子进行向量表示处理,得到句子语义向量。
在其中一个实施例中,对句子语义向量进行相似句过滤处理,得到若干过滤后句子的步骤包括:
基于聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合;
依次对各聚类后句子集合中的聚类中心句子进行句子语义补充处理,得到各过滤后句子;句子语义为对法律文本实体识别得到。
其中,聚类算法可以但不限于是K-Means(K均值)聚类或均值漂移聚等。
具体而言,可采用聚类算法对句子语义向量进行聚类处理,进而得到各聚类后句子集合。句子聚类后,以同类句子中语义最丰富的句子为核心,通常该句子是聚类的中心,进行句子语义补充,得到语义合并后的句子。其中,句子语义是通过对句子进行法律实体识别获得的,通过实体识别获得法律实体集合,针对核心句中没有的法律实体,以整个句子集合作为语料使用TF-IDF算法计算实体重要度,对实体重要度达到预设阈值的实体,从其他句子中截取相应包含该实体的短句,拼接至核心句后,进而得到各过滤后句子。
在一个具体的实施例中,基于聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合的步骤包括:
基于kmeans聚类算法对句子语义向量进行聚类处理,得到各聚类后句子集合;其中,聚类的类别数以句子语义向量的总句子数量的五分之一为基准。
具体地,可采用基于句子语义向量欧氏距离的kmeans聚类算法进行聚类,聚类的类别数以句子语义向量的总句子数量的1/5为基准。
需要说明的是,可根据聚类结果对聚类的类别数进行上下浮动调整。
在一个实施例中,文书语义特征包括连接词语义特征和裁判文书特征;
基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应文书语义特征的过滤后句子的权值的步骤包括:
若文书语义特征为连接词语义特征,则将连接词的重复频率作为相应文书语义特征的权重;
若文书语义特征为裁判文书特征,则将历史原被告判决倾向权重作为相应文书语义特征的权重。
其中,连接词语义特征可以但不限于是:[虽然,但是],[虽,但是],[尽管,但是],[虽然,但],[虽,但],[尽管,但],[但],[但是],[因,应],[由于,应],[但,应],[根据,应],[如果,应],[如,应],[若,应],[因为,应],[但,应],[因,故],[由于,故],[但,故],[根据,故],[如果,故],[如,故],[若,故],[因为,故],[但,故],[因,则],[由于,则],[但,则],[根据,则],[如果,则],[如,则],[若,则],[因为,则],[但,则],[因,所以],[由于,所以],[但,所以],[根据,所以],[如果,所以],[如,所以],[若,所以],[因为,所以],[但,所以],[因,那么],[由于,那么],[但,那么],[根据,那么],[如果,那么],[如,那么],[若,那么],[因为,那么],[但,那么],[因,有权],[由于,有权],[但,有权],[根据,有权],[如果,有权],[如,有权],[若,有权],[因为,有权],[但,有权],[系,非],[是,非],[系,不是],[是,不是],[系,而不是],[是,而不是],[非,是],[不是,是],[并非,是],[非,系],[不是,系],[并非,系],[非,而是],[不是,而是],[并非,而是],[即使....只要,既....也,既....亦],[不仅,而且],[不仅,且],[不仅,况且],[由此可见],[如前所述],[如上所述],[也就是说],[经过审查],[结合本案事实],[此种情况下],[据此],[综上],[所以],[因此],[此外]。
具体地,可通过统计学方法构建统计模型,统计全部语料中的连接词,以连接词组合的出现频率作为连接词特征的权重,进而若文书语义特征为连接词语义特征,即可将连接词的重复频率作为相应文书语义特征的权重。
进一步的,若文书语义特征为裁判文书特征,则将历史原被告判决倾向权重作为相应文书语义特征的权重。
需要说明的是,经过调研大量数据可知,法官如果支持原告诉求,必然会对被告提出的抗辩(前提是被告有抗辩)进行反驳,往往本院认为中对于被告的抗辩的论述较为重要。相反,如果法官不支持原告诉求,需要对原告诉求和原告证据进行重点反驳(最终不予支持),那么这个对原告的诉求的驳回论述就相对重要。因此我们在提取裁判要旨的时候,需要根据案件最终原告诉求的支持情况,来选择是对原告还是被告的论述进行加权。
在一个示例中,历史原被告判决倾向权重的具体处理过程如下:先判断原告的每个诉求是否得到支持,如果支持则重点倾向被告驳回部分,如果不支持,重点倾向原告驳回部分。本院认为根据每句话的对原告/被告的XXX请求/抗辩不予支持/予以支持,判断每句话的原被告论述归属,从而根据1的判断进行权重加权。具体加权权重值为预设值(如2)。另外,由法律专家总结民事案件的主要法律要点(如诉讼时效、适格主体、是否构成违约等,根据常见的30个民事案由分为合同类、权利义务类、伤害赔偿类、责任认定类等几个大类来定法律要点),并总结定位法律要点的关键词组合,包含关键词组合的句子要进行加权。
上述实施例中,针对裁判文书(如民事案件裁判文书)的特点,通过对文书语义特征的权重处理,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
在一个实施例中,如图4所示,根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子的步骤包括:
步骤S410,基于textrank算法和通顺度模型,对各过滤后句子的权值进行处理。
步骤S420,根据处理的结果,获取权值达到权值阈值范围的过滤后句子,并将权值达到权值阈值范围的过滤后句子作为重要句子。
其中,textrank算法是基于pagerank的一种文本重要度排序方法,使用句子构建一张图,图中每个节点是一个句子,相似的两个句子存在一条边,相似度作为边的权重。其计算公式如下:
其中,S(Vi)指的是表示结点Vi的pagerank值,S(Vj)指的是表示结点Vj的pagerank值,out(vj)表示结点Vj的后继结点集合,d为阻尼系数,wji指的是结点Vi与结点Vj之间的权重。该textrank算法为现有技术传统的文本重要度排序算法,在此不再展开叙述。
需要说明的是,本实施例是通过对textrank算法的改进,不使用相似度,而使用通顺度。通顺度是指B句子为A句子的下一句的通顺程度。
具体地,通顺度采用的方法是通过语言模型对候选句子对的组合文本进行通顺度计算,可设定一个阀值来确定是否通顺;特征加权是针对不同的特征对计算结果进行加权,加权值由专家根据相应的特征确定。即基于textrank算法和通顺度模型,对各过滤后句子的权值进行处理;根据处理的结果,获取权值达到权值阈值范围的过滤后句子,并将权值达到权值阈值范围的过滤后句子作为重要句子,进而可实现句子重要度的计算。
上述实施例中,针对裁判文书(如民事案件裁判文书)的特点,基于相似内容过滤、文本特征抽取以及句子重要度计算,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种文本摘要抽取系统,括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一项文本摘要抽取方法的步骤。
具体而言,通过对待抽取裁判文书进行分割处理,得到若干个待处理句子;基于预训练语言模型对各待处理句子进行向量表示处理,得到句子语义向量;对句子语义向量进行相似句过滤处理,得到若干过滤后句子;对各过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各文书语义特征进行权重处理,得到各对应文书语义特征的过滤后句子的权值;根据各过滤后句子的权值,获取权值达到权值阈值范围的过滤后句子,得到各重要句子;对各重要句子进行通顺度排序处理,根据处理的结果,得到对应待抽取裁判文书的文本摘要,实现自动抽取法律裁判文书(如民事案件裁判文书)的文本摘要。针对裁判文书(如民事案件裁判文书)的特点,优化了摘要抽取过程,解决了传统摘要抽取方法可能抽取出相似或重复内容的问题,同时又保证了摘要结果的关联性,增强了文本摘要语义的通顺性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项的文本摘要抽取方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种文本摘要抽取方法,其特征在于,包括以下步骤:
对待抽取裁判文书进行分割处理,得到若干个待处理句子;
基于预训练语言模型对各所述待处理句子进行向量表示处理,得到句子语义向量;
对所述句子语义向量进行相似句过滤处理,得到过滤后句子;
对各所述过滤后句子进行文书语义特征抽取,得到各文书语义特征,并基于预设文书语义特征权重原则,对各所述文书语义特征进行权重处理,得到各对应所述过滤后句子的权值;
根据各所述过滤后句子的权值,获取所述权值达到权值阈值范围的所述过滤后句子,得到各重要句子;
对各所述重要句子进行通顺度排序处理,根据处理的结果,得到对应所述待抽取裁判文书的文本摘要;
所述文书语义特征包括连接词语义特征和裁判文书特征;
所述基于预设文书语义特征权重原则,对各所述文书语义特征进行权重处理,得到各对应所述文书语义特征的所述过滤后句子的权值的步骤包括:
若所述文书语义特征为连接词语义特征,则将连接词的重复频率作为相应所述文书语义特征的权重;
若所述文书语义特征为裁判文书特征,则将历史原被告判决倾向权重作为相应所述文书语义特征的权重。
2.如权利要求1所述的文本摘要抽取方法,其特征在于,所述得到对应所述待抽取裁判文书的文本摘要的步骤之后包括:
基于预训练语言模型,对所述文本摘要进行通顺度检测;
在所述文本摘要的通顺度高于预设通顺度阈值时,反馈对应所述待抽取裁判文书的所述文本摘要。
3.如权利要求2所述的文本摘要抽取方法,其特征在于,所述基于预训练语言模型,对所述文本摘要进行通顺度检测的步骤之后包括:
在所述文本摘要的通顺度低于预设通顺度阈值时,获取所述文本摘要的第一个句子作为当前句子;
在所述文本摘要除第一个句子之外的剩余句子中,获取与所述当前句子之间的通顺度最大的句子作为下一句子;
把所述当前句子与所述下一句子合并,并将合并后的句子作为新的当前句子,直至所述剩余句子为空时,将所述新的当前句子确认为所述文本摘要。
4.如权利要求1所述的文本摘要抽取方法,其特征在于,所述对待抽取裁判文书进行分割处理,得到若干个待处理句子的步骤包括:
基于裁判文书段落特征,对所述待抽取裁判文书进行分段处理,得到若干段待处理段落;
基于标点符号特征,依次对各个所述待处理段落进行分句处理,得到各所述待处理句子。
5.如权利要求1所述的文本摘要抽取方法,其特征在于,所述基于预训练语言模型对各所述待处理句子进行向量表示处理,得到句子语义向量的步骤包括:
基于BERT预训练模型,对各所述待处理句子进行向量表示处理,得到句子语义向量。
6.如权利要求1所述的文本摘要抽取方法,其特征在于,所述对所述句子语义向量进行相似句过滤处理,得到若干过滤后句子的步骤包括:
基于聚类算法对所述句子语义向量进行聚类处理,得到各聚类后句子集合;
依次对各所述聚类后句子集合中的聚类中心句子进行句子语义补充处理,得到各所述过滤后句子;所述句子语义为对法律文本实体识别得到。
7.如权利要求6所述的文本摘要抽取方法,其特征在于,所述基于聚类算法对所述句子语义向量进行聚类处理,得到各聚类后句子集合的步骤包括:
基于kmeans聚类算法对所述句子语义向量进行聚类处理,得到各所述聚类后句子集合;其中,聚类的类别数以所述句子语义向量的总句子数量的五分之一为基准。
8.如权利要求1所述的文本摘要抽取方法,其特征在于,所述根据各所述过滤后句子的权值,获取所述权值达到权值阈值范围的所述过滤后句子,得到各重要句子的步骤包括:
基于textrank算法和通顺度模型,对各所述过滤后句子的权值进行处理;
根据处理的结果,获取所述权值达到权值阈值范围的所述过滤后句子,并将所述权值达到权值阈值范围的所述过滤后句子作为所述重要句子。
9.一种文本摘要抽取系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述文本摘要抽取方法的步骤。
CN202011416522.1A 2020-12-04 2020-12-04 文本摘要抽取方法及系统 Active CN112507711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011416522.1A CN112507711B (zh) 2020-12-04 2020-12-04 文本摘要抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011416522.1A CN112507711B (zh) 2020-12-04 2020-12-04 文本摘要抽取方法及系统

Publications (2)

Publication Number Publication Date
CN112507711A CN112507711A (zh) 2021-03-16
CN112507711B true CN112507711B (zh) 2023-08-08

Family

ID=74970708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011416522.1A Active CN112507711B (zh) 2020-12-04 2020-12-04 文本摘要抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112507711B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420143B (zh) * 2021-06-02 2023-12-22 平安国际智慧城市科技股份有限公司 文书摘要生成方法、装置、设备及存储介质
CN113590809A (zh) * 2021-07-02 2021-11-02 华南师范大学 一种裁判文书摘要自动生成方法及装置
CN113204956B (zh) * 2021-07-06 2021-10-08 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
CN113657097B (zh) * 2021-09-03 2023-08-22 北京建筑大学 一种摘要事实一致性的评估验证方法及其系统
CN113836295A (zh) * 2021-09-28 2021-12-24 平安科技(深圳)有限公司 一种文本摘要提取方法、系统、终端及存储介质
US12008332B1 (en) 2023-08-18 2024-06-11 Anzer, Inc. Systems for controllable summarization of content
CN117273667B (zh) * 2023-11-22 2024-02-20 浪潮通用软件有限公司 一种单据审核处理方法及设备
CN117591666B (zh) * 2024-01-18 2024-05-10 交通运输部公路科学研究所 针对桥梁管养文档的摘要抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110188349A (zh) * 2019-05-21 2019-08-30 清华大学深圳研究生院 一种基于抽取式多文档摘要方法的自动化写作方法
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN111401037A (zh) * 2020-06-05 2020-07-10 平安国际智慧城市科技股份有限公司 自然语言的生成方法、装置、电子设备及存储介质
CN111813925A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于语义的无监督自动摘要方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110188349A (zh) * 2019-05-21 2019-08-30 清华大学深圳研究生院 一种基于抽取式多文档摘要方法的自动化写作方法
CN111401037A (zh) * 2020-06-05 2020-07-10 平安国际智慧城市科技股份有限公司 自然语言的生成方法、装置、电子设备及存储介质
CN111813925A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于语义的无监督自动摘要方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于Gensim的摘要自动生成算法研究与实现》;肖元君;《计算机应用与软件》;第36卷(第2019年12期);全文 *

Also Published As

Publication number Publication date
CN112507711A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507711B (zh) 文本摘要抽取方法及系统
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108073568B (zh) 关键词提取方法和装置
CN106156204B (zh) 文本标签的提取方法和装置
Yao et al. Research on news keyword extraction technology based on TF-IDF and TextRank
CN107577785A (zh) 一种适用于法律识别的层次多标签分类方法
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN108009135B (zh) 生成文档摘要的方法和装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN113961685A (zh) 信息抽取方法及装置
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN105005616B (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN113673223A (zh) 一种基于语义相似性的关键词抽取方法及系统
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112347247A (zh) 基于LDA和Bert的特定类别文本标题二分类方法
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法
CN115640375A (zh) 专利文献中的技术问题抽取方法及相关设备
CN115481239A (zh) 一种社会治理文档摘要抽取方法、装置及电子设备
CN112529627B (zh) 商品隐式属性抽取方法、装置、计算机设备及存储介质
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant