CN116501875B - 一种基于自然语言和知识图谱的文档处理方法和系统 - Google Patents

一种基于自然语言和知识图谱的文档处理方法和系统 Download PDF

Info

Publication number
CN116501875B
CN116501875B CN202310486869.0A CN202310486869A CN116501875B CN 116501875 B CN116501875 B CN 116501875B CN 202310486869 A CN202310486869 A CN 202310486869A CN 116501875 B CN116501875 B CN 116501875B
Authority
CN
China
Prior art keywords
document
information
word
natural language
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310486869.0A
Other languages
English (en)
Other versions
CN116501875A (zh
Inventor
韩国权
李响
高山
肖书芹
蔡惠民
曹扬
谢真强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202310486869.0A priority Critical patent/CN116501875B/zh
Publication of CN116501875A publication Critical patent/CN116501875A/zh
Application granted granted Critical
Publication of CN116501875B publication Critical patent/CN116501875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息处理领域,特别是一种基于自然语言和知识图谱的文档处理方法和系统,通过对主题关键词属性信息聚类分类处理;借助于权重值信息的赋值抽取出文档中的关键信息,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到特定的语法与结构,形成自动填充模板,对法律文档配置填充格式,生成文档数据信息的自动摘要,能够快捷高效地向用户推送文档主题信息,提升了现有文档信息的处理效率。

Description

一种基于自然语言和知识图谱的文档处理方法和系统
技术领域
本发明涉及信息处理领域,特别是一种基于自然语言和知识图谱的文档处理方法和系统。
背景技术
随着社会飞速发展,数据量急速增加,同时大量雷同的信息也快速增多。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题,知识图谱应运而生。知识图谱是用于描述真实世界中存在的各种实体(entity)和概念(concept),以及它们之间的关系。知识图谱可以被视为是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
理论上来讲知识图谱应当是智能的,但是在对于知识图谱的信息的抽取过程中,尤其是多层的分类器判别过程中,噪音会被累加。为此,如何修正改进知识图谱的在抽取过程中或分类中的精准度,使得用户在对于一些文档的处理或搜索过程中,能够真实地识别出用户的意图和文档的主体,从而获得返回更为精准、结构化的信息,更大可能地满足用户的需求,提高对相应文档的处理效率等成为亟待需要解决的问题。
发明内容
为解决上述问题之一,本发明提出一种基于自然语言和知识图谱的文档处理方法和系统。
对获取到的训练自然语言文档进行分词处理,获得文档词语集;通过无监督聚类对相同或相近的词语进行合并,将实体的语义相同的文档进行融合;统计合并后的词语特征属性权重值,获取到文档词语分布信息,将文档词语分布信息抽取出实体和实体关系图,生成或更新待处理自然语言文档对应的行业的知识图谱;
对待处理自然语言文档分簇聚类,从每个簇中提取权重值最高的两个关键词以标识该聚类,并根据标识结果构建摘要主题;获取关键词权重值最高的词语对应的已有行业的知识图谱信息;依据所述词语的综合权重值信息,获取到相应词语所在的语句信息,提取该语句信息形成文本摘要提供给用户;
其中,所述对获取到的训练自然语言文档进行分词处理的方式具体是:对文档进行分句,分词,去停用词,保留词性为名词、动词、形容词、副词的词语,获得候选关键词集合T=[w1,w2,…wm];根据T中词语的相邻关系构建候选关键词图G=(V,E),V是图中的节点集合,由T中的候选关键词组成,E是相邻候选关键词之间的边集合;
所述的无监督聚类处理包括:确定K均值聚类算法中K的取值进行聚类,以文档中分词总数的平方根为聚类总数K,对文档进行聚类,将通过随机选取的中心点作为初始化中心,再通过每轮的迭代计算改善中心点的位置,实现定义的迭代次数或质心已经稳定下来时停止创建和优化集群;从每个聚类中挑选欧几里得距离最接近的一个分词,作为关键的分词聚类信息。
优选的,提取语句信息形成文本摘要提供给用户还包括:获取关键词权重值最高的词语对应的已有行业的知识图谱信息,根据知识图谱中的关联信息,匹配待处理自然语言文档中的核心语句,获取与待处理自然语言文档与知识图谱中主题匹配集合摘要文件集,采用多关键词排序加权的方式,选定摘要模板并进行语句填充;所述语句填充是采用主谓宾三元组模式提取核心分词,填充摘要模板方式执行,将核心语句信息与其所在待处理文档的段落标引一并发送给用户。
优选的,其中对自然语言文档进行分词处理采用对识别出的文档进行IKAnalyzer分析。
优选的,所述获取到文档词语分布信息,将文档词语分布信息抽取出实体和实体关系图,生成或更新待处理自然语言文档对应的行业的知识图谱包括:利用文档词语分布信息,获取实体描述特征向量;将实体描述特征向量与三元组实体结构向量进行相加处理,得到初始三元组结构向量;对初始三元组结构向量做筛选,获得用于生成知识图谱的目标三元组向量;基于目标三元组向量生成和更新知识图谱。
优选的,文档分词信息为文档词语分布矩阵,在生成或更新知识图谱前还包括,将所述文档词语分布矩阵输入LDA模型Latent DirichletAllocation中进行建模,获得文档主题分布矩阵和主题关键词分布矩阵。
优选的,三元组相连之间的抽取实体与实体关系采用双向长短期记忆网络和条件随机场BiLSTM-CRF或树状长短期记忆网络Tree-LSTM。
优选的,所述通过无监督聚类对相同或相近的词语进行合并是采用聚类算法进行。
优选的,无监督聚类处理还包括:基于K均值聚类算法,将所述文本中的分词词语的特征值进行权重分析,获得文档信息的分词类的分组信息,所述分词类信息与综合权重信息值的索引表格做存储;依据获得的分词词频类信息做聚类处理。
优选的,将文本集聚类划分后,从每个簇中提取权重值最高的两个关键词以标识该聚类,并根据标识结果构建检索或摘要主题;获取关键词权重值最高的与分词对应的已有的垂直行业的知识图谱信息;依据所述分词的综合权重值的信息,获取到相应分词所在的语句信息,提取该语句信息,形成文本摘要提供给用户。
优选的,对自然语言文档的处理包括用标题分类模型对文档标题进行分类,确定每个分词点的综合权重值。
优选的,所述方法应用于法院案件的分类提取中。
可选的,所述自然语言文档的提取来源包括扫描入卷材料、案件模板匹配输入、外部诉讼材料的输入。
计算每个分词点的综合权重值,所述每个分词点Vi的综合权重wi=w1*Ai+w2*Bi+w3*Ci+w4*Di+w5*Ei;其中,Ai为分词点Vi的TF-IDF,其权重为w1;Bi代表分词点Vi的位置,其权重为w2,Ci代表分词点Vi的词性,其权重为w3,Di代表分词点Vi的长度,其权重为w4,Ei代表词语语义关系,w5为其权重,依次获取到不同的分词点的权重值信息。
优选的,还提供一种基于自然语言和知识图谱的文档处理系统,所述系统包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行存储器上的计算机程序用于实现上述方法。
本发明公开的方法通过对主题关键词属性信息聚类分类处理;借助于权重值信息的赋值抽取出文档中的关键信息,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到特定的语法与结构,形成自动填充模板,对法律文档配置填充格式,生成文档数据信息的自动摘要,能够快捷高效地向用户推送文档主题信息,提升了现有文档信息的处理效率。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制。
图1是本发明方法的流程示意图。
具体实施方式
参看下面的说明以及附图,本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本发明的保护范围。可以理解的是,附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本文中的“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如,第一信息和第二信息是用于区别不同的信息,而不是用于描述信息的特定顺序。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
实施例1
本发明提出一种基于自然语言和知识图谱的文档处理方法及系统。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。在现有的法院系统中存在有大量的案卷和实时更新的案卷类材料需要进行处理,上述系统中的法律文件等卷宗的处理具有领域特点强,相应的法律文书具有的关键词、模板等基本协调统一,但是也存在文本输入的文档属于不规范的文档情形,比如过往文档信息等。也存在需要对各种关键词分散、主题发散的词义、修订法条条文索引关系、同类案件的索引等确定关键词的映射关系的需求。为此,需要在前端修正改进现有的知识图谱关系的抽取和实体构建,并将实时更新的新的诉讼材料等,补充到新的知识图谱当中去。为此,本方法将主题词属性信息进行分类处理,融入到聚类中合并文档,最终利用和更新现有的知识图谱信息,并根据标识结果构建检索或摘要主题;获取关键词权重值最高的与分词对应的已有的垂直行业的知识图谱信息;依据所述分词的综合权重值的信息,获取到相应分词所在的语句信息,提取该语句信息,形成文本摘要提供给用户。上述方式为相关人员提供自动化的模板匹配和相适应的文档信息,从而提高了文档的处理效率。
如图1所示,本发明中基于知识图谱的方法,首先,对获取到的训练自然语言文档进行分词处理,获得文档词语集;将文档词语集输出词语向量化,获得文档词语向量集;通过无监督聚类对相同或相近的词语进行合并,将实体的语义相同的文档进行融合;统计合并后的分词特征值,获取到文档词语分布信息;将文档词语分布信息抽取出实体和实体关系图,生成或更新待处理自然语言文档对应的垂直行业的知识图谱。其中对文档进行分词中采用对识别出的文档进行IK Analyzer分析。
所述自然语言文档信息以法院审理案件为例,所述自然语言文档信息来源为:
①扫描入卷材料:扫描时已对卷宗材料进行了OCR识别,因此,系统将对OCR识别出的文档进行IK Analyzer分析(以“材料标题”分析为主),获取该材料的关键词,然后通过与卷宗目录词库进行比对自动获得该材料所属的卷宗目录,并允许用户选择修改后入卷。
②系统生成的文书材料:系统将文书模板与流程节点绑定,并定义了该流程节点文书对应的卷宗材料目录,因此,系统生成的文书材料将自动归类;
③外部引入的材料:在流程节点处理时引入的外部材料可根据流程节点文书对应的卷宗目录进行自动归类;非流程节点处理引入的外部材料同扫描入卷材料类似,即:通过对OCR识别出的文档进行IK Analyzer分析,获得该材料的关键词,然后与卷宗目录词库比对自动获得该材料所属的卷宗目录,并允许用户选择修改后入卷。
所述对获取到的自然语言文档进行分词处理的方式具体是:对文档进行分句、分词,去停用词,保留词性为名词、动词、形容词、副词的词语,获得候选关键词集合T=[w1,w2,…wm]。根据T中词语的相邻关系构建候选关键词图G=(V,E),V是图中的节点集合,由T中的候选关键词组成,E是相邻候选关键词之间的边集合。
所述文档分词信息为文档词语分布矩阵,在生成知识图谱前还包括,将所述文档词语分布矩阵输入LDA模型Latent DirichletAllocation,中进行建模,获得文档主题分布矩阵和主题关键词分布矩阵。
将文档词语分布信息抽取出实体和实体关系图,生成或更新待处理自然语言文档对应的垂直行业的知识图谱包括:利用文档词语分布信息,获取实体描述特征向量;将实体描述特征向量与三元组实体结构向量进行相加处理,得到初始三元组结构向量;对初始三元组结构向量进行筛选,便可获得用于生成知识图谱的目标三元组向量;利用目标三元组向量生成知识图谱。三元组相连之间的抽取实体与实体关系采用双向长短期记忆网络和条件随机场BiLSTM-CRF或树状长短期记忆网络Tree-LSTM。
所述通过无监督聚类对相同或相近的词语进行合并是采用聚类算法进行。基于K均值聚类算法,将所述文本中的分词词语的特征值做进行权重分析,获得文档信息的分词类的分组信息,所述分词类信息与综合权重信息值的索引表格进行存储;依据获得的分词做聚类处理。优选的,其中,分词处理即是对于语句的分解处理,分词也可对应为词语。
所述的聚类处理具体是:确定K均值聚类算法中K的取值进行聚类,以文档中分词总数的平方根为聚类总数K,对文档进行聚类,将通过随机选取的中心点作为初始化中心,再通过每轮的迭代计算改善中心点的位置,实现定义的迭代次数或质心已经稳定下来时停止创建和优化集群;从每个聚类中挑选欧几里得距离最接近的一个分词,作为关键的分词聚类信息。
对于待处理的单个文档,将文本集聚类划分后,从每个簇中提取权重值最高的两个关键词用以标识该聚类,并根据标识结果构建检索或摘要主题;获取关键词权重值最高的与分词对应的已有的垂直行业的知识图谱信息;依据所述分词的综合权重值的信息,获取到相应分词所在的语句信息,提取该语句信息,形成文本摘要提供给用户。对于法律文件而言,对自然语言文档的处理包括用标题分类模型对文档标题进行分类,确定每个分词点的综合权重值。
其中依据所述分词的综合权重值的信息,获取到相应分词所在的语句信息,提取该语句信息,形成文本摘要提供给用户具体可包括:通过LDA方法确定各个文档的主题词后,对主题词进行分布对比分析,当该主题词是法律领域的核心词汇,在专业知识中占主导地位,则通过对该类主题词的聚类发现能明确该文档的主题关键词;通过段落标引的方式获取到主题词与段落的关系,所述段落中的关系与该主题词的出现,获取到不同主题词的在段落中的词频,从而提取出该文档的关键词。
可选的,当为法律文书时,当主题词词语出现其主题则提取出该关键词,根据从每个簇中提取权重值最高的两个关键词用以标识该聚类,根据该关键词,获取知识图谱信息,根据知识图谱中的层级关系,可选的所述层级关系为知识图谱中不同词汇之间的跳转概率,匹配待处理文档中的核心语句信息,对该核心数语句信息,做主谓宾的三元组信息提取。可选的方式,获取到该文档与知识图谱中主题匹配集合中每个匹配三元组中相应业务主题的强关联摘要数据文件集,依据提取到的待处理文档的关键词的各权重信息加权排序,选择摘要数据文档集中的摘要模板,将选取的摘要模板进行语句填充。将摘要模版发送给用户,通过三元组即诸如主谓宾的提取的核心分词填充摘要模板,根据词频与语句的索引关系,将核心语句信息与段落标引一并发送,便于用户快捷获取到文档摘要信息的内容信息。
示例性的,对自然语言中文文档的构造候选关键词图,所述候选关键词图的构建分为两个环节。对文档进行分句、分词,去停用词,去掉噪音。保留词性信息,可选的保留词性为名词、动词、形容词、副词的词语,和位置信息,以及词频信息,获得候选关键词集合T=[t1,t2,…tm]。根据T中词语的相邻关系构建候选关键词图G=(V,E),V是图中的节点集合,由T中的候选关键词组成,E是相邻候选关键词之间的边集合。
同时对于候选的关键词,采用中心词预测上下文出现在中心词附近的概率,可选的,Word2vec模型生成的词向量能通过相似性的计算强化了词语之间的语义关系。因此,利用Word2vec训练得到的词向量计算相似性,来获得词语之间的语义关系。Word2vec对文档集中的词语节点进行词向量表征,通过余弦公式计算词向量的相似性,获得词语节点在文档集中的语义关系特征。具体可包括:①对给定的文档集进行分句、分词,获得词汇集S1,S1由N个子词汇集组成,每组子词汇集对应一篇文档;②对词汇集S1去停用词,保留词性为名词、动词、形容词及副词的词语,进行合并生成词典D=[d1,d2,…dn],该词典是关键词图中所有候选关键词的全集;③利用训练好的Word2vec对词典D进行词向量表达,得到D的词向量。通过词典中词语的词向量,利用余弦公式计算词典D中词语的相似度,获得词语在文档集中所存在的语法关系。
计算每个分词点的综合权重值即特征属性权值,所述每个分词点Vi的综合权重wi=w1*Ai+w2*Bi+w3*Ci+w4*Di+w5*Ei;其中,Ai为分词点Vi的TF-IDF,其权重为w1;Bi代表分词点Vi的位置,其权重为w2,Ci代表分词点Vi的词性,其权重为w3,Di代表分词点Vi的长度,其权重为w4,Ei代表词语语义关系,W5为其权重,依次获取到不同的分词点的权重值信息。权重信息依据系统标引而设定,可选的根据主题分类属性的距离值而赋予线性权重值。可选的,当获取扫描到文档主题信息时,通对主题分词的属性进行分类,判断词汇是否是事件触发词以及事件的类别、或是事件的元素,元素的角色类别,判定事件的属性。
示例性的,关于词频,诸如基于同一法律主题情形下,对于同一法律条款做标注性区分,比如由于修法条文发生了变化,则相应的条款的名词性的属性的权重值低于词频权重值,基于该抽取的关键词中,设置词频为主题优先的设置,所述词义关系为补充校正。所述词频中引入逆文档率,正向词频代表了一个词在某篇文档中出现的频率。在一篇文档中,一个词出现的次数越多,说明这个词对于这篇文档的重要程度越高,越能代表这篇文档。逆文档频率代表词的普遍性程度,越多的文档包含该词,说明这个词越普遍,不足以区分这些文档。逆文档率为:
其中,|D|代表文档总数,|m:ti∈dm|代表包含词i的全部文档数目。通过TF-IDF为主要权重值获得所述同一主题下的不同的区分。基于法律文书文档的中的格式化是固定的,对不同的主题下的类型映射为不同的位置信息。诸如判决书中格式是固定的,裁判主要观点是文本聚类的重点,对于该裁判观点下的语义关联下的聚类,知识图谱的生成,可以赋予不同的权重值。
所述无监督聚类通过k-means算法实现的,具体可为,K-means算法输入为K个聚类数,n个数据对象,输出为满足方差最小标准的K个聚类。所述算法,首先从n个数据对象中任意选取K个对象作为初始聚类中心,计算每个对象与中心对象的距离,并根据最小距离重新对相应对象分类,然后重新计算每一个聚类的中心,计算聚类方差值,当满足约束条件时算法终止,否则,重新计算聚类中心并分类。使用欧式距离公式计算不同分词向量之间的距离,通过将跟待识别实体有关系的分词进行分类,统计待识别实体在各个类别中存在的有关系的向量个数,基于分别对应的个数构建一个q维实体向量表示,q为聚类结果个数。使用上述欧式距离公式,计算待识别实体之间的相关性d。
利用文档词语分布矩阵,获取实体描述特征向量。将实体描述特征向量与三元组实体结构向量进行相加处理,得到初始三元组结构向量;对初始三元组结构向量进行筛选,便可获得用于生成知识图谱的目标三元组向量。即可利用目标三元组向量生成或更新知识图谱。
对当前阶段抽取的实体,构成实体图与已有的知识图谱进行实体连接,将抽取出的实体与现有知识图谱中的实体进行整合,实现同名实体的映射和不规则实体的连接。比如通过分词实体识别算法抽取出了实体,若所述实体并不存在于已有的图谱实体中,需要判断实体是指行业垂直图谱中的标准实体还是其它含义。对于新抽取出的实体,若没有发现已有的可连接的实体,则被认为是一个新的实体加入到图谱中。
知识图谱作为一种结构化的语义知识库,通常采用三元组(h,r,t)的形式来表示知识,h和t代表头和尾2个实体,r代表关系。所述知识图谱数据,可以是将知识图谱数据的主语、谓词和宾语三个部分分别看作三个维度,每一个维度上的取值范围即知识图谱中对应位置出现的所有值,那么整个数据集就可以被一个稀疏的三阶张量表示,将知识图谱的存储转换为对这个三阶张量的压缩和索引。
在文档处理过程中,在查询时,按照推理规则和垂直行业的知识图谱信息,将一个查询重写成多个查询;最后汇总查询结果,其中,对于对知识图谱的更新,可选的是通过处理固定的法律实体场景下的实体以及关系、处理含有新实体或者新关系的场景,动态更新知识图谱,从而使知识图谱变得更加完整;所述推理规则是发现数据分类和聚类的垂直领域的知识以及关联规则挖掘的垂直领域的知识;所述法律规则是相应判决中的关键事实和法条适用。
本方案的借助于知识图谱数据生成的文档摘要中,通过对文档数据源的清洗、去重,对文档文本进行自动分词、自动分类、自动聚类处理,配置知识图谱获取到的特定的语法与结构,形成自动填充模板,对法律文档配置填充,为文档数据源信息生成摘要,在进一步借助于主题识别、关系发现、实体关联等方法手段,保障了摘要信息的准确度。根据聚类词语的主题词频,配置文档摘要模型,提高了配置摘要的准确度。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于自然语言和知识图谱的文档处理方法,其特征在于:所述方法包括:
对获取到的训练自然语言文档进行分词处理,获得文档词语集;通过无监督聚类对相同或相近的词语进行合并,将实体的语义相同的文档进行融合;统计合并后的词语的特征属性权重值,获取到文档词语分布信息,将文档词语分布信息抽取出实体和实体关系图,生成或更新待处理自然语言文档对应的行业的知识图谱;
对待处理自然语言文档分簇聚类,从每个簇中提取特征属性权重值最高的两个词语作为关键词以标识该聚类,并根据标识结果构建摘要主题;获取特征属性权重值最高的词语对应的已有行业的知识图谱信息;依据所述词语的特征属性权重值信息,获取到相应词语所在的语句信息,提取该语句信息形成文本摘要提供给用户;
其中,提取语句信息形成文本摘要提供给用户包括:获取特征属性权重值最高的词语对应的已有行业的知识图谱信息,根据知识图谱中的关联信息,匹配待处理自然语言文档中的核心语句,获取与待处理自然语言文档的知识图谱主题相匹配的摘要模板集,依据待处理自然语言文档关键词的特征属性权重值做排序,从摘要模板集中选定摘要模板并进行语句填充;所述语句填充是采用主谓宾三元组模式提取核心分词,填充摘要模板的方式执行,将核心语句信息与其所在待处理文档的段落标引一并发送给用户;
其中通过无监督聚类对相同或相近的词语进行合并,将实体的语义相同的文档进行融合包括:确定K均值聚类算法中K的取值进行聚类,以文档中分词总数的平方根为聚类总数K,对文档进行聚类,将通过随机选取的中心点作为初始化中心,再通过每轮的迭代计算改善中心点的位置,在定义的迭代次数或质心已经稳定下来时,停止创建和优化集群;从每个聚类中挑选欧几里得距离最接近的一个分词,作为关键的分词聚类信息。
2.如权利要求1所述的方法,其特征还在于,其中,所述对获取到的训练自然语言文档进行分词处理的方式具体是:对文档进行分句,分词,去停用词,保留词性为名词、动词、形容词、副词的词语,获得候选关键词集合T=[w1,w2,…wm];根据T中词语的相邻关系构建候选关键词图G=(V,E),V是图中的节点集合,由T中的候选关键词组成,E是相邻候选关键词之间的边集合。
3.如权利要求2所述的方法,其特征在于:其中对自然语言文档进行分词处理采用对识别出的文档进行IK Analyzer分析。
4.如权利要求3所述的方法,其特征还在于:自然语言文档的提取来源包括扫描入卷材料、案件模板匹配输入、外部诉讼材料的输入。
5.如权利要求4所述的方法,其特征还在于:所述自然语言文档为法律文书文档,所述法律文书文档具有标准化的格式和段落标引。
6.如权利要求4所述的方法,其特征还在于:文档词语分布信息为文档词语分布矩阵,在生成知识图谱前还包括,将所述文档词语分布矩阵输入LDA模型Latent DirichletAllocation中进行建模,获得文档主题分布矩阵和主题关键词分布矩阵。
7.如权利要求5所述的方法,其特征还在于:三元组相连之间的抽取实体与实体关系采用双向长短期记忆网络和条件随机场BiLSTM-CRF或树状长短期记忆网络Tree-LSTM。
8.一种基于自然语言和知识图谱的文档处理系统,所述系统包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器用于执行存储器上的计算机程序用于实现权利要求1-7中任一所述的方法。
9.一种计算机存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行用于实现权利要求1-7中任一所述的方法。
CN202310486869.0A 2023-04-28 2023-04-28 一种基于自然语言和知识图谱的文档处理方法和系统 Active CN116501875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310486869.0A CN116501875B (zh) 2023-04-28 2023-04-28 一种基于自然语言和知识图谱的文档处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310486869.0A CN116501875B (zh) 2023-04-28 2023-04-28 一种基于自然语言和知识图谱的文档处理方法和系统

Publications (2)

Publication Number Publication Date
CN116501875A CN116501875A (zh) 2023-07-28
CN116501875B true CN116501875B (zh) 2024-04-26

Family

ID=87322682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310486869.0A Active CN116501875B (zh) 2023-04-28 2023-04-28 一种基于自然语言和知识图谱的文档处理方法和系统

Country Status (1)

Country Link
CN (1) CN116501875B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933757B (zh) * 2023-09-15 2023-12-29 京华信息科技股份有限公司 一种应用语言人工智能的文书生成方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109582783A (zh) * 2018-10-26 2019-04-05 中国科学院自动化研究所 热点话题检测方法及装置
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN112800757A (zh) * 2021-04-06 2021-05-14 杭州远传新业科技有限公司 关键词生成方法、装置、设备及介质
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
WO2021196825A1 (zh) * 2020-03-31 2021-10-07 深圳壹账通智能科技有限公司 摘要生成方法、装置、电子设备及介质
CN114358006A (zh) * 2022-01-07 2022-04-15 南京邮电大学 基于知识图谱的文本内容摘要生成方法
CN115481239A (zh) * 2022-09-30 2022-12-16 高创安邦(北京)技术有限公司 一种社会治理文档摘要抽取方法、装置及电子设备
CN115757760A (zh) * 2021-09-03 2023-03-07 北京中关村科金技术有限公司 文本摘要提取方法及系统、计算设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100462961C (zh) * 2004-11-09 2009-02-18 国际商业机器公司 组织多个文档的方法以及显示多个文档的设备
CA2684397A1 (en) * 2007-04-25 2008-11-06 Counsyl, Inc. Methods and systems of automatic ontology population

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109582783A (zh) * 2018-10-26 2019-04-05 中国科学院自动化研究所 热点话题检测方法及装置
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
WO2021196825A1 (zh) * 2020-03-31 2021-10-07 深圳壹账通智能科技有限公司 摘要生成方法、装置、电子设备及介质
CN112800757A (zh) * 2021-04-06 2021-05-14 杭州远传新业科技有限公司 关键词生成方法、装置、设备及介质
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN115757760A (zh) * 2021-09-03 2023-03-07 北京中关村科金技术有限公司 文本摘要提取方法及系统、计算设备、存储介质
CN114358006A (zh) * 2022-01-07 2022-04-15 南京邮电大学 基于知识图谱的文本内容摘要生成方法
CN115481239A (zh) * 2022-09-30 2022-12-16 高创安邦(北京)技术有限公司 一种社会治理文档摘要抽取方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种大数据智能化语义分析系统;张阳;王贻欣;张杨;陈强;蔡钺;;电子技术与软件工程;20200315(第06期);全文 *
基于Clique聚类的精神分裂症多文档自动摘要研究;张晗;赵玉虹;;中华医学图书情报杂志;20160315(第03期);全文 *
基于语义图的医学多文档摘要提取模型构建;张晗;赵玉虹;;图书情报工作;20170420(第08期);全文 *

Also Published As

Publication number Publication date
CN116501875A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN101634983A (zh) 一种文本分类方法和装置
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
EP1323078A1 (en) A document categorisation system
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN115270738A (zh) 一种研报生成方法、系统及计算机存储介质
CN114997288A (zh) 一种设计资源关联方法
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN115757743A (zh) 文档的检索词匹配方法及电子设备
RU2681356C1 (ru) Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
CN112613612A (zh) 一种基于专利库的绿色设计知识库的构建方法及其装置
JPH11250100A (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant