CN114841171B - 一种文本分段主题提取方法、系统、可读介质及设备 - Google Patents

一种文本分段主题提取方法、系统、可读介质及设备 Download PDF

Info

Publication number
CN114841171B
CN114841171B CN202210463598.2A CN202210463598A CN114841171B CN 114841171 B CN114841171 B CN 114841171B CN 202210463598 A CN202210463598 A CN 202210463598A CN 114841171 B CN114841171 B CN 114841171B
Authority
CN
China
Prior art keywords
text
segmentation
segmented
feature
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210463598.2A
Other languages
English (en)
Other versions
CN114841171A (zh
Inventor
李根柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Siyuan Zhitong Technology Co ltd
Original Assignee
Beijing Siyuan Zhitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Siyuan Zhitong Technology Co ltd filed Critical Beijing Siyuan Zhitong Technology Co ltd
Priority to CN202210463598.2A priority Critical patent/CN114841171B/zh
Publication of CN114841171A publication Critical patent/CN114841171A/zh
Application granted granted Critical
Publication of CN114841171B publication Critical patent/CN114841171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及主题提取领域,具体提供了一种文本分段主题提取方法、系统、可读介质及设备,包括:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;检测分段文本的起始端点与末尾端点;判断同个分段文本所标注的分段字符与检测结果是否匹配;当匹配时,获取与预设分段特征一致的提取特征,并按照提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;对所有分段主题进行主题分析,得到文本主题。通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。

Description

一种文本分段主题提取方法、系统、可读介质及设备
技术领域
本发明涉及主题提取技术领域,特别涉及一种文本分段主题提取方法、系统、可读介质及设备。
背景技术
在对大篇幅的文章进行阅读的过程中,如果篇幅内容过长,且没有段落划分以及主题引导,可能会导致用户在阅读该文章时,经常很难找到整个文章的重点,尤其是当识别文本较多、并且涉及多个主题时,用户更难理清识别文本的篇章结构,以及很难准确找出每个主题的内容,综上,不能满足用户的阅读体验感。
因此,本发明提出一种文本分段主题提取方法、系统、可读介质以及设备。
发明内容
本发明提供一种文本分段主题提取方法、系统、可读介质及设备,用以通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。
本发明提供一种文本分段主题提取方法,包括:
步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
步骤2:检测所述分段文本的起始端点与末尾端点;
步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;
步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
步骤5:对所有分段主题进行主题分析,得到文本主题。
优选的,步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,包括:
获取所述预设分段分类器的分类特征引擎集合;
基于所述目标文本的文本量以及文本读写复杂度,确定当所述目标文本完全满足对应的分类特征引擎的执行条件时,预估对应分类特征引擎在分段处理过程中的预设执行时间;
当按照所述分类特征引擎对所述目标文本进行分段处理时,统计对应分类特征引擎的当下执行时间;
基于所述当下执行时间、当下执行时间与对应预设执行时间的比值以及对应分类特征引擎的引擎标识,构建对应分类特征引擎的分段处理曲线;
基于所述预设分段分类器的预设属性,对所有分段处理曲线进行曲线处理,得到分段图;
遍历所述分段图,按照相似等级,进行曲线同类显著性显示;
根据显著性显示结果,对同类显著性显示范围进行框定,并对框定范围进行大小排序;
获取前N1个框定范围所对应的框定特征引擎,并分别获取每个框定特征引擎的框选分段特征;
从所有预设分段特征中,匹配与所述框选分段特征相似的第一分段特征;
分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分段处理总文本以及第一分段处理结果;
基于所述第一分段特征,对对应框定范围的分段处理总文本进行分段处理验证,得到第二分段处理结果;
当所述第一分段处理结果与第二分段处理结果一致时,将对应框定范围中框定特征引擎的分段处理结果保留;
否则,将所述第一分段处理结果与第二分段处理结果进行对比分析,得到第三分段处理结果,并保留;
获取剩余框定范围中的框定引擎特征所对应的分段处理结果,并结合保留的分段处理结果,得到分段文本。
优选的,在每个分段文本的分段节点上标注分段字符,包括:
按照每个分段文本涉及的预设分段特征、前N1个框定范围内的框定特征引擎、剩余框定范围内的框定特征引擎,构建对应分段文本的特征集合;
基于特征字符生成模型,对当下特征集合进行预处理,生成待处理字符;
同时,基于所述特征字符生成模型,对相邻两侧的特征集合进行预处理,生成左侧辅助字符以及右侧辅助字符;
基于所述待处理字符以及左侧辅助字符,得到对应分段文本的第一分段字符,并在所述分段节点的左侧设置第一空白单元,标注所述第一分段字符;
基于所述待处理字符以及右侧辅助字符,得到对应分段文本的第二分段字符,并在所述分段节点的右侧设置第二空白单元,标注所述第二分段字符;
其中,同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字符。
优选的,步骤2,检测所述分段文本的起始端点与末尾端点,包括:
获取所述分段文本的文本字符,并按照句划分规则,对所述分段文本进行句划分,得到若干第一子句;
同时,对所述文本字符进行段识别,得到段领域以及段知识;
分别确定每个第一子句的句领域以及句知识,并将每个句领域与段领域进行第一匹配以及将每个句知识与段知识进行第二匹配;
基于第一匹配结果以及第二匹配结果,筛选满足双匹配条件的第一个第一子句以及最后一个第一子句,并将所述第一个第一子句视为第二子句,将所述最后一个第一子句视为第三子句;
对所述第二子句进行起始端点检测,得到所述第二子句的第一句特征,同时,对所述第三子句进行末尾端点检测,得到所述第三子句的第二句特征。
优选的,步骤4,判断同个分段文本所标注的分段字符与检测结果是否匹配,包括:
基于所述分段字符得到第一分段字符以及第二分段字符,同时,基于检测结果,得到第一句特征以及第二句特征;
基于字符向量转换模型,将所述第一分段字符进行字符向量标准转换,得到第一转换向量,同时,将所述第二分段字符进行字符向量标准转换,得到第二转换向量;
基于特征向量转换模型,将所述第一句特征进行特征向量标准转换,得到第一特征向量,同时,将所述第二句特征进行特征向量标准转换,得到第二特征向量;
优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量进行向量配准;
当向量配准结果满足预设配准条件时,判定同个分段文本所标注的分段字符与检测结果匹配;
否则,判定同个分段文本所标注的分段字符与检测结果不匹配,获取所述分段文本以及对应的相邻文本,重新进行分段处理。
优选的,步骤4,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题,包括:
从分段-提取特征数据库中,匹配得到与所述预设分段特征一致的提取特征;
基于每个分段文本涉及的所述预设分段分类器中的框定特征引擎的框定分段特征,从所有提取特征中筛选得到对应分段文本的提取集合;
基于所述提取集合中每个提取特征,依次对对应分段文本进行关键字提取,并构建提取列表,且所述提取列表中每个单元格对应一种提取特征,且每个单元格中对应放置有按照对应提取特征所提取得到的关键字;
确定提取的每个关键字基于对应提取列表的重合比值;
Figure 755850DEST_PATH_IMAGE001
其中,H1表示对应关键字在所述提取列表中的出现次数,且在每个单元格中最多出现一次;H表示所述提取列表的单元格的总个数,且与提取集合中包含的提取特征的个数相等;
从所述提取列表中筛选重合比值大于预设比值的关键字,并视为重合关键字,并对所述重合关键字进行第一标定,同时,获取所述提取列表中每个单元格中的每个关键字与同个单元格所对应的提取特征之间的匹配度,并对最大匹配度的关键字进行第二标定;
根据第一标定结果以及第二标定结果,确定双标定关键字,并作为待判断中心字;
分别计算每个待判断中心字的字中心程度;
Figure 686897DEST_PATH_IMAGE002
Figure 441227DEST_PATH_IMAGE003
其中,L表示对应待判断中心字的字中心程度;n1表示对应待判断中心字所对应提取列表中的集中的字的个数;n2表示对应待判断中心字所对应提取列表中的离散的字的个数;Ai表示第i个集中的字基于对应待判断中心字的中心值,且取值范围为[0.5,1];Bj表示第j个离散的字基于对应待判断中心字的中心值,且取值范围为[0,0.4];Aave表示对应集中的字基于待判断中心字的平均中心值;Amax表示所有Ai中的最大中心值;Amin表示所有Ai中的最小中心值;
对所述待判读中心字进行同个分段文本的文本类型划分,并从同个划分类型中提取字中心程度最大的待判断中心字作为对应同个划分类型中的最后中心字;
基于同个分段文本的所有最后中心字,得到分段主题。
优选的,对所有分段主题进行主题分析,得到文本主题,包括:
获取每个分段主题的主题特征,确定当下主题特征与剩余每个主题特征之间的编辑距离;
将获取的与所述当下主题特征相关的所有编辑距离进行图表构建,得到距离分布图,并获取所述距离分布图中的区域分布以及所述区域分布中每个集中区域的区域面积;
基于区域分布、集中区域以及区域面积,判断所述当下主题特征是否可以作为主题中心特征;
若可以,将所述当下主题特征保留;
若不可以,依次对剩余每个主题特征是否可以作为主题中心特征进行判断,并将可以作为主题中心特征所对应的主题特征保留,同时,基于判断结果以及对应的剩余每个主题特征分别构建的距离分布图,来确定与所述当下主题特征最匹配的主题特征;
基于所有保留的主题特征以及所有最匹配的主题特征,构建得到文本主题。
本发明提供一种文本分段主题提取系统,包括:
分段处理模块,用于基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
端点检测模块,用于检测所述分段文本的起始端点与末尾端点;
匹配判断模块,用于判断同个分段文本所标注的分段字符与检测结果是否匹配;
字分析模块,用于当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
主题聚类模块,用于对所有分段主题进行主题聚类,得到文本主题。
本发明提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行任一项所述方法的步骤。
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一项所述方法的步骤。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种文本分段主题提取方法的流程图;
图2为本发明实施例中一种文本分段主题提取系统的结构图;
图3为本发明实施例中分段图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在一个实施例中,本发明提供一种文本分段主题提取方法,如图1所示,包括:
步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
步骤2:检测所述分段文本的起始端点与末尾端点;
步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;
步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
步骤5:对所有分段主题进行主题分析,得到文本主题。
该实施例中,预设分段特征可以从历史文本的分段情况以及历史文本的语义上进行提取,当然,也可以是综合这两种基于不同层面上提取的分段特征,预设分段分类器是基于历史文本的分段情况以及分段过程中使用到的分段特征为样本,进行训练得到的,以此,通过预设分段特征以及预设分段分类器两种方式,结合,来对文本进行分段处理,可以进一步提高分段的准确性。
该实施例中,分段字符与该分段文本的文本特征有关,比如:与某些关键字符等作为文本特征,且还与相邻分段文本的文本特征有关,比如是相邻文本中存在的与该分段文本高匹配的关键字符等,都可以作为分段字符。
该实施例中,起始端点检测指的是对分段文本的关键句子进行提取,并对第一个关键句子(也就是起始关键句子)进行检测,来确定该关键句子的句子特征,且末尾端点检测指的是对提取的分段文本中的最后一个关键句子(也就是末尾关键句子)进行检测,来确定该关键句子的句子特征。
该实施例中,确定分段字符与检测结果是否匹配,主要是为了进行关键字符的匹配,比如关键字符涉及到知识领域或者知识本身的匹配,来保证后续,得到预设分段特征的提取特征。
该实施例中,提取特征指的是对分段文本中的关键字进行提取,也就是预设分段特征以及预设分段分类器是为了将文本分分段,且提取特征是为了从分段文本中提取关键字。
该实施例中,通过对每个分段文本中的关键字进行字分析,比如是通过对存在的每个关键字进行匹配度确定,将匹配度高的关键字作为分段主题的一部分,以此,来获取分段主题。
该实施例中,文本主题是基于分段主题的基础上来获取的,主要是基于不同分段主题之间的编辑距离来判断,最后获取文本主题。
上述技术方案的有益效果是:通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。
在一个实施例中,步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,包括:
获取所述预设分段分类器的分类特征引擎集合;
基于所述目标文本的文本量以及文本读写复杂度,确定当所述目标文本完全满足对应的分类特征引擎的执行条件时,预估对应分类特征引擎在分段处理过程中的预设执行时间;
当按照所述分类特征引擎对所述目标文本进行分段处理时,统计对应分类特征引擎的当下执行时间;
基于所述当下执行时间、当下执行时间与对应预设执行时间的比值以及对应分类特征引擎的引擎标识,构建对应分类特征引擎的分段处理曲线;
基于所述预设分段分类器的预设属性,对所有分段处理曲线进行曲线处理,得到分段图;
遍历所述分段图,按照相似等级,进行曲线同类显著性显示;
根据显著性显示结果,对同类显著性显示范围进行框定,并对框定范围进行大小排序;
获取前N1个框定范围所对应的框定特征引擎,并分别获取每个框定特征引擎的框选分段特征;
从所有预设分段特征中,匹配与所述框选分段特征相似的第一分段特征;
分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分段处理总文本以及第一分段处理结果;
基于所述第一分段特征,对对应框定范围的分段处理总文本进行分段处理验证,得到第二分段处理结果;
当所述第一分段处理结果与第二分段处理结果一致时,将对应框定范围中框定特征引擎的分段处理结果保留;
否则,将所述第一分段处理结果与第二分段处理结果进行对比分析,得到第三分段处理结果,并保留;
获取剩余框定范围中的框定引擎特征所对应的分段处理结果,并结合保留的分段处理结果,得到分段文本。
该实施例中,预设分段分类器是包含若干分段分类特征引擎在内的,进而构成引擎集合,且通过不同的引擎来对文本进行分段处理。
该实施例中,文本量指的是文本中字符的总数量,文本读写复杂度指的是文本的读写难度,读写越困难对应的难度越大。
该实施例中,比如分类特征引擎1是针对语义1进行的分段,且分类特征引擎2是针对语义2进行的分段,以此,来获取不同的分类特征引擎,针对目标文本的执行时间,也就是,如果该目标文本全部是由语义1构成的,也就是满足按照语义1对文本进行分段,也就是在满足执行条件的情况下,此时,预估出对应的预设执行时间,此后,在按照分类特征引擎1对目标文本进行实际分段的过程中,来获取实际的执行时间,也就是当下执行时间,如果,该文本中不存在语义1相关的文本,此时的当下执行时间视为0。
该实施例中,通过获取当下执行时间是为了确定该文本中是存在对应的语义,且引擎标识指的是对文本按照何种方式进行的分段,也就是该引擎的专属分段标识。
该实施例中,分段处理曲线指的是可以代表对应引擎的曲线,如图3所示,a1、a2、a3、a4、a5为对应引擎的分段处理曲线,且曲线的不同虚实分别表示引擎标识,曲线的长短分别表示当下执行时间,曲线的比值作为纵坐标,曲线对应的时间作为横坐标。
该实施例中,预设属性,指的是在每个引擎依次对文本进行分段的过程中,基于该时间戳,来获取不同时间段下的曲线,进而得到分段图,且是按照a1、a2、a3、a4、a5对应的引擎来进行依次分段的。
该实施例中,按照不同曲线相同或相似的情况,进而来确定相似等级,进而进行同类显著性显示,且框定范围指的是对同类显著性曲线的框定,是通过长方形框定得到的,且框定范围指的是同类显著性的每个曲线进行长方形框定之后,得到的总的框定范围,可以是指总的框定面积。
该实施例中,比如是,存在N个框定范围的,获取N个框定范围中的前N1个,来分别确定每个框定范围内的分类特征引擎,也就是框定特征引擎,由于每个框定特征引擎也可以是基于语义或者其他特征,来构建得到的引擎,因此,是可以获取到该引擎的分段特征的,也就是框选分段特征。
该实施例中,第一分段特征指的是与框选分段特征匹配的特征,分段处理总文本指的是,比如文本为:子文本1、子文本2、子文本3,此时,某个框定范围内的框定特征引擎分段处理的是子文本1和子文本3,此时,子文本1和子文本3就为分段处理总文本,以及对子文本1和子文本3分段处理后,得到分段文本1、分段文本2和分段文本3。
该实施例中,通过第一特征分段进行验证,可以有效保证基于引擎分段后的分段准确性,且通过对第一分段处理结果以及第二分段处理结果进行一致判断,进一步保证分段是否合理,更进一步保证分段的合理性。
上述技术方案的有益效果是:通过基于引擎对文本进行分段处理,来确定时间、比值以及标识,进而构建分段图,且通过对图进行显著性显示,可以有效的确定框选范围,保证分段的优先处理,且通过基于引擎处理以及预设分段特征,两部分分段结果的比较,来保证最后分段的精准性,为后续得到主题提供有效基础,保证对文本的有效梳理,提高用户的阅读体验感。
在一个实施例中,在每个分段文本的分段节点上标注分段字符,包括:
按照每个分段文本涉及的预设分段特征、前N1个框定范围内的框定特征引擎、剩余框定范围内的框定特征引擎,构建对应分段文本的特征集合;
基于特征字符生成模型,对当下特征集合进行预处理,生成待处理字符;
同时,基于所述特征字符生成模型,对相邻两侧的特征集合进行预处理,生成左侧辅助字符以及右侧辅助字符;
基于所述待处理字符以及左侧辅助字符,得到对应分段文本的第一分段字符,并在所述分段节点的左侧设置第一空白单元,标注所述第一分段字符;
基于所述待处理字符以及右侧辅助字符,得到对应分段文本的第二分段字符,并在所述分段节点的右侧设置第二空白单元,标注所述第二分段字符;
其中,同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字符。
该实施例中,比如分段文本1设计预设分段特征1、2,框定特征引擎1、2以及剩余框定范围对应的框定特征引擎3、4,此时,根据涉及到的分段特征、以及引擎对应的分段特征,来构建得到特征集合,也就是该集合中存在6个特征。
该实施例中,特征字符生成模型是预先训练好的,且是以不同的特征集合、以及不同的特征集合对应字符为样本,训练得到的,且预处理指的是基于模型对特征集合进行分析,得到待处理字符,以此类推获取左侧辅助字符以及右侧辅助字符。
该实施例中,根据待处理字符与一侧的辅助字符通过相似度等的确定,来得到分段字符,且标注在对应空白单元中,且空白单元就是为了放置分段字符。
该实施例中,比如,待处理字符为0000、0001,一侧的辅助字符为0001、0002,此时,对应的分段字符为0000、0001、0001。
该实施例中,通过确定相邻侧的字符,主要是为了建立当前分段文本与相邻分段文本之间的相关关联。
该实施例中,分段节点指的是对应分段文本视为一个节点,方便在该节点的相邻侧设置空白单元。
上述技术方案的有益效果是:通过构建特征集合,并按照模型进行预处理,生成相应字符,最后来获取得到同个分段节点的分段字符,为后续得到主题提供有效基础,保证对文本的有效梳理,提高用户的阅读体验感。
在一个实施例中,步骤2,检测所述分段文本的起始端点与末尾端点,包括:
获取所述分段文本的文本字符,并按照句划分规则,对所述分段文本进行句划分,得到若干第一子句;
同时,对所述文本字符进行段识别,得到段领域以及段知识;
分别确定每个第一子句的句领域以及句知识,并将每个句领域与段领域进行第一匹配以及将每个句知识与段知识进行第二匹配;
基于第一匹配结果以及第二匹配结果,筛选满足双匹配条件的第一个第一子句以及最后一个第一子句,并将所述第一个第一子句视为第二子句,将所述最后一个第一子句视为第三子句;
对所述第二子句进行起始端点检测,得到所述第二子句的第一句特征,同时,对所述第三子句进行末尾端点检测,得到所述第三子句的第二句特征。
该实施例中,句划分规则,主要是按照语义为基础,来预先确定好的,且文本字符指的是将分段文本转换成可以表示不同文字的字符,方便文本统一划分。
该实施例中,句领域以及段领域指的是按照对应的文本,来确定所属于的知识领域,且段知识以及句知识是具体到该领域中的某些知识。
该实施例中,比如文段文本1的段领域为c1,段知识为c2,对应的子句1的句领域属于c1,句知识为c3,此时,通过领域匹配以及知识匹配,来确定分段文本中的第二子句以及第三子句。
该实施例中,双匹配条件指的是句领域与段领域一致以及段知识与句知识的知识匹配度大于预设匹配度,比如0.6,来确定满足该条件的第一个子句,以及最后一个子句。
该实施例中,句特征,可以是按照语义等来确定的,可以是一些词汇等。
上述技术方案的有益效果是:通过对文本进行句划分,并将文本与子句进行领域与知识的匹配,来得到第二子句与第三子句,得到句特征,便于保证文本的有效分段,间接提高用户的阅读体验感。
在一个实施例中,步骤4,判断同个分段文本所标注的分段字符与检测结果是否匹配,包括:
基于所述分段字符得到第一分段字符以及第二分段字符,同时,基于检测结果,得到第一句特征以及第二句特征;
基于字符向量转换模型,将所述第一分段字符进行字符向量标准转换,得到第一转换向量,同时,将所述第二分段字符进行字符向量标准转换,得到第二转换向量;
基于特征向量转换模型,将所述第一句特征进行特征向量标准转换,得到第一特征向量,同时,将所述第二句特征进行特征向量标准转换,得到第二特征向量;
优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量进行向量配准;
当向量配准结果满足预设配准条件时,判定同个分段文本所标注的分段字符与检测结果匹配;
否则,判定同个分段文本所标注的分段字符与检测结果不匹配,获取所述分段文本以及对应的相邻文本,重新进行分段处理。
该实施例中,字符向量转换模型以及特征向量转换模型是预先训练好的,且字符向量转换模型是基于不同的分段字符以及与分段字符匹配的向量为样本训练得到的,且特征向量转换模型是基于不同的句特征以及句特征匹配的向量为样本训练得到的。
该实施例中,同侧向量配准,指的是第一转换向量与第一特征向量为一侧,并进行向量匹配,第二转换向量与第二特征向量为一侧,进行向量匹配,且向量配准结果也就是同侧向量的匹配结果,第一转换向量是位于分段文本的节点的左侧,且第一特征向量是该分段文本中第一个子句对应的,此时,将两者视为一侧。
比如向量配准结果为0.6,对应的预设配准条件为向量配准结果大于0.5,此时,视为匹配。
上述技术方案的有益效果是:通过获取字符以及句特征的向量,并进行同侧比较,来确定是否匹配,保证分段处理的可靠性,间接提高用户的体验感。
在一个实施例中,步骤4,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题,包括:
从分段-提取特征数据库中,匹配得到与所述预设分段特征一致的提取特征;
基于每个分段文本涉及的所述预设分段分类器中的框定特征引擎的框定分段特征,从所有提取特征中筛选得到对应分段文本的提取集合;
基于所述提取集合中每个提取特征,依次对对应分段文本进行关键字提取,并构建提取列表,且所述提取列表中每个单元格对应一种提取特征,且每个单元格中对应放置有按照对应提取特征所提取得到的关键字;
确定提取的每个关键字基于对应提取列表的重合比值;
Figure 178239DEST_PATH_IMAGE001
其中,H1表示对应关键字在所述提取列表中的出现次数,且在每个单元格中最多出现一次;H表示所述提取列表的单元格的总个数,且与提取集合中包含的提取特征的个数相等;
从所述提取列表中筛选重合比值大于预设比值的关键字,并视为重合关键字,并对所述重合关键字进行第一标定,同时,获取所述提取列表中每个单元格中的每个关键字与同个单元格所对应的提取特征之间的匹配度,并对最大匹配度的关键字进行第二标定;
根据第一标定结果以及第二标定结果,确定双标定关键字,并作为待判断中心字;
分别计算每个待判断中心字的字中心程度;
Figure 701624DEST_PATH_IMAGE002
Figure 321349DEST_PATH_IMAGE003
其中,L表示对应待判断中心字的字中心程度;n1表示对应待判断中心字所对应提取列表中的集中的字的个数;n2表示对应待判断中心字所对应提取列表中的离散的字的个数;Ai表示第i个集中的字基于对应待判断中心字的中心值,且取值范围为[0.5,1];Bj表示第j个离散的字基于对应待判断中心字的中心值,且取值范围为[0,0.4];Aave表示对应集中的字基于待判断中心字的平均中心值;Amax表示所有Ai中的最大中心值;Amin表示所有Ai中的最小中心值;
对所述待判读中心字进行同个分段文本的文本类型划分,并从同个划分类型中提取字中心程度最大的待判断中心字作为对应同个划分类型中的最后中心字;
基于同个分段文本的所有最后中心字,得到分段主题。
该实施例中,分段-提取特征数据库包括不同的预设分段特征、以及每个分段特征对应的提取特征在内的,比如存在提取特征1、2、3、4、5,此时,对应涉及的框定分段特征对应的提取特征为1、2,此时,提取集合中就包括特区特征1、2。
该实施例中,提取列表的单元格数目与提取特征的数目相等,且每个提取特征可以对应若个关键字。
该实施例中,预设比值,比如为0.6,双标定关键字指的是既进行第一标定又进行第二标定的关键字,便于初步筛选得到中心字。
该实施例中,针对同个分段文本所对应的提取列表,该列表所包括的关键字的总个数要大于某待判断中心字可以匹配到的集中的所有字以及离散的所有字的总个数。
该实施例中,字中心程度越大,代表可以作为中心字的可能性越大。
该实施例中,比如同个分段文本按照关键字语义划分,得到若干文本类型所对应的子文本,并获取每个子文本中的最大字中心程度,进而得到分段主题。
也就是将最后中心字为主题关键字,来得到主题。
上述技术方案的有益效果是:通过筛选提取集合、计算重合比值、筛选双标定字,来计算字中心程度,保证有效获取分段分本中的中心字,进而得到分段主题,保证构建梳理的清晰性,提高阅读体验感。
在一个实施例中,对所有分段主题进行主题分析,得到文本主题,包括:
获取每个分段主题的主题特征,确定当下主题特征与剩余每个主题特征之间的编辑距离;
将获取的与所述当下主题特征相关的所有编辑距离进行图表构建,得到距离分布图,并获取所述距离分布图中的区域分布以及所述区域分布中每个集中区域的区域面积;
基于区域分布、集中区域以及区域面积,判断所述当下主题特征是否可以作为主题中心特征;
若可以,将所述当下主题特征保留;
若不可以,依次对剩余每个主题特征是否可以作为主题中心特征进行判断,并将可以作为主题中心特征所对应的主题特征保留,同时,基于判断结果以及对应的剩余每个主题特征分别构建的距离分布图,来确定与所述当下主题特征最匹配的主题特征;
基于所有保留的主题特征以及所有最匹配的主题特征,构建得到文本主题。
该实施例中,获取每个分段主题的主题特征,即为当下主题特征,比如,存在分段文本1、分段文本2、分段文本3,此时,确定当下分段文本1,与剩余分段文本2和3的编辑距离,且编辑距离是按照特征的字符差值确定的,比如,当下主题特征为0001,分段文本2的主题特征为1100,分段文本3的主题特征为0000,此时,与1100的编辑距离为1+1+1+1得到4,与0000的编辑距离为0+0+0+1得到1。
该实施例中,比如存在编辑距离为:4、2、3、1、1、1、2、2、1、1、1、1,此时,区域分布在1和2,对应的区域面积,可以是1和2构成的面积,比如为9,也就是每个剩余特征可以视为一个面积,此时,可以将该主题中心保留。
该实施例中,距离分布图也就是基于编辑距离以及不同的主题特征构成,且最匹配的主题特征,指的是看当下主题特征跟随哪个特征合适,将最合适的作为最匹配的主题特征,进而得到文本主题。
上述技术方案的有益效果是:通过获取编辑距离以及图标构建,可以有效确定主题特征,通过与最匹配的主题特征结合,得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。
在一个实施例中,本发明提供一种文本分段主题提取系统,如图2所示,包括:
分段处理模块,用于基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
端点检测模块,用于检测所述分段文本的起始端点与末尾端点;
匹配判断模块,用于判断同个分段文本所标注的分段字符与检测结果是否匹配;
字分析模块,用于当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
主题聚类模块,用于对所有分段主题进行主题分析,得到文本主题。
上述技术方案的有益效果是:通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
步骤2:检测所述分段文本的起始端点与末尾端点;
步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;
步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字聚类分析,得到分段主题;
步骤5:对所有分段主题进行主题分析,得到文本主题。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
步骤2:检测所述分段文本的起始端点与末尾端点;
步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;
步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字聚类分析,得到分段主题;
步骤5:对所有分段主题进行主题分析,得到文本主题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。请输入具体实施内容部分。

Claims (9)

1.一种文本分段主题提取方法,其特征在于,包括:
步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
步骤2:检测所述分段文本的起始端点与末尾端点;
步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;
步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
步骤5:对所有分段主题进行主题分析,得到文本主题;
其中,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题,包括:
从分段-提取特征数据库中,匹配得到与所述预设分段特征一致的提取特征;
基于每个分段文本涉及的所述预设分段分类器中的框定特征引擎的框定分段特征,从所有提取特征中筛选得到对应分段文本的提取集合;
基于所述提取集合中每个提取特征,依次对对应分段文本进行关键字提取,并构建提取列表,且所述提取列表中每个单元格对应一种提取特征,且每个单元格中对应放置有按照对应提取特征所提取得到的关键字;
确定提取的每个关键字基于对应提取列表的重合比值;
Figure FDA0004152053300000011
其中,H1表示对应关键字在所述提取列表中的出现次数,且在每个单元格中最多出现一次;H表示所述提取列表的单元格的总个数,且与提取集合中包含的提取特征的个数相等;
从所述提取列表中筛选重合比值大于预设比值的关键字,并视为重合关键字,并对所述重合关键字进行第一标定,同时,获取所述提取列表中每个单元格中的每个关键字与同个单元格所对应的提取特征之间的匹配度,并对最大匹配度的关键字进行第二标定;
根据第一标定结果以及第二标定结果,确定双标定关键字,并作为待判断中心字;
分别计算每个待判断中心字的字中心程度;
Figure FDA0004152053300000021
Figure FDA0004152053300000022
其中,L表示对应待判断中心字的字中心程度;n1表示对应待判断中心字所对应提取列表中的集中的字的个数;n2表示对应待判断中心字所对应提取列表中的离散的字的个数;Ai表示第i个集中的字基于对应待判断中心字的中心值,且取值范围为[0.5,1];Bj表示第j个离散的字基于对应待判断中心字的中心值,且取值范围为[0,0.4];Aave表示对应集中的字基于待判断中心字的平均中心值;Amax表示所有Ai中的最大中心值;Amin表示所有Ai中的最小中心值;
对所述待判读中心字进行同个分段文本的文本类型划分,并从同个划分类型中提取字中心程度最大的待判断中心字作为对应同个划分类型中的最后中心字;
基于同个分段文本的所有最后中心字,得到分段主题。
2.如权利要求1所述的文本分段主题提取方法,其特征在于,步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,包括:
获取所述预设分段分类器的分类特征引擎集合;
基于所述目标文本的文本量以及文本读写复杂度,确定当所述目标文本完全满足对应的分类特征引擎的执行条件时,预估对应分类特征引擎在分段处理过程中的预设执行时间;
当按照所述分类特征引擎对所述目标文本进行分段处理时,统计对应分类特征引擎的当下执行时间;
基于所述当下执行时间、当下执行时间与对应预设执行时间的比值以及对应分类特征引擎的引擎标识,构建对应分类特征引擎的分段处理曲线;
基于所述预设分段分类器的预设属性,对所有分段处理曲线进行曲线处理,得到分段图;
遍历所述分段图,按照相似等级,进行曲线同类显著性显示;
根据显著性显示结果,对同类显著性显示范围进行框定,并对框定范围进行大小排序;
获取前N1个框定范围所对应的框定特征引擎,并分别获取每个框定特征引擎的框选分段特征;
从所有预设分段特征中,匹配与所述框选分段特征相似的第一分段特征;
分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分段处理总文本以及第一分段处理结果;
基于所述第一分段特征,对对应框定范围的分段处理总文本进行分段处理验证,得到第二分段处理结果;
当所述第一分段处理结果与第二分段处理结果一致时,将对应框定范围中框定特征引擎的分段处理结果保留;
否则,将所述第一分段处理结果与第二分段处理结果进行对比分析,得到第三分段处理结果,并保留;
获取剩余框定范围中的框定引擎特征所对应的分段处理结果,并结合保留的分段处理结果,得到分段文本。
3.如权利要求2所述的文本分段主题提取方法,其特征在于,在每个分段文本的分段节点上标注分段字符,包括:
按照每个分段文本涉及的预设分段特征、前N1个框定范围内的框定特征引擎、剩余框定范围内的框定特征引擎,构建对应分段文本的特征集合;
基于特征字符生成模型,对当下特征集合进行预处理,生成待处理字符;
同时,基于所述特征字符生成模型,对相邻两侧的特征集合进行预处理,生成左侧辅助字符以及右侧辅助字符;
基于所述待处理字符以及左侧辅助字符,得到对应分段文本的第一分段字符,并在所述分段节点的左侧设置第一空白单元,标注所述第一分段字符;
基于所述待处理字符以及右侧辅助字符,得到对应分段文本的第二分段字符,并在所述分段节点的右侧设置第二空白单元,标注所述第二分段字符;
其中,同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字符。
4.如权利要求1所述的文本分段主题提取方法,其特征在于,步骤2,检测所述分段文本的起始端点与末尾端点,包括:
获取所述分段文本的文本字符,并按照句划分规则,对所述分段文本进行句划分,得到若干第一子句;
同时,对所述文本字符进行段识别,得到段领域以及段知识;
分别确定每个第一子句的句领域以及句知识,并将每个句领域与段领域进行第一匹配以及将每个句知识与段知识进行第二匹配;
基于第一匹配结果以及第二匹配结果,筛选满足双匹配条件的第一个第一子句以及最后一个第一子句,并将所述第一个第一子句视为第二子句,将所述最后一个第一子句视为第三子句;
对所述第二子句进行起始端点检测,得到所述第二子句的第一句特征,同时,对所述第三子句进行末尾端点检测,得到所述第三子句的第二句特征。
5.如权利要求1所述的文本分段主题提取方法,其特征在于,步骤3,判断同个分段文本所标注的分段字符与检测结果是否匹配,包括:
基于所述分段字符得到第一分段字符以及第二分段字符,同时,基于检测结果,得到第一句特征以及第二句特征;
基于字符向量转换模型,将所述第一分段字符进行字符向量标准转换,得到第一转换向量,同时,将所述第二分段字符进行字符向量标准转换,得到第二转换向量;
基于特征向量转换模型,将所述第一句特征进行特征向量标准转换,得到第一特征向量,同时,将所述第二句特征进行特征向量标准转换,得到第二特征向量;
优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量进行向量配准;
当向量配准结果满足预设配准条件时,判定同个分段文本所标注的分段字符与检测结果匹配;
否则,判定同个分段文本所标注的分段字符与检测结果不匹配,获取所述分段文本以及对应的相邻文本,重新进行分段处理。
6.如权利要求1所述的文本分段主题提取方法,其特征在于,对所有分段主题进行主题分析,得到文本主题,包括:
获取每个分段主题的主题特征,确定当下主题特征与剩余每个主题特征之间的编辑距离;
将获取的与所述当下主题特征相关的所有编辑距离进行图表构建,得到距离分布图,并获取所述距离分布图中的区域分布以及所述区域分布中每个集中区域的区域面积;
基于区域分布、集中区域以及区域面积,判断所述当下主题特征是否可以作为主题中心特征;
若可以,将所述当下主题特征保留;
若不可以,依次对剩余每个主题特征是否可以作为主题中心特征进行判断,并将可以作为主题中心特征所对应的主题特征保留,同时,基于判断结果以及对应的剩余每个主题特征分别构建的距离分布图,来确定与所述当下主题特征最匹配的主题特征;
基于所有保留的主题特征以及所有最匹配的主题特征,构建得到文本主题。
7.一种文本分段主题提取系统,其特征在于,包括:
分段处理模块,用于基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;
端点检测模块,用于检测所述分段文本的起始端点与末尾端点;
匹配判断模块,用于判断同个分段文本所标注的分段字符与检测结果是否匹配;
字分析模块,用于当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;
主题聚类模块,用于对所有分段主题进行主题分析,得到文本主题;
其中,所述字分析模块,用于:
从分段-提取特征数据库中,匹配得到与所述预设分段特征一致的提取特征;
基于每个分段文本涉及的所述预设分段分类器中的框定特征引擎的框定分段特征,从所有提取特征中筛选得到对应分段文本的提取集合;
基于所述提取集合中每个提取特征,依次对对应分段文本进行关键字提取,并构建提取列表,且所述提取列表中每个单元格对应一种提取特征,且每个单元格中对应放置有按照对应提取特征所提取得到的关键字;
确定提取的每个关键字基于对应提取列表的重合比值;
Figure FDA0004152053300000071
其中,H1表示对应关键字在所述提取列表中的出现次数,且在每个单元格中最多出现一次;H表示所述提取列表的单元格的总个数,且与提取集合中包含的提取特征的个数相等;
从所述提取列表中筛选重合比值大于预设比值的关键字,并视为重合关键字,并对所述重合关键字进行第一标定,同时,获取所述提取列表中每个单元格中的每个关键字与同个单元格所对应的提取特征之间的匹配度,并对最大匹配度的关键字进行第二标定;
根据第一标定结果以及第二标定结果,确定双标定关键字,并作为待判断中心字;
分别计算每个待判断中心字的字中心程度;
Figure FDA0004152053300000072
Figure FDA0004152053300000073
其中,L表示对应待判断中心字的字中心程度;n1表示对应待判断中心字所对应提取列表中的集中的字的个数;n2表示对应待判断中心字所对应提取列表中的离散的字的个数;Ai表示第i个集中的字基于对应待判断中心字的中心值,且取值范围为[0.5,1];Bj表示第j个离散的字基于对应待判断中心字的中心值,且取值范围为[0,0.4];Aave表示对应集中的字基于待判断中心字的平均中心值;Amax表示所有Ai中的最大中心值;Amin表示所有Ai中的最小中心值;
对所述待判读中心字进行同个分段文本的文本类型划分,并从同个划分类型中提取字中心程度最大的待判断中心字作为对应同个划分类型中的最后中心字;
基于同个分段文本的所有最后中心字,得到分段主题。
8.一种计算机可读介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202210463598.2A 2022-04-29 2022-04-29 一种文本分段主题提取方法、系统、可读介质及设备 Active CN114841171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210463598.2A CN114841171B (zh) 2022-04-29 2022-04-29 一种文本分段主题提取方法、系统、可读介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210463598.2A CN114841171B (zh) 2022-04-29 2022-04-29 一种文本分段主题提取方法、系统、可读介质及设备

Publications (2)

Publication Number Publication Date
CN114841171A CN114841171A (zh) 2022-08-02
CN114841171B true CN114841171B (zh) 2023-04-28

Family

ID=82567702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210463598.2A Active CN114841171B (zh) 2022-04-29 2022-04-29 一种文本分段主题提取方法、系统、可读介质及设备

Country Status (1)

Country Link
CN (1) CN114841171B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111767393A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种文本核心内容提取方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756233B2 (en) * 2010-04-16 2014-06-17 Video Semantics Semantic segmentation and tagging engine
CN107305541B (zh) * 2016-04-20 2021-05-04 科大讯飞股份有限公司 语音识别文本分段方法及装置
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN109710759B (zh) * 2018-12-17 2021-06-08 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN113673215B (zh) * 2021-07-13 2024-08-13 北京搜狗科技发展有限公司 文本的摘要生成方法、装置、电子设备及可读介质
CN114254587A (zh) * 2021-12-15 2022-03-29 科大讯飞股份有限公司 主题段落划分方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111767393A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种文本核心内容提取方法及装置

Also Published As

Publication number Publication date
CN114841171A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
EP3637295B1 (en) Risky address identification method and apparatus, and electronic device
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
EP3518122A1 (en) Keyword extraction method, computer device, and storage medium
CN109460455B (zh) 一种文本检测方法及装置
CN112417863B (zh) 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN108829799A (zh) 基于改进lda主题模型的文本相似度计算方法及系统
CN111191032B (zh) 语料扩充方法、装置、计算机设备和存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN106294344A (zh) 视频检索方法和装置
CN111368061B (zh) 短文本过滤方法、装置、介质及计算机设备
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113779282B (zh) 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN114254622B (zh) 一种意图识别方法和装置
CN112364640B (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN114841171B (zh) 一种文本分段主题提取方法、系统、可读介质及设备
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN116680590B (zh) 基于工作说明书解析的岗位画像标签提取方法及装置
CN116384388B (zh) 反向识别ai智能写作的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant