CN115455950B - 一种获取文本的数据处理系统 - Google Patents

一种获取文本的数据处理系统 Download PDF

Info

Publication number
CN115455950B
CN115455950B CN202211180627.0A CN202211180627A CN115455950B CN 115455950 B CN115455950 B CN 115455950B CN 202211180627 A CN202211180627 A CN 202211180627A CN 115455950 B CN115455950 B CN 115455950B
Authority
CN
China
Prior art keywords
text
sub
texts
value
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211180627.0A
Other languages
English (en)
Other versions
CN115455950A (zh
Inventor
刘羽
张正义
傅晓航
李�一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211180627.0A priority Critical patent/CN115455950B/zh
Publication of CN115455950A publication Critical patent/CN115455950A/zh
Application granted granted Critical
Publication of CN115455950B publication Critical patent/CN115455950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种获取文本的数据处理系统,通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本,通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源,提高用户体验感。

Description

一种获取文本的数据处理系统
技术领域
本发明涉及信息提取技术领域,特别是涉及一种获取文本的数据处理系统。
背景技术
现有技术中,当提取标题相同文本中的内容时,往往是通过爬虫技术针对一个文本进行处理,当前爬虫技术对文本进行处理时,可以去除和文本内容差异较大的内容,例如,广告和其他不相关文本内容的推荐,保留文本本身内容并且也会保留与文本本身内容相关的推荐。
现有技术中存在的问题:只针对一个文本进行处理会导致得到的文本内容不够准确,可能会出现误将文本本身内容删除的情况,且通过爬虫技术进行处理会导致与文本本身内容相关的内容留在文本内容中导致文本内容不够简洁,并且消除不了文本内容中的附图说明,使文本内容不精简,导致用户体验差。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取文本的数据处理系统,包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当处理器被计算机程序执行时,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qj,qj为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量。
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={By1 min,……,Bya min,……,
Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本。
S300、基于Bjx与By min之间的相似度,获取第三子文本集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本。
S400、根据D,获取第四子文本集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到vr,vr为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本的数量,第四子文本列表为ky不小于k0的第三子文本列表,k0为预设子文本数量阈值。
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句。
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,第六子文本语句为SW0 ef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值。
本发明至少具有以下有益效果:
(1)通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取目标文本列表,再获取到目标文本列表中发布时间点最早的目标文本,并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较,获取关键文本列表,再通过计算任一关键文本之间的相似度,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
(2)通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,再计算Bjx与By min之间的相似度,并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
(3)通过获取第六子文本集中第六子文本语句对应的字体格式,并对第六子文本语句进行筛选,以排除第六子文本中包含的附图形容句,使最终文本更加精简,内容更加准确,提高了用户的阅读效率,提高了用户体验感。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取文本的数据处理系统执行计算机程序的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种获取文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当处理器被计算机程序执行时,如图1所示,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qj,qj为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量,所述第一文本为满足预设文本条件的原始文本。
具体地,将第一文本进行文本分段处理获取第一子文本,本领域技术人员知晓,任意一种对第一文本进行文本分段处理的方法均落入本发明保护范围内,在此不再赘述。
进一步地,子文本的分解为首行缩进x个字符,本领域技术人员可根据实际需要设置首行缩进字符值,在此不再赘述。
进一步地,所述第一文本为满足预设文本条件的原始文本。
进一步地,所述预设文本条件包括第一文本条件和第二文本条件。
进一步地,所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值,所述第二文本条件为满足第一条件的原始文本最早发布时间节点小于预设发布时间节点。
进一步地,在S100前还包括如下步骤获取B:
S101、根据A,获取目标文本列表C={C1,……,Cg,……,Cz},Cg=(C0 g,DT0 g),C0 g为第g个目标文本对应的标题名称,DT0 g为第g个目标文本对应的时间节点,g的取值为1到z,z为目标文本的数量,所述目标文本为满足第一文本条件的原始文本;
S103、遍历C,选取C中时间节点最大值对应的目标文本作为指定文本Cmax
S105、根据Cmax,获取关键文本列表C′={C′1,……,C′ε,……,C′λ},C′ε为ε个关键文本,ε的取值为1到λ,λ为关键文本的数量,所述关键文本为满足第二文本条件的目标文本;
S107、基于Bj之间的相似度,获取第一文本列表B。
具体地,使用语义相似度(Doc Embedding)计算方法计算任一Bj间相似度。
上述,S101-S107通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取目标文本列表,再获取到目标文本列表中发布时间点最早的目标文本,并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较,获取关键文本列表,再通过计算任一关键文本之间的相似度,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布日期相差相近的第一文本,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={By1 min,……,Bya min,……,
Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本。
具体地,将第二子文本进行子文本分句处理获取到第二子文本语句,本领域技术人员知晓,任意一种对第二子文本进行分句处理获取第二子文本语句的方法均落入本发明保护范围内,在此不再赘述。
S300、基于Bjx与By min之间的相似度,获取第三子文本集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本。
具体地,本领域技术人员知晓,任意一种计算子文本之间相似度的方法均落入本发明保护范围内,在此不再赘述。
进一步地,本领域技术人员可根据实际需求设置所述第一相似度阈值,在此不再赘述。
上述,S100-S300通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,再计算Bjx与By min之间的相似度,并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
S400、根据D,获取第四子文本集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到vr,vr为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本的数量,所述第四子文本列表为ky不小于k0的第三子文本列表,k0为预设子文本数量阈值。
具体地,本领域技术人员可根据实际需求设置预设子文本数量阈值,在此不再赘述。
上述,通过对第三子文本列表设置预设子文本数量阈值,进行筛选,以排除跟第三文本内容无关的子文本。
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句。
具体地,本领域技术人员知晓,任意一种计算子文本之间语句相似度的方法均落入本发明保护范围内,例如:编辑距离计算法、杰卡德系数计算法、TF计算法、TF-IDF计算法以及Word2Vec计算法等,在此不再赘述。
进一步地,D01=D02
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,所述第六子文本语句为SW0 ef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值。
具体地,p0=k0
上述,通过对第五子文本语句设置预设子语句数量阈值,进行筛选,以排除跟第五文本内容无关的语句,再排除与第五文本内容无关的语句进行选择,以获取最终文本。
进一步地,在S600后,还可包括如下步骤:
S610、对Z进行处理,获取第一中间子文本集Z′={Z′1,……,Z′e,……,Z′h},Z′e={Z′e1,……,Z′eu,……,Z′ewe},Z′eu为Z′e对应的第一中间子文本语句信息,其中,第一中间语句信息包括:第一中间语句和第一中间语句对应的字体格式,GZ′eu为Z′eu对应的字体格式;
S630、获取第二中间子文本集Z″并将Z″作为Z0,其中,Z″={Z″1,……,Z″e,……,Z″h},Z″e={Z″e,……,Z″,……,Z″},Z″为Z″e对应的第β个第二中间子文本语句,β的取值为1到δ,δ为Z″e对应的第二中间子文本语句的数量,所述第二中间子文本语句为字体格式在第一中间文本中总字体格式的数量大于预设字体格式数量阈值G0的第一中间子文本语句。
具体地,G0=5,
上述,S610-S630通过获取第六子文本集中第六子文本语句对应的字体格式,并对第六子文本语句进行筛选,以排除第六子文本中包含的附图形容句,使最终文本更加精简,内容更加准确,提高了用户的阅读效率。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (7)

1.一种获取文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当计算机程序被处理器执行时,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qx,qx为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量,将第一文本进行文本分段处理获取第一子文本;
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={By1 min,……,Bya min,……,
Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本;
S300、基于Bjx与By min之间的相似度,获取第三子文本列表集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本;
S400、根据D,获取第四子文本列表集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到v,v为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本列表的数量,Fe为ky不小于k0的任意Dy,k0为预设子文本数量阈值;
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句;
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,所述第六子文本语句为SWef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值;
在S100前还包括如下步骤:
S101、根据A,获取目标文本列表C={C1,……,Cg,……,Cz},Cg=(C0 g,DT0 g),C0 g为第g个目标文本对应的标题名称,DT0 g为第g个目标文本对应的时间节点,g的取值为1到z,z为目标文本的数量,所述目标文本为满足第一文本条件的原始文本;
S103、遍历C,选取C中时间节点最大值对应的目标文本作为指定文本Cmax
S105、根据Cmax,获取关键文本列表C′={C′1,……,C′ε,……,C′λ},C′ε为第ε个关键文本,ε的取值为1到λ,λ为关键文本的数量,所述关键文本为满足第二文本条件的目标文本;
S107、基于C′ε之间的相似度,获取第一文本列表B;
所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值,所述第二文本条件为满足第一文本条件的原始文本最早发布时间节点小于预设发布时间节点。
2.根据权利要求1所述的系统,其特征在于,在S600后,还可包括如下步骤:
S610、对Z进行处理,获取第一中间子文本集Z′={Z′1,……,Z′e,……,Z′h},Z′e={Z′e1,……,Z′eu,……,Z′ewe},Z′eu为Z′e对应的第一中间子文本语句信息,其中,第一中间子文本语句信息包括:第一中间子文本语句和第一中间子文本语句对应的字体格式,GZ′eu为Z′eu对应的字体格式;
S630、获取第二中间子文本集Z″并将Z″作为Z0,其中,Z″={Z″1,……,Z″e,……,Z″h},Z″e={Z″e1,……,Z″,……,Z″},Z″为Z″e对应的第β个第二中间子文本语句,β的取值为1到δ,δ为Z″e对应的第二中间子文本语句的数量,所述第二中间子文本语句为相同字体格式在第一中间子文本中的数量大于预设字体格式数量阈值G0的第一中间子文本语句。
3.根据权利要求2所述的系统,其特征在于,G0≥5。
4.根据权利要求1所述的系统,其特征在于,使用语义相似度计算方法计算C′ε间相似度。
5.根据权利要求1所述的系统,其特征在于,D01=D02
6.根据权利要求1所述的系统,其特征在于,k0=p0
7.根据权利要求1所述的系统,其特征在于,子文本的分解为首行缩进x0个字符。
CN202211180627.0A 2022-09-27 2022-09-27 一种获取文本的数据处理系统 Active CN115455950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211180627.0A CN115455950B (zh) 2022-09-27 2022-09-27 一种获取文本的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211180627.0A CN115455950B (zh) 2022-09-27 2022-09-27 一种获取文本的数据处理系统

Publications (2)

Publication Number Publication Date
CN115455950A CN115455950A (zh) 2022-12-09
CN115455950B true CN115455950B (zh) 2023-06-16

Family

ID=84307198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211180627.0A Active CN115455950B (zh) 2022-09-27 2022-09-27 一种获取文本的数据处理系统

Country Status (1)

Country Link
CN (1) CN115455950B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN114372479A (zh) * 2022-01-10 2022-04-19 阳光保险集团股份有限公司 文本识别方法、装置、电子设备及计算机可读存储介质
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types
CN105224518B (zh) * 2014-06-17 2020-03-17 腾讯科技(深圳)有限公司 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN107025218B (zh) * 2017-04-07 2021-03-02 腾讯科技(深圳)有限公司 一种文本去重方法和装置
CN110162510A (zh) * 2019-04-26 2019-08-23 平安普惠企业管理有限公司 文本对比方法、装置、计算机设备及存储介质
CN112988969B (zh) * 2021-03-09 2024-05-10 北京百度网讯科技有限公司 用于文本检索的方法、装置、设备以及存储介质
CN114154477A (zh) * 2021-12-03 2022-03-08 北京京东拓先科技有限公司 文本数据处理方法及装置、电子设备和可读存储介质
CN114818727A (zh) * 2022-04-19 2022-07-29 北京金山数字娱乐科技有限公司 关键句抽取方法及装置
CN114997135A (zh) * 2022-05-25 2022-09-02 北京惠及智医科技有限公司 差异文本筛选方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN114372479A (zh) * 2022-01-10 2022-04-19 阳光保险集团股份有限公司 文本识别方法、装置、电子设备及计算机可读存储介质
CN114580392A (zh) * 2022-04-29 2022-06-03 中科雨辰科技有限公司 一种识别实体的数据处理系统

Also Published As

Publication number Publication date
CN115455950A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111309912B (zh) 文本分类方法、装置、计算机设备及存储介质
US8086548B2 (en) Measuring document similarity by inferring evolution of documents through reuse of passage sequences
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN108897754B (zh) 基于大数据的工单类型的识别方法、系统和计算设备
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110895586A (zh) 生成新闻页面的方法、装置、计算机设备及存储介质
CN110196941B (zh) 一种资讯推荐方法、装置、服务器与存储介质
CN110795397B (zh) 一种地质资料包目录与文件类型自动识别方法
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN115659226A (zh) 一种获取app标签的数据处理系统
CN115455950B (zh) 一种获取文本的数据处理系统
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN113160800B (zh) 语音数据标注方法及电子设备、存储装置
Klampfl et al. Machine learning techniques for automatically extracting contextual information from scientific publications
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN116975634A (zh) 一种基于程序静态属性及图神经网络的微服务提取方法
CN116414971A (zh) 一种多特征融合的关键词权重计算方法和关键词抽取方法
CN113159363B (zh) 一种基于历史新闻报道的事件趋势预测方法
CN113139368B (zh) 一种文本编辑方法及系统
CN111178718A (zh) 公平竞争审查方法、服务器、系统及存储介质
CN106951540B (zh) 文件目录的生成方法、装置、服务器及计算机存储介质
CN113032575B (zh) 一种基于主题模型的文档血缘关系挖掘的方法及装置
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN110413899A (zh) 服务器存储新闻的存储资源优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant