CN115455950A - 一种获取文本的数据处理系统 - Google Patents
一种获取文本的数据处理系统 Download PDFInfo
- Publication number
- CN115455950A CN115455950A CN202211180627.0A CN202211180627A CN115455950A CN 115455950 A CN115455950 A CN 115455950A CN 202211180627 A CN202211180627 A CN 202211180627A CN 115455950 A CN115455950 A CN 115455950A
- Authority
- CN
- China
- Prior art keywords
- text
- sub
- texts
- statement
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种获取文本的数据处理系统,通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本,通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源,提高用户体验感。
Description
技术领域
本发明涉及信息提取技术领域,特别是涉及一种获取文本的数据处理系统。
背景技术
现有技术中,当提取标题相同文本中的内容时,往往是通过爬虫技术针对一个文本进行处理,当前爬虫技术对文本进行处理时,可以去除和文本内容差异较大的内容,例如,广告和其他不相关文本内容的推荐,保留文本本身内容并且也会保留与文本本身内容相关的推荐。
现有技术中存在的问题:只针对一个文本进行处理会导致得到的文本内容不够准确,可能会出现误将文本本身内容删除的情况,且通过爬虫技术进行处理会导致与文本本身内容相关的内容留在文本内容中导致文本内容不够简洁,并且消除不了文本内容中的附图说明,使文本内容不精简,导致用户体验差。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取文本的数据处理系统,包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当处理器被计算机程序执行时,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qj,qj为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量。
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={ By1 min,……,Bya min,……,Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本。
S300、基于Bjx与By min之间的相似度,获取第三子文本集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本。
S400、根据D,获取第四子文本集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到vr,vr为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本的数量,第四子文本列表为ky不小于k0的第三子文本列表,k0为预设子文本数量阈值。
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句。
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,第六子文本语句为SW0 ef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值。
本发明至少具有以下有益效果:
(1)通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取目标文本列表,再获取到目标文本列表中发布时间点最早的目标文本,并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较,获取关键文本列表,再通过计算任一关键文本之间的相似度,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
(2)通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,再计算Bjx与By min之间的相似度,并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
(3)通过获取第六子文本集中第六子文本语句对应的字体格式,并对第六子文本语句进行筛选,以排除第六子文本中包含的附图形容句,使最终文本更加精简,内容更加准确,提高了用户的阅读效率,提高了用户体验感。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取文本的数据处理系统执行计算机程序的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种获取文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当处理器被计算机程序执行时,如图1所示,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qj,qj为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量,所述初始文本为满足预设文本条件的原始文本。
具体地,将第一文本进行文本分段处理获取第一子文本,本领域技术人员知晓,任意一种对第一文本进行文本分段处理的方法军落入本发明保护范围内,在此不再赘述。
进一步地,子文本的分解为首行缩进x个字符,本领域技术人员可根据实际需要设置首行缩进字符值,在此不再赘述。
进一步地,所述第一文本为满足预设文本条件的原始文本。
进一步地,所述预设文本条件包括第一文本条件和第二文本条件。
进一步地,所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值,所述第二文本条件为满足第一条件的原始文本最早发布时间节点小于预设发布时间节点。
进一步地,在S100前还包括如下步骤获取B:
S101、根据A,获取目标文本列表C={C1,……,Cg,……,Cz},Cg=(C0 g,DT0 g),C0 g为第g个目标文本对应的标题名称,DT0 g为第g个目标文本对应的时间节点,g的取值为1到z,z为目标文本的数量,所述目标文本为满足第一文本条件的原始文本;
S103、遍历C,选取C中时间节点最大值对应的目标文本作为指定文本Cmax;
S105、根据Cmax,获取关键文本列表Cʹ={Cʹ1,……,Cʹε,……,Cʹλ},Cʹε为ε个关键文本,ε的取值为1到λ,λ为关键文本的数量,所述关键文本为满足第二文本条件的目标文本;
S107、基于Bj之间的相似度,获取第一文本列表B。
具体地,使用语义相似度(Doc Embedding)计算方法计算任一Bj间相似度。
上述,S101-S107通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较,获取目标文本列表,再获取到目标文本列表中发布时间点最早的目标文本,并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较,获取关键文本列表,再通过计算任一关键文本之间的相似度,获取第一文本列表,因此,可以选择出原始文本列表中标题相近且发布日期相差相近的第一文本,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={ By1 min,……,Bya min,……,Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本。
具体地,将第二子文本进行子文本分句处理获取到第二子文本语句,本领域技术人员知晓,任意一种对第二子文本进行分句处理获取第二子文本语句的方法均落入本发明保护范围内,在此不再赘述。
S300、基于Bjx与By min之间的相似度,获取第三子文本集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本。
具体地,本领域技术人员知晓,任意一种计算子文本之间相似度的方法均落入本发明保护范围内,在此不再赘述。
进一步地,本领域技术人员可根据实际需求设置所述第一相似度阈值,在此不再赘述。
上述,S100-S300通过遍历第一文本列表,获取第一文本列表中子文本数最少的第一文本作为第二文本,并对第二文本进行文本段落分句处理,再计算Bjx与By min之间的相似度,并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集,因此,通过获取子文本数最少的第一文本作为第二文本,并根据第二文本进行后续处理,提高了后续处理的效率,节省后续处理的程序,进而节省了时间资源。
S400、根据D,获取第四子文本集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到vr,vr为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本的数量,所述第四子文本列表为ky不小于k0的第三子文本列表,k0为预设子文本数量阈值。
具体地,本领域技术人员可根据实际需求设置预设子文本数量阈值,在此不再赘述。
上述,通过对第三子文本列表设置预设子文本数量阈值,进行筛选,以排除跟第三文本内容无关的子文本。
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句。
具体地,本领域技术人员知晓,任意一种计算子文本之间语句相似度的方法均落入本发明保护范围内,例如:编辑距离计算法、杰卡德系数计算法、TF 计算法、TFIDF 计算法以及Word2Vec计算法等,在此不再赘述。
进一步地,D01=D02。
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,所述第六子文本语句为SW0 ef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值。
具体地,p0=k0。
上述,通过对第五子文本语句设置预设子语句数量阈值,进行筛选,以排除跟第五文本内容无关的语句,再排除与第五文本内容无关的语句进行选择,以获取最终文本。
进一步地,在S600后,还可包括如下步骤:
S610、对Z进行处理,获取第一中间子文本集Zʹ={Zʹ1,……,Zʹe,……,Zʹh},Zʹe={Zʹe1,……,Zʹeu,……,Zʹewe},Zʹeu为Zʹe对应的第一中间子文本语句信息,其中,第一中间语句信息包括:第一中间语句和第一中间语句对应的字体格式,GZʹeu为Zʹeu对应的字体格式;
S630、获取第二中间子文本集Zʺ并将Zʺ作为Z0,其中,Zʺ={Zʺ1,……,Zʺe,……,Zʺh},Zʺe={Zʺe,……,Zʺeβ,……,Zʺeδ},Zʺeβ为Zʺe对应的第β个第二中间子文本语句,β的取值为1到δ,δ为Zʺe对应的第二中间子文本语句的数量,所述第二中间子文本语句为字体格式在第一中间文本中总字体格式的数量大于预设字体格式数量阈值G0的第一中间子文本语句。
具体地,G0=5,
上述,S610-S630通过获取第六子文本集中第六子文本语句对应的字体格式,并对第六子文本语句进行筛选,以排除第六子文本中包含的附图形容句,使最终文本更加精简,内容更加准确,提高了用户的阅读效率。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (9)
1.一种获取文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:原始文本列表A={A1,……,Ai,……,Am},Ai为第i个原始文本,i的取值为1到m,m为原始文本的数量,当处理器被计算机程序执行时,实现如下步骤:
S100、根据A,获取第一文本列表B={B1,……,Bj,……,Bn},Bj={Bj1,……,Bjx,……,Bjqx},Bjx为Bj对应的第x个第一子文本,x的取值为1到qj,qj为Bj对应的第一子文本数量,j的取值为1到n,n为第一文本的数量;
S200、遍历B,获取Bmin={B1 min,……,By min,……,Bp min},By min={ By1 min,……,Bya min,……,Bycy min},Bya min为By min对应的第a个第二子文本语句,a的取值为1到cy,cy为By min对应的第二子文本语句的数量,y的取值为1到p,p为Bmin对应的第二子文本的数量,Bmin为子文本数量最小的第一文本;
S300、基于Bjx与By min之间的相似度,获取第三子文本集D={D1,……,Dy,……,Dp},Dy={Dy1,……,Dyt,……,Dyky},Dyt为Dy对应的第t个第三子文本,t的取值为1到ky,ky为Dy对应的第三子文本的数量,所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D01的第一子文本;
S400、根据D,获取第四子文本集F={F1,……,Fe,……,Fh},Fe={Fe1,……,Fer,……,Fese},Fer={Fer1,……,Ferb,……,Ferv},Ferb为Fer对应的第b个第四子文本语句,b的取值为1到vr,vr为Fer对应的第四子文本语句的数量,r的取值为1到se,se为Fe对应的第四子文本的数量,e的取值为1到h,h为第四子文本的数量,所述第四子文本列表为ky不小于k0的第三子文本列表,k0为预设子文本数量阈值;
S500、基于Ferb与Bye min之间的相似度,获取第五子文本集W={W1,……,We,……,Wh},We={We1,……,Wef,……,Wede},Wef为We对应的第f个第五子文本语句信息,f的取值为1到de,de为We对应的第五子文本语句信息的数量,其中,第五子文本语句信息包括:第五子文本语句和第五子文本语句对应的数量,SWef为第五子文本语句的数量,所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D02的第四子文本语句;
S600、根据W,获取第六子文本集Z并将Z作为最终文本Z0,其中,Z={Z1,……,Ze,……,Zh},Ze={Ze1,……,Zeu,……,Zewe},Zeu为Ze对应的第u个第六子文本语句,u的取值为1到we,we为Ze对应的第六子文本语句的数量,所述第六子文本语句为SW0 ef>p0的Wef中的任一第五子文本语句,p0为预设子文本语句数量阈值。
2.根据权利要求1所述的系统,其特征在于,在S100中,所述预设文本条件包括第一文本条件和第二文本条件;
其中,所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值,所述第二文本条件为满足第一条件的原始文本最早发布时间节点小于预设发布时间节点。
3.根据权利要求2所述的系统,其特征在于,在S100前还包括如下步骤:
S101、根据A,获取目标文本列表C={C1,……,Cg,……,Cz},Cg=(C0 g,DT0 g),C0 g为第g个目标文本对应的标题名称,DT0 g为第g个目标文本对应的时间节点,g的取值为1到z,z为目标文本的数量,所述目标文本为满足第一文本条件的原始文本;
S103、遍历C,选取C中时间节点最大值对应的目标文本作为指定文本Cmax;
S105、根据Cmax,获取关键文本列表Cʹ={Cʹ1,……,Cʹε,……,Cʹλ},Cʹε为ε个关键文本,ε的取值为1到λ,λ为关键文本的数量,所述关键文本为满足第二文本条件的目标文本;
S107、基于Bj之间的相似度,获取第一文本列表B。
4.根据权利要求1所述的系统,其特征在于,在S600后,还可包括如下步骤:
S610、对Z进行处理,获取第一中间子文本集Zʹ={Zʹ1,……,Zʹe,……,Zʹh},Zʹe={Zʹe1,……,Zʹeu,……,Zʹewe},Zʹeu为Zʹe对应的第一中间子文本语句信息,其中,第一中间语句信息包括:第一中间语句和第一中间语句对应的字体格式,GZʹeu为Zʹeu对应的字体格式;
S630、获取第二中间子文本集Zʺ并将Zʺ作为Z0,其中,Zʺ={Zʺ1,……,Zʺe,……,Zʺh},Zʺe={Zʺe,……,Zʺeβ,……,Zʺeδ},Zʺeβ为Zʺe对应的第β个第二中间子文本语句,β的取值为1到δ,δ为Zʺe对应的第二中间子文本语句的数量,所述第二中间子文本语句为字体格式在第一中间文本中总字体格式的数量大于预设字体格式数量阈值G0的第一中间子文本语句。
5.根据权利要求4所述的系统,其特征在于,G0≥5。
6.根据权利要求3所述的系统,其特征在于,使用语义相似度计算方法计算任一Bj间相似度。
7.根据权利要求1所述的系统,其特征在于,D01=D02。
8.根据权利要求1所述的方法,其特征在于,k0=p0。
9.根据权利要求1所述的方法,其特征在于,子文本的分解为首行缩进x个字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211180627.0A CN115455950B (zh) | 2022-09-27 | 2022-09-27 | 一种获取文本的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211180627.0A CN115455950B (zh) | 2022-09-27 | 2022-09-27 | 一种获取文本的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455950A true CN115455950A (zh) | 2022-12-09 |
CN115455950B CN115455950B (zh) | 2023-06-16 |
Family
ID=84307198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211180627.0A Active CN115455950B (zh) | 2022-09-27 | 2022-09-27 | 一种获取文本的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455950B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
CN105224518A (zh) * | 2014-06-17 | 2016-01-06 | 腾讯科技(深圳)有限公司 | 文本相似度的计算方法及系统、相似文本的查找方法及系统 |
WO2018184588A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 一种文本去重方法、装置和存储介质 |
CN110162510A (zh) * | 2019-04-26 | 2019-08-23 | 平安普惠企业管理有限公司 | 文本对比方法、装置、计算机设备及存储介质 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112988969A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 用于文本检索的方法、装置、设备以及存储介质 |
CN114154477A (zh) * | 2021-12-03 | 2022-03-08 | 北京京东拓先科技有限公司 | 文本数据处理方法及装置、电子设备和可读存储介质 |
CN114372479A (zh) * | 2022-01-10 | 2022-04-19 | 阳光保险集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN114580392A (zh) * | 2022-04-29 | 2022-06-03 | 中科雨辰科技有限公司 | 一种识别实体的数据处理系统 |
CN114818727A (zh) * | 2022-04-19 | 2022-07-29 | 北京金山数字娱乐科技有限公司 | 关键句抽取方法及装置 |
CN114997135A (zh) * | 2022-05-25 | 2022-09-02 | 北京惠及智医科技有限公司 | 差异文本筛选方法、装置、设备及存储介质 |
-
2022
- 2022-09-27 CN CN202211180627.0A patent/CN115455950B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041955A1 (en) * | 2010-08-10 | 2012-02-16 | Nogacom Ltd. | Enhanced identification of document types |
CN105224518A (zh) * | 2014-06-17 | 2016-01-06 | 腾讯科技(深圳)有限公司 | 文本相似度的计算方法及系统、相似文本的查找方法及系统 |
WO2018184588A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 一种文本去重方法、装置和存储介质 |
CN110162510A (zh) * | 2019-04-26 | 2019-08-23 | 平安普惠企业管理有限公司 | 文本对比方法、装置、计算机设备及存储介质 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112988969A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 用于文本检索的方法、装置、设备以及存储介质 |
CN114154477A (zh) * | 2021-12-03 | 2022-03-08 | 北京京东拓先科技有限公司 | 文本数据处理方法及装置、电子设备和可读存储介质 |
CN114372479A (zh) * | 2022-01-10 | 2022-04-19 | 阳光保险集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN114818727A (zh) * | 2022-04-19 | 2022-07-29 | 北京金山数字娱乐科技有限公司 | 关键句抽取方法及装置 |
CN114580392A (zh) * | 2022-04-29 | 2022-06-03 | 中科雨辰科技有限公司 | 一种识别实体的数据处理系统 |
CN114997135A (zh) * | 2022-05-25 | 2022-09-02 | 北京惠及智医科技有限公司 | 差异文本筛选方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115455950B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
Galpern et al. | Allelematch: an R package for identifying unique multilocus genotypes where genotyping error and missing data may be present | |
US8086548B2 (en) | Measuring document similarity by inferring evolution of documents through reuse of passage sequences | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN110895586B (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN106156098B (zh) | 一种纠错对挖掘方法及系统 | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
CN115098556A (zh) | 用户需求匹配方法、装置、电子设备及存储介质 | |
CN113255742A (zh) | 一种政策匹配度计算方法、系统、计算机设备和存储介质 | |
CN115455950A (zh) | 一种获取文本的数据处理系统 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN113139368B (zh) | 一种文本编辑方法及系统 | |
CN116414971A (zh) | 一种多特征融合的关键词权重计算方法和关键词抽取方法 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN113053393B (zh) | 音频标注处理装置 | |
CN115238653A (zh) | 一种报告生成方法、装置、设备和介质 | |
CN116306573B (zh) | 工程做法的智能解析方法、装置、设备和可读存储介质 | |
CN110929033A (zh) | 长文本分类方法、装置、计算机设备及存储介质 | |
CN116384473B (zh) | 一种计算图改进、信息推送方法及装置 | |
CN116306573A (zh) | 工程做法的智能解析方法、装置、设备和可读存储介质 | |
US20240054281A1 (en) | Document processing | |
CN117520754B (zh) | 一种模型训练数据的预处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |