CN115017269B - 一种确定相似文本的数据处理系统 - Google Patents

一种确定相似文本的数据处理系统 Download PDF

Info

Publication number
CN115017269B
CN115017269B CN202210935521.0A CN202210935521A CN115017269B CN 115017269 B CN115017269 B CN 115017269B CN 202210935521 A CN202210935521 A CN 202210935521A CN 115017269 B CN115017269 B CN 115017269B
Authority
CN
China
Prior art keywords
entity
text
target
vector
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210935521.0A
Other languages
English (en)
Other versions
CN115017269A (zh
Inventor
刘羽
傅晓航
林方
常鸿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202210935521.0A priority Critical patent/CN115017269B/zh
Publication of CN115017269A publication Critical patent/CN115017269A/zh
Application granted granted Critical
Publication of CN115017269B publication Critical patent/CN115017269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种确定相似文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取目标文本对应的第一文本编码向量和第一实体编码向量列表,获取关键文本对应的第二文本编码向量和第二实体编码向量列表,分别对第一实体编码向量列表和第二实体编码向量列表进行处理获取第一目标编码向量列表和第二目标编码向量列表,获取目标文本对应的相似度,确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种确定文本相似度的新方法,能够避免因语义重复造成不清楚的问题,使得获取的文本相似度的准确度较高。

Description

一种确定相似文本的数据处理系统
技术领域
本发明涉及文本处理技术领域,特别是涉及一种确定相似文本的数据处理系统。
背景技术
随着互联网的普及和发展,大量信息以各种形式出现在互联网上,例如新闻文章,研究出版物,微博等,需要处理的数据日益增加,如何将文本中的信息进行处理和比较已经成为了目前的主流研究方向,如何确定相关联的不同文本之间的相似度已经成为热点问题,有效计算文本之间的相似度从而确定相似文本,能够减少相关部门的工作量,并且能够更加有针对性为阅读者提供更好的阅读服务。
目前,现有技术中,获取文本相似度的方法为:基于统计的方法对文本中的句子含义和段落含义进行识别,基于语义的方法比较文本中的词语,进而确认词语和句子之间的相似度,进而综合比较文本的相似度,以上所述获取文本相似度的方法存在的问题:
一方面,因同一语义表达方式多样化,只能解决文本词汇层面的匹配问题,在进行文本处理过程中,无法避免词义重复或者不清楚的问题,无法有效对文本中的语义进行处理,降低了文本的有效性;
另一方面,因语言的复杂性,使得获取到的相似度只局限于文字表面,导致获取的文本相似度的准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种确定相似文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:
S100,从初始文本列表中获取目标文本和目标文本对应的关键文本列表A={A1,……,Aj,……,An},Aj为目标文本对应的第j个关键文本,j=1……n,n为目标文本对应的关键文本数量。
S200,根据预设实体向量集合,获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C1,……,Cr,……,Cs},Cr为目标文本对应的第r类实体类型的第一实体编码向量,r=1……s,s为目标文本的实体类型数量。
S300,根据预设实体向量集合,获取Aj对应的第二文本编码向量B0 j和Aj对应的第二实体编码向量列表C0 j={C0 j1,……,C0 jg,……,C0 jz},C0 jg为Aj对应的第g类实体类型的第二实体编码向量,g=1……z,z为Aj的实体类型数量。
S400,当C中不存在C0 jg对应的实体类型时,对C进行处理,获取到目标文本对应的第一目标编码向量列表D={B,D1,……,Dt,……,Dk},Dt为目标文本对应的第t个初始实体类型的第一目标编码向量,t=1……k,k为目标文本对应的初始实体类型的数量。
S500,当C0 j中不存在Cr对应的实体类型时,对C0 j进行处理,获取到Aj对应的第二目标编码向量列表Dj={B0 j,Dj1,……,Djt,……,Djk},Djt为Dt对应的Aj的第二目标编码向量。
S600,根据D和Dj,获取目标文本对应的相似度Fj
S700,当Fj≥F0时,确定目标文本与Aj为相似文本,其中,F0为预设的相似度阈值。
S800,当Fj<F0时,确定目标文本与Aj不为相似文本,其中,F0为预设的相似度阈值。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种确定相似文本的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供了一种确定相似文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:从初始文本列表中获取目标文本,获取目标文本对应的第一文本编码向量和第一实体编码向量列表,获取目标文本对应的关键文本列表,获取关键文本列表中文本的第二文本编码向量和第二实体编码向量列表,对第一实体编码向量列表进行处理获取第一目标编码向量列表,对第二实体编码向量列表进行处理获取第二目标编码向量列表,根据第一目标编码向量列表和第二目标编码向量列表获取目标文本对应的相似度,将相似度与预设的相似度阈值进行比较,确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种新的确定文本相似度的方法,一方面,不再局限于文本词汇层面的匹配问题,能够从数据库中的实体找到一个相互关系,避免词义重复或者不清楚的问题,有效对文本中的语义进行处理,提高了文本的有效性;另一方面,通过提供一种新的文本处理的方法,使得获取到的相似度不再局限于文字表面,使得获取的文本相似度的准确度较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种确定相似文本的数据处理系统的执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅为本发明一部分实施例,而不为全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种确定相似文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库中包括预设实体向量集合和初始文本列表,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100,从初始文本列表中获取目标文本和目标文本对应的关键文本列表A={A1,……,Aj,……,An},Aj为目标文本对应的第j个关键文本,j=1……n,n为目标文本对应的关键文本数量。
具体的,所述关键文本为初始文本中除目标文本之外的任意一个文本。
具体的,在S100之前还包括如下步骤:
S101,获取目标文本对应的文本字符串T=(T1,……,Ti,……,Tm),Ti是指目标文本对应的第i个文字字符,i=1……m,m为目标文本对应的文字字符数量。
S102,当m≥m0时,将T替换成T=(T1,……,Ti,……,Tm0),i=1……m0,其中,m0为预设字符串长度。
上述,当目标文本对应的文字字符数量过大时,对文本进行截断处理,通过截断使得系统处理文本的效率提高,提高了文本的有效性,使得获取到的文本相似度的准确度较高。
具体的,获取关键文本对应的文本字符串的方式与获取目标文本对应的文本字符串的方式一致。
S200,根据预设实体向量集合,获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C1,……,Cr,……,Cs},Cr为目标文本对应的第r类实体类型的第一实体编码向量,r=1……s,s为目标文本的实体类型数量。
具体的,在S200中,B=(B1,……,Bx,……,Bp),Bx为目标文本对应的第一文本编码向量中第x位的bit值,x=1……p,p为第一文本编码向量的维度。
具体的,B通过将所述目标文本输入至文本编码模型中获取到的,其中,p是根据文本编码模型进行确定,本领域技术人员知晓,根据实际需求确定现有技术中任一文本编码模型,在此不再赘述。
优选地,p=768。
进一步地,所述文本编码模型包括双塔式文本编码模型和单塔式文本编码模型。
优选地,所述文本编码模型为单塔式文本编码模型。
上述,通过采用相同的文本编码模型,能够确保文本处理方式一致,采用单塔式文本编码模型使得文本之间有交互,准确度较高,从而提高了文本的有效性,使获取到的文本相似度的准确度较高。
具体的,在S200中还包括如下步骤:
S201,获取预设实体向量集合U={U1,……,Ua,……,Ub},Ua={Ua1,……,U,……,U},U=(U1 ,……,Uy ,……,Uq ),Uy 为第a类实体类型的第λ个预设实体对应的实体向量中第y位的bit值,λ=1……γ,y=1……q,q为第一实体编码向量的维度。
S203,获取目标文本对应的实体列表Q={Q1,……,Qe,……,Qf},Qe为目标文本的第e个初始实体对应的实体向量,e=1……f,f为目标文本对应的初始实体数量;其中,在S203中还包括如下步骤:
S2031,当Qe对应的初始实体与U对应的实体一致时,则Qe=U
S2033,当Qe对应的初始实体与U对应的实体不一致时,获取中间实体向量Ua0=(U1 a0,……,Uy a0,……,Uq a0),则Qe=Ua0,其中,Uy a0符合如下条件:
Uy a0=(∑γ λ=1Uy )/γ;能够当目标文本中任一初始实体与预设实体不一致时,通过预设实体的实体类型对目标文本中实体进行补全,以确保了目标文本中的每个实体均与预设实体列表中进行链接,保证了文本的完整性,提高了文本的有效性,进而提高了文本相似度的准确性。
在另一个具体的实施例中,S2033还可通过以下步骤实现:
S2033,当Qe对应的初始实体与U对应的初始实体不一致时,则Qe=G0
具体的,G0为随机生成的一个q维向量。
在另一个具体的实施例中,S2033还可通过以下步骤实现:
S2033,当Qe对应的初始实体与U对应的实体不一致时,从Q中删除Qe对应的初始实体,通过从实体列表中删除与预设实体向量集合不一致的对应的实体,能够避免因目标文本中实体错误,影响到确定文本的相似度的准确性。
S205,根据Q,获取Q对应的目标实体列表Q'={Q'1,……,Q'e,……,Q'f},Q'e为Qe对应的目标实体的实体向量。
S207,遍历Q'且获取Q'中与Q'e对应的论元类型一致的所有目标实体,构建成Q'对应的中间实体列表Ge={Ge1,……,Gev,……,Gew},Gev为Q'e对应的第v个中间实体向量,v=1……w,w为Q'e对应的中间实体数量。
S209,当Q'e对应的实体类型为第r类实体类型时,则获取Cr,其中,Cr符合如下条件:
Figure 100002_DEST_PATH_IMAGE002
,其中,ηv为Gev对应的目标实体在目标文本中出现的频数。
上述,通过目标文本中的实体与预设实体进行匹配,进而确定目标文本中实体类型的向量来获取编码向量,确保了目标编码向量的统一性和有序性,提高了文本的有效性,使得获取到的文本相似度的准确度较高。
S300,根据预设实体向量集合,获取Aj对应的第二文本编码向量B0 j和Aj对应的第二实体编码向量列表C0 j={C0 j1,……,C0 jg,……,C0 jz},C0 jg为Aj对应的第g类实体类型的第二实体编码向量,g=1……z,z为Aj的实体类型数量。
具体的,在S300中,B0 j=(B0 j1,……,B0 jx,……,B0 jp),B0 jx为Aj对应的第二文本编码向量中第x位的bit值,x=1……p,p为第一文本编码向量的维度。
具体的,B0 j的向量维度与B的向量维度一致。
具体的,获取C0 jg的方式与获取Cr的方式一致。
S400,当C中不存在C0 jg对应的实体类型时,对C进行处理,获取到目标文本对应的第一目标编码向量列表D={B,D1,……,Dt,……,Dk},Dt为目标文本对应的第t个实体类型的第一目标编码向量,t=1……k,k为目标文本对应的实体类型的数量。
具体的,在S400中,还包括如下步骤:
S401,当q≠p时,将C0 jg对应的实体类型与Ua0对应的实体类型进行比对。
S403,当C0 jg对应的实体类型与Ua0对应的实体类型一致时,将C0 jg=Ua0且将C0 jg插入至D中;能够当目标实体找不到对应实体时,通过将同类型实体插入确保实体类型的完整性,保证实体类型一致,提高文本的有效性。
S405,当C0 jg对应的实体类型与Ua0对应的实体类型不一致时,将C0 jg=E0且将C0 jg插入至D中,其中,E0为随机生成的一个q维度的实体向量;能够当目标实体找不到对应实体类型时,通过随机生成一个向量确保向量维度的一致,对空缺向量进行补充,使获取的文本相似度的准确度较高。
S407,当q=p时,将C0 jg=B且将C0 jg插入至D中;能够当文本向量与实体向量维度一致时,直接将文本向量插入到缺失部分,在确保向量维度一致的同时,提高了模型的运行效率。
上述,根据p与q之间进行比对,缺少的实体类型的实体编码向量的补充,确保了第一目标向量列表中实体类型的完整性,能够一一对应进行相似度的比较,使获取的文本相似度的准确度较高。
S500,当C0 j中不存在Cr对应的实体类型时,对C0 j进行处理,获取到Aj对应的第二目标编码向量列表Dj={B0 j,Dj1,……,Djt,……,Djk},Djt为Dt对应的Aj的第二目标编码向量。
具体的,获取Dj的方式与获取D的方式一致。
上述,保证了第一目标编码向量与第二目标编码向量的维度一致,确保在进行相似度计算时,能够一一对应,从而,提高了文本的有效性,使获取的文本相似度的准确度较高。
S600,根据D和Dj,获取目标文本对应的相似度Fj
具体的,Fj符合如下条件:
Figure 100002_DEST_PATH_IMAGE004
,其中,Dt β为Dt对应的向量中第 β位bit值,Djt β为Djt对应的向量中第β位bit值,β=1……q,q为第二目标编码向量的向量维 度。
上述,通过获取文本编码向量的相似度和实体类别编码向量的相似度,来获取目标文本与关键文本的相似度,能够增强文本的有效性,使获取的文本相似度的准确度较高。
S700,当Fj≥F0时,确定目标文本与Aj为相似文本,其中,F0为预设的相似度阈值。
S800,当Fj<F0时,确定目标文本与Aj不为相似文本。
具体的,预设的相似度阈值F0的取值范围为0.8~0.9。
优选的,预设的相似度阈值F0的取值为0.85。
具体的,所述相似文本为文本实体类型相似的文本。
本发明提供了一种确定相似文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:从初始文本列表中获取目标文本,获取目标文本对应的第一文本编码向量和第一实体编码向量列表,获取目标文本对应的关键文本列表,获取关键文本列表中文本的第二文本编码向量和第二实体编码向量列表,对第一实体编码向量列表进行处理获取第一目标编码向量列表,对第二实体编码向量列表进行处理获取第二目标编码向量列表,根据第一目标编码向量列表和第二目标编码向量列表获取目标文本对应的相似度,将相似度与预设的相似度阈值进行比较,确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种新的确定文本相似度的方法,一方面,不再局限于文本词汇层面的匹配问题,能够从数据库中的实体找到一个相互关系,避免词义重复或者不清楚的问题,有效对文本中的语义进行处理,提高了文本的有效性;另一方面,通过提供一种新的文本处理的方法,使得获取到的相似度不再局限于文字表面,使得获取的获取的文本相似度的准确度较高。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但为本领域的技术人员应该理解,以上示例仅为为了进行说明,而不为为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (8)

1.一种确定相似文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库中包括预设实体向量集合和初始文本列表,当所述计算机程序被处理器执行时,实现以下步骤:
S100,从初始文本列表中获取目标文本和目标文本对应的关键文本列表A={A1,……,Aj,……,An},Aj为目标文本对应的第j个关键文本,j=1……n,n为目标文本对应的关键文本数量;
S200,根据预设实体向量集合,获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C1,……,Cr,……,Cs},Cr为目标文本对应的第r类实体类型的第一实体编码向量,r=1……s,s为目标文本的实体类型数量,其中,B=(B1,……,Bx,……,Bp),Bx为目标文本对应的第一文本编码向量中第x位的bit值;x=1……p,p为第一文本编码向量的维度;
S300,根据预设实体向量集合,获取Aj对应的第二文本编码向量B0 j和Aj对应的第二实体编码向量列表C0 j={C0 j1,……,C0 jg,……,C0 jz},C0 jg为Aj对应的第g类实体类型的第二实体编码向量,g=1……z,z为Aj的实体类型数量;
S400,当C中不存在C0 jg对应的实体类型时,对C进行处理,获取到目标文本对应的第一目标编码向量列表D={B,D1,……,Dt,……,Dk},Dt为目标文本对应的第t个初始实体类型的第一目标编码向量,t=1……k,k为目标文本对应的初始实体类型的数量;在S400步骤中还包括如下步骤:
S401,当q≠p时,将C0 jg对应的实体类型与Ua0对应的实体类型进行比对;
S403,当C0 jg对应的实体类型与Ua0对应的实体类型一致时,将C0 jg=Ua0且将C0 jg插入至D中;
S405,当C0 jg对应的实体类型与Ua0对应的实体类型不一致时,将C0 jg=E0且将C0 jg插入至D中,其中,E0为随机生成的一个q维度的实体向量;
S407,当q=p时,将C0 jg=B且将C0 jg插入至D中;
S500,当C0 j中不存在Cr对应的实体类型时,对C0 j进行处理,获取到Aj对应的第二目标编码向量列表Dj={B0 j,Dj1,……,Djt,……,Djk},Djt为Dt对应的Aj的第二目标编码向量;
S600,根据D和Dj,获取目标文本对应的相似度Fj,其中,Fj符合如下条件:
Figure DEST_PATH_IMAGE002
,其中,Dt β为Dt对应的向量中第β位bit值,Djt β为Djt对应的向量中第β位bit值,β=1……q,q为第二目标编码向量的向量维度;
S700,当Fj≥F0时,确定目标文本与Aj为相似文本,其中,F0为预设的相似度阈值;
S800,当Fj<F0时,确定目标文本与Aj不为相似文本。
2.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,在S100前还包括如下步骤:
S101,获取目标文本对应的文本字符串T=(T1,……,Ti,……,Tm),Ti是指目标文本对应的第i个文字字符,i=1……m,m为目标文本对应的文字字符数量;
S102,当m≥m0时,将T替换成T=(T1,……,Ti,……,Tm0),i=1……m0,其中,m0为预设字符串长度。
3.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,所述关键文本为初始文本中除目标文本之外的任意一个文本。
4.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,在S300中,B0 j的向量维度与B的向量维度一致。
5.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,在S200中,还包括如下步骤:
S201,获取预设实体向量集合U={U1,……,Ua,……,Ub},Ua={Ua1,……,U,……,U},U=(U1 ,……,Uy ,……,Uq ),Uy 为第a类实体类型的第λ个预设实体对应的实体向量中第y位的bit值,λ=1……γ,y=1……q,q为第一实体编码向量的维度;
S203,获取目标文本对应的实体列表Q={Q1,……,Qe,……,Qf},Qe为目标文本的第e个初始实体对应的实体向量,e=1……f,f为目标文本对应的初始实体数量;其中,在S203中还包括如下步骤:
S2031,当Qe对应的初始实体与U对应的实体一致时,则Qe=U
S2033,当Qe对应的初始实体与U对应的实体不一致时,获取中间实体向量Ua0=(U1 a0,……,Uy a0,……,Uq a0),则Qe=Ua0,其中,Uy a0符合如下条件:
Uy a0=(∑γ λ=1Uy )/γ;
S205,根据Q,获取Q对应的目标实体列表Q'={Q'1,……,Q'e,……,Q'f},Q'e为Qe对应的目标实体的实体向量;
S207,遍历Q'且获取Q'中与Q'e对应的论元类型一致的所有目标实体,构建成Q'对应的中间实体列表Ge={Ge1,……,Gev,……,Gew},Gev为Q'e对应的第v个中间实体向量,v=1……w,w为Q'e对应的中间实体数量;
S209,当Q'e对应的实体类型为第r类实体类型时,则获取Cr,其中,Cr符合如下条件:
Figure DEST_PATH_IMAGE004
,其中,ηv为Gev对应的目标实体在目标文本中出现的频数。
6.根据权利要求5所述的确定相似文本的数据处理系统,其特征在于,在S300中,获取C0 jg的方式与获取Cr的方式一致。
7.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,获取Dj的方式与获取D的方式一致。
8.根据权利要求1所述的确定相似文本的数据处理系统,其特征在于,所述预设的相似度阈值F0的取值范围为0.8~0.9。
CN202210935521.0A 2022-08-05 2022-08-05 一种确定相似文本的数据处理系统 Active CN115017269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210935521.0A CN115017269B (zh) 2022-08-05 2022-08-05 一种确定相似文本的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210935521.0A CN115017269B (zh) 2022-08-05 2022-08-05 一种确定相似文本的数据处理系统

Publications (2)

Publication Number Publication Date
CN115017269A CN115017269A (zh) 2022-09-06
CN115017269B true CN115017269B (zh) 2022-10-25

Family

ID=83066071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210935521.0A Active CN115017269B (zh) 2022-08-05 2022-08-05 一种确定相似文本的数据处理系统

Country Status (1)

Country Link
CN (1) CN115017269B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115248837B (zh) * 2022-09-21 2022-12-23 中科雨辰科技有限公司 一种获取文本的地理实体的数据处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN112380833A (zh) * 2020-11-20 2021-02-19 深圳得理科技有限公司 一种逐句段对比的相似文本查找方法及装置
CN112883730A (zh) * 2021-03-25 2021-06-01 平安国际智慧城市科技股份有限公司 相似文本匹配方法、装置、电子设备及存储介质
CN114077834A (zh) * 2020-08-13 2022-02-22 北京有限元科技有限公司 确定相似文本的方法、装置以及存储介质
CN114579675A (zh) * 2022-05-05 2022-06-03 中科雨辰科技有限公司 一种确定共指事件的数据处理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781379B (zh) * 2022-06-22 2022-09-16 中科雨辰科技有限公司 一种获取关键短语的数据处理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN114077834A (zh) * 2020-08-13 2022-02-22 北京有限元科技有限公司 确定相似文本的方法、装置以及存储介质
CN112380833A (zh) * 2020-11-20 2021-02-19 深圳得理科技有限公司 一种逐句段对比的相似文本查找方法及装置
CN112883730A (zh) * 2021-03-25 2021-06-01 平安国际智慧城市科技股份有限公司 相似文本匹配方法、装置、电子设备及存储介质
CN114579675A (zh) * 2022-05-05 2022-06-03 中科雨辰科技有限公司 一种确定共指事件的数据处理系统

Also Published As

Publication number Publication date
CN115017269A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN115563287B (zh) 一种获取关联对象的数据处理系统
CN114996414B (zh) 一种确定相似事件的数据处理系统
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
CN115017269B (zh) 一种确定相似文本的数据处理系统
CN116805044B (zh) 一种标签的获取方法、电子设备及存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN113761880A (zh) 一种用于文本校验的数据处理方法、电子设备及存储介质
CN111783460A (zh) 一种企业简称提取方法、装置、计算机设备及存储介质
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
Chakrabarti et al. A bayesian perspective on locality sensitive hashing with extensions for kernel methods
CN110705281B (zh) 一种基于机器学习的简历信息抽取方法
CN110597977B (zh) 数据处理方法、装置、计算机设备和存储介质
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
US11989526B2 (en) Systems and methods for short text similarity based clustering
CN115269765A (zh) 账号识别方法、装置、电子设备和存储介质
CN112416754B (zh) 一种模型评测方法、终端、系统及存储介质
CN114461606A (zh) 数据存储方法、装置、计算机设备及存储介质
CN111190994B (zh) 一种为提案委员会推荐提案承办单位的方法
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113515705A (zh) 应答信息生成方法、装置、设备及计算机可读存储介质
CN113239259A (zh) 确定相似店铺的方法和装置
CN114722819B (zh) 一种实体类型分类识别方法、装置、设备和介质
CN116756325B (zh) 一种获取标签的数据处理系统
CN118093325B (zh) 一种日志模板获取方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant