CN114742029B - 一种汉语文本比对方法、存储介质及设备 - Google Patents

一种汉语文本比对方法、存储介质及设备 Download PDF

Info

Publication number
CN114742029B
CN114742029B CN202210416968.7A CN202210416968A CN114742029B CN 114742029 B CN114742029 B CN 114742029B CN 202210416968 A CN202210416968 A CN 202210416968A CN 114742029 B CN114742029 B CN 114742029B
Authority
CN
China
Prior art keywords
text
fragments
words
fragment
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210416968.7A
Other languages
English (en)
Other versions
CN114742029A (zh
Inventor
程南昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202210416968.7A priority Critical patent/CN114742029B/zh
Publication of CN114742029A publication Critical patent/CN114742029A/zh
Application granted granted Critical
Publication of CN114742029B publication Critical patent/CN114742029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语文本比对方法、存储介质及设备,本发明首先通过分片和文本相似度匹配从进行比对的两个文本中获取具有比对意义的若干对文本分片。然后,在配对的两个文本分片中利用汉语分词技术,结合近邻重组的思想分别将文本分片重组成由若干个相同且相邻的词拼接而成的文本片段的集合,最后在两个集合的文本片段之间通过最大匹配法进行文本的自动比对。该方法通过使用文本分片、文本相似度匹配、汉语分词、近邻重组等自然语言处理技术实现了具有语义引导的文本比对,降低了用最长公共子序列等暴力解法导致的时间复杂度过高的问题,从而快速标识出两文本相似内容的差异部分。

Description

一种汉语文本比对方法、存储介质及设备
技术领域
本发明涉及文本处理技术领域,具体涉及一种汉语文本比对方法、存储介质及设备。
背景技术
文本比对在生物信息领域、中文信息等领域有着广泛应用,如基因序列比对、论文查重系统等。
余宁[1]公开了一种文本比较方法、装置、计算机设备和存储介质,所述方法包括:获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转换后的所述第一文本及所述第二文本分别映射到X轴和Y轴;对在X轴上的所述第一文本及在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的匹配点信息;根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取文本比较结果。
郭叶[2]提供了一种文本比对方法,所述方法包括:从第一文本中获取若干第一子文本以及从第二文本中获取若干第二子文本;根据所述第一子文本以及第二子文本获取若干相似度值;所述相似度值为一个第一子文本与一个第二子文本之间相似的程度;根据所述相似度值获取相似文本对,所述相似文本对包含第一子文本以及与该第一子文本相似度值最大的第二子文本;获取所述相似文本对中的第一子文本与第二子文本的至少一个区别特征。
韩志刚[3]对第一文本和第二文本进行分块;针对由所述第一文本中文字块与所述第二文本中文字块组成的文字块对,获取所述文字块对的最长公共子序列对;根据相邻两个最长公共子序列对之间的字符信息,生成差异描述信息,所述差异描述信息用于显示所述文字块对的字符差异.通过本公开的技术方案,基于文字块组成的文字块对进行文本比较,效率比以行或者单词为最小单位进行文本比较的效率和精确度更高.
徐宁[1]通过将待比较文本映射到二维平面,并根据最短相同字符间的最短距离找出文本之间的相同字符,提高了文本比较的速度,降低了文本比较的复杂度,但当待比对文本差异过大时比对的速度和准确度下降明显。
相比较徐宁[1]的方法,郭叶[2]对源文本进行了子文本划分,并通过计算相似度值来定位具有实际比对意义的子文本对从而降低误匹配率。但其在划分子文本时欠缺了语义完整性的考虑,以及忽略了划分后子文本的字符粒度大小对于计算短文本相似度值的影响。韩志刚[3]在郭叶基础上优化了分块后的文本比较的方法,根据最长公共子序列的思想生成了两文本之间的差异。由于最长公共子序列时基于字符串匹配算法的思想,该方法在用于相似文本片段占比小或相似片段上下文位置差异过大的两个子文本之间的文本比对时,算法效率将大幅度下降。余宁、郭叶、韩志刚通过不同的方法提高了文本比对的速度或效率。但其任务对象主要是识别相同文本的修改记录。但对于相似部分占比较小或相似部分在各自文本上下文位置差异较大的两个文本(如历年来同一主题相关的政策文本),识别其相似部分的差异时效率较差。
参考文件:
[1]余宁.文本比较方法,装置,计算机设备和存储介质,CN110147429A[P].2019.
[2]郭叶,武光鼎,曹琴.一种文本比对方法,装置,计算机设备及可读存储介质.
[3]韩志刚.文本比较方法,装置,存储介质及电子设备,CN109815452A[P].2019.
发明内容
针对现有技术的不足,本发明旨在提供一种汉语文本比对方法、存储介质及设备。
为了实现上述目的,本发明采用如下技术方案:
一种汉语文本比对方法,具体过程为:
S1、将要进行比对的两个文本分别切分成语义基本完整且长度均匀的文本分片;
S2、根据步骤S1的两个文本的切分结果,将两个文本的分片进行两两组合得到多对文本分片对,并对每对文本分片对进行相似度计算;
S3、按步骤S2的相似度计算结果,筛选出相似度超过阈值的文本分片对,并对筛选出的每个文本分片对分别进行步骤S4的处理;如果没有相似度度超过阈值的文本分片对,则停止对比;
S4、将要比对的文本分片进行自动分词并对各个词编号后,筛选保留两个文本分片之间的相同词及其对应的序号,再将两个文本分片中序号相邻的词语拼接,此时两个文本分片均由若干个文本片段构成;最后以片段为单位,将两个文本分片利用最大匹配法进行比对找出差异部分并标识出来。
进一步地,步骤S1的具体过程为:将要进行对比的两个文本按句号、感叹号、问号、分号切分成句子级的均匀的文本分片。
更进一步地,如果某个文本分片字符超过预设的长度阈值,则按逗号将该文本分片再次切分。
进一步地,步骤S2的具体过程为:
S2.1、找出要对比的两个文本分片的所有共有词,并统计所有共有词的总字数;
S2.2、计算两个文本分片的长度,得到长度更长的文本分片的字数,然后计算两个文本分片的相似度=共有词的总字数/长度更长的文本分片的字数。
进一步地,步骤S4的具体过程为:
S4.1、对文本分片对的两个文本分片分词后,分别对两个文本分片的分词结果按顺序编号;
S4.2、筛选出两个文本分片之间的相同词,两个文本分片均仅保留筛选出的相同词及其序号;
S4.3、经过步骤S4.2的处理后,分别将两个文本分片中序号相邻的词进行拼接重组为一个片段,没有序号与之相邻的词则单独为一个片段,拼接重组后,两个文本分片均是由一个或多个片段组成的;
S4.4、将拼接重组后的两个文本分片以片段为单位使用最大匹配法进行遍历比对,并标识出差异部分。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明还提供一种设备,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现上述方法。
本发明的有益效果在于:本发明在利用自然语言处理技术保证语义完整性的前提下,可以精准快速识别文本之间相似部分的差异,解决了传统文本比对方法不适用于文本差异较大的两个文本的问题。本发明首先通过分片和文本相似度匹配从进行比对的两个文本中获取具有比对意义的若干对文本分片。然后,在配对的两个文本分片中利用汉语分词技术,结合近邻重组的思想分别将文本分片重组成由若干个相同且相邻的词拼接而成的文本片段的集合,最后在两个集合的文本片段之间通过最大匹配法进行文本的自动比对。该方法通过使用文本分片、文本相似度匹配、汉语分词、近邻重组等自然语言处理技术实现了具有语义引导的文本比对,降低了用最长公共子序列等暴力解法导致的时间复杂度过高的问题,从而快速标识出两文本相似内容的差异部分。
附图说明
图1为本发明实施例中将分片后的文本进行相似度计算的示例图;
图2为本发明实施例中将文本分片进行分词并编号的示例图;
图3为本发明实施例中筛选并保留文本分片的相同词的示例图;
图4为本发明实施例中对文本分片中序号邻近的词拼接重组的示例图;
图5为本发明实施例中以片段为单位对两个文本分片进行遍历比对的示例图;
图6为本发明实施例中比对结果示例图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种汉语文本比对方法,将要进行比对的两个文本分别切分成语义基本完整且长度均匀的文本分片;随后,通过文本相似度来过滤掉相似度过低而不具备比对意义的句子或语言片段,提高文本比对位置的准确度;然后利用汉语分词技术结合近邻重组的思想,将文本进行自动分词并对各个词编号后,遍历找出两个文本分片之间的相同词并保存其对应的序号,再将两个文本分片中序号相邻的词语拼接成片段,此时两个文本分片均由若干个片段组成,最后以拼接后的片段为单位,通过最大匹配法将两个文本分片进行比对。上述方法通过汉语分词技术找到相同词,以近邻重组思想重组语言片段从而以片段为单位使用最大匹配法完成汉语文本自动比对,以汉语以引导文本比对过程,缩小了进行比对的文本范围,降低了算法的时间复杂度和空间复杂度。
上述方法的具体过程为:
S1、文本分片:将要进行对比的两个文本按句号、感叹号、问号、分号切分成句子级的均匀的文本分片,如果某个文本分片字符超过预设的长度阈值,则按逗号将该分片再次切分。表1为文本分片的切分粒子,表1中,左栏的第一文本和第二文本是需要对比的两个文本,右栏是切分得到的文本分片。
表1
Figure GDA0003921917480000071
Figure GDA0003921917480000081
Figure GDA0003921917480000091
S2、根据步骤S1的两个文本的切分结果,将两个文本的分片进行两两组合得到多对文本分片对,并对每对文本分片对进行相似度计算。以表1为例,将表1中ListA[1]分别与ListB[1]、ListB[2]、ListB[3]、ListB[4]组合得到四对文本分片,ListA[2]分别与ListB[1]、ListB[2]、ListB[3]、ListB[4]组合得到四对文本分片,ListA[3]分别与ListB[1]、ListB[2]、ListB[3]、ListB[4]组合得到四对文本分片,ListA[4]分别与ListB[1]、ListB[2]、ListB[3]、ListB[4]组合得到四对文本分片,从而一共得到16对文本分片,并计算这16对文本分片对的相似度。本实施例的相似度计算采用简单共有词算法实现。对于两个文本分片,先找出这两个文本分片共同都有的词,并统计这些共有词的总字数。然后比对哪个文本分片的长度更长,有用共有词的总字数除以这个文本分片的字数。具体过程为:
S2.1、找出要对比的两个文本分片的所有共有词,并统计所有共有词的总字数。
S2.2、计算两个文本分片的长度,得到长度更长的文本分片的字数,然后计算两个文本分片的相似度=共有词的总字数/长度更长的文本分片的字数。
以下是计算两个文本分片的示例。文本分片A为“根据各地报告,目前省、市、县三级区域规划已基本印发”。文本分片B为“根据各地报告和中期评估情况,省、市、县三级区域规划已基本印发”。则文本分片A和文本分片B的共有词包括:根据、各地、报告、省、市、县、三级、区域、规划、已、基本、印发,这些共有词的总字符数为20。则:
相似度=共有词字符数/最长字符数=20/27=0.74。
S3、按步骤S2的相似度计算结果,筛选出相似度超过阈值的文本分片对,并对筛选出的每个文本分片对分别进行后续步骤的处理;如果没有相似度度超过阈值的文本片对,则停止对比。本实施例方法的主要目的在于快速识别出具有相似主题或内容的一系列文本之间的差异,所以通过相似度阈值过滤掉相似度过低的分片对,降低误匹配,从而更有效地识别出第一文本与第二文本中相似部分的区别。
S4、将步骤S3筛选得到的文本分片对进行分词,然后进行比对:
S4.1、对文本分片对的两个文本分片分词后,分别对两个文本分片的分词结果按顺序编号。以文本分片A“根据各地报告,目前省、市、县三级区域规划和相关的政策已基本印发以及文本分片”和文本分片B“根据各地报告和中期评估的情况,省、市、县三级区域规划已基本印发”为例,分词结果以及编号的结果如图2所示。
S4.2、筛选出两个文本分片之间的相同词,两个文本分片均仅保留筛选出的相同词及其序号。如图3所示。
S4.3、经过步骤S4.2的处理后,分别将两个文本分片中序号相邻的词进行拼接重组为一个片段,没有序号与之相邻的词则单独为一个片段,拼接重组后,两个文本分片均是由一个或多个片段组成的。对图3所示的筛选结果进行拼接重组的结果,如图4所示,对文本分片A,相邻的序号1-3的词拼接重组为一个片段,相邻的序号5-10的词拼接重组为一个片段,序号11、13没有与之相邻的序号,因此对应的词单独为一个片段,相邻的序号15-17的词拼接重组为一个片段。对于文本分片B,相邻的序号1-4的词拼接重组为一个片段,序号7没有与之相邻的序号,因此对应的词单独为一个片段,相邻的序号9-17的词拼接重组为一个片段。
S4.4、将拼接重组后的两个文本分片以片段为单位使用最大匹配法进行遍历比对,并标识出差异部分。如图6所示。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (6)

1.一种汉语文本比对方法,其特征在于,具体过程如下:
S1、将要进行比对的两个文本分别切分成语义完整且长度均匀的文本分片;
S2、根据步骤S1的两个文本的切分结果,将两个文本的分片进行两两组合得到多对文本分片对,并对每对文本分片对进行相似度计算:
S2.1、找出要对比的两个文本分片的所有共有词,并统计所有共有词的总字数;
S2.2、计算两个文本分片的长度,得到长度更长的文本分片的字数,然后计算两个文本分片的相似度=共有词的总字数/长度更长的文本分片的字数;
S3、按步骤S2的相似度计算结果,筛选出相似度超过阈值的文本分片对,并对筛选出的每个文本分片对分别进行步骤S4的处理;如果没有相似度超过阈值的文本分片对,则停止对比;
S4、将要比对的文本分片进行自动分词并对各个词编号后,筛选保留两个文本分片之间的相同词及其对应的序号,再将两个文本分片中序号相邻的词语拼接,此时两个文本分片均由若干个文本片段构成;最后以片段为单位,将两个文本分片利用最大匹配法进行比对找出差异部分并标识出来。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体过程为:将要进行对比的两个文本按句号、感叹号、问号、分号切分成句子级的均匀的文本分片。
3.根据权利要求2所述的方法,其特征在于,如果某个文本分片字符超过预设的长度阈值,则按逗号将该文本分片再次切分。
4.根据权利要求1所述的方法,其特征在于,步骤S4的具体过程为:
S4.1、对文本分片对的两个文本分片分词后,分别对两个文本分片的分词结果按顺序编号;
S4.2、筛选出两个文本分片之间的相同词,两个文本分片均仅保留筛选出的相同词及其序号;
S4.3、经过步骤S4.2的处理后,分别将两个文本分片中序号相邻的词进行拼接重组为一个片段,没有序号与之相邻的词则单独为一个片段,拼接重组后,两个文本分片均是由一个或多个片段组成的;
S4.4、将拼接重组后的两个文本分片以片段为单位使用最大匹配法进行遍历比对,并标识出差异部分。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。
6.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1-4任一所述的方法。
CN202210416968.7A 2022-04-20 2022-04-20 一种汉语文本比对方法、存储介质及设备 Active CN114742029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210416968.7A CN114742029B (zh) 2022-04-20 2022-04-20 一种汉语文本比对方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210416968.7A CN114742029B (zh) 2022-04-20 2022-04-20 一种汉语文本比对方法、存储介质及设备

Publications (2)

Publication Number Publication Date
CN114742029A CN114742029A (zh) 2022-07-12
CN114742029B true CN114742029B (zh) 2022-12-16

Family

ID=82284047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210416968.7A Active CN114742029B (zh) 2022-04-20 2022-04-20 一种汉语文本比对方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN114742029B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209188B (zh) * 2022-09-07 2023-01-20 北京达佳互联信息技术有限公司 多帐号同时直播的检测方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110738050A (zh) * 2019-10-16 2020-01-31 北京小米智能科技有限公司 基于分词和命名实体识别的文本重组方法及装置、介质
CN111160028A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 判断两个文本语义相似度的方法、装置、存储介质及设备
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
WO2021218015A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN113688954A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101494A (zh) * 2018-08-10 2018-12-28 哈尔滨工业大学(威海) 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质
CN110929498B (zh) * 2018-09-20 2023-05-09 中国移动通信有限公司研究院 一种短文本相似度的计算方法及装置、可读存储介质
CN109815452B (zh) * 2018-12-25 2023-04-07 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109947917A (zh) * 2019-03-07 2019-06-28 北京九狐时代智能科技有限公司 语句相似度确定方法、装置、电子设备及可读存储介质
CN110781670B (zh) * 2019-10-28 2023-03-03 合肥工业大学 基于百科知识库和词向量的中文地名语义消歧方法
CN113221553A (zh) * 2020-01-21 2021-08-06 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备以及可读存储介质
CN111897970B (zh) * 2020-07-27 2024-05-10 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN112232053A (zh) * 2020-09-16 2021-01-15 西北大学 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112650836B (zh) * 2020-12-28 2022-11-18 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309504A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110738050A (zh) * 2019-10-16 2020-01-31 北京小米智能科技有限公司 基于分词和命名实体识别的文本重组方法及装置、介质
CN111160028A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 判断两个文本语义相似度的方法、装置、存储介质及设备
WO2021218015A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN113688954A (zh) * 2021-10-25 2021-11-23 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于词匹配的句子相似性计算方法;龙昊;《Advances in Computation of Oriental Languages-proceedings of the intertional Conference on Computer Processing of Oriental Language》;20031231;第431-437页 *
汉语词语及句子相似度算法研究与应用;刘青磊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第2011年11期);I138-1257 *

Also Published As

Publication number Publication date
CN114742029A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109918658B (zh) 一种从文本中获取目标词汇的方法及系统
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
US20140270526A1 (en) Method for segmenting text words in document images
CN114742029B (zh) 一种汉语文本比对方法、存储介质及设备
CN110378347B (zh) 一种医疗检验单的关键信息提取方法及装置
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
US20150095769A1 (en) Layout Analysis Method And System
WO2020259280A1 (zh) 日志管理方法、装置、网络设备和可读存储介质
Zheng et al. A cascaded method for text detection in natural scene images
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN111147459A (zh) 一种基于dns请求数据的c&c域名检测方法及装置
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
US9747274B2 (en) String comparison results for character strings using frequency data
CN112732655B (zh) 针对无格式日志的在线解析方法及系统
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN110990539B (zh) 稿件内部查重方法、装置及电子设备
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN112035621A (zh) 一种基于统计学的企业名名称相似度检测方法
WO2022160819A1 (zh) 文档批量翻译方法、装置、电子设备及存储介质
CN105488471A (zh) 一种字形识别方法及装置
CN110532569A (zh) 一种基于中文分词的数据碰撞方法及系统
US20170169210A1 (en) Detecting user credentials from inputted data
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cheng Nanchang

Inventor after: Chen Xin

Inventor before: Cheng Nanchang