CN112001161A - 一种文本查重方法 - Google Patents
一种文本查重方法 Download PDFInfo
- Publication number
- CN112001161A CN112001161A CN202010864029.XA CN202010864029A CN112001161A CN 112001161 A CN112001161 A CN 112001161A CN 202010864029 A CN202010864029 A CN 202010864029A CN 112001161 A CN112001161 A CN 112001161A
- Authority
- CN
- China
- Prior art keywords
- text
- repeated
- length
- source
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 description 3
- 101100268613 Neosartorya fumigata (strain ATCC MYA-4609 / Af293 / CBS 101355 / FGSC A1100) abcF gene Proteins 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本查重方法,包括如下步骤:S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;S3)收集大于最小匹配长度的最长公共子串信息;S4)采用软件图形界面显示文本查重结果。本发明提供的文本查重方法,能够灵活设置查重的最小长度,提升整体文档查重准确度,让查重变得简单、灵活。
Description
技术领域
本发明涉及一种文本处理方法,尤其涉及一种文本查重方法。
背景技术
文本查重是根据一定相似度模型从大量文本中发现重复文本的过程,通过判断目标文本与源文本相似度是否大于阀值,从而得出目标文本是否为重复文本的结论。它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。
在两份文本材料查重过程中,重复文本是连续的长度最大的片段。文本材料中一般包含很多相同语素,如果不限制匹配长度,可能搜索出长度为一或二的大量重复文本,这些重复文本并没有实际用处。
作为解决方案编写人员,在编写和审阅技术方案时,需要在不同的文档材料中准确识别并定位重复文本,目前常用做法如下:
1)借助文档搜索功能,人工以一定长度关键词检索是否存在重复情况;
2)使用word文档比较功能,比对查重文本;
3)使用现有文本查重比较工具,整段对比,查找并显示重复文本。
尽管借助现有本文查重比较工具可以识别两份文档的相似度,但仍然存在以下不足:
1)通过人工搜索查重的方式,容易受到人员自身状态、周围环境等因素影响,存在出错、遗漏风险;
2)现有的文本查重比较工具只能整段对比,无法根据指定长度内容监测文档中所有匹配改内容的重复文本和位置;
3)现有工具不支持指定文本内容不进行查重。
由上可见,现有的文本查重工具均基于文本段落对比,对于段落内部的文本无法查重,也无法展示多处重复文本的位置。
发明内容
本发明所要解决的技术问题是提供一种文本查重方法,能够灵活设置查重的最小长度,提升整体文档查重准确度,让查重变得简单、灵活。
本发明为解决上述技术问题而采用的技术方案是提供一种文本查重方法,包括如下步骤:S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;S3)收集大于最小匹配长度的最长公共子串信息;S4)采用软件图形界面显示文本查重结果。
上述的文本查重方法,其中,所述步骤S1中的结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容;所述步骤S2通过源重复文本的开始索引和重复文本长度,获取到重复文本内容,并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。
上述的文本查重方法,其中,所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。
上述的文本查重方法,其中,所述步骤S3包括:设置一个键为源重复文本的开始索引,值为重复文本结构体的映射对象,收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表;如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,则清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。
上述的文本查重方法,其中,所述步骤S3包括:设置一个键为重复文本内容,值为重复文本结构体的映射对象,遍历之前的映射对象,重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取,源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。
上述的文本查重方法,其中,所述步骤S3还包括将所有映射对象转换为列表对象,并按重复文本长度倒序排序。
上述的文本查重方法,其中,所述步骤S4中的图形界面的工作区域分为三列,左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域,支持通过窗扇拖动调整宽度大小;中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮;右边一列与中间一列包括的控件一致,用于展示目标文档的内容。
上述的文本查重方法,其中,所述步骤S4中的图形界面包括工具栏,所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条;所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮;文本查重过程是通过新建一个线程执行,并将处理进度实时地反馈到进度条上,分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中;点击列表框中的项时,将重复文本内容展现到下方的文本域中,并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置;点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。
上述的文本查重方法,其中,所述步骤S4中的图形界面包括底部状态栏,所述底部状态栏包括文本查重结果的匹配信息和执行时长。
本发明对比现有技术有如下的有益效果:本发明提供的文本查重方法,通过最长公共子串算法计算所有匹配长度的公共子串,根据公共子串遍历源和目标文本,将与源文本和目标文本相关联的位置信息记录到数据结构里,再通过图形界面展示源文本和目标文本相关联的重复文本信息,从而解决了现有查重工具只能段落查重而无法根据指定长度查重的问题。本发明可以精准查找重复文本在源端和目标端的对应位置并通过图形界面按照查重出来的重复文本分类高亮显示,使得文本查重人员对于源和目标的重复内容及对应关系一目了然;并且可以通过调整查重的长度,排除指定长度的文本对查重的干扰,有助于提升整体文档查重准确度,让查重变得简单、灵活。
附图说明
图1为本发明文本查重流程图;
图2为本发明文本查重界面图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明文本查重流程图。
请参见图1,本发明提供的文本查重方法,首先指定一个最小匹配长度和定义存放源文本和目标文本相关联的重复文本信息的数据结构(R),结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容。
接下来定义一个长度为目标文本长度的公共子串长度表(Ld),使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符(Ts、游标S),里层倒序遍历目标文本的每个字符(Td、游标D)。内部判断源字符和目标字符是否相同(Ts[S]==Td[D]),如果相同,公共子串长度表索引位置为目标文本游标的值,等于前一位置的值加一(Ld[D]=D>=1?Ld[D-1]+1:1),否则值等于零(Ld[D]=0)。
每轮迭代过程中公共子串信息都会发生变化,需要收集大于最小匹配长度的最长公共子串信息,包括源文本的开始索引、重复文本长度和目标文本的开始索引表。定义一个键为源重复文本的开始索引,值为重复文本结构体的映射对象(MIR),收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表。如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,先清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。
源文本和目标文本遍历结束后,已经收集到了源重复文本的开始索引到目标重复文本的开始索引表的映射关系。通过源重复文本的开始索引和重复文本长度,可以获取到重复文本内容,建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。定义一个键为重复文本内容,值为重复文本结构体的映射对象(MTR),遍历之前的映射对象(MIR),重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取,源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。新的映射对象(MTR)的值列表包含了所有源文本与目标文本的重复文本信息,把它转换为列表对象(L),按重复文本长度倒序排序。
本发明的文本查重软件图形界面设计如图2所示。工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条。工作区域分为三列,左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域,支持通过窗扇拖动调整宽度大小。过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮。中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮。右边一列与中间一列包括的控件是一致的,它展示的是目标文档的内容。底部状态栏包括文本查重结果的匹配信息和执行时长。
文本查重过程是通过新建一个线程执行,并将处理进度实时地反馈到进度条上,分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中;点击列表框中的项时,将重复文本内容展现到下方的文本域中,并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置;点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。
实施例一:源文档文本内容为“abcFabctqabc”,目标文档文本内容为“aaabcdeftabcooabcfooaaaaAbc”。在文本查重软件界面上,点击选择源文档按钮,在弹出的打开文件对话框中选择源文档文件,点击选择目标文档按钮,在弹出的打开文件对话框中选择目标文档文件。源文档路径文本框和目标文档路径文本框显示对应打开文档的路径,源文档文本域和目标文档文本域显示对应打开文档的文本内容,填写匹配长度为2,勾选忽略大小写复选框,点击对比按钮。开始执行文本查重过程,处理进度显示在进度条上。分析完成后,在重复文本信息列表框中显示的项为:“00000000002:所有片段”、“00004-01-01:abcF”、“00003-02-04:abc”,表示找到了两个重复文本片段,其中一个的重复文本内容为“abcF”,在源文档文本中有一处,在目标文档文本中也有一处,另一个的重复文本内容为“abc”,在源文档文本中有两处,在目标文档文本中有四处。点击列表框的项,在源文本域中将高亮显示重复文本内容并定位到该处,目标文本域和源文本域一样高亮显示重复文本内容并定位到该处,如果有多处重复文本可通过向前和向后按钮切换定位位置。
实施例二:源文档文本内容为“tAbcAbcfabctAbc”,目标文档文本内容为“aaabcdeftAbcooabcgooaaaaabc”。在文本查重软件界面上,点击选择源文档按钮,在弹出的打开文件对话框中选择源文档文件,点击选择目标文档按钮,在弹出的打开文件对话框中选择目标文档文件。源文档路径文本框和目标文档路径文本框显示对应打开文档的路径,源文档文本域和目标文档文本域显示对应打开文档的文本内容,填写匹配长度为3,不勾选忽略大小写复选框,点击对比按钮。开始执行文本查重过程,处理进度显示在进度条上。分析完成后,在重复文本信息列表框中显示的项为:“00000000003:所有片段”、“00004-02-01:tAbc”、“00003-01-03:abc”、“00003-01-01:Abc”,表示找到了三个重复文本片段,第一个重复文本内容为“tAbc”,在源文档文本中有两处,在目标文档文本中有一处,第二个重复文本内容为“abc”,在源文档文本中有一处,在目标文档文本中有三处,第三个重复文本内容为“Abc”,在源文档文本中有一处,在目标文档文本中也有一处。点击列表框的项,在源文本域中将高亮显示重复文本内容并定位到该处,目标文本域和源文本域一样高亮显示重复文本内容并定位到该处,如果有多处重复文本可通过向前和向后按钮切换定位位置。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (9)
1.一种文本查重方法,其特征在于,包括如下步骤:
S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;
S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;
S3)收集大于最小匹配长度的最长公共子串信息;
S4)采用软件图形界面显示文本查重结果。
2.如权利要求1所述的文本查重方法,其特征在于,所述步骤S1中的结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容;所述步骤S2通过源重复文本的开始索引和重复文本长度,获取到重复文本内容,并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。
3.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。
4.如权利要求3所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为源重复文本的开始索引,值为重复文本结构体的映射对象,收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表;如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,则清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。
5.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为重复文本内容,值为重复文本结构体的映射对象,遍历之前的映射对象,重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取,源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。
6.如权利要求5所述的文本查重方法,其特征在于,所述步骤S3还包括将所有映射对象转换为列表对象,并按重复文本长度倒序排序。
7.如权利要求1所述的文本查重方法,其特征在于,所述步骤S4中的图形界面的工作区域分为三列,左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域,支持通过窗扇拖动调整宽度大小;中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮;右边一列与中间一列包括的控件一致,用于展示目标文档的内容。
8.如权利要求7所述的文本查重方法,其特征在于,所述步骤S4中的图形界面包括工具栏,所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条;所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮;文本查重过程是通过新建一个线程执行,并将处理进度实时地反馈到进度条上,分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中;点击列表框中的项时,将重复文本内容展现到下方的文本域中,并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置;点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。
9.如权利要求8所述的文本查重方法,其特征在于,所述步骤S4中的图形界面包括底部状态栏,所述底部状态栏包括文本查重结果的匹配信息和执行时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864029.XA CN112001161B (zh) | 2020-08-25 | 2020-08-25 | 一种文本查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864029.XA CN112001161B (zh) | 2020-08-25 | 2020-08-25 | 一种文本查重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001161A true CN112001161A (zh) | 2020-11-27 |
CN112001161B CN112001161B (zh) | 2024-01-19 |
Family
ID=73471991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010864029.XA Active CN112001161B (zh) | 2020-08-25 | 2020-08-25 | 一种文本查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001161B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100066920A (ko) * | 2008-12-10 | 2010-06-18 | 한국전자통신연구원 | 전자 문서 처리 장치 및 그 방법 |
CN102023989A (zh) * | 2009-09-23 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
GB201107116D0 (en) * | 2011-04-28 | 2011-06-08 | Nds Ltd | Computer-implemented method and apparatus for encoding natural-language text content and/or detecting plagiarism |
CN102222093A (zh) * | 2011-06-09 | 2011-10-19 | 中国工程物理研究院计算机应用研究所 | 一种获取字符串最长公共子串的方法 |
US20150134811A1 (en) * | 2013-11-11 | 2015-05-14 | 51 Degrees Mobile Experts Limited | Identifying Properties of a Communication Device |
CN105224624A (zh) * | 2015-09-22 | 2016-01-06 | 广州神马移动信息科技有限公司 | 一种实现倒排链快速归并的方法和装置 |
CN106844311A (zh) * | 2017-01-25 | 2017-06-13 | 济南德健信息技术有限公司 | 一种基于结构化电子病历的查重方法 |
CN108292302A (zh) * | 2016-02-01 | 2018-07-17 | 微软技术许可有限责任公司 | 重复内容自动呈现 |
CN109101644A (zh) * | 2018-08-21 | 2018-12-28 | 上海新炬网络信息技术股份有限公司 | 一种动静态日志文件扫描采集方法 |
CN110033236A (zh) * | 2019-04-11 | 2019-07-19 | 国网山东省电力公司 | 一种基于并发任务的项目查重方法及系统 |
-
2020
- 2020-08-25 CN CN202010864029.XA patent/CN112001161B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100066920A (ko) * | 2008-12-10 | 2010-06-18 | 한국전자통신연구원 | 전자 문서 처리 장치 및 그 방법 |
CN102023989A (zh) * | 2009-09-23 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
GB201107116D0 (en) * | 2011-04-28 | 2011-06-08 | Nds Ltd | Computer-implemented method and apparatus for encoding natural-language text content and/or detecting plagiarism |
CN102222093A (zh) * | 2011-06-09 | 2011-10-19 | 中国工程物理研究院计算机应用研究所 | 一种获取字符串最长公共子串的方法 |
US20150134811A1 (en) * | 2013-11-11 | 2015-05-14 | 51 Degrees Mobile Experts Limited | Identifying Properties of a Communication Device |
CN105224624A (zh) * | 2015-09-22 | 2016-01-06 | 广州神马移动信息科技有限公司 | 一种实现倒排链快速归并的方法和装置 |
CN108292302A (zh) * | 2016-02-01 | 2018-07-17 | 微软技术许可有限责任公司 | 重复内容自动呈现 |
CN106844311A (zh) * | 2017-01-25 | 2017-06-13 | 济南德健信息技术有限公司 | 一种基于结构化电子病历的查重方法 |
CN109101644A (zh) * | 2018-08-21 | 2018-12-28 | 上海新炬网络信息技术股份有限公司 | 一种动静态日志文件扫描采集方法 |
CN110033236A (zh) * | 2019-04-11 | 2019-07-19 | 国网山东省电力公司 | 一种基于并发任务的项目查重方法及系统 |
Non-Patent Citations (3)
Title |
---|
叶心: "支持编辑距离约束的近似最长公共子串匹配及其优化算法", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 8, pages 138 - 9 * |
郭武斌;周宽久;苏振魁;: "基于词序方法的文本相似度计算模型", 情报学报, no. 06, pages 59 - 64 * |
钱爱兵;江岚;: "基于后缀树的中文新闻重复网页识别算法", 现代图书情报技术, no. 03, pages 59 - 65 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001161B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210334248A1 (en) | Generating and reusing transformations for evolving schema mapping | |
US5696916A (en) | Information storage and retrieval system and display method therefor | |
Heer et al. | Graphical histories for visualization: Supporting analysis, communication, and evaluation | |
Koch et al. | VarifocalReader—in-depth visual analysis of large text documents | |
US6026409A (en) | System and method for search and retrieval of digital information by making and scaled viewing | |
US10354419B2 (en) | Methods and systems for dynamic graph generating | |
JP2732552B2 (ja) | 探索照会及び探索結果を生成し表示する方法 | |
US7984047B2 (en) | System for extracting relevant data from an intellectual property database | |
WO2009154153A1 (ja) | 文書検索システム | |
US20060116994A1 (en) | System and method for interactive multi-dimensional visual representation of information content and properties | |
US20060225000A1 (en) | Graphical application interface using browser | |
US20140317001A1 (en) | Methods for evaluating term support in patent-related documents | |
US9195662B2 (en) | Online analysis and display of correlated information | |
US20080071738A1 (en) | Method and apparatus of visual representations of search results | |
Jones et al. | A graphical user interface for Boolean query specification | |
US9208150B2 (en) | Automatic association of informational entities | |
US20100029580A1 (en) | Method for Diagnosing Non-Small Cell Lung Carcinoma | |
CN105893574A (zh) | 一种数据处理方法及电子设备 | |
GB2260007A (en) | Information storage/retrieval system and display method | |
US7698651B2 (en) | Heuristic knowledge portal | |
US20060224974A1 (en) | Method of creating graphical application interface with a browser | |
US20020143831A1 (en) | System and method for calculation using spreadsheet lines and vertical calculations in a single document | |
CN112001161B (zh) | 一种文本查重方法 | |
US20020143809A1 (en) | System and method for calculation using multi-field columns with hidden fields | |
US20240111944A1 (en) | System and Method for Annotation-Based Document Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |