CN102789452A - 类似内容提取方法 - Google Patents

类似内容提取方法 Download PDF

Info

Publication number
CN102789452A
CN102789452A CN2011101254938A CN201110125493A CN102789452A CN 102789452 A CN102789452 A CN 102789452A CN 2011101254938 A CN2011101254938 A CN 2011101254938A CN 201110125493 A CN201110125493 A CN 201110125493A CN 102789452 A CN102789452 A CN 102789452A
Authority
CN
China
Prior art keywords
sentence
document
paragraph
similarity
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101254938A
Other languages
English (en)
Inventor
细矢淳
尚磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN2011101254938A priority Critical patent/CN102789452A/zh
Publication of CN102789452A publication Critical patent/CN102789452A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明的目的在于提供能够减少数据处理量和处理时间的提取方法。该类似内容提取方法包括:输入对象文档和比较文档的步骤;将对象文档和比较文档按照每个段落进行拆分,生成对象名词组和比较名词组的步骤;从上述对象名词组中,选择包含有进入特定单词列表中的单词在内的对象名词组的步骤;计算所选择的对象名词组与比较名词组之间的第一相似度的步骤;以第一相似度的规定顺序依次将对应于所选择的对象名词组和比较名词组的段落按照每个句子进行拆分,生成对象句名词组和比较句名词组的步骤;以及计算对象句名词组与比较句名词组之间的第二相似度,按照第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句的步骤。

Description

类似内容提取方法
技术领域
本发明专利涉及一种用于提取对象文档和比较文档之间的类似内容的提取方法和提取装置。
背景技术
近年,对目标对象和检测对象进行比较来提取相似度较高的类似内容的信息检测技术变得非常流行。例如,随着科学技术的发展,被发表的论文越来越多,因此,在新的论文提交时,会存在一个普遍的问题,即各个学会和杂志的评审们会花费大量的时间去检测论文是否剽窃其他论文,为了更有效地更快地评审,信息检测技术被应用到论文防剽窃系统中,利用信息检测技术,能够检测被检测文档中是否含有目标文档中信息。
并且,信息检测技术还被应用到客观题审批领域中,从而提高批阅设备的效率。此外,信息检测技术还可以应用到输出管理系统中。用来防止传统的人工管理中存在的效率低、容易发生遗漏的问题。
在现有信息检测技术中,一般来说,逐一比较对象文档的每一个句子和目标文档的每一个句子,计算各个句子之间的相似度。
在中国发明专利《一种利用网络资源实现剽窃和格式检查的在线论文管理方法(2006101150.8)》中提出了一种信息检测技术中的相似度计算方法。在该管理方法中,将文档直接划分成句子,然后利用Google搜索引擎对被划分的句子的主干进行检索,最后根据得到相似度权值来判断抄袭的等级。
此外,在论文《基于语义分析树核的句子相似度计算》(王利局大连理工大学中国知网)中也曾有提出过一种相似度的计算方法。这篇论文是针对汉语句子进行的。具体来说,对句子进行分词和词性标注后,分别从句法结构特征、词语语义特征和词形特征三个方面得到的特征权重进行加权计算,来计算两个句子的相似度。
在这些现有技术中,都存在的问题是:在系统对被检测文档进行处理时,都是直接将对象文档划分成每个句子,然后逐句地与目标文档进行比较处理,分别求出相似度。这样一来,计算系统的数据处理量相当大,需要花费大量的时间,导致工作效率低下。
发明内容
本发明就是为了解决上述技术问题而完成的,其目的在于提供一种能够大大减少数据处理量和处理时间的类似内容提取方法和提取装置。
本发明是一种对象文档与比较文档的类似内容提取方法,其特征在于,包括:输入步骤,输入对象文档和比较文档;段落名词组生成步骤,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组;选择步骤,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组;计算步骤,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度;句子名词组生成步骤,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及对象句提取步骤,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。
此外,本发明的类似内容提取方法也可以是,还具有数值比较步骤,在对象句提取步骤中提取的对象句和目标文档的句子中包括数值的情况下,进行数值及数值相关词干的比较,仅在数值及数值相关词干都符合规定的条例的情况下,输出相似且符合,在不符合规定的条例的情况下,输出相似但不符合。
本发明还可以是一种对象文档与比较文档的类似内容提取装置,其特征在于,包括:输入模块,输入对象文档和比较文档;段落名词组生成模块,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组;选择模块,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组;计算模块,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度;句子名词组生成模块,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及对象句提取模块,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。
本发明的类似内容提取方法中,先将文档按照段落进行划分,然后找到与目标段落较为相似(相似度较高)的检测段落,再对与目标段落较为相似的检测段落进行句子划分,仅比较选择出的与目标段落较为相似的检测段落的各个句子与目标句子之间的相似度。通过如上所述分两个阶段计算相似度,能够大大减少处理数据量以及处理时间,提高提取装置的整体效率。
本发明的提取方法不但能够应用到论文防剽窃系统以及客观题审批领域,更可以应用到输出管理系统中,从而高效地进行输出管理。
附图说明
图1是本发明的提取装置涉及的计算机系统的组成图。
图2是说明本发明的第一实施方式涉及的提取方法的流程图。
图3是本发明的第一实施方式中例举的被测文档和目标文档的示例图。
图4是说明本发明的提取装置中的段落划分模块进行段落划分之后的结果示例图。
图5是说明本发明的提取装置中的名词抽取模块进行名词抽取之后的结果示例图。
图6是本发明的第一实施方式涉及的敏感字典的示例图。
图7是本发明的第一实施方式中例举的相似度较高的被检测段落和目标段落的示例图。
图8是本发明的第一实施方式中例举的被测句子的名词集合和目标句子的名词集合的示例图。
图9是说明本发明的第二实施方式的流程图。
图10是本发明的第二实施方式中例举的被测文档和目标文档的示例图。
图11是本发明的第二实施方式中例举的段落划分模块处理结果的示例图。
图12是本发明的第二实施方式中例举的名词抽取模块处理结果的示例图。
图13是本发明的第二实施方式中例举的相似度较高的被检测段落和目标段落的示例图。
图14是本发明的第二实施方式中例举的被测句子的名词集合和目标句子的名词集合的示例图。
图15是用于说明本发明的第二实施方式涉及的数值比较方法的示例图。
具体实施方式
以下结合附图来详细说明本发明涉及的具体实施方式。
(第一实施方式)
本发明的类似内容提取装置能够作为软件或硬件模块嵌入计算机系统中发挥作用。图1是本发明的提取装置涉及的计算机系统的组成图。
如图1所示,本发明的提取装置涉及的计算机系统主要包括处理核心、处理核心外围的数据库以及对提取结果107、110进行显示的浏览器。处理核心相当于本实施方式涉及的对象文档与比较文档的类似内容提取装置。
其中,处理核心外围的数据库可以通过现有的存储装置加以实现,包括预先从目标文档100中抽取的敏感词字典101、作为普通的电子字典的同义词字典102、被检测文档103以及历史数据库108等。其中,敏感词字典101中预先保存有特定单词列表中的单词,可以将某些输出管理中的敏感名词作为特定单词存储在敏感词字典101中。此外,除了同义词字典102,也可以包括其他现有的类似数据库,以供处理核心使用。
对提取结果107、110进行显示的浏览器是该计算机系统的输出装置。也可以使用语音等输出装置。
处理核心相当于本发明的类似内容提取装置,包括段落划分模块104、名词抽取模块105、检测模块106以及历史记录查询模块109。
具体来说,段落划分模块104用于从目标文档100或被检测文档103中提取文本数据,将这些文本数据按照每个段落进行划分,从而建立各个段落与文档之间的索引并储存在数据库中。同时,段落划分模块104还具有将目标文档100或被检测文档103的段落的文本数据按照每个句子进行划分,从而建立各个句子与文档之间的索引并储存在数据库中的功能。
名词抽取模块105从被段落划分模块104划分后的各个段落或句子中提取该段落或句子中记载的所有名词,将所提取的名词保存成与各个段落或句子相对应的名词集合。
段落划分模块104与名词抽取模块105对应于本发明中的“输入模块”、“段落名词组生成模块”以及“句子名词组生成模块”。
检测模块106是提取装置中的检索及计算模块,能够将敏感词字典101中保存的敏感词作为关键字,在名词抽取模块105生成的与被检测文档103的各个段落相对应的各个名词集合中检索是否含有这些敏感词,并且,对含有敏感词的名词集合与名词抽取模块105从目标文档100提取的与各个段落相对应的名词集合进行相似度计算,把相似度的计算结果保存到历史数据库108中,并作为结果107显示到浏览器上。并且,检测模块106还按照上述段落之间的相似度结果,将与各个名词集合对应的被检测文档103的段落进行排序,按照规定顺序(例如从高到低的顺序)依次计算被检测文档103的段落的每个句子的名词集合与所类似的目标文档100的段落中的每个句子的名词集合之间的类似度,并将结果显示在浏览器上。此外,检测模块106还可以按照句子之间的类似度的规定顺序(例如从高到低的顺序)提取被检测文档103的相应的句子作为对象句用于显示。
检测模块106对应于本发明中的“选择模块”、“计算模块”以及“对象句提取模块”。
历史记录查询模块109提供搜索历史记录查询功能并将搜索结果显示到浏览器上110。历史记录查询模块109主要用于用户查询过去的比较结果,在本发明中,在不需要进行历史查询的情况下,也可以省略历史记录查询模块109。
图2是说明本发明的第一实施方式涉及的提取方法的流程图。以下利用图2所示的流程详细说明第一实施方式涉及的对象文档与比较文档的类似内容提取方法。
如图2所示,在本发明的被检测文档103(对象文档)与目标文档100(比较文档)的类似内容提取装置中,首先,通过段落划分模块104对被检测文档103(对象文档)与目标文档100(比较文档)进行分段处理(步骤201),把目标文档100和用户上传到数库的所有被检测文档103进行段落划分,并建立段落与文档之间的索引。
接着,名词抽取模块105从划分后的各个段落中提取该段落中的所有名词,生成与各个段落相对应的多个名词集合后加以保存(步骤202)。之所以对文档只进行名词抽取,是因为名词可以代表所在文档的大概意思,并且易于进行比较。
接着,为了减少系统的工作量,在本发明中,利用敏感词字典101对这些名词集合进行敏感词检测,即,将敏感词字典101中的敏感词作为关键字,检索被检测文档103的各个段落所对应的名词集合,来进行敏感词汇的搜索(步骤203)。该步骤203是第一次过滤,能够剔除与目标文档100毫无关联的被检测文档103的段落。
如果检索结果是在被检测文档103中没有出现任何敏感词,则进入步骤204,判断为该被检测文档103与目标文档100没有任何关系。如果在输出管理体系中则可以判断为能够输出。相反地,如果检索结果是在被检测文档103中出现了敏感词,则进入步骤205,对被检测文档103进行下一步处理。
在步骤205中,检测模块106利用同义词字典102对所检测出的含有敏感词的被检测文档103的段落所对应的名词集合与目标文档100的某个段落所对应的名词集合进行相似度计算。对所计算出的相似度进行预定的排序。此处所谓的规定排序是指根据用户需要所进行的排序,例如在将本发明应用到论文防剽窃系统中时,需要找出相似度较高的文档,因此,可以根据相似度的大小,将各个段落按照相似度从大到小的顺序进行排序。以便从相似度最大的段落开始进行处理。也可以根据用户的需求,基于所计算出的段落相似度结果,仅选择相似度大小超过规定阈值或满足某种条件的段落来进行下一步的处理。由此,能够进一步剔除与目标文档100的段落关联不大的被检测文档103的段落。在第一实施方式中,此处设置为仅选择在相似度从大到小排列中规定数量(例如从头开始前10个相似度所对应的段落文档)的相似度较高的被检测文档103的段落(步骤206)。
接着,针对所选择出的上述规定数量的被检测文档103的段落以及作为上述比较的基础的目标文档100的段落,通过段落划分模块104对被检测文档103的段落与目标文档100的段落进行句子划分,将各个段落按照每个句子划分成句子文档,并利用名词抽取模块105从各个句子文档中提取各个句子相对应的名词集合(步骤207),
进而,再一次通过检测模块106对在步骤207中被划分出来的、被检测文档103的句子所对应的名词集合与目标文档100的句子所对应的名词集合进行相似度计算(步骤208)。并且,在目标文档103包括多个段落的情况,能够将所选择出的上述规定数量的被检测文档103的段落与目标文档103的多个段落逐一进行比较。最后把相似度的计算结果加以存储以便用于输出管理,或者按照规定的顺序(例如从大到小的顺序)将步骤208计算出的相似度排序,以该相同顺序将相似度所对应的被检测文档103的句子作为对象句显示在显示器(浏览器)上来提示给用户(步骤209)。此外,如果用户想查询上次的记录,通过历史记录查询模块109可以实现历史查询。
上述分别对段落以及句子进行的相似度计算也可以采用现有的相似度计算方法。例如,采用依赖两个字符串含有共同词形的数量的相似度计算方法。举例说明,设两个字符串包含名词的数量分别是M和N,两个字符串共同词形的数量是NK。只存在于第一个字符串中名词的个数是NL等于M-NK,只存在于第二个字符串中名词的个数是ND等于N-NK。则相似度计算公式如公式1.1所示。
SIM = N K N K + N L + N D - - - 1.1
下面例举在提取某一被检测文档103(简称为被测文档)与目标文档100之间的类似内容时进行的具体动作来详细说明本发明。
图3是本发明的第一实施方式中例举的被测文档和目标文档的示例图。如图3所示,目标文档(source1)与被测文档(test1)都是多段落文档,本发明的提取装置用于检测被测文档与目标文档之间的相似关系。
图4是说明本发明的提取装置中的段落划分模块进行段落划分之后的结果示例图。如图4所示,经过段落划分模块104的处理,目标文档(source1)被划分为两个段落文档source1.paragraph1、source1.paragraph2,被测文档(test1)被划分为三个段落文档。
分段之后,名词抽取模块105对划分后的每个段落逐一进行名词抽取,并以名词集合的形式保存在服务器上,图5是说明本发明的提取装置中的名词抽取模块进行名词抽取之后的结果示例图。
接着,然后调用如图6所示的敏感词字典对刚刚得到的各个名词集合进行敏感词搜索。
因为在被测文档的名词集合中存在敏感词,所以要运用同义词字典102和上述公式1.1进行段落之间的相似度的计算处理。作为图3所示的例子目标段落和被测段落相似度的计算结果如表1所示。
表1:本发明实施例中目标段落和被测段落相似度的计算结果的示例
  source1.paragraph1   source1.paragraph2
  test1.paragraph1   0   0
  test1.paragraph2   0.08   0
  test1.paragraph3   0.35   0.22
根据表1中的结果,为了举例说明,选取相似度最高的段落即目标文档的段落1和被测文档的段落3进行演示,如图7所示。
下一步将目标文档的段落1和被测文档的段落3进行句子划分并进行名词抽取,其结果如图8所示。
利用相似度计算方法计算各个句子与目标句子的相似度,所得到的结果如表2所示。
表2:本发明实施例中目标句子和被测句子相似度的计算结果的示例
Figure BDA0000061383680000091
通过以上方式能够获得与目标文档较为接近的被测文档以及各个句子之间具体的相似度。当被测文档存在多个时,也可以使用相同方法对多个被测文档逐一进行计算或提取。利用该句子之间的相似度能够按照需要选择对象句(相似度符合规定条件的被测文档的句子)提示给用户,或者用于输出管理以及论文防剽窃系统等。通过本发明的类似内容提取方法和装置,与现有技术相比较,不仅准确地找到了与目标文档相似度最高的被测文档的具体句子,还大大减少了处理数据量和处理时间。
(第二实施方式)
本发明的第二实施方式的计算机系统结构基本与第一实施方式相同,所不同的是在处理核心中还包括数值比较模块,该数值比较模块可以作为检测模块106的一部分,也可以与检测模块106相独立地进行动作。在本发明的第二实施方式中,采用了与现有的相似度计算方法所不同的方法对类似内容进行评价,从而进一步提高所得到的相似度的准确性。
因此,在本发明的第二实施方式中针对相同的模块使用相同的标号,仅对与第一实施方式不同的地方进行详细说明。
图9是说明本发明的第二实施方式的流程图。其中,与图2的步骤标号相同的部分代表相同的流程,因此援引以上的说明。
由于在输出管理等中,即使两个句子之间非常类似,仅数值不同,但是如果被测文档的句子的数据并不在目标文档的数据范围之内,一般也不认为二者相似,因此,在进行相似度的比较计算时,还可以对一些含有数值信息的句子进行数值关系的比较,从而对句子之间的相似度结果产生影响。
如图9所示,在进行句子与句子的相似度计算之后(步骤208),并不直接输出相似结果或对象句,而是进入步骤301,对具体数值部分进行比较。
首先,在步骤301,选择出与目标文档100的各个句子的名词集合的相似度较高的被测文档的句子,此处设为选择出相似度从大到小前10个句子作为判断对象。此外,用户也可以根据需要而设定其他选择顺序进行选择。
接着,对目标文档的句子和被测文档的句子进行是否存在数值数据的判断(步骤302)。如果在选择出的目标文档的句子和被测文档的句子中都不含有数值信息,则没有数据比较的必要,可以判定为相似且符合(步骤305)。否则进入步骤303。
在步骤303,数值比较模块对被测文档的各个句子中的数值与目标文档的句子中的数值之间的大小关系进行判断,并且,在数据库中预先存储有与目标文档中的数值有关的各种条例(条件),条例主要包括与该数值有关的各种信息应该满足的条件,例如对于数值单位等。比较模块还提取被测文档中的数值所在句子中出现的与数值有关的词干与条例进行比较,在句子数据关系不符合条例时,判断为相似但不符合(步骤304),相反,在符合条例的情况,判断为相似并符合(步骤305)。
此外,如果被测文档的句子与目标文档的句子中一方含有数值,而另一方不含有数值,则数值比较模块判定为超出条例范围,从而输出为相似但不符合。
以下以具体实施例为例进行说明。
该实施例中,对图10所示的目标文档和被测文档进行类似内容的提取。
首先,与第一实施方式同样地,使用段落划分模块104对被测文档进行段落划分,从而形成如图11所示的段落文档。分段之后,利用名词抽取模块105对段落划分后的各个段落逐一进行名词抽取,并且分别以与各个段落相对应的名词集合的形式保存在数据库中。图12示出了名词抽取模块105所生成的各个名词集合。
然后,调用如图6所示的敏感词字典对数据库中保存的被测文档的各个名词集合进行敏感词搜索。选择出包含有敏感词的段落。
在图12的例子中,由于在被测文档的名词集合中存在敏感词,所以如上所述,检测模块106运用同义词词典102进行段落相似度的计算处理。其中,该例中的目标段落和被测段落相似度的计算结果如表3所示。
表3:本发明实施例中目标段落和被测段落相似度的计算结果的示例
  source2.paragraph1   source2.paragraph2
  test2.paragraph1   0.06   0
  test2.paragraph2   0.167   0.13
接着,作为示例,根据表3中的结果,选取相似度最高的段落即目标文档的段落1和被测文档的段落2进行下一步的处理。选择出的目标文档的段落1和被测文档的段落2如图13所示。当然也可以对所有得出相似度数据的段落逐一进行处理。
接着,段落划分模块104将目标文档的段落1和被测文档的段落2进行句子划分,并对划分后的每个句子提取名词,得到如图14所示的各个名词集合。
接着,检测模块106利用相似度计算方法(例如公式1.1)计算各个句子与目标句子的相似度,所得到的结果如表4所示。
表4:本发明实施例中目标句子和被测句子相似度的计算结果的示例
根据表4中的结果,数值比较模块按照表4中计算出的相似度的规定顺序(例如相似度从大到小)依次检索目标句子和被测句子,检测在句子中是否存在数值,作为演示,设为检测到相似度最高的句子即目标文档的句子2和被测文档的句子2中存在数值。因此,选取相似度最高的句子即目标文档的句子2和被测文档的句子2进行数值比较。
图15示出了具体的数值比较方法。如图15所示,数值比较模块首先对选取的目标句子中与数值有关的内容进行词干提取,包括领域关键词、物理量名称、大小关系、数值以及单位,来生成各个条例,并将其保存于数据库中(例如作为句干词典)。然后分别对各个条例进行判断,判断是否符合条例所规定的范围。在图15的例子,在被测文档中首先搜索领域关键词①,然后进行物理量名称的检索②,接着进行单位检索③并找到相邻的数值信息④,最后比较数值信息的大小。在图15的例子,由于被测文档的句子2中的数值“500”不符合大小关系的条例“大于981”,因此,虽然被测文档的句子2与目标文档的句子2的相似度数据较高,并且除了大小关系之外的其他数值相关词干的条例都符合,但也判断为是相似而不符合。从而将该结果保存在数据库,或者通过输出装置提示给用户,以便引起注意。如果在输出管理系统中,可以直接将被测文档的句子2判断为能够输出。
此外,这里作为条例数据库的句干词典是由数据比较模块根据目标文档中的句子临时生成的,但是在输出管理系统等中目标文档较为确定的领域,也可以预先存储有与目标文档中的出现的各个数值有关的条例数据。
通过以上方式,即使目标文档与被测文档的类似内容被判断为相似度较高,在不满足规定条例的情况下也无法被输出,从而能够提高输出管理系统等的精度。
本发明的类似内容提取方法及装置与现有技术相比较,分别按照段落与句子分层次计算相似度,从而大大减少了数据处理量和处理时间,并且将数值相关词干的比较引入到数值相似度的比较当中,从而提高了类似内容的比对精度。因此,本发明能够适用于客观题审批领域以及输出管理系统中,有很高的实用性。

Claims (6)

1.一种对象文档与比较文档的类似内容提取方法,其特征在于,包括:
输入步骤,输入对象文档和比较文档;
段落名词组生成步骤,将对象文档和比较文档按照每个段落进行拆分,从上述对象文档的各个段落中提取名词,生成各个段落对应的对象名词组,从上述比较文档的各个段落中提取名词,生成各个段落对应的比较名词组;
选择步骤,从上述对象名词组中,选择包含有上述比较文档中记载的、进入特定单词列表中的单词在内的对象名词组;
计算步骤,计算所选择的上述对象名词组与上述比较名词组之间的第一相似度;
句子名词组生成步骤,以上述第一相似度的规定顺序依次将对应于所选择的对象名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的对象句名词组,将对应于上述比较名词组的段落按照每个句子进行拆分,并提取名词,生成各个句子对应的比较句名词组;以及
对象句提取步骤,计算上述对象句名词组与上述比较句名词组之间的第二相似度,按照上述第二相似度的规定顺序依次提取对应于对象句名词组的句子即对象句。
2.根据权利要求1所述的类似内容提取方法,其特征在于,
还具有数值比较步骤,在对象句提取步骤中提取的对象句和目标文档的句子中包括数值的情况下,进行数值及数值相关词干的比较,仅在数值及数值相关词干都符合规定的条例的情况下,输出相似且符合,在不符合规定的条例的情况下,输出相似但不符合。
3.根据权利要求1所述的类似内容提取方法,其特征在于,
还具有数值比较步骤,在对象句提取步骤中提取的对象句或目标文档的句子中不包括数值的情况下,输出相似且符合。
4.根据权利要求2或3所述的类似内容提取方法,其特征在于,
所述数值相关词干包括领域关键词、物理量名称、大小关系或者单位。
5.根据权利要求1所述的类似内容提取方法,其特征在于,
上述第一相似度的规定顺序和上述第二相似度的规定顺序都是相似度从大到小排列的顺序。
6.根据权利要求1所述的类似内容提取方法,其特征在于,
还具有历史记录查询步骤,提取在上述对象句提取步骤中提取的对象句并通过输出装置提示给用户。
CN2011101254938A 2011-05-16 2011-05-16 类似内容提取方法 Pending CN102789452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101254938A CN102789452A (zh) 2011-05-16 2011-05-16 类似内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101254938A CN102789452A (zh) 2011-05-16 2011-05-16 类似内容提取方法

Publications (1)

Publication Number Publication Date
CN102789452A true CN102789452A (zh) 2012-11-21

Family

ID=47154856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101254938A Pending CN102789452A (zh) 2011-05-16 2011-05-16 类似内容提取方法

Country Status (1)

Country Link
CN (1) CN102789452A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679742A (zh) * 2013-11-26 2015-06-03 富士通株式会社 信息处理方法及装置
CN106845232A (zh) * 2016-12-30 2017-06-13 北京瑞星信息技术股份有限公司 恶意代码库建立方法和系统
CN106909535A (zh) * 2015-12-23 2017-06-30 北京国双科技有限公司 相似文本判定方法和装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置
CN107622266A (zh) * 2017-09-21 2018-01-23 平安科技(深圳)有限公司 一种ocr识别的处理方法、存储介质和服务器
CN111143829A (zh) * 2019-12-25 2020-05-12 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
WO2021037012A1 (zh) * 2019-08-30 2021-03-04 智慧芽信息科技(苏州)有限公司 文本信息的导航浏览方法、装置、服务器和存储介质
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
US20090063426A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Identification of semantic relationships within reported speech
CN101685455A (zh) * 2008-09-28 2010-03-31 华为技术有限公司 数据检索的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
US20090063426A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Identification of semantic relationships within reported speech
CN101685455A (zh) * 2008-09-28 2010-03-31 华为技术有限公司 数据检索的方法和系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679742A (zh) * 2013-11-26 2015-06-03 富士通株式会社 信息处理方法及装置
CN106909535A (zh) * 2015-12-23 2017-06-30 北京国双科技有限公司 相似文本判定方法和装置
CN107273391A (zh) * 2016-04-08 2017-10-20 北京国双科技有限公司 文书推荐方法和装置
CN106845232A (zh) * 2016-12-30 2017-06-13 北京瑞星信息技术股份有限公司 恶意代码库建立方法和系统
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107622266B (zh) * 2017-09-21 2019-05-07 平安科技(深圳)有限公司 一种ocr识别的处理方法、存储介质和服务器
CN107622266A (zh) * 2017-09-21 2018-01-23 平安科技(深圳)有限公司 一种ocr识别的处理方法、存储介质和服务器
WO2021037012A1 (zh) * 2019-08-30 2021-03-04 智慧芽信息科技(苏州)有限公司 文本信息的导航浏览方法、装置、服务器和存储介质
CN112445891A (zh) * 2019-08-30 2021-03-05 智慧芽信息科技(苏州)有限公司 文本信息的导航浏览方法、装置、服务器和存储介质
CN111143829A (zh) * 2019-12-25 2020-05-12 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
CN111143829B (zh) * 2019-12-25 2022-04-26 北京天融信网络安全技术有限公司 一种任务危险程度的确定方法、装置、电子设备及存储介质
JP2021082306A (ja) * 2020-01-09 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP7139028B2 (ja) 2020-01-09 2022-09-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对系统

Similar Documents

Publication Publication Date Title
CN102789452A (zh) 类似内容提取方法
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US6772170B2 (en) System and method for interpreting document contents
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
WO2002027532A1 (en) System and method for use in text analysis of documents and records
CN103577416A (zh) 扩展查询方法及系统
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN107844493B (zh) 一种文件关联方法及系统
CN111026710A (zh) 一种数据集的检索方法及系统
CN103218443A (zh) 一种面向博客网页的网页检索系统及方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
WO2020060718A1 (en) Intelligent search platforms
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
CN108509449B (zh) 一种信息处理的方法及服务器
CN110019637B (zh) 一种标准文献检索的排序算法
CN102122296B (zh) 检索结果聚类方法及装置
Phadnis et al. Framework for document retrieval using latent semantic indexing
CN111259145B (zh) 基于情报数据的文本检索分类方法、系统及存储介质
CN100535893C (zh) 一种计算机标引和检索的方法
Naseri et al. A method for the automatic extraction of keywords in legislative documents using statistical, semantic, and clustering relationships
Kadhem et al. Arabic Texts Classification Based on Keywords Extraction Technique
Jian Keyword Extraction From Chinese Text Based On Multidimensional Weighted Features.
Zhao et al. The application of vector space model in the information retrieval system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121121