CN108255797A - 一种文本模式识别方法及系统 - Google Patents

一种文本模式识别方法及系统 Download PDF

Info

Publication number
CN108255797A
CN108255797A CN201810078770.6A CN201810078770A CN108255797A CN 108255797 A CN108255797 A CN 108255797A CN 201810078770 A CN201810078770 A CN 201810078770A CN 108255797 A CN108255797 A CN 108255797A
Authority
CN
China
Prior art keywords
text
weights
keyword
weight
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810078770.6A
Other languages
English (en)
Inventor
汪成林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kangfei Information Technology Co Ltd
Original Assignee
Shanghai Kangfei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kangfei Information Technology Co Ltd filed Critical Shanghai Kangfei Information Technology Co Ltd
Priority to CN201810078770.6A priority Critical patent/CN108255797A/zh
Publication of CN108255797A publication Critical patent/CN108255797A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本模式识别方法,包括:获取文本文件的长度;根据文本文件的长度,将文本文件抽象成一个主网络模型及若干子网络模型;其中,主网络模型及若干网络模型中均含有一个基点;通过二分法算法简化主网络模型及若干子网络模型;根据简化后的主网络模型,获取主网络模型对应的文本特征向量;根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。此外,本发明还公开了一种文本模式识别系统。本发明根据文本文件的长度,构造一个主网络模型及相应的若干子网络模型,从而可以全面的保存文本的原始特征信息;此外,本发明可以从多个特征向量来分析文本的相似性,还可以对文本的部分进行相似性比较。

Description

一种文本模式识别方法及系统
技术领域
本发明涉及文本文件处理技术领域,尤其涉及一种文本模式识别方法及系统。
背景技术
随着网络的发展,如何从大量的文本中快速获取有用的信息成为信息技术领域和模式识别技术领域的重要研究课题之一。在实现文本模式识别技术方案时,需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法,通常采用计算两两关键词之间的距离来构造有向加权网络模型,并通过加权处理来简化有向加权网络模型,最后得到简化后的网络模型的矩阵,并提出文本的特征向量。但是,这种方法虽然可以构造一个模型,但构造模型过程复杂繁琐,计算量大,并且会导致大量的文本特征丢失,因此也会影响后面的文本相似性的比较和分类的正确性。
此外,现有技术中一般是构造一个模型,而对于较大的文本文件,也就是很长的文本文件,如果仅构造一个模型,势必会丢失很多的原始文本的特征信息。而且,若文本文件仅一个模型,那么在做文件相似度对比的时候,对比的准确度大打折扣。
因此,如何快速简单实现文本模式识别,更有效保存原始文本的特征信息,成为亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种文本模式识别方法及系统,具体的,技术方案如下:
本发明公开了一种文本模式识别方法,包括:S100获取文本文件的长度;S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;S300通过二分法算法简化所述主网络模型及若干子网络模型;S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
优选地,所述步骤S200包括:S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;S220基于所述主基点,构造所述文本文件对应的主星形有向加权图;S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;S250基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图。
优选地,所述步骤S220包括:S221扫描所述文本文件中的关键词,获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置;S222根据获取的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图,其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离;
所述步骤S250包括:S251扫描所述子文本中的关键词,获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置;S252根据获取的关键词在所述子文本中出现的次数和位置,将所述子文本映射为子星形有向加权图,其中,所述子星形有向加权图的中心节点为所述子基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离。
优选地,所述步骤S210包括:S211基于二分法算法,根据所述所述文本文件的长度,将文本文件的二分之一的位置作为主基点;
所述步骤S240包括:S241获取每一子文本的长度;S242基于二分法算法,根据所述子文本的长度,将所述子文本的二分之一的位置作为所述子文本的子基点。
优选地,所述步骤S300包括:S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合;S320根据二分法算法,选取所述权值集合中位置处于中间位置的权值作为中间权值,并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值,求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值;S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,获得一新的权值集合;S340判断所述新的权值集合中的权值数量是否大于2,若是,返回步骤S320;否则,进入步骤S350;S350求取所述新的权值集合中剩余的两个权值的平均值作为所述关键词对应的唯一权值;S360根据各关键词对应的唯一权值,获取到简化后的主星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的主星形有向加权图的有向边权值;S370采用步骤S310-S350同样的方法,获取到简化后的每个子星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的子星形有向加权图的有向边权值。
优选地,所述步骤S400包括:S410根据简化后的主星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为主文本的特征向量。所述步骤S500包括:S510根据简化后的子星形有向加权图的属性和记录的关键词出现次数,将所述子文本映射为子文本的特征向量。
优选地,所述特征向量为:R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,R(D)表示特征向量;size表示所述简化后的星形有向加权图中所有关键词的个数;in-degree表示所述简化后的星形有向加权图中基点的入度节点;in-weight表示所述简化后的星形有向加权图中基点的入度节点对应的各权值;out-degree表示所述简化后的星形有向加权图中基点的出度节点;out-weight表示所述简化后的星形有向加权图中基点的出度节点对应的各权值;f表示所述简化后的星形有向加权图中的各节点出现的次数。
优选地,本发明所述的一种文本模式识别方法还包括:S600将所述文本文件中每个网络模型对应的文本特征向量与另一文本文件中每个网络对应的文本特征向量进行比较,获取这两个文本文件的相似性。
优选地,所述步骤S600包括:S610将两个对比文本文件的主网络模型对应的文本特征向量进行相似度比较;S620判断所述两个对比文本文件的主网络模型对应的文本特征向量的相似度是否小于第一相似度预设值;若是,进入步骤S630;S630将两个对比文本文件的任意子网络模型对应的文本特征向量进行相似度比较;S640判断所述两个对比文本文件的任意子网络模型对应的文本特征向量的相似度是否大于第二相似度预设值,若是,进入步骤S650;S650判断所述两个对比文本文件相似。
另一方面,本发明还公开了一种文本模式识别系统,该系统可采用本发明所述的文本模式识别方法,具体的,本发明的文本模式识别系统包括:长度获取模块,用于获取文本文件的长度;网络模型构造模块,用于根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;网络模型简化模块,用于通过二分法算法简化所述主网络模型及若干子网络模型;特征向量获取模块,用于根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;及根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
本发明至少具备以下一项有益技术效果:
(1)本发明根据文本文件的长度,将文本文件抽象成一个主网络模型及若干子网络模型。通过文本文件的长度来决定子网络模型的个数,从而使得能够更多更有效的保存了原始文本文件的特征信息,也不至于太多细化的子网络模型使之过于复杂。合理的设置子网络模型的数量,可以更为简单快速的保存文本文件的原始特征信息。
(2)本发明通过将文本文件抽象成一个主网络模型及若干子网络模型,可以更好的进行文本文件的相似度对比,尤其是对于比较长的文本文件,单纯只通过一个主网络模型获取的文本特征向量来对比的话,准确率不高,而进一步通过子网络模型获取的文本特征向量来进一步细化对比的话,准确率更高。另外,本发明还可以将文本文件本身的各部分进行相似度对比,而采用现有技术的文本模式识别方案则无法达到。
(3)通过二分法机制将文本文件建立一个基点,并将文本文件抽象成星形有向加权网络模型,能够更多更有效的保存了文本文件的特征信息,使得在后续的文本分类以及文本相似性计算时能够获得更好的结果。
(4)根据二分法机制将所述星形有向加权网络模型进行简化,将所述星形有向加权网络模型的多次出现的同一个关键词抽象成一个节点,使所述星形有向加权网络模型更简洁,整个运算过程简单,并且运算速度快,从而便于快速地进行分析。
(5)根据简化的星形有向加权网络模型,将文本文件应设为文本特征向量,比如,所述文本特征向量包括关键词的个数、出现的频率、星形有向加权网络模型基点的入度以及入度各节点的权值、星形有向加权网络模型基点的出度以及出度各节点的权值等,过程简单快速,并且能够更多更有效的保存了原始文本文件的特征信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种文本模式识别方法实施例的流程图;
图2为本发明一种文本模式识别方法另一实施例的流程图;
图3为本发明一种文本模式识别方法另一实施例的流程图;
图4为本发明主星形有向加权图;
图5为本发明基于二分法简化主星形有向加权图的流程图;
图6为本发明基于二分法求取一个关键词的唯一权值示意图;
图7为本发明简化后的主星形有向加权图;
图8为本发明一种文本模式识别系统的实施例框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明公开了一种文本模式识别方法,实施例如图1所示,包括:
S100获取文本文件的长度;
S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;
S300通过二分法算法简化所述主网络模型及若干子网络模型;
S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;
S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
本实施例中,根据文本文件的长度将文本文件抽象成一个主网络模型和若干子网络模型,相比于只构造一个主网络模型,本实施例可以更多、更有效的保存原始文本的特征信息,使得在进行文本分类及文本相似性计算是能得到更好的结果。此外,本实施例中通过二分法算法对主网络模型和子网络模型进行了简化,然后在简化的网络模型中获取对应的文本特征向量;这样一方面可以从多个文本特征向量来分析两个文本的相似性,也可以对一个文本的部分进行相似性比较。而且主网络模型对应的文本特征向量是对整个文本信息的涵盖,信息全面,而子网络模型对应的文本特征向量则适当的对文本进行了细化,更多、更有效的保证了文本各部分的特征信息。
本发明方法的另一实施例,如图2所示,在上述实施例的基础上,具体的对将文本文件抽象成一个主网络模型及若干子网络模型进行了详细的叙述,具体的,包括:
S100获取文本文件的长度;
S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;
S220基于所述主基点,构造所述文本文件对应的主星形有向加权图;
S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;
S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;
S250基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图;
S300通过二分法算法简化所述主网络模型及若干子网络模型;
S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;
S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
本实施例中,具体的,先根据本文文件的长度,在文本文件的预设位置,选取主基点,然后基于该主基点构造主星形有向加权图。比如可以在文本文件的3/5位置处作为主基点位置,或者文本文件的1/2位置处作为主基点位置。而对于子网络的个数也是根据文本文件的长度来划分的。如果文本文件的长度特别长,那么可以将该文本文件划分为多个子文本,从而获得多个子网络模型;如果文本文件不是很长,那么就可以只划分成两个子文本,比如将文本文件等分成两个子文本,进而获得两个子网络模型。每个子文本的长度不能大于预设的参考文本长度,如此,对于大文本文件,则可以更多保留原始文本特征信息。也便于与其它文本进行相似度比较,除了主网络模型对应的文本文件特征向量进行相似度比较外,还可以采用子网络模型对应的文本文件特征向量进行相似度比较,提高相似度对比的准确率。
本发明方法的另一实施例,在上述实施例的基础上,具体举例了如何基于各基点构造相应的星形有向加权图,具体的,如图3所示,包括:
S100获取文本文件的长度;
S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;
S221扫描所述文本文件中的关键词,获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置;
S222根据获取的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图,其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离;
S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;
S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;
S251扫描所述子文本中的关键词,获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置;
S252根据获取的关键词在所述子文本中出现的次数和位置,将所述子文本映射为子星形有向加权图,其中,所述子星形有向加权图的中心节点为所述子基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离;
S300通过二分法算法简化所述主网络模型及若干子网络模型;
S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;
S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
上述实施例中,基于主基点,构造了整个文本文件的主星形有向加权图(主网络模型),同样的基于每个子基点,构造了对应的子文本的子星形有向加权图(子网络模型)。在星形有向加权图中(主星形有向加权图或子星形有向加权图),相同节点出现的次数代表相同关键词在相对应文本文件中出现的次数。如果一个关键词在该对应的文本文件中出现的次数大于1,那么该关键词将对应所述星形有向加权图中的多个节点。
我们以主基点设置在文本文件的中心位置为例,根据扫描的关键词在所述文本文件中出现的次数和相对于主基点的位置将所述文本文件映射为主星形有向加权图(如图4所示),假设关键词集为K=[k1,k2,…,kn],用F=[f1,f2,…,fn]表示所有关键词的出现次数(n大于等于1,小于文本长度),用Wi=[wi1,wi2,…,win]表示每个关键词到主基点的权值,其中n=fi。主星形有向加权图的中心节点为整篇文本的中心位置,其中主星形有向加权图中每个节点代表一个关键词,相同的节点出现的次数表示关键词在文本中出现的次数,权值表示关键词到基点的距离,在主基点之前的关键词与主基点的权值为负值,反之为正值。也就是说所述主星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述主基点的位置pi出现,则在所述主星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述主基点的距离,若关键词ki在所述文本文件中多次出现,则在所述主星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述主基点的距离。
此外,在所述主星形有向加权图中,若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述主基点的距离权值win为负值,且在所述主星形有向加权图中加一条由各节点指向所述中心节点的有向边;若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述主基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。
同样的,子星形有向加权图与主星形有向加权图类似,根据扫描的关键词在所述子文本中出现的次数和相对于子基点的位置将所述子文本映射为子星形有向加权图。子星形有向加权图中每个节点代表一个关键词,相同的节点出现的次数表示关键词在该子文本中出现的次数,权值表示关键词到该子基点的距离,在子基点之前的关键词与子基点的权值为负值,则在所述主星形有向加权图中加一条由各节点(相当于关键词)指向所述中心节点(相当于子基点)的有向边;反之为正值,则在所述子星形有向加权图中加一条由所述中心节点指向各节点的有向边。
较佳的,在上述实施例中,选取主基点或者子基点的位置,均可采用二分法算法,具体的:
主基点选取:基于二分法算法,根据所述所述文本文件的长度,将文本文件的二分之一的位置作为主基点;
子基点选取:获取每一子文本的长度;基于二分法算法,根据所述子文本的长度,将所述子文本的二分之一的位置作为所述子文本的子基点。
上述任一实施例中,如图5所示,所述步骤S300包括:
S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合;
S320根据二分法算法,选取所述权值集合中位置处于中间位置的权值作为中间权值,并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值,求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值;
S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,获得一新的权值集合;
S340判断所述新的权值集合中的权值数量是否大于2,若是,返回步骤S320;否则,进入步骤S350;
S350求取所述新的权值集合中剩余的两个权值的平均值作为所述关键词对应的唯一权值;
S360根据各关键词对应的唯一权值,获取到简化后的主星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的主星形有向加权图的有向边权值;
S370采用步骤S310-S350同样的方法,获取到简化后的每个子星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的子星形有向加权图的有向边权值。
具体的,我们以求取一子星形网络中某一关键词对应的唯一权值为例,假如K1关键词出现了十次,权值为W1=[-32,-28,-18,-10,-6,6,8,12,20,28],采用上述的方法,可获得关键词K1在子星形网络中对应的唯一权值。具体如图6所示(为便于计算,计算结果按四舍五入)。通过这个方法,可以获得子星形网络中每个关键词对应的唯一权值,从而获得简化后的加权有向图,即通过二分法将相同的关键词对应的节点简化为一个节点,最终得到一个简化的有向加权星形网络图(如图7所示)。
较佳的,上述任一实施例中,所述步骤S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量包括:S410根据简化后的主星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为主文本的特征向量。
同样的,所述步骤S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量包括:S510根据简化后的每个子星形有向加权图的属性和记录的关键词出现次数,将对应的子文本映射为子文本的特征向量。
具体的,上述特征向量(文本文件映射的主文本的特征向量或者子文本文件映射的子文本的特征向量)可表示为:R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,R(D)表示特征向量;size表示所述简化后的星形有向加权图中所有关键词的个数;in-degree表示所述简化后的星形有向加权图中基点的入度节点;in-weight表示所述简化后的星形有向加权图中基点的入度节点对应的各权值;out-degree表示所述简化后的星形有向加权图中基点的出度节点;out-weight表示所述简化后的星形有向加权图中基点的出度节点对应的各权值;f表示所述简化后的星形有向加权图中的各节点出现的次数。这里的简化后的星形有向加权图,对于文本文件映射的主文本的特征向量,则是针对简化后的主星形有向加权图而来,而子文本映射的子文本的特征向量,则是针对简化后的子星形有向加权图而来。图6中如果不记kn,则其特征向量为R(D)=[6,2,w3,w4,4,w1,w2,w5,w6,10,2,1,1,1,1]。
本发明的另一实施例,在上述任一实施例的基础上,在所述步骤S500之后还增加了步骤:S600将所述文本文件中每个网络模型对应的文本特征向量与另一文本文件中每个网络对应的文本特征向量进行比较,获取这两个文本文件的相似性。
具体的,所述步骤S600包括:
S610将两个对比文本文件的主网络模型对应的文本特征向量进行相似度比较;
S620判断所述两个对比文本文件的主网络模型对应的文本特征向量的相似度是否小于第一相似度预设值;若是,进入步骤S630;
S630将两个对比文本文件的任意子网络模型对应的文本特征向量进行相似度比较;
S640判断所述两个对比文本文件的任意子网络模型对应的文本特征向量的相似度是否大于第二相似度预设值,若是,进入步骤S650;
S650判断所述两个对比文本文件相似。
相对于只构造一个整体的网络模型,本发明还根据文本文件的长度构造相应数量的子网络模型,从而可以更好的保存文本文件的原始特征信息,此外,在进行文件相似度对比时,还可以进一步用通过文本文件的子网络模型获取的文本特征向量来与另一文本文件的通过网络模型(主网络模型或者子网络模型)获取的文本特征向量来对比。单用文本文件的主网络模型获取的特征向量来进行对比,获取的相似度对比的准确率不一定准确,为了提高相似度对比的准确率,还需要采用通过子网络模型获取的文本特征向量,并将其与另一文件的文本特征向量进行对比。
本发明的另一实施例,以获取到文本文件长度后,确定该文本文件需要设定一个主网络模型,2个子网络模型为例。首先定义文本的中心基点,中心基点将文本分为上下两部分,并根据中心基点定义左右基点,其次扫描文本中的关键词,并计算其到中心基点的距离(间隔的单词数),关键词出现在基点上文时,其到基点的距离为负值,反之为正值,并根据距离值将关键词集划分为左词集,右词集。在各词集的基础上,将文本抽象成对应的星形有向加权图,各基点作为图的中心节点。简化有向加权图,最终分别得到节点数为N+1,N左+1,N右+1的有向加权图,N,N左,N右分别表示总关键词个数,左关键词个数,右关键词个数。最后根据各星形有向加权图将文本映射为三个特征向量。具体的:
(1)计算中心特征向量:计算文本的长度,取文本二分之一的位置作为中心基点,根据记录的关键词在所述文本文件中出现的次数和相对于基点的位置将所述文本文件映射为星形有向加权图(如图4所示),假设关键词集为K=[k1,k2,…,kn],用F=[f1,f2,…,fn]表示所有关键词的出现次数(n大于等于1,小于文本长度),用Wi=[wi1,wi2,…,win]表示每个关键词到基点的权值,其中n=fi。星形有向加权图的中心节点为整篇文本的中心位置,其中有向加权图中每个节点代表一个关键词,相同的节点出现的次数表示关键词在文本中出现的次数,权值表示关键词到基点的距离,在基点之前的关键词与基点的权值为负值,反之为正值。
简化加权有向图:通过二分法将相同的关键词对应的节点简化为一个节点,最终得到一个简化的有向加权星形网络图(如图7所示)。
根据所得星形有向加权图的属性与记录的关键词出现次数,将所述文本映射为文本的特征向量,即R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中size表示关键词的个数,in-degree表示基点的入度,in-weight表示入度节点的权值,out-degree表示基点的出度,out-weight表示出度节点的权值,f表示每个节点的出现次数。
(2)计算左特征向量:在中心基点的基础上计算出左基点,计算原则:以开始为起点,以中心基点为终点,求其中点,所得中点即为左基点。将到中心基点距离为负值的关键词划分为左词集,例如:(1)中关键词,K1出现了10次,其中有5次距中心基点的距离为负值,则K1部分会被划分到左词集,记为K1,当被划分到左词集后,需重新计算K1到左基点的距离,则K1的权值变化会出现以下情况[-32,-28,-18,-10,-6]→[-8,-9,6,7,12](假设值),在此基础上构健网络模型(构建思想与步骤(1)一样),并用二分法简化此网络模型,最后得到左特征向量R(D)左。
(3)计算右特征向量:在中心基点的基础上计算出右基点,计算原则:以中心基点为起点,以左基点为终点,求其中点,所得中点即为左基点。将到中心基点距离为正值的关键词划分为右词集,例如:(1)中关键词,K1出现了10次,其中有5次距中心基点的距离为正值,则K1部分会被划分到右词集,记为K1,当被划分到右词集后,需重新计算K1到右基点的距离,则K1的权值变化会出现以下情况[6,8,12,20,28]→[-12,-16,2,10,18](假设值),在此基础上构健网络模型(构建思想与步骤(1)一样),并用二分法简化此网络模型,最后得到右特征向量R(D)右。
本实施例中,通过二分法首先需要获知文本的长度,从而求得文本的中心基点,再基于此中心基点计算出文本的上半部分的中心基点,即左基点,同理计算出文本的右基点。其次:(1),需要知道关键词集的大小,以及每个关键词相对于中心基点的距离,距离将会以权值的形式体现在模型中。对网络模型进行简化时需要再次应用二分法来抽像多次出现的同一关键词,每个关键词的出现次数决定了抽像过程的迭代次数。模型抽像成功后需要将其转化为文本特征向量R(D)中,本文中称为中心特征向量,D表示文本。(2)基于中心基点与关键词到中心基点的距离将关键词集划分为两个关键词集,即分别为左关键词集,右关键词集,划分原则:在计算关键词到中心基点的距离时,规定在中心基点的左(上)边的关键词的距离为负值,反之为正值,将所有距离为负值对应的关键词划分至左关键词集,反之划分至右关键词集。(3)分别针对左右词集相对于左右基点执行(1)操作,最终抽象得到左文本特征向量R(D)左,右文本特征向量R(D)右。过以下公式计算两个文本三个对应的特征向量之间的相似性:
本发明实施例理解简单,且覆盖了整篇文本,文本的信息全面。另外,本文在选取基点时,基点的数量控制在三个,这样保证了每个网络的结点不至于太少,从而保证了研究的意义,因为在过分细化情况下,可能出现网络结点数偏少的问题。最后,本实施例,根据文本的长度基于三个基点构造了三个网络,这样一方面可以从多个特征向量来分析文本的相似性,另一方面还可以对文本的部分进行相似性比较。
另一方面,本发明还公开了一种文本模式识别系统,该系统可采用本发明所述的文本模式识别方法,具体的,本发明的文本模式识别系统,如图8所示,包括:长度获取模块10,用于获取文本文件的长度;网络模型构造模块20,用于根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;网络模型简化模块30,用于通过二分法算法简化所述主网络模型及若干子网络模型;特征向量获取模块40,用于根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;及根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
上述实施例中,网络模型构造模块,具体的,包括主网络模型构造子模块及子网络模型构造子模块,其中,主网络模型构造子模块根据预设的第一规则,将所述文本文件的预设位置作为主基点,然后基于该主基点构造所述文本文件对应的主星形有向加权图。具体的,可以基于二分法算法,选取文本文件的中间位置作为主基点,然后扫描文本文件中的关键词,获取每个关键词在该文本文件中出现的次数及相对于该主基点的位置,然后根据获取的关键词在该文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图。其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离。同样的,子网络模型构造模块则根据文本文件的长度,将文本文件划分为若干子文本,然后根据预设的第二规则,将子文本的预设位置设置一个子基点,然后基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图。
较佳的,上述的第一预设规则和第二预设规则可以是二分法算法,也就是说取文本文件的中间位置作为主基点,取每个子文本的中间位置作为子基点。构造主星形网络或者子星形网络,则是根据扫描的关键词在对应文本中出现的次数和相对于基点的位置映射而来。具体可参见前面的相应的方法实施例。同样的,本发明的网络模型简化模块,同样可参见前面的关于通过二分法算法简化主网络模型及若干子网络模型的方法实施例。
本发明的装置实施例与本发明的方法实施例对应,因此,本发明的方法实施例的技术细节同样也适用于本发明的装置实施例,为减少重复,此处不再赘叙,参照本发明方法实施例即可。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文本模式识别方法,其特征在于,包括:
S100获取文本文件的长度;
S200根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;
S300通过二分法算法简化所述主网络模型及若干子网络模型;
S400根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;
S500根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
2.根据权利要求1所述的一种文本模式识别方法,其特征在于,所述步骤S200包括:
S210根据预设的第一规则,将所述本文文件的预设位置作为主基点;
S220基于所述主基点,构造所述文本文件对应的主星形有向加权图;
S230根据所述文本文件的长度,将所述文本文件划分为若干子文本;其中,每一子文本的文本长度不大于预设的参考文本长度;
S240基于预设的第二规则,在每一子文本中的预设位置设置一子基点;
S250基于每一子文本的子基点,构造每一子文本对应的子星形有向加权图。
3.根据权利要求2所述的一种文本模式识别方法,其特征在于,所述步骤S220包括:
S221扫描所述文本文件中的关键词,获取每个关键词在所述文本文件中出现的次数和相对于所述主基点的位置;
S222根据获取的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为主星形有向加权图,其中,所述主星形有向加权图的中心节点为所述主基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述主基点的距离;
所述步骤S250包括:
S251扫描所述子文本中的关键词,获取每个关键词在所述子文本中出现的次数和相对于所述子基点的位置;
S252根据获取的关键词在所述子文本中出现的次数和位置,将所述子文本映射为子星形有向加权图,其中,所述子星形有向加权图的中心节点为所述子基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述子基点的距离。
4.根据权利要求2所述的一种文本模式识别方法,其特征在于,所述步骤S210包括:
S211基于二分法算法,根据所述所述文本文件的长度,将文本文件的二分之一的位置作为主基点;
所述步骤S240包括:
S241获取每一子文本的长度;
S242基于二分法算法,根据所述子文本的长度,将所述子文本的二分之一的位置作为所述子文本的子基点。
5.根据权利要求3所述的一种文本模式识别方法,其特征在于,所述步骤S300包括:
S310获取所述主星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述主星形有向加权图中各有向边的权值集合;
S320根据二分法算法,选取所述权值集合中位置处于中间位置的权值作为中间权值,并求取所述权值集合中最大权值和所述中间权值的均值作为第一新权值,求取所述权值集合中最小权值和所述中间全会的均值作为第二新权值;
S330将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,获得一新的权值集合;
S340判断所述新的权值集合中的权值数量是否大于2,若是,返回步骤S320;否则,进入步骤S350;
S350求取所述新的权值集合中剩余的两个权值的平均值作为所述关键词对应的唯一权值;
S360根据各关键词对应的唯一权值,获取到简化后的主星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的主星形有向加权图的有向边权值;
S370采用步骤S310-S350同样的方法,获取到简化后的每个子星形有向加权图;其中所述关键词对应的唯一权值为所述关键词对应的节点在简化的子星形有向加权图的有向边权值。
6.根据权利要求1所述的一种文本模式识别方法,其特征在于,
所述步骤S400包括:
S410根据简化后的主星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为主文本的特征向量;
所述步骤S500包括:
S510根据简化后的子星形有向加权图的属性和记录的关键词出现次数,将所述子文本映射为子文本的特征向量。
7.根据权利要求6所述的一种文本模式识别方法,其特征在于,所述特征向量为:
R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,R(D)表示特征向量;
size表示所述简化后的星形有向加权图中所有关键词的个数;
in-degree表示所述简化后的星形有向加权图中基点的入度节点;
in-weight表示所述简化后的星形有向加权图中基点的入度节点对应的各权值;
out-degree表示所述简化后的星形有向加权图中基点的出度节点;
out-weight表示所述简化后的星形有向加权图中基点的出度节点对应的各权值;
f表示所述简化后的星形有向加权图中的各节点出现的次数。
8.根据权利要求1-7任一项所述的一种文本模式识别方法,其特征在于,还包括:
S600将所述文本文件中每个网络模型对应的文本特征向量与另一文本文件中每个网络对应的文本特征向量进行比较,获取这两个文本文件的相似性。
9.根据权利要求8所述的一种文本模式识别方法,其特征在于,所述步骤S600包括:
S610将两个对比文本文件的主网络模型对应的文本特征向量进行相似度比较;
S620判断所述两个对比文本文件的主网络模型对应的文本特征向量的相似度是否小于第一相似度预设值;若是,进入步骤S630;
S630将两个对比文本文件的任意子网络模型对应的文本特征向量进行相似度比较;
S640判断所述两个对比文本文件的任意子网络模型对应的文本特征向量的相似度是否大于第二相似度预设值,若是,进入步骤S650;
S650判断所述两个对比文本文件相似。
10.一种应用权利要求1-9任一项所述的文本模式识别方法的文本模式识别系统,其特征在于,包括:
长度获取模块,用于获取文本文件的长度;
网络模型构造模块,用于根据所述文本文件的长度,将所述文本文件抽象成一个主网络模型及若干子网络模型;其中,所述主网络模型及若干网络模型中均含有一个基点;
网络模型简化模块,用于通过二分法算法简化所述主网络模型及若干子网络模型;
特征向量获取模块,用于根据简化后的主网络模型,获取所述主网络模型对应的文本特征向量;及根据简化后的每个子网络模块,获取每个子网络模型对应的文本特征向量。
CN201810078770.6A 2018-01-26 2018-01-26 一种文本模式识别方法及系统 Pending CN108255797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810078770.6A CN108255797A (zh) 2018-01-26 2018-01-26 一种文本模式识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810078770.6A CN108255797A (zh) 2018-01-26 2018-01-26 一种文本模式识别方法及系统

Publications (1)

Publication Number Publication Date
CN108255797A true CN108255797A (zh) 2018-07-06

Family

ID=62742593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810078770.6A Pending CN108255797A (zh) 2018-01-26 2018-01-26 一种文本模式识别方法及系统

Country Status (1)

Country Link
CN (1) CN108255797A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN103123685A (zh) * 2011-11-18 2013-05-29 江南大学 文本模式识别方法
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107622048A (zh) * 2017-09-06 2018-01-23 上海斐讯数据通信技术有限公司 一种文本模式识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN103123685A (zh) * 2011-11-18 2013-05-29 江南大学 文本模式识别方法
WO2017167067A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107622048A (zh) * 2017-09-06 2018-01-23 上海斐讯数据通信技术有限公司 一种文本模式识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢凤宏等: "基于复杂网络社团划分的文本聚类方法", 《计算机工程与设计》 *

Similar Documents

Publication Publication Date Title
CN112613602A (zh) 基于知识感知超图神经网络的推荐方法及系统
KR102654884B1 (ko) 대화형 정보 제공 서비스 방법 및 이를 위한 장치
CN110213164B (zh) 一种基于拓扑信息融合的识别网络关键传播者的方法及装置
CN108809697A (zh) 基于影响力最大化的社交网络关键节点识别方法及系统
KR20130116982A (ko) Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
Charilas et al. A unified network selection framework using principal component analysis and multi attribute decision making
Yang et al. Multi-attribute ranking method for identifying key nodes in complex networks based on GRA
CN108470251B (zh) 基于平均互信息的社区划分质量评价方法及系统
CN107889195A (zh) 一种区分业务的自学习异构无线网络接入选择方法
Demidovskij Comparative analysis of MADM approaches: ELECTRE, TOPSIS and multi-level LDM methodology
Huang et al. Distributed solution of GNEP over networks via the Douglas-Rachford splitting method
CN108255797A (zh) 一种文本模式识别方法及系统
CN103646035B (zh) 一种基于启发式方法的信息搜索方法
CN108400889A (zh) 一种基于局部最优化的社区发现方法
Guo et al. A Large-Scale Group Decision-Making Method Fusing Three-Way Clustering and Regret Theory Under Fuzzy Preference Relations
CN111884839A (zh) 基于节点传播能力的偏向性随机行走的网络信息传播方法、装置及存储介质
Karakostas Bridging the gap between multi-objective optimization and spatial planning: a new post-processing methodology capturing the optimum allocation of land uses against established transportation infrastructure
Jungum et al. Device selection decision making using multi-criteria for offloading application mobile codes
CN110796561B (zh) 基于三跳速度衰减传播模型的影响力最大化方法及装置
CN112929445B (zh) 一种面向推荐系统的链路预测方法、系统及介质
Han et al. Opportunistic coded distributed computing: An evolutionary game approach
CN112765413A (zh) 一种基于用户特征的图数据查询推荐方法
KR20200094674A (ko) 에지 프루닝을 이용한 그래프 희소화 방법 및 장치
CN109902728A (zh) 一种基于平均互信息的快速社区发现方法及系统
CN111464343B (zh) 一种基于平均互信息的最大派系贪心扩展社区发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180706

WD01 Invention patent application deemed withdrawn after publication