CN107622048B - 一种文本模式识别方法及系统 - Google Patents

一种文本模式识别方法及系统 Download PDF

Info

Publication number
CN107622048B
CN107622048B CN201710794150.8A CN201710794150A CN107622048B CN 107622048 B CN107622048 B CN 107622048B CN 201710794150 A CN201710794150 A CN 201710794150A CN 107622048 B CN107622048 B CN 107622048B
Authority
CN
China
Prior art keywords
star
text file
shaped
directed
weighted graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710794150.8A
Other languages
English (en)
Other versions
CN107622048A (zh
Inventor
汪成林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guiji Intelligent Technology Co ltd
Original Assignee
Nanjing Guiji Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guiji Intelligent Technology Co ltd filed Critical Nanjing Guiji Intelligent Technology Co ltd
Priority to CN201710794150.8A priority Critical patent/CN107622048B/zh
Publication of CN107622048A publication Critical patent/CN107622048A/zh
Application granted granted Critical
Publication of CN107622048B publication Critical patent/CN107622048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本模式识别方法,包括以下步骤:根据二分法算法获取文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图;根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量,整个运算过程简单有效,从而便于快速地进行文本分析。

Description

一种文本模式识别方法及系统
技术领域
本发明属于文本识别技术领域,特别涉及接入无线网络的文本模式识别方法及系统。
背景技术
随着网络的发展,如何从大量的文本中快速获取有用的信息成为信息技术领域和模式识别技术领域的重要研究课题之一。在实现文本模式识别技术方案时,需要将文本文件抽象成能过通过计算机操作的模型。现有技术中的文本模式识别方法,通常采用计算两两关键词之间的距离来构造有向加权网络模型,并通过加权处理来简化有向加权网络模型,最后得到简化后的网络模型的矩阵,并提出文本的特征向量。但是,这种方法的构造模型过程复杂繁琐,计算量大,并且会导致大量的文本特征丢失,因此也会影响后面的文本相似性的比较和分类的正确性。
因此,如何快速简单实现文本模式识别,更有效保存原始文本的特征信息,成为亟待解决的问题。
发明内容
本发明提供的技术方案如下:
本发明提供了一种文本模式识别方法,包括以下步骤:
S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
S3、根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。
优选地,步骤S1具体包括:
计算所述文本文件的长度;
根据所述所述文本文件的长度,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。
优选地,步骤S2具体包括:
所述星形有向加权图中,若一关键词在所述文本文件中出现的次数大于1,那么所述关键词对应所述星形有向加权图中的多个节点。
优选地,步骤S2具体还包括:
若所述文本文件的关键词集为K=[k1,k2,……,kn],
用F=[f1,f2,……,fn]表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,
用Wi=[wi1,wi2,…,win]表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi
所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。
优选地,步骤S2具体还包括:
若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述基点的距离权值win为负值,且在所述星形有向加权图中加一条由各节点指向所述中心节点的有向边;
若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。
优选地,所述步骤S3具体包括:
获取所述星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述星形有向加权图中各有向边的权值集合;
获取所述权值集合中权值大小处于中间位置的中间权值,并将所述权值集合中的最大权值和该中间权值相加后再除以2得到第一新权值,将所述权值集合中的最小权值和该中间权值相加后再除以2得到第二新权值,然后将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,得到一新的权值集合,根据相同的法则对新的权值集合进行计算,依次类推,直至获取到所述关键词对应唯一的权值,所述权值为所述关键词对应的节点在简化的星形有向加权图的有向边权值,获取到简化星形有向加权图。
优选地,映射所述文本文件的文本特征向量R(D)为,
R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],
其中,
size表示所述简化星形有向加权图中所有关键词的个数;
in-degree表示所述简化星形有向加权图中基点的入度节点;
in-weight表示所述简化星形有向加权图中基点的入度节点对应的各权值;
out-degree表示所述简化星形有向加权图中基点的出度节点;
out-weight表示所述简化星形有向加权图中基点的出度节点对应的各权值;
f表示所述简化星形有向加权图中的各节点出现的次数。
优选地,所述入度节点表示所述简化星形有向加权图中的有向边方向由各节点指向中心节点的有向边的条数;
所述出度节点表示所述简化星形有向加权图中的有向边方向由中心节点指向各节点的有向边的条数。
优选地,若有文本文件D1,D2…Dn,得到相应的文本特征向量R(D1),…,R(Dn),
所述文本模式识别方法还包括:
利用如下的公式计算两个文本文件Dx,Dy之间的相似性,
Figure BDA0001399930370000041
其中,x、y大于等于1小于n。
本发明通过了一种文本模式识别系统,所述系统包括:
记录模块,用于根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
处理模块,用于根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
简化模块,用于根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
文本特征向量模块,用于根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。
与现有技术相比,本发明提供的文本模式识别方法及系统,具有以下有益效果:
1)、通过二分法机制将文本文件建立一个基点,并将文本文件抽象成星形有向加权网络模型,能够更多更有效的保存了文本文件的特征信息,使得在后续的文本分类以及文本相似性计算时能够获得更好的结果。
2)、根据二分法机制将所述星形有向加权网络模型进行简化,将所述星形有向加权网络模型的多次出现的同一个关键词抽象成一个节点,使所述星形有向加权网络模型更简洁,整个运算过程简单,并且运算速度快,从而便于快速地进行分析。
3)、根据简化的星形有向加权网络模型,将文本文件应设为文本特征向量,比如,所述文本特征向量包括关键词的个数、出现的频率、星形有向加权网络模型基点的入度以及入度各节点的权值、星形有向加权网络模型基点的出度以及出度各节点的权值等,过程简单快速,并且能够更多更有效的保存了原始文本文件的特征信息。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种文本模式识别方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种文本模式识别方法的流程示意图;
图2是本发明一具体实施例的星形有向加权图的示意图;
图3是本发明再一具体实施例的简化星形有向加权图的示意图;
图4是本发明一种文本模式识别系统的组成结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
如图1所示,根据本发明的一个实施例,一种文本模式识别方法,所述方法的步骤包括:
S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
S3、根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。
优选地,所述步骤S1具体包括:
计算所述文本文件的长度;
根据所述所述文本文件的长度,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。
在具体实施过程中,当获取文本文件后,计算文本文件的长度,并根据所述文本文件的长度,根据二分法机制,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。若某一关键词在所述文本文件中出现多次,则每次出现的相对于所述基点的位置都要记录下来,同时记录每个关键词出现的次数。
在具体实施过程中,根据记录的关键词在所述文本文件中出现的次数和相对于所述基点的位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离。所述星形有向加权图中,相同节点出现的次数代表相同关键词在所述文本文件中出现的次数。如果一个关键词在所述文本文件中出现的次数大于1,那么其将对应所述星形有向加权图中的多个节点。
本发明的一具体实施例,若所述文本文件的关键词为K=[k1,k2,……,kn],
F=[f1,f2,……,fn],表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,
Wi=[wi1,wi2,…,win],表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi,所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。
本发明的一具体实施例,在所述星形有向加权图中,若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述基点的距离权值win为负值,且在所述星形有向加权图中加一条由各节点指向所述中心节点的有向边;若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。
本发明的又一具体实施例,如图2所示的星形有向加权图的示意图。图中的中心节点base表示基点,比如,以所述文本文件的长度的二分之一位置处为中心节点。所述星形有向加权图中每个节点代表一个关键词kn,如图2中的k1,k2,……,kn,用以表示所述文本文件中出现的关键词集。关键词k1在所述文本文件中出现的次数为3次,那么关键词k1将对应所述星形有向加权图2中的对应3个节点,关键词k2在所述文本文件中出现的次数为2次,那么关键词k2将对应所述星形有向加权图2中的2个节点。关键词k3在所述文本文件中相对于所述基点的位置pi出现,且所述关键词k3在所述文本文件的基点的前面出现,则在所述星形有向加权图中加一条k3节点指向中心节点的有向边w31,有向边w31的权值为负值,所述权值代表k3的位置pi与所述基点的距离;关键词k6在所述文本文件中相对于所述基点的位置pj出现,且所述关键词在所述文本文件的基点的后面出现,则在所述星形有向加权图中加一条由中心节点指向节点k6的有向边w61,有向边w61的权值为正值,所述权值代表k6的位置pj与所述基点的距离。关键词k1在所述文本文件中出现3次,则在所述星形有向加权图设置3个节点,根据关键词k1在所述文本文件中出现的位置,在所述星形有向加权图中设置3条有向边w11、w12、w13,3条有向边w11、w12、w13的权值分别对应于所述关键词k1在所述文本文件中出现的位置相对于所述基点的距离。
通过该技术方案,通过二分法将文本文件建立一个基点,将文本文件抽象成星形有向加权网络模型,能够更多更有效的保存了文本文件的特征信息,使得在后续的文本分类以及文本相似性计算时能够得到更好的结果。
根据步骤S2获取星形有向加权图,通过二分法机制,将所述星形有向加权图中的相同关键词对应的节点简化为一个节点,得到一个简化的星形有向加权图。
具体地,获取所述星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述星形有向加权图中各有向边的权值集合;
获取所述权值集合中权值大小处于中间位置的中间权值,并将所述权值集合中的最大权值和该中间权值相加后再除以2得到第一新权值,将所述权值集合中的最小权值和该中间权值相加后再除以2得到第二新权值,然后将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,得到一新的权值集合,根据相同的法则对新的权值集合进行计算,依次类推,直至获取到所述关键词对应唯一的权值,所述权值为所述关键词对应的节点在简化的星形有向加权图的有向边权值,获取到简化星形有向加权图。将所述星形有向加权图的所有相同的节点按照上述方法进行简化,从而得到简化后的星形有向加权图,如图3所示的简化星形有向加权图的示意图。
本发明以一具体实施例来说明根据二分法机制获取简化的星形有向加权图。假设在星形有向加权图中,关键词k1在所述文本文件中出现5次,即在所述星形有向加权图中关键词k1有5个节点,且根据关键词k1在所述文本文件中出现的位置和相对于所述基点的距离,根据所述星形有向加权图中的各有向边的权值按照从小到大的顺序排列,得到关键词k1在所述星形有向加权图中各有向边的权值集合,
W1=[-12,-6,6,8,12],
下面介绍根据二分法机制,如何获取将关键词k1对应的5各节点简化为一个节点后,在简化的星形有向加权图中有向边W1的权值。
第一步,在W1中获取权值大小在中间的有向边权值为6,以权值6为基准,将权值最小的-12和中间权值6相加后再除以2得到一权值-3,权值最大的12和中间权值6相加后再除以2得到另一权值9,
计算(12+6)/2=9,
(-12+6)/2=-3,
并且将各权值再次按照从小到大的顺序排列,获得
W1=[-6,-3,8,9],
第二步,继续依照步骤一的原则,计算
(-6-3)/2=-4.5,
(-3+9)/2=3,
并且将各权值再次按照从小到大的顺序排列,获得
W1=[-4.5,3,8],
第三步,继续依照步骤一的原则,计算
(-4.5+3)/2=-0.75,
(3+8)/2=5.5,
并且将各权值再次按照从小到大的顺序排列,获得
W1=[-0.75,5.5],
第四步,继续依照步骤一的原则,计算
(-0.75+5.5)/2=2.4,
最终获得W1=[2.4],从而获得关键词k1的在简化的星形有向加权图中有向边的权值为2.4。
通过该技术方案,根据二分法机制,将所述星形有向加权网络模型进行简化,通过二分法将所述星形有向加权网络模型的多次出现的同一个关键词抽象成一个节点,使所述星形有向加权网络模型更简洁,整个运算过程简单,并且运算速度快,从而便于快速地进行分析。
根据步骤S3获取的所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本映射为文本特征向量。本发明的一具体实施例,将所述文本文件映射为文本特征向量R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,size表示所述简化星形有向加权图中所有关键词的个数;in-degree表示所述简化星形有向加权图中基点的入度节点,即表示简化星形有向加权图中的有向边方向由各节点指向中心节点的有向边的条数;in-weight表示所述简化星形有向加权图中基点的入度节点对应的各权值,也就是简化星形有向加权图中的有向边的方向由各节点指向中心节点的各有向边对应的权值;out-degree表示所述简化星形有向加权图中基点的出度节点,即表示简化星形有向加权图中的有向边方向由中心节点指向各节点的有向边的条数;out-weight表示所述简化星形有向加权图中基点的出度节点对应的各权值,也就是简化星形有向加权图中的有向边的方向由中心节点指向各节点的各有向边对应的权值;f表示所述简化星形有向加权图中的各节点出现的次数,该值可从所述星形有向加权图中相同关键词对应的节点数,即对应地表示各关键词在所述文本文件中出现的次数。
本发明的一具体实施例,以图3所示的简化星形有向加权图为例,将kn节点忽略,所述简化星形有向加权图中关键词个数为6个,其中,入度节点为3个,分别为关键词k1、k3、k4,这三个节点对应有向边的权值分别为w1、w3、w4,出度节点为3个,分别为关键词k2、k5、k6,这三个节点对应有向边的权值分别为w2、w5、w6。从图2中可以看出,关键词k1、k2、k3、k4、k5、k6对应的节点个数分别为3、2、1、1、1、1,则所述文本特征向量R(D)=[6,3,w1,w3,w4,3,w2,w5,w6,3,2,1,1,1,1]。
根据该技术方案,通过简化的星形有向加权网络模型,将文本文件映设为文本特征向量,比如,所述文本特征向量包括关键词的个数、出现的频率、星形有向加权网络模型基点的入度以及入度各节点的权值、星形有向加权网络模型基点的出度以及出度各节点的权值等,能够更多更有效的保存了文本文件的特征信息。
本发明的一实施例,若有文本文件D1,D2…Dn,得到相应的文本特征向量R(D1),…,R(Dn),
利用如下的公式计算两个文本文件Dx,Dy之间的相似性,
Figure BDA0001399930370000111
其中,x、y大于等于1小于n。
通过该发明中的技术方案获取文本文件映射对应的文本特征向量,根据文本相似度计算公式,获取文本文件的相似度,进一步有效提高文本文件的分析。
如图4所示,根据本发明的一个实施例,一种文本模式识别系统,所述系统包括:
记录模块40,用于根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
处理模块41,用于根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
简化模块42,用于根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
文本特征向量模块43,用于根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量。
在具体实施过程中,当获取文本文件后,通过记录模块40计算文本文件的长度,并根据所述文本文件的长度和二分法机制,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置。
在处理模块41中,根据记录的关键词在所述文本文件中出现的次数和相对于所述基点的位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离。如果一个关键词在所述文本文件中出现的次数大于1,那么其将对应所述星形有向加权图中的多个节点。
本发明的一具体实施例,若所述文本文件的关键词为K=[k1,k2,……,kn],
F=[f1,f2,……,fn],表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,
Wi=[wi1,wi2,…,win],表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi,所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。
本发明的一具体实施例,在所述星形有向加权图中,若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述基点的距离权值win为负值,且在所述星形有向加权图中加一条由各节点指向所述中心节点的有向边;若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。
根据处理模块41中获取星形有向加权图,通过简化模块42,根据二分法机制,将所述星形有向加权图中的相同关键词对应的节点简化为一个节点,得到一个简化的星形有向加权图。具体地,获取所述星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述星形有向加权图中各有向边的权值集合;获取所述权值集合中权值大小处于中间位置的中间权值,并将所述权值集合中的最大权值和该中间权值相加后再除以2得到第一新权值,将所述权值集合中的最小权值和该中间权值相加后再除以2得到第二新权值,然后将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,得到一新的权值集合,根据相同的法则对新的权值集合进行计算,依次类推,直至获取到所述关键词对应唯一的权值,所述权值为所述关键词对应的节点在简化的星形有向加权图的有向边权值,获取到简化星形有向加权图。将所述星形有向加权图的所有相同的节点按照上述方法进行简化,从而得到简化后的星形有向加权图。
根据简化模块42获取的所述简化星形有向加权图的属性和记录的关键词出现次数,在文本特征向量模块43中将所述文本映射为文本特征向量。本发明的一具体实施例,将所述文本文件映射为文本特征向量R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],其中,size表示所述简化星形有向加权图中所有关键词的个数;in-degree表示所述简化星形有向加权图中基点的入度节点,即表示简化星形有向加权图中的有向边方向由各节点指向中心节点的有向边的条数;in-weight表示所述简化星形有向加权图中基点的入度节点对应的各权值,也就是简化星形有向加权图中的有向边的方向由各节点指向中心节点的各有向边对应的权值;out-degree表示所述简化星形有向加权图中基点的出度节点,即表示简化星形有向加权图中的有向边方向由中心节点指向各节点的有向边的条数;out-weight表示所述简化星形有向加权图中基点的出度节点对应的各权值,也就是简化星形有向加权图中的有向边的方向由中心节点指向各节点的各有向边对应的权值;f表示所述简化星形有向加权图中的各节点出现的次数,该值可从所述星形有向加权图中相同关键词对应的节点数,即对应地表示各关键词在所述文本文件中出现的次数。
根据该技术方案,将文本文件抽象成星形有向加权网络模型,并进行简化,能够更多更有效的保存了文本文件的特征信息,整个计算过程简单有效,能够快速的对文本文件进行分析。
综上所述,本发明二分制机制,将文本文件抽象成星形有向加权网络模型并进行简化,整个运算过程简单,并且速度快,能够快速的对文本文件进行分析,并且能够更多更有效的保存了文本文件的特征信息。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种文本模式识别方法,其特征在于,包括以下步骤:
S1、根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
S2、根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
S3、根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
S4、根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量;
其中,步骤S1包括:
计算所述文本文件的长度;
根据所述文本文件的长度,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
步骤S2包括:
所述星形有向加权图中,若一关键词在所述文本文件中出现的次数大于1,那么所述关键词对应所述星形有向加权图中的多个节点;
若所述文本文件的关键词集为K=[k1,k2,……,kn],
用F=[f1,f2,……,fn]表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,
用Wi=[wi1,wi2,…,win]表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi
所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。
2.如权利要求1所述的文本模式识别方法,其特征在于,步骤S2具体还包括:
若所述关键词ki在所述文本文件的基点的前面出现,则所述关键词的位置pi到所述基点的距离权值win为负值,且在所述星形有向加权图中加一条由各节点指向所述中心节点的有向边;
若所述关键词ki在所述文本文件的基点的后面出现,则所述关键词的位置pi到所述基点的距离权值win为正值,且在所述星形有向加权图中加一条由所述中心节点指向各节点的有向边。
3.如权利要求2所述的文本模式识别方法,其特征在于,所述步骤S3具体包括:
获取所述星形有向加权图中的相同节点对应的各有向边的权值,并将各有向边的权值按照从小到大的顺序排列,得到所述相同节点对应的关键词在所述星形有向加权图中各有向边的权值集合;
获取所述权值集合中权值大小处于中间位置的中间权值,并将所述权值集合中的最大权值和该中间权值相加后再除以2得到第一新权值,将所述权值集合中的最小权值和该中间权值相加后再除以2得到第二新权值,然后将所述第一新权值、第二新权值以及所述权值集合中剩余的其它权值进行从小到大的顺序排列,得到一新的权值集合,根据相同的法则对新的权值集合进行计算,依次类推,直至获取到所述关键词对应唯一的权值,所述权值为所述关键词对应的节点在简化的星形有向加权图的有向边权值,获取到简化星形有向加权图。
4.如权利要求3所述的文本模式识别方法,其特征在于,映射所述文本文件的文本特征向量R(D)为,
R(D)=[size,in-degree,in-weight,out-degree,out-weight,f],
其中,
size表示所述简化星形有向加权图中所有关键词的个数;
in-degree表示所述简化星形有向加权图中基点的入度节点;
in-weight表示所述简化星形有向加权图中基点的入度节点对应的各权值;
out-degree表示所述简化星形有向加权图中基点的出度节点;
out-weight表示所述简化星形有向加权图中基点的出度节点对应的各权值;
f表示所述简化星形有向加权图中的各节点出现的次数。
5.如权利要求4所述的文本模式识别方法,其特征在于,
所述入度节点表示所述简化星形有向加权图中的有向边方向由各节点指向中心节点的有向边的条数;
所述出度节点表示所述简化星形有向加权图中的有向边方向由中心节点指向各节点的有向边的条数。
6.如权利要求5所述的文本模式识别方法,其特征在于,若有文本文件D1,D2…Dn,得到相应的文本特征向量R(D1),…,R(Dn),
所述文本模式识别方法还包括:
利用如下的公式计算两个文本文件Dx,Dy之间的相似性,
Figure DEST_PATH_IMAGE002
其中,x、y大于等于1小于n。
7.一种文本模式识别系统,其特征在于,所述系统包括:
记录模块,用于根据二分法算法,将文本文件的一预设位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
处理模块,用于根据记录的关键词在所述文本文件中出现的次数和位置,将所述文本文件映射为星形有向加权图,其中,所述星形有向加权图的中心节点为所述基点,图中的每个节点代表一个关键词,图中每个节点至中心节点的有向边的权值表示对应的关键词的位置至所述基点的距离;
简化模块,用于根据二分法算法,将所述星形有向加权图化为简化星形有向加权图;
文本特征向量模块,用于根据所述简化星形有向加权图的属性和记录的关键词出现次数,将所述文本文件映射为文本特征向量;
其中,所述记录模块,还用于计算所述文本文件的长度;
根据所述文本文件的长度,将文本文件的二分之一的位置作为基点,记录每个关键词在所述文本文件中出现的次数和相对于所述基点的位置;
所述处理模块,还用于所述星形有向加权图中,若一关键词在所述文本文件中出现的次数大于1,那么所述关键词对应所述星形有向加权图中的多个节点;
若所述文本文件的关键词集为K=[k1,k2,……,kn],
用F=[f1,f2,……,fn]表示所有关键词出现的次数,其中,n大于等于1,且小于所述文本文件的长度,
用Wi=[wi1,wi2,…,win]表示每个关键词到所述文本文件基点的距离的权值集合,其中,n=fi
所述星形有向加权图中的每个节点代表一个关键词ki,若所述关键词ki在所述文本文件中相对于所述基点的位置pi出现,则在所述星形有向加权图中加一条有向边wi1,所述有向边wi1的权值为所述位置pi相对于所述基点的距离,若关键词ki在所述文本文件中多次出现,则在所述星形有向加权图中用同样的法则将这些在所述文本文件中不同位置出现的关键词ki,映射为多条有向边win,所述有向边win对应为所述不同位置pi相对于所述基点的距离。
CN201710794150.8A 2017-09-06 2017-09-06 一种文本模式识别方法及系统 Active CN107622048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710794150.8A CN107622048B (zh) 2017-09-06 2017-09-06 一种文本模式识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710794150.8A CN107622048B (zh) 2017-09-06 2017-09-06 一种文本模式识别方法及系统

Publications (2)

Publication Number Publication Date
CN107622048A CN107622048A (zh) 2018-01-23
CN107622048B true CN107622048B (zh) 2021-06-22

Family

ID=61089441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710794150.8A Active CN107622048B (zh) 2017-09-06 2017-09-06 一种文本模式识别方法及系统

Country Status (1)

Country Link
CN (1) CN107622048B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255797A (zh) * 2018-01-26 2018-07-06 上海康斐信息技术有限公司 一种文本模式识别方法及系统
CN111737523B (zh) * 2020-04-22 2023-11-14 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663077A (zh) * 2012-03-31 2012-09-12 福建师范大学 基于Hits算法的Web搜索结果安全性排序方法
CN103123685A (zh) * 2011-11-18 2013-05-29 江南大学 文本模式识别方法
CN104516904A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN106503789A (zh) * 2016-11-08 2017-03-15 西安电子科技大学宁波信息技术研究院 基于迪杰斯特拉和最大最小蚁群的无环最短路径搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898773B2 (en) * 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123685A (zh) * 2011-11-18 2013-05-29 江南大学 文本模式识别方法
CN102663077A (zh) * 2012-03-31 2012-09-12 福建师范大学 基于Hits算法的Web搜索结果安全性排序方法
CN104516904A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种关键知识点推荐方法及其系统
CN106503789A (zh) * 2016-11-08 2017-03-15 西安电子科技大学宁波信息技术研究院 基于迪杰斯特拉和最大最小蚁群的无环最短路径搜索方法

Also Published As

Publication number Publication date
CN107622048A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
US8843492B2 (en) Record linkage based on a trained blocking scheme
Wang et al. Efficient learning by directed acyclic graph for resource constrained prediction
CN107622072B (zh) 一种针对网页操作行为的识别方法及服务器、终端
US20160224544A1 (en) Sparse and data-parallel inference method and system for the latent dirichlet allocation model
CN106251174A (zh) 信息推荐方法及装置
WO2014160648A1 (en) Ranking product search results
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
US20120269432A1 (en) Image retrieval using spatial bag-of-features
US8121967B2 (en) Structural data classification
WO2021143267A1 (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN105531701A (zh) 个性化趋势图像搜索建议
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
Huang et al. Quadratic regularization projected Barzilai–Borwein method for nonnegative matrix factorization
CN106599194A (zh) 标签确定方法及装置
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN110543603A (zh) 基于用户行为的协同过滤推荐方法、装置、设备和介质
Joneidi et al. E-optimal sensor selection for compressive sensing-based purposes
CN107622048B (zh) 一种文本模式识别方法及系统
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
Yang et al. Discrete embedding for latent networks
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN113408301A (zh) 一种样本处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201113

Address after: Room 10242, No. 260, Jiangshu Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Jiji Intellectual Property Operation Co., Ltd

Address before: 201616 Shanghai city Songjiang District Sixian Road No. 3666

Applicant before: Phicomm (Shanghai) Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210601

Address after: 210012 4th floor, building C, Wanbo Science Park, 20 Fengxin Road, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant after: NANJING GUIJI INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: Room 10242, No. 260, Jiangshu Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Jiji Intellectual Property Operation Co., Ltd

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant