CN107016092B - 一种基于扁平化算法的文本搜索方法 - Google Patents

一种基于扁平化算法的文本搜索方法 Download PDF

Info

Publication number
CN107016092B
CN107016092B CN201710219456.0A CN201710219456A CN107016092B CN 107016092 B CN107016092 B CN 107016092B CN 201710219456 A CN201710219456 A CN 201710219456A CN 107016092 B CN107016092 B CN 107016092B
Authority
CN
China
Prior art keywords
keyword
word
incidence relation
weighted graph
undirected weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710219456.0A
Other languages
English (en)
Other versions
CN107016092A (zh
Inventor
欧阳建权
周晴宇
郑浩
刘天明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201710219456.0A priority Critical patent/CN107016092B/zh
Publication of CN107016092A publication Critical patent/CN107016092A/zh
Application granted granted Critical
Publication of CN107016092B publication Critical patent/CN107016092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:1)获取文本摘要,形成文档集;2)对文档集中的文档进行断句,获得句子集合;3)对句子集合进行分词,获取词集合;4)计算词集合中任意两个词之间的共现次数;5)以词为节点,共现次数为边,构建无向加权图;6)根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系;7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。本发明采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率。

Description

一种基于扁平化算法的文本搜索方法
技术领域
本发明涉及信息检索领域,具体涉及一种基于扁平化算法的文本搜索方法。
背景技术
当前Web检索主要采用PageRank、Hilltop算法,利用外链进行检索。纯文本检索方面则采用BM25公式,主要在计算查询词与某个文本的相关的功能性。但当前的搜索引擎在召回率和准确率上约为48%,未有超过50%的算法。
本申请采用的文本搜索方法基于扁平化算法,借鉴基本的共现关系的频次、权重,图片搜索方法深度优先、广度优先以及剪枝的原理,实现在毫秒级时间内准确查找到若干词之间的关联关系。
发明内容
针对上述现有技术中的不足,本发明的目的在于提供一种基于扁平化算法的文本搜索方法,该方法采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率。
根据本发明的实施方案,提供一种基于扁平化算法的文本搜索方法。
一种基于扁平化算法的文本搜索方法,该方法包括以下步骤:
1)获取文本摘要,形成文档集D;
2)对文档集D中的文档进行断句,di(di∈D),获得句子集合
3)对句子集合 进行分词,获取词集合
4)计算词集合中任意两个词之间的共现次数fc
5)以词Wk为节点,共现次数fc为边,构建无向加权图;
6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;
7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。
在本发明中,步骤2)中所述对文档集D中的文档进行断句的具体操作为:
以句号、分号、感叹号、问号和换行符等符号作为分隔符,将文本(即,字符串)分隔成多个子串,即句子。
在本发明中,步骤3)中所述分词的具体规则为:
采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as
1)以字为顶点建立字图;
2)从字符串中匹配出词典中存在的词,在字图中搭建新的边(如图5所示)。
3)计算首个字符至结尾字符之间的最短路径。该路径上的顶点即为分词的结果。
在本发明中,步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。
在本发明中,步骤5)中所述构建无向加权图的具体操作为:以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij
在本发明中,步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系,按如下进行:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。
在本发明中,若关键词≥2个,所述确定关联关系的具体操作为:
1)将用户提交的关键词集合中的其中任意一个关键词Ki扁平化;
2)根据无向加权图,确定关键词Ki的第一层扩展,以向量lki,1表示,
确定关键词Ki的第二层扩展,以向量lki,2表示,
……
确定关键词Ki的第n层扩展,以向量lki,n表示;
3)关键词Ki扁平化:lki,mix=lki,1|lki,2|……|lki,n
4)重复步骤1)至3),根据无向加权图,将第二个关键词Kj扁平化:lkj,mix=lkj,1|lkj,2|……|lkj,n
5)重复步骤1)至3)的方法,将关键词集合中的所有其它关键词扁平化;
6)计算交集:lmix=lki,mix&lkj,mix&……。
在本发明中,步骤7)中所述还原词与词之间的路径为扁平化还原,具体操作为:
1)关键词Ki的第一层还原:lmix&lki,1,得出路径“MKi,1”;
2)关键词Ki的第二层还原:lmix&lki,2,得出路径“MKi,2”;
……
3)关键词Ki的第n层还原:lmix&lki,n,得出路径“MKi,n”;
4)重复步骤1)至3)的方法,还原关键词Kj的路径:“MKj,1”、“MKj,2”……“MKj,n”;
5)重复步骤1)至3)的方法,还原关键词集合中的所有其它关键词的路径;
6)得出关键词集合的还原路径为:“MKi,1”+“MKi,2”+……+“MKi,n”+“MKj,1”+“MKj,2”+……+“MKj,n”。
在本发明中,步骤1)中所述文本摘要为现有各大数据库中的文本摘要。
在本发明中,所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。
在本发明中,所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
在本发明中,所述关联关系是通过构建无向加权图来展现的。无向加权图是以词为节点,共现次数为边进行构建。例如,关键词集合为{1,2,3,4,5,6,7},无向加权图如图6所示。
所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。其中节点间共现权重是指文本搜索时输入的关键词集合(即相应节点间)的共现次数,节点间共现权重越大则是指文本搜索时输入的关键词集合(即相应节点间)的共现次数越多。
同时,在无向加权图中节点间跳跃越少时联系越紧密。其中节点间跳跃度是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目,节点间跳跃越少则是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目越少,也即相应节点间的经过路径越短。
其中,节点间共现权重对关联关系紧密性的影响大于节点间跳跃度,因此文本搜索时优先考虑节点间共现权重。
在本发明中,扁平化算法可以分为:扁平化和去扁平化两步,扁平化的目的是简化计算。扁平化是指将图的生成树的多层结构压缩至一层的过程。去扁平化是从压缩后单层结构中还原出层次信息。具体过程如下:设生成树如图1和图2,结合所有树的节点根据值进行排序,并去掉值相同的节点,形成字典,在下图实例中字典大小为||D||=9。对单棵树各层节点排序,对所有节点同样排序,图1会得到图3结构。同样图2得到图4结构。将每层以向量表示,向量维度为字典大小,设一层中所包含的节点在字典中对应序号为I,那么向量第I维设为1,其他为0。图3的第0层、1层、2层、混合层的向量表示分别为(1,0,0,0,0,0,0,0,0)、(0,1,1,0,0,0,0,0,0)、(0,0,0,1,1,1,0,0,0)、(1,1,1,1,1,1,0,0,0)。混合层即为扁平化结果。去扁平话,则利用混合层以外的其他层次信息进行还原,如对于某个节点(0,1,0,0,0,0,0,0,0),依次与树1的第0、1、2层的向量计算按位与操作,可以得到与第1层计算结果不为0,则该节点位于树1的第一层。该过程为去扁平化。
与现有技术相比,本发明具有以下有益效果:
1、本发明采用扁平化算法计算并还原路径,以图片的方式呈现关联关系,极大提高了搜索的召回率与准确率;
2、采用本发明所述的文本搜索方法,能在毫秒级时间间隔内准确找到词与词之间的关联关系,减少搜索次数与搜索时间;
3、本发明以图片的形式呈现关联关系,使得词与词之间的关系脉络化、清晰化。
附图说明
图1为扁平化算法中扁平化生成树实例示意图一;
图2为扁平化算法中扁平化生成树实例示意图二;
图3为图1的层节点排序图;
图4为图2的层节点排序图;
图5为词集合获取过程示意图;
图6为实施例1中无向加权图的示意图;
图7为实施例1中关键词的关联关系示意图。
具体实施方式
根据本发明的实施方案,提供一种基于扁平化算法的文本搜索方法:
一种基于扁平化算法的文本搜索方法,该方法包括以下步骤:
1)获取文本摘要,形成文档集D;
2)对文档集D中的文档进行断句,di(di∈D),获得句子集合
3)对句子集合 进行分词,获取词集合
4)计算词集合中任意两个词之间的共现次数fc
5)以词Wk为节点,共现次数fc为边,构建无向加权图;
6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;
7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。
在本发明中,步骤2)中所述对文档集D中的文档进行断句的具体操作为:
以句号、分号、感叹号、问号和换行符等符号作为分隔符,将文本(即,字符串)分隔成多个子串,即句子。
在本发明中,步骤3)中所述分词的具体规则如下所示:
采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as
1)以字为顶点建立字图;
2)从字符串中匹配出词典中存在的词,在字图中搭建新的边,如图5所示;
3)计算首个字符至结尾字符之间的最短路径。该路径上的顶点即为分词的结果。
在本发明中,步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。
在本发明中,步骤5)中所述构建无向加权图的具体操作为:
以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij
在本发明中,步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系,按如下进行:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。
在本发明中,若关键词≥2个,所述确定关联关系的具体操作为:
1)将用户提交的关键词集合中的其中任意一个关键词Ki扁平化;
2)根据无向加权图,确定关键词Ki的第一层扩展,以向量lki,1表示,
确定关键词Ki的第二层扩展,以向量lki,2表示,
……
确定关键词Ki的第n层扩展,以向量lki,n表示;
3)关键词Ki扁平化:lki,mix=lki,1|lki,2|……|lki,n
4)重复步骤1)至3),根据无向加权图,将第二个关键词Kj扁平化:lkj,mix=lkj,1|lkj,2|……|lkj,n
5)重复步骤1)至3)的方法,将关键词集合中的所有其它关键词扁平化;
6)计算交集:lmix=lki,mix&lkj,mix&……。
在本发明中,步骤7)中所述还原词与词之间的路径为扁平化还原,具体操作为:
1)关键词Ki的第一层还原:lmix&lki,1,得出路径“MKi,1”;
2)关键词Ki的第二层还原:lmix&lki,2,得出路径“MKi,2”;
……
3)关键词Ki的第n层还原:lmix&lki,n,得出路径“MKi,n”;
4)重复步骤1)至3)的方法,还原关键词Kj的路径:“MKj,1”、“MKj,2”……“MKj,n”;
5)重复步骤1)至3)的方法,还原关键词集合中的所有其它关键词的路径;
6)得出关键词集合的还原路径为:“MKi,1”+“MKi,2”+……+“MKi,n”+“MKj,1”+“MKj,2”+……+“MKj,n”。
在本发明中,步骤1)中所述文本摘要为现有各大数据库中的文本摘要。
在本发明中,所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。
在本发明中,所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
在本发明中,所述关联关系是通过构建无向加权图来展现的。无向加权图是以词为节点,共现次数为边进行构建。例如,关键词集合为{1,2,3,4,5,6,7},无向加权图如图6所示。
所述关联关系在无向加权图中节点间共现权重越大(或共现次数越多)时联系越紧密。其中节点间共现权重是指文本搜索时输入的关键词集合(即相应节点间)的共现次数,节点间共现权重越大则是指文本搜索时输入的关键词集合(即相应节点间)的共现次数越多。
同时,在无向加权图中节点间跳跃越少时联系越紧密。其中节点间跳跃度是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目,节点间跳跃越少则是指文本搜索时输入的关键词集合(即相应节点间)所经过的节点数目越少,也即相应节点间的经过路径越短。
其中,节点间共现权重对关联关系紧密性的影响大于节点间跳跃度,因此文本搜索时优先考虑节点间共现权重。
在本发明中,扁平化算法可以分为:扁平化和去扁平化两步,扁平化的目的是简化计算。扁平化是指将图的生成树的多层结构压缩至一层的过程。去扁平化是从压缩后单层结构中还原出层次信息。具体过程如下:设生成树如图1和图2,结合所有树的节点根据值进行排序,并去掉值相同的节点,形成字典,在下图实例中字典大小为||D||=9。对单棵树各层节点排序,对所有节点同样排序,图1会得到图3结构。同样图2得到图4结构。将每层以向量表示,向量维度为字典大小,设一层中所包含的节点在字典中对应序号为I,那么向量第I维设为1,其他为0。图(3)的第0层、1层、2层、混合层的向量表示分别为(1,0,0,0,0,0,0,0,0)、(0,1,1,0,0,0,0,0,0)、(0,0,0,1,1,1,0,0,0)、(1,1,1,1,1,1,0,0,0)。混合层即为扁平化结果。去扁平话,则利用混合层以外的其他层次信息进行还原,如对于某个节点(0,1,0,0,0,0,0,0,0),依次与树1的第0、1、2层的向量计算按位与操作,可以得到与第1层计算结果不为0,则该节点位于树1的第一层。该过程为去扁平化。
实施例
一种基于扁平化算法的文本搜索方法,该方法包括以下步骤:
1)获取文本摘要,形成文档集D;
2)对文档集D中的文档进行断句,di(di∈D),获得句子集合
3)对句子集合 进行分词,获取词集合
4)计算词集合中任意两个词之间的共现次数fc
5)以词Wk为节点,共现次数fc为边,构建无向加权图,如图6所示;
6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;
7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系。
进行步骤6)时,采用以下方式扩大搜索:
以某一节点出发,遍历该节点的所有邻接点,将所有邻接点按共现权重从大到小排列,选取前x个邻接点,同时以层为顺序,将某一层上的所有节点都搜索到了之后才向下一层搜索,设层数(或迭代次数)为n。
以图6为例,设关键词集合为{1,7},n=2,x=2。一般,最大搜索层数n的经验值一般为2-5层,邻接顶点阈值x(=2)在此处也为经验值。
以关键词“1”求扁平图:
“2”,“3”为第一层扩展,以向量表示为l1,1=(0,1,1,0,0,0,0);图6的总顶点数目为7,对应向量的维度为7,“1”的第一层扩展为“2”,“3”,二者在所有顶点中按字典序排序分别为2,3,则第一层扩展的向量的第2、3维置为1,其他置为0。即为l1,1=(0,1,1,0,0,0,0)。
“5”,“6”,“7”为第二层扩展l(1,2)=(0,0,0,0,1,1,1);
扁平化:l1,mix=l1,1|l1,2=(0,1,1,0,1,1,1);
同理,以关键词“7”求扁平图:
“3”,“4”为第一层扩展,以向量表示为l7,1=(0,0,1,1,0,0,0);
“1”,“6”为第二层扩展,以向量表示为l7,2=(1,0,0,0,0,1,0);
扁平化:l7,mix=l7,1|l7,2=(1,0,1,1,0,1,0);
计算交集lmix=l1,mix&l7,mix,mix=(0,0,1,0,0,0,0)。
扁平化还原,即去扁平化,以上的操作将某一顶点的多个层次,压缩至一层,而压缩之后如何解压还原层次信息,则是以下操作:以节点“7”为例:
第一层:lmix&l7,1=(0,0,1,0,0,0,0),路径为“7-3”;
第二层:lmix&l7,2=(0,0,0,0,0,0,0),无。
同理,节点“1”有,
第一层:lmix&l1,1=(0,0,1,0,0,0,0),路径为“1-3”;
第二层:lmix&l1,2=(0,0,0,0,0,0,0),无。
结合两者路径:
“1-3”+“7-3”=“1-3-7”。
7)以图片形式展现关联关系,同时还原路径获取文本,如图7所示。

Claims (13)

1.一种基于扁平化算法的文本搜索方法,其特征在于:该方法包括以下步骤:
1)获取文本摘要,形成文档集D;
2)对文档集D中的文档进行断句,di(di∈D),获得句子集合
3)对句子集合进行分词,获取词集合
4)计算词集合中任意两个词之间的共现次数fc
5)以词Wk为节点,共现次数fc为边,构建无向加权图;
6)根据用户提交的关键词集合K={ki|i=1,2,3...n},确定任意一组关键词在无向加权图中的关联关系;
7)以扁平化算法计算并还原词与词之间的路径,以图片的形式呈现关联关系;其中:以扁平化算法计算并还原词与词之间的路径,具体操作为:
701)关键词Ki的第一层还原:lmix&lki,1,得出路径“MKi,1”;
702)关键词Ki的第二层还原:lmix&lki,2,得出路径“MKi,2”;
……
703)关键词Ki的第n层还原:lmix&lki,n,得出路径“MKi,n”;
704)重复步骤1)至3)的方法,还原关键词Kj的路径:“MKj,1”、“MKj,2”……“MKj,n”;
705)重复步骤1)至3)的方法,还原关键词集合中的所有其它关键词的路径;
706)得出关键词集合的还原路径为:“MKi,1”+“MKi,2”+……+“MKi,n”+“MKj,1”+“MKj,2”+……+“MKj,n”。
2.根据权利要求1所述的方法,其特征在于:步骤2)中所述对文档集D中的文档进行断句的具体操作为:以句号、分号、感叹号、问号和换行符作为分隔符,将文本分隔成多个子串,即句子。
3.根据权利要求1或2所述的方法,其特征在于:步骤3)中所述分词的具体规则为:
采用最短路分词算法,设需要分词的字符串为a1,a2,a3...,as
1)以字为顶点建立字图;
2)从字符串中匹配出词典中存在的词,在字图中搭建新的边;
3)计算首个字符至结尾字符之间的最短路径,该路径上的顶点即为分词的结果。
4.根据权利要求1或2所述的方法,其特征在于:步骤4)中所述计算词集合中任意两个词之间的共现次数具体为:将词集合中任意两个词分组,计算任意一组词在句子集合中的所有句子中共同出现的次数。
5.根据权利要求1或2中任一项所述的方法,其特征在于:步骤5)中所述构建无向加权图的具体操作为:
以词为图的顶点,若词wi和wj出现同一个句子中则表示词wi和词wj所对应的顶点之间存在边,且边的权值为两个词出现在同一句子中的频率fij
6.根据权利要求1或2所述的方法,其特征在于:步骤6)中所述根据用户提交的关键词集合,确定任意一组关键词在无向加权图中的关联关系具体为:关键词集合即指关键词的个数可以是一个或多个,若关键词为1个,则该关键词所在的邻接节点即为该关键词在无向加权图中的关联关系;若关键词≥2个,则需要从无向加权图中搜索该关键词集合中任意两个关键词之间的关联关系。
7.根据权利要求6所述的方法,其特征在于:若关键词≥2个,所述确定关联关系的具体操作为:
1)将用户提交的关键词集合中的其中任意一个关键词Ki扁平化;
2)根据无向加权图,确定关键词Ki的第一层扩展,以向量lki,1表示,
确定关键词Ki的第二层扩展,以向量lki,2表示,
……
确定关键词Ki的第n层扩展,以向量lki,n表示;
3)关键词Ki扁平化:lki,mix=lki,1|lki,2|……|lki,n
4)重复步骤1)至3),根据无向加权图,将第二个关键词Kj扁平化:lkj,mix=lkj,1|lkj,2|……|lkj,n
5)重复步骤1)至3)的方法,将关键词集合中的所有其它关键词扁平化;
6)计算交集:lmix=lki,mix&lkj,mix&……。
8.根据权利要求1或2所述的方法,其特征在于:步骤1)中所述文本摘要为现有各大数据库中的文本摘要。
9.根据权利要求1或2所述的方法,其特征在于:所述关联关系在无向加权图中节点间共现权重越大时联系越紧密;和/或
所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
10.根据权利要求3所述的方法,其特征在于:所述关联关系在无向加权图中节点间共现权重越大时联系越紧密;和/或
所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
11.根据权利要求4所述的方法,其特征在于:所述关联关系在无向加权图中节点间共现权重越大时联系越紧密;和/或
所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
12.根据权利要求5所述的方法,其特征在于:所述关联关系在无向加权图中节点间共现权重越大时联系越紧密;和/或
所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
13.根据权利要求6所述的方法,其特征在于:所述关联关系在无向加权图中节点间共现权重越大时联系越紧密;和/或
所述关联关系在无向加权图中节点间跳跃越少时联系越紧密。
CN201710219456.0A 2017-04-06 2017-04-06 一种基于扁平化算法的文本搜索方法 Active CN107016092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710219456.0A CN107016092B (zh) 2017-04-06 2017-04-06 一种基于扁平化算法的文本搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710219456.0A CN107016092B (zh) 2017-04-06 2017-04-06 一种基于扁平化算法的文本搜索方法

Publications (2)

Publication Number Publication Date
CN107016092A CN107016092A (zh) 2017-08-04
CN107016092B true CN107016092B (zh) 2019-12-03

Family

ID=59445268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710219456.0A Active CN107016092B (zh) 2017-04-06 2017-04-06 一种基于扁平化算法的文本搜索方法

Country Status (1)

Country Link
CN (1) CN107016092B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及系统
CN109165325B (zh) * 2018-08-27 2021-08-17 北京百度网讯科技有限公司 用于切分图数据的方法、装置、设备以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN104537096A (zh) * 2015-01-09 2015-04-22 哈尔滨工程大学 一种基于微博消息传播树的微博消息影响力度量方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语义关系图的小视窗智能机上可视化探索式搜索研究;郑浩;《中国优秀硕士学位论文全文数据库(电子期刊)》;20150315(第3期);I138-2881 *
文本检索关键技术及其新兴应用研究综述;宗萍;《情报探索》;20121231(第10期);77-79 *

Also Published As

Publication number Publication date
CN107016092A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN108829658B (zh) 新词发现的方法及装置
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103544266B (zh) 一种搜索建议词生成的方法以及装置
CN106156004A (zh) 基于词向量的针对电影评论信息的情感分析系统及方法
CN103544267B (zh) 一种基于搜索建议词进行搜索的方法以及装置
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN105589948A (zh) 一种文献引用网络可视化及文献推荐方法及系统
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN109344263B (zh) 一种地址匹配方法
CN111753024A (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN106354844B (zh) 基于文本挖掘的服务组合包推荐系统及方法
CN109977250A (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN106844786A (zh) 一种基于文本相似度的舆情地域热点发现方法
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN107239512A (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN108268440A (zh) 一种未登录词识别方法
CN113407729B (zh) 一种面向司法的个性化案例推荐方法及系统
CN107016092B (zh) 一种基于扁平化算法的文本搜索方法
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN103077228A (zh) 一种基于集合特征向量的快速聚类方法和装置
CN112734104A (zh) 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant