CN101685455B - 数据检索的方法和系统 - Google Patents

数据检索的方法和系统 Download PDF

Info

Publication number
CN101685455B
CN101685455B CN2008101698301A CN200810169830A CN101685455B CN 101685455 B CN101685455 B CN 101685455B CN 2008101698301 A CN2008101698301 A CN 2008101698301A CN 200810169830 A CN200810169830 A CN 200810169830A CN 101685455 B CN101685455 B CN 101685455B
Authority
CN
China
Prior art keywords
node
term
similarity
field term
father
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101698301A
Other languages
English (en)
Other versions
CN101685455A (zh
Inventor
徐惠
高志强
戴昌林
朱望斌
陈世宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Southeast University
Original Assignee
Huawei Technologies Co Ltd
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Southeast University filed Critical Huawei Technologies Co Ltd
Priority to CN2008101698301A priority Critical patent/CN101685455B/zh
Publication of CN101685455A publication Critical patent/CN101685455A/zh
Application granted granted Critical
Publication of CN101685455B publication Critical patent/CN101685455B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种数据检索的方法和系统,涉及信息采集和处理领域,为解决数据检索的准确性和完整性低的问题。本发明实施例提供的方法,包括:通过网络获取电子文档,从所述电子文档中提取领域术语;计算提取的领域术语之间的相似度;将相似的领域术语以限定分支的方式逐层聚类,建立索引列表;存储所述索引列表;信息检索模块利用索引列表进行信息检索。本发明适用于数据采集和信息检索。

Description

数据检索的方法和系统
技术领域
本发明涉及信息采集和处理领域,尤其涉及数据检索的方法和系统。
背景技术
在现有的语义Web、问答系统、特定领域的垂直搜索、信息抽取、图书馆管理和信息检索等领域,经常需要将一些被认为有用的数据或词语从数据库中提取出来,并根据这些数据或词语之间的关系建立相应的树形列表索引,以便于用户对相关信息的查找。本体,是感兴趣领域的共享的概念化的显式规约。通俗地讲,本体是用来描述某个领域甚至更广范围内的概念以及概念之间的关系,使得这些概念和关系在共享的范围内具有大家共同认可的、明确的、唯一的定义。自动或半自动构建本体的方法称为本体学习。
现有本体学习方法主要有5大类,包括:基于模式、基于关联规则、基于概念聚类、基于本体演化和混合策略。其中,基于概念聚类的本体学习方法,是利用概念之间的语义距离,对概念进行聚类。这样,同一类簇中的概念具有语义近似的关系。目前最常见的聚类算法为层次聚类,聚类的结果就是概念间的上下位关系。层次聚类算法按照方向可以分成两种:一种是自底向上的合并聚类,初始时将每个元素作为一类,每一步将最相似的两个集合合并,直至最终合并成一个集合;一种是自顶向下的分解聚类,初始时把全部的元素作为一个集合,然后每一步将最不相似的两个集合分开。
在实现上述基于概念聚类的本体学习方法的过程中,发明人发现现有技术中至少存在如下问题:基于概念聚类的本体学习方法中,树形结构的同级节点按照一定顺序进行本体学习,先学习的同级节点会将与自身相似度高的概念全部作为本节点的子节点。这样,后学习的同级节点尽管与一些先学习的同级节点的子节点的相似度高,却无法将其作为自身的子节点(同级节点的子节点不可交叉)。这会导致学到的本体树形结构不合理:节点分布极不平均,每个节点的子节点个数不可控。这种树形结构的偏斜将会随着层级的增多而不断加大,级数越多,偏斜情况越严重,基于这一结构的数据检索的准确性和完整性低。
发明内容
本发明的实施例提供一种数据检索的方法和系统,能够提高数据检索的准确性和完整性。
为达到上述目的,本发明的实施例采用如下技术方案:
一种数据检索的方法,包括以下步骤:
通过网络获取电子文档,从所述电子文档中提取领域术语;
计算提取的领域术语之间的相似度;
将相似的领域术语以限定分支的方式逐层聚类,建立索引列表;
存储所述索引列表;
信息检索模块利用索引列表进行信息检索。
一种数据检索的系统,包括:
术语获取模块:用于通过网络获取电子文档,从所述电子文档中提取领域术语;
相似度计算模块:用于计算所述术语获取模块提取的领域术语之间的相似度;
聚类模块:用于将所述相似度计算模块判定的相似的领域术语,以限定分支的方式逐层聚类,建立索引列表;
存储模块:用于存储所述索引列表;
信息检索模块:用于利用索引列表进行信息检索。
一种数据检索的方法,包括以下步骤:
通过逐层聚类的方式,建立索引列表;
存储所述索引列表;
信息检索模块利用索引列表进行信息检索。
一种数据检索的系统,包括:
聚类建立索引列表模块:用于通过逐层聚类的方式,建立索引列表;
存储模块:用于存储所述索引列表;
信息检索模块:用于利用索引列表进行信息检索。
本发明实施例提供的数据检索的方法、系统,在逐层聚类时,通过限定分支的形式,限定了每个节点的子(父)节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子(父)节点的问题,可以生成准确性和完整性较高的,可以作为列表索引的树形结构,进而提高数据检索的准确性和完整性。
附图说明
图1为本发明方法实施例一的流程图;
图2为本发明方法实施例二从电子文档中提取领域术语的步骤流程图;
图3为本发明方法实施例二计算提取的领域术语之间的关系的步骤流程图;
图4为本发明方法实施例二将有关系的领域术语以限定分支的方式逐层聚类的步骤流程图;
图5为本发明方法实施例二信息检索模块利用索引列表进行信息检索的步骤流程图;
图6为用先验方法评价本发明的结果;
图7为用后验方法评价本发明的结果;
图8为本发明系统实施例一的结构图;
图9为本发明系统实施例二的结构图;
图10为本发明另一种方法的实施例的流程图;
图11为本发明另一种方法的实施例中,步骤S903的流程图;
图12为本发明另一种系统的实施例的结构图。
具体实施方式
本发明实施例主要用于从海量的专业电子文档中查找出有用的关键词语,并将这些关键词语进行甄别和分类,建立起一套对专业电子文档进行检索的索引列表,进而提高数据检索的准确性和完整性。
下面结合附图对本发明实施例数据检索的方法和系统进行详细描述。
一方面,本发明方法的第一个实施例,如图1所示,包括以下步骤:
S101、通过网络获取电子文档,从所述电子文档中提取领域术语。
这里所说的电子文档主要是指专业论文。根据以往的经验,发明人发现,在专业论文中检索领域术语,其领域术语与专业论文的相关性一般很强,这样有利于提高查准率(查准率公式: P = A ∩ B A ,其中,A代表查到的领域术语;B代表所有相关的领域术语)和查全率(查全率公式: R = A ∩ B B ,其中,A代表查到的领域术语;B代表所有相关的领域术语)。
S102、计算提取的领域术语之间的相似度。
在领域术语提取完毕之后,需要计算提取的领域术语之间的相似度,这是为了将语义相关或领域相近的领域术语归类,方便下面的操作。
S103、将意义相同的领域术语合并。
本步骤主要是为了使得到的领域术语更加精炼,去掉同义词,尤其是那些放在括号中的解释性词语。这样有利于提高步骤S104构建树形结构的效率。
S104、将相似的领域术语以自顶向下限定分支的方式逐层聚类,建立索引列表。
此步骤是本实施例与现有基于概念聚类的本体学习方法的主要区别,在自顶向下(从根节点到末端节点的方向)建立树形结构时,每个节点不是将所有与自身相似度高的领域术语都选为自身的子节点,而是事先确定了每个节点可以选定的子节点数量。在本实施例中具体采用每个节点定额配置子节点数量的方法。这样可以保证建立的树形结构更为均衡。
步骤S103和S104没有必然的先后顺序。
由于现有基于概念聚类的本体学习方法在逐层聚类时,无论是自顶向下还是自底向上的方式,在每一层的同级节点之间都是按照一定顺序分先后一个一个选取自身的子(父)节点的,但在选取子(父)节点时,其限制条件只有一个,就是选做子(父)节点的领域术语与该同级节点之间的相似度必须满足一定条件(比如相似度值超过设定的某种阈值),这样带来的结果就是只要满足相似度的条件,该同级节点就可将这样的领域术语作为自身的子(父)节点。但是,同级节点之间,尤其是同一个父节点下的同级节点之间往往也具有一定的相关性,它们在选取子(父)节点时,不可避免的在选取范围上会存在一定的交叉,但是,按照顺序先选取子(父)节点的同级节点会将同时与本级中多个节点都相似的领域术语选定,使后选取子(父)节点的同级节点失去选取机会,这就会造成同级节点之间子(父)节点数目的不均衡,前面的子(父)节点数目多,后面的子(父)节点数目少,这样直接的后果就是本体学习的树形结构倾斜,而统计结果是查准率不高。
S105、存储所述索引列表。
索引列表以owl语言描述的形式保存到磁盘。其中概念用owl:Class描述,上下位关系用<rdfs:subClassOf>描述,同义关系用<owl:equivalentClass>描述。例如,多入多出和MIMO是同义关系,无线通信和多入多出是上下位关系,用owl语言描述如下:
<owl:Class rdf:about=″http://xuhui/#多入多出″>
     <rdfs:subClassOf>
       <owl:Class rdf:about=″http://xuhui/#无线
通信″/>
     </rdfs:subClassOf>
     <owl:equivalentClass>
       <owl:Class
rdf:about=″http://xuhui/#MIMO″/>
用owl语言描述的本体可以直接通过常见的本体编辑工具如Protégé等进行编辑,便于领域专家进行二次加工和增删改等操作,而且可以很方便地添加到基于本体的应用软件中,增强了本发明的可用性和可扩展性。
S106、信息检索模块利用索引列表进行信息检索,进而提高数据检索的准确性和完整性。
现有信息检索方法,需要在每一层聚类时都选取一个上位词,计算量较大。本实施例采用自顶向下逐层聚类的方式,只在初始时选取一个根节点作为初始父节点,之后自动将每个子节点作为新的父节点进行操作,相对于现有的层次聚类的方式,每层聚类完成之后,不需要再选取上位词,节省了工作量;在自顶向下逐层聚类时,通过限定分支的形式,限定了每个节点的子节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子节点的问题,生成一个优化了的树形结构,分类结果合理,提高了该树形结构作为列表索引查找的准确性和完整性,进而提高数据检索的准确性和完整性。
图2、3、4、5所示,为本发明方法的第二个实施例。
其中,图2所示为该实施例从电子文档中提取领域术语的过程,包括以下步骤:
S201、从数字化图书馆的电子文档中提取学术论文的标题、摘要和关键词。
通过现有页面包装器功能模块根据html标签来抽取数字化图书馆的学术论文页面中的标题、摘要和关键词信息。
现有本体学习方法一般从通用电子文档中提取领域术语,领域术语与其所在的电子文档的关联性往往不是很大,在完成本体学习,构成树形结构后,建立的列表索引查全率和查准率会受到影响。本实施例从专业的数字化图书馆的电子文档中选取领域术语,由于数字化图书馆本身收录的文档内容较为严谨,对特定领域的指示性更强,获取精度高,可以减少歧义和语法的变化,具有更好的实用性。将数字化图书馆作为语料库,构建语料库相对简单,降低了建库成本。
S202、对所述提取的标题、摘要和关键词进行解析,得到名词短语。
解析可以通过现有的词性标注和浅层句法解析的方式实现。
由于数字化图书馆中的论文形式较为固定,通过统计可以得出:在整篇论文中,标题、摘要和关键字中的词语是实用价值最高的,所以只针对标题、摘要和关键词进行解析,可以以最小的工作量获得最高的收益。
S203、事先设定停用词表,将所述得到的名词短语中属于停用词表的名词短语滤除。
首先利用划分词组的操作去掉解析得到的名词短语中的标点符号及介词,得到一个词组列表;然后利用已有的领域本体(如WordNet)或分类体系(如杜威十进制分类法,中国图书分类法等),添加上层术语;最后利用事先设定的停用词表,将所述得到的名词短语中属于停用词表的名词短语滤除。
因为有些名词短语是使用者不关心的,所以我们事先设定一个停用词表,将归纳的一些可能出现的无用的词列在其中,一旦提取出这样的词直接删除,这样可以减少后续处理的任务量。
S204、将滤除后剩下的名词短语归纳到已有的领域本体或分类体系之下。
S205、设定词频阈值和长度阈值。
词频阈值和长度阈值的设定可以凭经验,也可以从语料库中学习得到,一般来说,词频阈值大于等于2,长度阈值视词语的语种而定,如果是中文词语,长度阈值设为2个字符长度,如果是英文词语,长度阈值设为3个字符长度。这两个阈值的设定并不绝对,比如说,对于英文词语的长度阈值的取值就可以根据英文的写法特点进行修正:如果是缩写,则长度>=3,否则长度>=5。诸如此类等等。
S206、如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率高于所述词频阈值,将该名词短语选定为领域术语,加入领域术语集合。
S207、如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率不高于所述词频阈值,判断所述名词短语的长度是否长于长度阈值。
S208、如果所述名词短语的长度长于长度阈值,将所述名词短语拆分成数个更简短的名词短语,返回步骤S206和S207再进行判断。
由于先前得到的名词短语有可能是几个词组成的词组,因为太长所以出现的频率低,如果将其拆分成较短的词有可能提高其中一些词与已有的领域本体或分类体系中的术语共现的频率,这样可以保证查找领域术语的准确性和完整性。
S209、如果所述名词短语的长度等于或短于长度阈值,删除所述名词短语。
图3所示为本发明方法的第二实施例中,计算提取的领域术语之间的相似度的过程,主要是利用共现分析和术语出现的位置来定义概念间关联度,利用关联规则移除掉非分类关系,通过句法模式来发现兄弟关系,然后综合上述结果,得到一个一致连贯的初始相似度矩阵。该过程包括以下步骤:
S301、计算提取的领域术语之间的关联关系值。
所述计算提取的领域术语之间的关联关系值的步骤是通过计算关联关系矩阵得到的,本步骤主要是对在关键字和摘要中出现的领域术语进行关联关系的评价。
所述关联关系矩阵为:
Figure G2008101698301D0009175936QIETU
其中,rr代表关联关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中, ( rr , t i , t j ) = &Sigma; t i , t j &Element; doc k k = 1 , . . . , p ( a + b ( D - 1 ) ) min ( &Sigma; t i &Element; doc k k = 1 , . . . , p , &Sigma; t j &Element; doc k k = 1 , . . . , p ) , 这其中,dock表示第k个文档;p表示总的文档个数;a表示初始权重;b表示距离衰减因子;D表示术语之间的距离。下面给出各参数的优选值:在处理关键词时,取a=0.25,处理摘要时,取a=0.1;b通取0.7;D取正整数。
术语间的相关度与术语共现的频率成正比,与术语间的距离成反比。关联关系矩阵在后续的计算中,会被逐步精炼化,最终精炼成上下位关系。
S302、计算提取的领域术语之间的非分类关系值。
本步骤主要针对在论文的标题中提取领域术语的情况。
所述计算提取的领域术语之间的非分类关系值的步骤是通过计算非分类关系矩阵得到的,所述非分类关系矩阵为:
Figure G2008101698301D0010180004QIETU
其中,rn代表非分类关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中,
Figure G2008101698301D00101
这条规则的确定基于以下统计结果:论文的作者在写论文标题时,遵循最精炼原则;同时出现上位词和下位词,属于语义重复,因此在标题中往往不会出现。进一步的,研究发现仅凭这一点不足以确定非分类关系,需要再结合关联关系矩阵,细化标题的作用。
S303、计算提取的领域术语之间的兄弟关系值。
本步骤主要针对在论文的摘要中提取领域术语的情况。
所述计算提取的领域术语之间的兄弟关系值的步骤是通过计算兄弟关系矩阵得到的,所述兄弟关系矩阵为:
其中,rb代表兄弟关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中,
Figure G2008101698301D00102
对于术语t1,t2,若t1,t2同时出现,并且以大于pb的概率出现以下任意一种句法模式:“t1,t2”,“t1 and t2”或者“t1和t2”,则认为术语t1,t2是兄弟关系。在实验中,目前pb取值为0。
兄弟关系矩阵只是为了辅助计算相似度矩阵的中间结果。兄弟关系在最终学习到的领域本体中不会显式出现,但在本体树的结构中隐含了兄弟关系。
S304、通过关联关系值、非分类关系值和兄弟关系值,计算提取的领域术语之间的相似度值。
所述计算提取的领域术语之间的相似度值的步骤是通过计算相似度矩阵得到的,所述相似度矩阵为:
Figure G2008101698301D00111
其中,similarity(ti,tj)表示进行比较的两个领域术语间的相似度;m代表矩阵的行列数;其中,
当(m,ti,tj)=0时,
Figure G2008101698301D00112
= ( rr , t i , t j ) + max ( w b &CenterDot; ( rb , t i , t j ) , &Sigma; t i , t j &Element; adoc k k = 1 , . . . , q min ( &Sigma; t i &Element; adoc k k = 1 , . . . , q , &Sigma; t j &Element; adoc k k = 1 , . . . , q ) ) + max ( w t , &Sigma; t i , t j &Element; tdoc k k = 1 , . . . , s min ( &Sigma; t i &Element; tdoc k k = 1 , . . . , s , &Sigma; t j &Element; tdoc k k = 1 , . . . , s ) ) ;
当(m,ti,tj)=1时, similarity ( t i , t j ) = a t &CenterDot; ( rr , t i , t j ) + max ( w b &CenterDot; ( rb , t i , t j ) , &Sigma; t i , t j &Element; adoc k k = 1 , . . . , q min ( &Sigma; t i &Element; adoc k k = 1 , . . . , q , &Sigma; t j &Element; adoc k k = 1 , . . . , q ) ) ;
这其中,wb表示兄弟关系的权重因子;adock表示第k个摘要文档;q表示摘要文档总的个数;tdock表示第k个标题文档;s表示标题文档总的个数;wt表示标题中共现的正面贡献因子;at表示标题中共现的负面衰减因子。
下面给出各参数的优选值:wb取0.2;wt取0.1;at取0.8。
相似度矩阵由上述三个矩阵的元素加权组合而成。当术语t1,t2是非分类关系时,降低术语ti,tj的相似度,衰减因子为at;当ti,tj不是非分类关系时,若在论文的标题中共同出现,则提高术语ti,tj的相似度,至少提高wt
S305、以句法模式对提取的领域术语进行合并条件判断。
S306、设定相似度阈值,对于经句法模式判断,符合合并条件的领域术语,如果这些领域术语之间的相似度值高于相似度阈值,用其中一个领域术语代替与其相似度高于相似度阈值的所有提取的领域术语。
本步骤主要是用来合并同义词,对术语进行精炼,有助于提高后续分类关系学习的性能。
如果在语料库中出现模式”t1(t2)”,并且术语t1,t2的相似度similarity(t1,t2)大于相似度阈值,那么术语t1,t2是同义关系。
统计发现句法模式对同义关系的学习有很高的精度,如果在步骤S301之前直接利用句法模式对同义关系进行的判定,不考虑相似度阈值,可以提高程序的执行效率。
如果对同义关系学习的性能要求很高,则可以在概念聚类之后再进行同义关系的判定。
从严格的语言学角度来看,不存在两个完全同义的术语。但是对具体的应用领域而言存在多个术语共同指代同一概念的现象,最常见的就是术语和术语的缩写(例如,VLSI,Very Large Scale Integrated Circuit)。还有就是一个概念有多种语言的版本,比如互联网和Internet。
本实施例中,步骤S301与步骤S302为一个整体步骤,该整体步骤与步骤S303之间没有必然的先后顺序;步骤S305与步骤S306为一个整体步骤,该整体步骤与步骤S301至S304之间没有必然的先后顺序。
图4所示为本发明方法的第二实施例中,将相似的领域术语以自顶向下限定分支的方式逐层聚类的过程,包括以下步骤:
S401、在相似的领域术语中,选择设立根节点,作为逐层聚类的起始父节点。
由于本实施例是通过自顶向下的方式实现的逐层聚类,所以先要选择建立根节点,本实施例中根节点在选出的相似的领域术语中产生,根节点选择方式可以是用户指定,也可以是计算机自动选取。
如果选择计算机自动选取的方式,可以随机抽取,也可以按照一定算法抽取根节点,下面给出一个优选算法:
root ( i ) = max i = 1 , . . . , n ( a 1 &CenterDot; t f i + a 2 &CenterDot; id f i + a 3 &CenterDot; cofre q i )
其中,tfi表示领域术语i出现的频率,idfi表示出现领域术语i的文档个数,cofreqi表示与领域术语i共现的其它领域术语个数,a1,a2,a3表示各自相应的加权因子,优选取值依次为0.1,0.1,0.3。n表示总的领域术语的个数。
选择总得分最高的领域术语作为根节点。
本方法可以保证那些最重要,最常出现,与最多数领域术语相关的领域术语成为根节点。
S402、设立判别阈值,将与父节点接近度值高于判别阈值的领域术语选为所述父节点的候选子节点。
由于是父节点的候选子节点,如果将判别阈值定得很高,会造成有很多领域术语不能作为候选子节点归于父节点,从而使这些领域术语游离于树形结构之外,不利于体系的建立,所以本实施例将判别阈值定为0。
S403、设定所述父节点的最大子节点数,选择接近度最高的最大子节点数个候选子节点作为该父节点的子节点。
本实施例中,所述设定所述父节点的最大子节点数的方法为:
(1)设定接近阈值(本实施例推荐的优选值为0.8),将与父节点的相似度值高于接近阈值的领域术语的个数,作为所述父节点最大子节点数的初始值;
(2)按照子节点个数确定公式确定父节点最大子节点数。
本实施例中,所述子节点个数确定公式为:
Figure G2008101698301D00141
其中,B为父节点最大子节点数;初始B为父节点最大子节点数的初始值;cfather表示父节点。
之后,选择接近度最高的最大子节点数个候选子节点作为该父节点的子节点。
所述接近度值的计算公式为:
score(cfather,ci)=similarity(cfather,ci)+b1·(a1·tfi+a2·idfi+a3·cofreqi)+b2·struct(cfather,ci)
Figure G2008101698301D00142
其中,cfather表示父节点;ci表示候选子节点;b1,b2表示各自相应的权重因子;struct(cfather,ci)表示给定概念与候选子节点的结构相似性,similarity(cfather,ci)表示给定概念与候选子节点的相似度。
本步骤(S403)较为抽象,为了便于理解,下面针对本步骤举例进行说明。
设接近阈值0.8;候选子节点共8个,其与父节点的相似度值分别为:A为0.91、B为0.81、C为0.71、D为0.61、E为0.51、F为0.41、G为0.31、H为0.21;8个候选子节点与父节点的接近度值(按上面的接近度值计算公式计算)分别为:A为0.8、B为0.6、C为0.7、D为0.6、E为0.5、F为0.4、G为0.3、H为0.2;
那么,根据步骤(1),将与父节点的相似度值高于接近阈值的领域术语的个数,作为所述父节点最大子节点数的初始值。与父节点的相似度值高于接近阈值的领域术语的个数为2(A0.91大于0.8;B0.81大于0.8),所以所述父节点最大子节点数的初始值为2。
根据步骤(2),由于初始值为2,属于子节点个数确定公式的第三种情况,所以取子节点个数为2+2=4。
最后,选择接近度最高的最大子节点数个候选子节点作为该节点的子节点。
接近度最高的四个候选子节点分别为:A为0.8、C为0.7、B为0.6、D为0.6。这四个候选子节点即为该节点的子节点。
S404、将父节点加入最终的概念集合,并记录学习到的分类关系。
S405、父节点的子节点重复父节点的过程,选取自身的子节点。
在实际操作中,可以利用计算机先建立一个队列,按照先进先出原则组织该队列。队列建成之后,在队列尾部按照自顶向下的顺序依次加入需要建立子节点的父节点。每从队列中提取一个父节点进行查找子节点的操作,就把该父节点删除,直至队列为空。
图5所示为本发明方法的第二实施例中,信息检索模块利用索引列表进行信息检索的步骤,包括以下步骤:
S501、接收用户查询请求。
通过用户界面接收用户输入的查询请求。
S502、提取用户查询请求的关键词。
通过检索本体中术语和概念来提取关键词。如果本体中的术语或概念出现在用户输入的检索短语或自然语句中,则该术语或概念被确定为待检索的关键词。最后得到一个关键词的列表。
S503、扩充关键词列表。
通过检索本体中概念的同义词和下位词来扩充关键词列表。因为本体中定义了同义关系和上下位关系,所以很容易地就可以检索到关键词所对应的同义词和下位词,以此来扩大检索范围,提高信息检索模块的查全率和查准率。
S504、根据关键词对索引列表进行检索。
根据关键词列表对文档进行检索,得到包含查询词的所有文档,同时记录每个文档中包含哪些关键词以及每个关键词在文档中出现的频率。
S505、对检索到的文档进行排序。
把检索到的文档按权值大小排序。
文档的权值由包含的关键词个数以及关键词出现的频率决定。计算公式如下:
weight ( d ) = &Sigma; k &Element; d freq ( k , d )
其中,weight(d)表示文档d的权值,freq(k,d)表示关键词k在文档d中出现的次数。
S506、向用户返回检索结果。
通过用户界面把检索到的文档按顺序返回给用户。
本实施例相对于现有的本体学习方法可以取得更好的本体学习效果,下面给出两个实际的效果对比实例进行说明:
效果对比实例一:
1.数据集
如表1所示,本实验数据集是从EI检索的电信领域的从2000年到2007年共46048篇英文论文。
Figure G2008101698301D00162
表1
2.评价标准
本体学习的评价标准包括先验和后验两大类。本实验采用先验方法。所谓先验方法即,把学习本体和标准本体进行比较。逐层计算概念匹配和分类关系匹配的查准率,查全率。
内容:先验方法采用由领域专家事先构建的标准本体。把学习本体和标准本体进行比较,并对学习本体进行评价。
度量指标/实施细则:把学习本体和标准本体逐层进行比较。分别计算每一层概念匹配和分类关系匹配的数量,再根据公式算出每一层的查准率,查全率,最后计算总的平均值作为本体学习的查准率,查全率。
概念匹配公式:
C Match ( c i , c j ) = 1 , c i = c j 0 , c i &NotEqual; c j
分类关系匹配公式:
Figure G2008101698301D00172
3.程序运行结果
学习到8个本体,分别是从2000年到2007年的电信的英文本体,用先验方法来评价。
其中预先给定候选术语(为了减少术语获取对分类关系学习的影响,因此预先给定候选术语)。
4.评价的结果
评价结果中包括“候选术语”,由于是事先给定,所以精度和召回率为100%。该项不计入统计结果。“概念”是本体图中的节点。“分类”是本体图中的边。而“本体”是两者的平均。
用先验方法评价的结果见图6。
结果的比较
本体学习的结果之间往往没有直接可比性,因为本体学习的结果评价依赖于语料库,本体的规模,评价标准以及具体的度量指标(实施细则)。但考虑到横向比较的参考价值。因此作了结果的比较,见表2。其中本发明的Best结果为F1值最高年份2004的结果,而本发明的average结果为2000-2007年结果的评价值;对Tourism和Finance,选择最优方法FCA的结果作为本发明的比对结果。
参考数据来自2005年Journal of Artificial Intelligence Research上发表的一篇论文“Learning Concept Hierarchies from Text Corpora usingFormal Concept Analysis”[Cimiano et al,2005],利用形式概念分析的技术从文本中学习分类关系。
Figure G2008101698301D00181
表2
从结果的比较我们可以看出:虽然学习的本体不同,但本发明实施例本体学习的各项数据要优于现有本体学习方法。
效果对比实例二:
1.数据集
本实验数据集是从万方数字化图书馆资源收录的电信领域的2002年和2007年共3130篇中文论文,以及从EI检索的电信领域的2000年和2007年共9777篇英文论文。数据集规模见表3:
Figure G2008101698301D00191
表3
2.评价标准
本体学习的评价标准包括先验和后验两大类。本实验采用后验方法。所谓后验方法即,领域专家对本体中每一层的概念和分类关系分别进行评价。
内容:后验方法要求领域专家事后对学习本体的每一个概念进行评价。
度量指标/实施细则:领域专家对本体中每一层的概念和分类关系分别进行评价,有正确1分、近似正确0.6分、不完全错误0.3分和错误0分这四个等级,分别计算每一层得分的平均值,最后求出总的平均值作为本体学习的查准率。
评价标准的说明:
人们在实践中发现:采用标准本体对学习本体进行评价可能会导致错误的结论,因为即使学习本体不能反映黄金标准,也不意味着学习本体是错误的。此外,先验的黄金标准方法往往难以实现。因此,在本体学习的评价方法中,由领域专家进行后验评价效果较好。
3.程序运行结果
学习到4个本体,分别是2002和2007年电信的中英文本体,用后验方法来评价。其中候选术语也通过学习获得。
4.评价的结果
用后验方法评价的结果见图7。
综上所述,与完全手工构建本体相比,本发明实施例利用自然语言处理、机器学习和统计技术来自动构建本体,不仅省时省力,而且更新及时。
与现有技术相比,本发明实施例生成的树形结构较好的同时保证了查准率和查全率;不仅可以发现关系,还可以进一步确认关系的类型;并且无须对语料库进行标注,自动完成整个本体学习过程,最大限度地减少了人的工作量。
与基于非结构化数据的本体学习方法相比,本发明实施例选择数字化图书馆的学术论文作为语料库,充分利用了论文的结构特征和语义信息。同时,因为论文的标题、摘要、关键词属于公开信息,可以很方便地通过网络等途径获取,使得构建特定领域的语料库的成本很低,所需的时间也很短。利用数字化图书馆中的文档,对特定领域的指示性更强,可以减少歧义和语法的变化,具有更好的实用性。
本发明实施例针对现有本体学习方法更加适合复杂的本体学习,尤其是涉及多个学习任务的本体学习。本发明实施例有效集成了多种本体学习策略:基于关联规则,过滤掉非分类关系;基于句法模式,发现兄弟节点;利用概念聚类方法,学习上下位关系;基于启发式规则,发现同义关系。这样的集成策略较好的融合了各种学习的方法的优点,取长补短。
现有概念聚类方法中算法的可调节能力很弱,不能很好地支持父节点的指定(可能会出现断层现象),每个节点的聚类大小不可控制。本发明实施例可以通过调节各步骤中算法公式的参数,尤其是权值来对最终结果进行调整,控制聚类大小,算法可调节能力强,可伸缩性强,计算高效。
本发明实施例充分利用学术论文的结构特征(题目、摘要、关键字),而且针对不同的学习任务采用不同的本体学习方法,提高了本体学习的查准率和查全率。
针对具体的应用而言,比如垂直搜索引擎和信息检索,本发明实施例学习到的领域本体比目前已有的通用本体(如WordNet)有更多的实用价值。
适用性强,独立于语言,既可以处理英文,也可以处理中文。
综上所述:本发明实施例提出的方法自动构建本体,省时省力,更新及时。查准率和查全率高,具有很好的实用性和可扩展性,并且可以处理中英文。
另一方面,本发明系统的第一实施例,如图8所示,包括:
术语获取模块1:用于通过网络获取电子文档,从所述电子文档中提取领域术语;
相似度计算模块2:用于计算所述术语获取模块1提取的领域术语之间的相似度;
聚类模块3:用于将所述相似度计算模块2判定的相似的领域术语,以自顶向下限定分支的方式逐层聚类,建立索引列表。
存储模块5:用于存储所述索引列表;
信息检索模块6:用于利用索引列表进行信息检索。
还可以包括:合并模块4:用于将意义相同的领域术语合并。
其中,合并模块4可以位于聚类模块3之后,也可以位于相似度计算模块2与聚类模块3之间。
本发明实施例提供的数据检索的系统,在逐层聚类时,通过聚类模块3以限定分支的形式,限定了每个节点的子(父)节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子(父)节点的问题,优化了学习本体的树形结构,提高了该树形结构作为列表索引查找的准确性和完整性,进而提高数据检索的准确性和完整性。。
本发明系统的第二实施例,如图9所示,包括:
术语获取模块1:用于通过网络获取电子文档,从所述电子文档中提取领域术语。
相似度计算模块2:用于计算所述术语获取模块1提取的领域术语之间的相似度。
聚类模块3:用于将所述相似度计算模块2判定的相似的领域术语,以自顶向下限定分支的方式逐层聚类,建立索引列表。
合并模块4:用于将意义相同的领域术语合并。
存储模块5:用于存储所述索引列表;
信息检索模块6:用于利用索引列表进行信息检索。
其中,信息检索模块6包括:
查询请求接收子模块61:用于接收用户查询请求;
关键词提取子模块62:用于提取用户查询请求的关键词;
列表扩充子模块63:用于扩充关键词列表;
索引列表检索子模块64:用于根据关键词对索引列表进行检索;
排序子模块65:用于对检索到的文档进行排序;
检索结果返回子模块66:用于向用户返回检索结果。
进一步的,所述术语获取模块1包括:
提取子模块11:用于获取电子文档,并从所述电子文档中提取学术论文的标题、摘要和关键词。
解析子模块12:用于对所述提取子模块11提取的标题、摘要和关键词进行解析,得到名词短语。
滤除子模块13:用于事先设定停用词表,将所述解析子模块12得到的名词短语中属于停用词表的名词短语滤除。
归纳子模块14:用于将所述滤除子模块13滤除后剩下的名词短语归纳到已有的领域本体或分类体系之下。
设定子模块15:用于设定词频阈值和长度阈值。
判断子模块16:用于判断归纳子模块14归纳的名词短语与已有的领域本体或分类体系中的术语共现的频率,是否高于所述设定子模块15设定的词频阈值。
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率高于所述词频阈值,将该名词短语选定为领域术语,加入领域术语集合。
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率不高于所述词频阈值,判断所述名词短语的长度是否长于所述设定子模块15设定的长度阈值,如果所述名词短语的长度长于长度阈值,将所述名词短语拆分,将拆分得到的新名词短语同已有的领域本体或分类体系中的术语共现的频率,与词频阈值比较;如果所述名词短语的长度等于或短于长度阈值,删除所述名词短语。
所述相似度计算模块2包括:
关联关系计算子模块21:用于计算提取的领域术语之间的关联关系值。
非分类关系计算子模块22:用于计算提取的领域术语之间的非分类关系值。
兄弟关系计算子模块23:用于计算提取的领域术语之间的兄弟关系值。
相似矩阵计算子模块24:用于通过关联关系计算子模块21得到的关联关系值、非分类关系计算子模块22得到的非分类关系值和兄弟关系计算子模块23得到的兄弟关系值,计算提取的领域术语之间的相似度值。
所述聚类模块3包括:
根节点设立子模块31:用于在相似的领域术语中,选择设立根节点,作为逐层聚类的起始父节点。
子节点选取子模块32:用于自顶向下为每个父节点选取子节点,再以所述子节点为新的父节点,为其选取子节点。
所述子节点选取子模块32包括:
判别阈值设立分模块321:用于设立判别阈值,将与父节点相似度值高于判别阈值的领域术语,选为所述父节点的候选子节点。
最大子节点数设定分模块322:用于设定所述父节点的最大子节点数,选择接近度最高的最大子节点数个候选子节点作为该节点的子节点。
记录分模块323:用于将父节点加入最终的概念集合,并记录学习到的分类关系。
循环分模块324:用于使父节点的子节点重复父节点的过程,选取自身的子节点。
所述合并模块4包括:
句法模式学习子模块41:以句法模式对提取的领域术语进行合并条件判断;
同义合并子模块42:用于设定相似度阈值,对于经句法模式判断,符合合并条件的领域术语,如果这些领域术语之间的相似度值高于相似度阈值,用其中一个领域术语代替与其相似度高于相似度阈值的所有提取的领域术语。
其中,合并模块4可以位于聚类模块3之后,也可以位于相似度计算模块2与聚类模块3之间。
由于现有基于概念聚类的本体学习系统在逐层聚类时,无论是自顶向下还是自底向上的方式,在每一层的同级节点之间都是按照一定顺序分先后一个一个选取自身的子(父)节点的,但在选取子(父)节点时,其限制条件只有一个,就是选做子(父)节点的领域术语与该同级节点之间的相似度必须满足一定条件(比如相似度值超过设定的某种阈值),这样带来的结果就是只要满足相似度的条件,该同级节点就可将这样的领域术语作为自身的子(父)节点。但是,同级节点之间,尤其是同一个父节点下的同级节点之间往往也具有一定的相关性,它们在选取子(父)节点时,不可避免的在选取范围上会存在一定的交叉,但是,按照顺序先选取子(父)节点的同级节点会将同时与本级中多个节点都相似的领域术语选定,使后选取子(父)节点的同级节点失去选取机会,这就会造成同级节点之间子(父)节点数目的不均衡,前面的子(父)节点数目多,后面的子(父)节点数目少,这样直接的后果就是本体学习的树形结构倾斜,而统计结果是查准率不高。
本实施例生成的树形结构在自顶向下逐层聚类时,通过聚类模块3以限定分支的形式,限定了每个节点的子节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子节点的问题,优化了本体学习的树形结构,分类结果合理,提高了以该树形结构为基础的数据检索的准确性和完整性。
本发明另一种数据检索的方法的实施例,如图10所示,包括以下步骤:
S901、通过逐层聚类的方式,建立索引列表。
S902、存储所述索引列表。
所述存储的索引列表可以使用本体编辑工具进行编辑。
S903、信息检索模块利用索引列表进行信息检索。
其中,步骤S903如图11所示,包括:
S903a、接收用户查询请求。
S903b、提取用户查询请求的关键词。
S903c、扩充关键词列表。
S903d、根据关键词对索引列表进行检索。
S903e、对检索到的文档进行排序。
S903f、向用户返回检索结果。
本实施例在逐层聚类时,通过限定分支的形式,限定了每个节点的子(父)节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子(父)节点的问题,可以生成准确性和完整性较高的,可以作为列表索引的树形结构,进而提高数据检索的准确性和完整性。
本发明另一种数据检索的系统的实施例,如图12所示,包括:
聚类建立索引列表模块81:用于通过逐层聚类的方式,建立索引列表。
存储模块82:用于存储所述索引列表。
信息检索模块83:用于利用索引列表进行信息检索。
其中,信息检索模块83包括:
查询请求接收子模块831:用于接收用户查询请求。
关键词提取子模块832:用于提取用户查询请求的关键词。
列表扩充子模块833:用于扩充关键词列表。
索引列表检索子模块834:用于根据关键词对索引列表进行检索。
排序子模块835:用于对检索到的文档进行排序。
检索结果返回子模块836:用于向用户返回检索结果。
本实施例在逐层聚类时,通过限定分支的形式,限定了每个节点的子(父)节点数量,这样就有效避免了同级节点中,先学习的节点大量占用后学习的节点的子(父)节点的问题,可以生成准确性和完整性较高的,可以作为列表索引的树形结构,进而提高数据检索的准确性和完整性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (19)

1.一种数据检索的方法,其特征在于,包括以下步骤:
通过网络获取电子文档,从所述电子文档中提取领域术语;
计算提取的领域术语之间的相似度;
将相似的领域术语以限定分支的方式逐层聚类,建立索引列表,所述限定分支的方式为:预先确定每个节点的子节点数量;
存储所述索引列表;
信息检索模块利用所述索引列表进行信息检索;
其中,所述从电子文档中提取领域术语包括:
从电子文档中提取标题、摘要和关键词;
对所述提取的标题、摘要和关键词进行解析,得到名词短语;
将所述得到的名词短语中属于预定停用词表中的名词短语滤除;
将滤除后剩下的名词短语归纳到已有的领域本体或分类体系之下;
设定词频阈值和长度阈值;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率高于所述词频阈值,将该名词短语选定为领域术语,加入领域术语集合;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率不高于所述词频阈值,判断所述名词短语的长度是否长于长度阈值,如果所述名词短语的长度长于长度阈值,将所述名词短语拆分,将拆分得到的新名词短语同已有的领域本体或分类体系中的术语共现的频率,与词频阈值比较;如果所述名词短语的长度等于或短于长度阈值,删除所述名词短语。
2.根据权利要求1所述的数据检索的方法,其特征在于,所述存储的索引列表使用本体编辑工具进行编辑。
3.根据权利要求2所述的数据检索的方法,其特征在于,信息检索模块利用索引列表进行信息检索的步骤包括:
接收用户查询请求;
提取用户查询请求的关键词;
扩充关键词列表;
根据关键词对索引列表进行检索;
对检索到的文档进行排序;
向用户返回检索结果。
4.根据权利要求3所述的数据检索的方法,其特征在于,所述计算提取的领域术语之间的相似度的步骤包括:
计算提取的领域术语之间的关联关系值;
计算提取的领域术语之间的非分类关系值;
计算提取的领域术语之间的兄弟关系值;
通过关联关系值、非分类关系值和兄弟关系值,计算提取的领域术语之间的相似度值。
5.根据权利要求4所述的数据检索的方法,其特征在于,还包括将意义相同的领域术语合并,其步骤包括:
以句法模式对提取的领域术语进行合并条件判断;
设定相似度阈值,对于经句法模式判断,符合合并条件的领域术语,如果这些领域术语之间的相似度值高于相似度阈值,用其中一个领域术语代替与其相似度高于相似度阈值的所有提取的领域术语。
6.根据权利要求4所述的数据检索的方法,其特征在于,所述计算提取的领域术语之间的关联关系值的步骤是通过计算关联关系矩阵得到的,所述关联关系矩阵为:
Figure FDA0000095228390000031
其中,rr代表关联关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中, ( rr , t i , t j ) = &Sigma; t i , t j &Element; doc k k = 1 , . . . , p ( a + b ( D - 1 ) ) min ( &Sigma; t i &Element; doc k k = 1 , . . . , p , &Sigma; t j &Element; doc k k = 1 , . . . , p ) , 这其中,dock表示第k个文档;p表示总的文档个数;a表示初始权重;b表示距离衰减因子;D表示术语之间的距离;
所述计算提取的领域术语之间的非分类关系值的步骤是通过计算非分类关系矩阵得到的,所述非分类关系矩阵为:
Figure FDA0000095228390000033
其中,rn代表非分类关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中,
Figure FDA0000095228390000034
所述计算提取的领域术语之间的兄弟关系值的步骤是通过计算兄弟关系矩阵得到的,所述兄弟关系矩阵为:
其中,rb代表兄弟关系;ti、tj代表进行比较的两个领域术语;m代表矩阵的行列数;
其中,
所述计算提取的领域术语之间的相似度值的步骤是通过计算相似度矩阵得到的,所述相似度矩阵为:
Figure FDA0000095228390000037
其中,similarity(ti,tj)表示进行比较的两个领域术语间的相似度;m代表矩阵的行列数;其中,
当(rn,ti,tj)=0时, similarity ( t i , t j )
. . = ( rr , t i , t j ) + max ( w b &CenterDot; ( rb , t i , t j ) , &Sigma; t i , t j &Element; adoc k k = 1 , . . . , q min ( &Sigma; t i &Element; adoc k k = 1 , . . . , q , &Sigma; t j &Element; adoc k k = 1 , . . . , q ) ) + max ( w t , &Sigma; t i , t j &Element; tdoc k k = 1 , . . . , s min ( &Sigma; t i &Element; tdoc k k = 1 , . . . , s , &Sigma; t j &Element; tdoc k k = 1 , . . . , s ) ) ;
当(rn,ti,tj)=1时, similarity ( t i , t j ) . .
= a t &CenterDot; ( rr , t i , t j ) + max ( w b &CenterDot; ( rb , t i , t j ) , &Sigma; t i , t j &Element; adoc k k = 1 , . . . , q min ( &Sigma; t i &Element; adoc k k = 1 , . . . , q , &Sigma; t j &Element; adoc k k = 1 , . . . , q ) ) ;
这其中,wb表示兄弟关系的权重因子;adock表示第k个摘要文档;q表示摘要文档总的个数;tdock表示第k个标题文档;s表示标题文档总的个数;wt表示标题中共现的正面贡献因子;at表示标题中共现的负面衰减因子。
7.根据权利要求6所述的数据检索的方法,其特征在于,所述将相似的领域术语以限定分支的方式逐层聚类的步骤包括:
在有关系的领域术语中,选择设立根节点,作为逐层聚类的起始父节点;
自顶向下为每个父节点选取子节点,再以所述子节点为新的父节点,为其选取子节点。
8.根据权利要求7所述的数据检索的方法,其特征在于,所述自顶向下为每个父节点选取子节点,再以所述子节点为新的父节点,为其选取子节点的步骤包括:
设立判别阈值,将与所述父节点相似度值高于判别阈值,且之前没有被其它父节点选中过的领域术语选为所述父节点的候选子节点;
设定所述父节点的最大子节点数,选择接近度最高的最大子节点数个候选子节点作为该节点的子节点;
将父节点加入最终的概念集合,并记录学习到的分类关系;
父节点的子节点重复父节点的过程,选取自身的子节点。
9.根据权利要求8所述的数据检索的方法,其特征在于,所述接近度值的计算公式为:
score(cfather,ci)=similarity(cfather,ci)+b1·(a1·tfi+a2·idfi+a3·cofreqi)+b2·struct(cfather,ci)
Figure FDA0000095228390000051
其中,cfather表示父节点;ci表示候选子节点;b1,b2表示各自相应的权重因子;struct(cfather,ci)表示给定概念与候选子节点的结构相似性,similarity(cfather,ci)表示给定概念与候选子节点的相似度,tfi表示领域术语i出现的频率,idfi表示出现领域术语i的文档个数,cofreqi表示与领域术语i共现的其它领域术语个数,a1,a2,a3表示各自相应的加权因子。
10.根据权利要求9所述的数据检索的方法,其特征在于,所述设定所述父节点的最大子节点数的方法为:
设定接近阈值,将与父节点的相似度值高于接近阈值的领域术语的个数,作为所述父节点最大子节点数的初始值;
按照子节点个数确定公式确定父节点最大子节点数。
11.根据权利要求10所述的数据检索的方法,其特征在于,所述子节点个数确定公式为:
Figure FDA0000095228390000052
其中,B为父节点最大子节点数;初始B为父节点最大子节点数的初始值;cfather表示父节点。
12.根据权利要求11所述的数据检索的方法,其特征在于,根节点由用户指定设立,或者通过自动选取设立;
所述自动选取设立根节点的公式为: root ( i ) = max i = 1 , . . . , n ( a 1 &CenterDot; tf i + a 2 &CenterDot; idf i + a 3 &CenterDot; cofreq i ) ,
其中,tfi表示领域术语i出现的频率,idfi表示出现领域术语i的文档个数,cofreqi表示与领域术语i共现的其它领域术语个数;a1,a2,a3表示各自相应的加权因子;n表示总的概念的个数。
13.一种数据检索的系统,其特征在于,包括:
术语获取模块:用于通过网络获取电子文档,从所述电子文档中提取领域术语;
相似度计算模块:用于计算所述术语获取模块提取的领域术语之间的相似度;
聚类模块:用于将所述相似度计算模块判定的相似的领域术语,以限定分支的方式逐层聚类,建立索引列表,所述限定分支的方式为:预先确定每个节点的子节点数量;
存储模块:用于存储所述索引列表;
信息检索模块:用于利用索引列表进行信息检索;
所述术语获取模块包括:
提取子模块:用于从电子文档中提取学术论文的标题、摘要和关键词;
解析子模块:用于对所述提取子模块提取的标题、摘要和关键词进行解析,得到名词短语;
滤除子模块:用于事先设定停用词表,将所述解析子模块得到的名词短语中属于停用词表的名词短语滤除;
归纳子模块:用于将所述滤除子模块滤除后剩下的名词短语归纳到已有的领域本体或分类体系之下;
设定子模块:用于设定词频阈值和长度阈值;
判断子模块:用于判断归纳子模块归纳的名词短语与已有的领域本体或分类体系中的术语共现的频率,是否高于所述设定子模块设定的词频阈值;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率高于所述词频阈值,将该名词短语选定为领域术语,加入领域术语集合;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率不高于所述词频阈值,判断所述名词短语的长度是否长于所述设定子模块设定的长度阈值,如果所述名词短语的长度长于长度阈值,将所述名词短语拆分,将拆分得到的新名词短语同已有的领域本体或分类体系中的术语共现的频率,与词频阈值比较;如果所述名词短语的长度等于或短于长度阈值,删除所述名词短语。
14.根据权利要求13所述的数据检索的系统,其特征在于,信息检索模块包括:
查询请求接收子模块:用于接收用户查询请求;
关键词提取子模块:用于提取用户查询请求的关键词;
列表扩充子模块:用于扩充关键词列表;
索引列表检索子模块:用于根据关键词对索引列表进行检索;
排序子模块:用于对检索到的文档进行排序;
检索结果返回子模块:用于向用户返回检索结果。
15.根据权利要求13所述的数据检索的系统,其特征在于,所述相似度计算模块包括:
关联关系计算子模块:用于计算提取的领域术语之间的关联关系值;
非分类关系计算子模块:用于计算提取的领域术语之间的非分类关系值;
兄弟关系计算子模块:用于计算提取的领域术语之间的兄弟关系值;
相似矩阵计算子模块:用于通过关联关系计算子模块得到的关联关系值、非分类关系计算子模块得到的非分类关系值和兄弟关系计算子模块得到的兄弟关系值,计算提取的领域术语之间的相似度值。
16.根据权利要求15所述的数据检索的系统,其特征在于,还包括:
合并模块:用于将意义相同的领域术语合并。
17.根据权利要求16所述的数据检索的系统,其特征在于,所述合并模块包括:
句法模式学习子模块:用于以句法模式对提取的领域术语进行合并条件判断;
同义合并子模块:用于设定相似度阈值,对于经句法模式判断,符合合并条件的领域术语,如果这些领域术语之间的相似度值高于相似度阈值,用其中一个领域术语代替与其相似度高于相似度阈值的所有提取的领域术语。
18.根据权利要求13所述的数据检索的系统,其特征在于,所述聚类模块包括:
根节点设立子模块:用于在有关系的领域术语中,选择设立根节点,作为逐层聚类的起始父节点;
子节点选取子模块:用于自顶向下为每个父节点选取子节点,再以所述子节点为新的父节点,为其选取子节点。
19.根据权利要求18所述的数据检索的系统,其特征在于,所述子节点选取子模块包括:
判别阈值设立分模块:用于设立判别阈值,将与父节点相似度值高于判别阈值,且之前没有被其它父节点选中过的领域术语,选为所述父节点的候选子节点;
最大子节点数设定分模块:用于设定所述父节点的最大子节点数,选择接近度最高的最大子节点数个候选子节点作为该节点的子节点;
记录分模块:用于将父节点加入最终的概念集合,并记录学习到的分类关系;
循环分模块:用于使父节点的子节点重复父节点的过程,选取自身的子节点。
CN2008101698301A 2008-09-28 2008-09-28 数据检索的方法和系统 Expired - Fee Related CN101685455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101698301A CN101685455B (zh) 2008-09-28 2008-09-28 数据检索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101698301A CN101685455B (zh) 2008-09-28 2008-09-28 数据检索的方法和系统

Publications (2)

Publication Number Publication Date
CN101685455A CN101685455A (zh) 2010-03-31
CN101685455B true CN101685455B (zh) 2012-02-01

Family

ID=42048619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101698301A Expired - Fee Related CN101685455B (zh) 2008-09-28 2008-09-28 数据检索的方法和系统

Country Status (1)

Country Link
CN (1) CN101685455B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268446A (zh) * 2018-01-16 2018-07-10 国网重庆市电力公司电力科学研究院 一种缺陷信息的处理方法及装置

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298576B (zh) * 2010-06-25 2014-07-02 株式会社理光 文档关键词生成方法和装置
CN101957860B (zh) * 2010-10-15 2014-06-18 北京思在信息技术有限责任公司 一种发布、搜索信息的方法及装置
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
CN102855264B (zh) * 2011-07-01 2015-11-25 富士通株式会社 文档处理方法及其装置
CN103064838B (zh) * 2011-10-19 2016-03-30 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN102567464B (zh) * 2011-11-29 2015-08-05 西安交通大学 基于扩展主题图的知识资源组织方法
CN102609546B (zh) * 2011-12-08 2014-11-05 清华大学 一种学术期刊论文作者信息挖掘方法及系统
CN103186650B (zh) * 2011-12-30 2016-05-25 中国移动通信集团四川有限公司 一种搜索方法和装置
CN103294662B (zh) * 2012-03-01 2016-01-20 株式会社日立制作所 一致性判断装置及一致性判断方法
CN103377255A (zh) * 2012-04-27 2013-10-30 北大方正集团有限公司 索引文章的创建方法和装置
WO2014045291A1 (en) * 2012-09-18 2014-03-27 Hewlett-Packard Development Company, L.P. Mining questions related to an electronic text document
CN103699625B (zh) * 2013-12-20 2017-05-10 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
US10437869B2 (en) 2014-07-14 2019-10-08 International Business Machines Corporation Automatic new concept definition
US10503761B2 (en) 2014-07-14 2019-12-10 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations
US10162882B2 (en) 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
CN104794168B (zh) * 2015-03-30 2018-06-05 明博教育科技有限公司 一种知识点关联方法及系统
JP6653499B2 (ja) * 2015-08-12 2020-02-26 国立研究開発法人情報通信研究機構 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
CN105335359A (zh) * 2015-11-18 2016-02-17 成都优译信息技术有限公司 用于翻译教学系统的术语萃取方法
CN105912580A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息获取方法及装置和信息推送方法及装置
CN107329946B (zh) * 2016-04-29 2021-08-24 阿里巴巴集团控股有限公司 相似度的计算方法和装置
CN106599054B (zh) * 2016-11-16 2019-12-24 福建天泉教育科技有限公司 一种题目分类及推送的方法及系统
CN108415959B (zh) * 2018-02-06 2021-06-25 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN108287927B (zh) * 2018-03-05 2019-10-22 北京百度网讯科技有限公司 用于获取信息的方法及装置
US10963491B2 (en) * 2018-03-29 2021-03-30 The Boeing Company Structures maintenance mapper
CN109117477B (zh) * 2018-07-17 2022-01-28 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN110931137B (zh) * 2018-09-19 2023-07-07 京东方科技集团股份有限公司 机器辅助对话系统、方法及装置
CN109522396B (zh) * 2018-10-22 2020-12-25 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及系统
US11106717B2 (en) 2018-11-19 2021-08-31 International Business Machines Corporation Automatic identification and clustering of patterns
CN110968681B (zh) * 2019-11-05 2023-05-23 中国软件与技术服务股份有限公司 一种组合公式信息扩展的信念网络检索模型构建方法和检索方法及装置
CN115033772A (zh) * 2022-06-20 2022-09-09 浙江大学 一种基于语义网络的创意激发方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268446A (zh) * 2018-01-16 2018-07-10 国网重庆市电力公司电力科学研究院 一种缺陷信息的处理方法及装置

Also Published As

Publication number Publication date
CN101685455A (zh) 2010-03-31

Similar Documents

Publication Publication Date Title
CN101685455B (zh) 数据检索的方法和系统
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
Wong et al. Incremental document clustering for web page classification
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN103064969A (zh) 自动建立关键词索引表的方法
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
Haque et al. Literature review of automatic multiple documents text summarization
CN114997288A (zh) 一种设计资源关联方法
Smadja XTRACT: an overview
AlMahmoud et al. A modified bond energy algorithm with fuzzy merging and its application to Arabic text document clustering
CN106570196B (zh) 视频节目的搜索方法和装置
Mollaei et al. Question classification in Persian language based on conditional random fields
Karoui et al. Context-based hierarchical clustering for the ontology learning
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
CN112597305B (zh) 基于深度学习的科技文献作者名消歧方法及web端消歧装置
Asa et al. A comprehensive survey on extractive text summarization techniques
Karoui et al. Contextual Concept Discovery Algorithm.
Greevy Automatic text categorisation of racist webpages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120201

Termination date: 20200928

CF01 Termination of patent right due to non-payment of annual fee