CN104166712B

CN104166712B - 科技文献检索方法及系统

Info

Publication number: CN104166712B
Application number: CN201410398279.3A
Authority: CN
Inventors: 郭晓利; 曲朝阳; 潘峰; 娄建楼; 孙慧宇
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2018-01-30
Anticipated expiration: 2034-08-13
Also published as: CN104166712A

Abstract

本发明提供一种基于限定词的中文科技文献检索方法，该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度；接着基于“的”字，对该检索词条划界，找出前缀与所述检索词条的前缀相同的各个科技文献名称，并修正其对应的语义相关度，最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性，并且结合了中文语法中词汇间的关联性，提高了对于中文科技文献的检索效率。

Description

科技文献检索方法及系统

技术领域

本发明涉及信息检索和数据挖掘领域，尤其涉及对科技文献的检索方法。

背景技术

随着信息技术和计算机的发展，各类电子文档的数量以空前的速度增长，电子文档正逐步取代传统的纸质出版物。电子文献检索已经成为获取信息的有效途径。

现有的电子文献检索方法通常是基于统计词频的方式来实现的。当输入检索的关键词时，依据所统计的关键词在电子文件中出现的频率来对检索结果进行排序。这类方法都是机械式地进行统计和匹配，而忽视了词本身在语义上的实际意义和词与词之间在语义上的关联性，而且也没有结合各种语言的语言习惯，检索效果并不理想。特别是对于科技类文献，一些领域通用的理论和方法术语出现的频率很高，但这些词频高的术语并不能很好地表征文献的特点，因而采用统计词频的方式对科技文献的检索效率并不高。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的科技文献检索方法及系统。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种科技文献检索方法，包括：

步骤1)基于科技文献名称的特征向量空间，将接收到的检索词条表示为特征向量的形式，并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度；

步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果；

其中，所述科技文献名称的特征向量空间是通过下列操作得到的：

a)提取用于检索的数据集中所有科技文献名称来构成训练集；

b)对训练集中每个科技文献名称进行分词，统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率；其中，每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和；所述每个词的逆向文档频率为：

c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。

上述方法中，所述步骤1)还可以包括：

如果所述检索词条中包含中文字“的”，则对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度与相关度修正值相加；其中，所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分，所述相关度修正值为一个在0与1之间的实数。

上述方法中，所述相关度修正值可以通过下面的公式计算的：

其中，α表示相关度修正值，r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目，n表示所述训练集中科技文献名称的总数目，β为相关度影响因子，其取值在0到1之间。

上述方法中，还可以包括将用于检索的数据集中所有的科技文献分为多个指定的类别；以及在所述步骤1)还可以包括：

按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数：对于第i个类别的类别相关度修正系数W_i为：

其中t表示检索词条的前缀，表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数，m表示属于第i个类的科技文献的数目，n_t表示前缀t在数据集的所有科技文献的名称中出现的总次数，α代表所述相关度修正值；以及对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。

上述方法中，在所述步骤1)中所述语义相关度可以为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。

又一方面，本发明提供了一种科技文献检索系统，包括：

语义相关度计算模块，用于基于科技文献名称的特征向量空间，将接收到的检索词条表示为特征向量的形式，并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度；

输出模块，取其名称对应的语义相关度高的前若干个科技文献作为检索结果；

上述系统中，所述语义相关度计算模块还可以包括相关度调整模块，用于如果所述检索词条中包含中文字“的”，则对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度与相关度修正值相加；其中，所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分，所述相关度修正值为一个在0与1之间的实数。

上述系统中，所述相关度修正值可以通过下面的公式计算的：

上述系统中，其中用于检索的数据集中所有的科技文献可以被分为多个指定的类别；以及所述相关度调整模块还可以用于：

上述系统中，所述语义相关度可以为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。

与现有技术相比，本发明的优点在于：

考虑了检索词与科技文献标题的语义相关性，并且结合了中文语法中词汇间的关联性，提高了对于科技文献的检索效率。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的中文科技文献检索方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，科技文献与网页、微博、新闻等不同，其是结构化的文档，而且可能包含很多领域通用的理论和方法的术语。因而，出现频率高的词并不一定能很好地表征科技文献。发明人经大量研究实践发现，科技文献的标题是对科技文献内容的高度概括，检索科技文献的标题的效率要比统计关键词在每篇科技文献的整个文本内容中出现的频率的效率高很多。虽然现有的文献检索平台也提供了对标题、摘要、文本内容的分类检索，但实质上仍然是统计关键词在标题、摘要、文本内容中出现的次数，而并没有考虑关键词本身在语义上的实际意义以及词与词之间在语义上的关联性。

针对上述问题，在本发明的一个实施例中，提供了一种新的中文科技文献检索方法。该方法包括首先基于科技文献名称的特征向量空间，将接收到的检索词条表示为特征向量的形式；接着计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度；然后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。

其中所述科技文献名称的特征向量空间是通过下列过程得到的：首先提取用于检索的数据集中所有科技文献名称来构成训练集。接着对于训练集中每个科技文献名称进行分词处理。分词过程可采用IKAnalyzer、Lucene 或JE-Analysis等开源中文分词工具包来进行。在分词过程中，还可以去除停用词和一些对分类无影响的词汇，这有助于捕捉整个信息所要表达的真实意思，并减少最终可能影响分类任务的数据的维度，达到降低语句复杂度的目的。对于经分词处理后得到的训练集，可以建立由所有经分词得到的词汇构成的科技文献名称的特征向量空间。但是由于特征向量的维数过多会带来巨大的计算量，因此通常都会进行降维处理，选取权重值大的前k(k为正整数)个词语作为特征词，并构成科技文献名称的特征向量空间。这里，采用以每个词的词频与逆向文档频率的乘积作为该词的权重。其中，每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和。所述每个词的逆向文档频率为：

然后，取其词频与逆向文档频率的乘积大的前k个词作为特征词来构成所述科技文献名称的特征向量空间。这样，对于每个科技文献名称，其特征向量可以表示为(n₁,n₂,n₃,…n_k)，其中当该特征向量空间中第i(1≤i≤k)个词出现在该科技文献名称中时，n_i取值为1，否则取值为0。类似地，对于用户输入的检索词条，也可以基于科技文献名称的特征向量空间将其表示成特征向量的形式，当该特征向量空间中第i个词出现在该检索词条中时，该检索词条的特征向量中第i个元素取值为1，否则取值为0。

在获得该检索词条的特征向量后，计算其与数据集中每个科技文献的名称的特征向量的语义相关度。例如，可以将两个特征向量之间的余弦距离、欧式距离或杰卡德距离作为这两个特征向量的语义相关度。这样计算的相关度，反映了检索词条与科技文献名称在语义上的关联性。语义相关度值越大，说明二者越接近。可以取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。

此外，可以当用于检索的数据集发生变化时，例如加入了新的科技文献等，可以通过上面的过程重新获取该数据集的科技文献名称的特征向量空间。

在又一个实施例中，还提供了一种基于限定词的中文科技文献检索方法，该方法不仅考虑检索词条与科技文献名称在语义上的关联性，还结合中文语言的表达习惯，以进一步提高检索的准确性。在现代汉语文法结构中，“的”字是现代汉语中出现频率最高的词。在论文、期刊、专利等科技文献的名称中，一般都是以某些名词或代词等加上“的”组成限定词，修饰后面的词或词组。在本实施例中，如果检索词条中包含“的”字，则可以将由该科技文献名称构成的、包含“的”字的词条以“的”字作为分界，从而将该构成的词条分为前后两个部分，分别成为前缀词和后缀词，或者简称为前缀和后缀。前缀词几乎相同的情况下，后缀词虽然不同，但由于这些后缀词与前缀词存在某种关联关系，因此，这些后缀词之间也存在一些内在联系，如包含、并列等关系，如表1所示。将表1整理后，可统一为如表2所示的形式。这些词条的前缀词都为“配电网重构”，后缀词均不相同，但后缀词因为它们共同的前缀词而存在着关联关系。

表1

表2

因此，可以利用“的”字在汉语文法中的独特作用，发现上述隐含的关联性。进而，可以通过对基于上文描述的方法计算获得的科技文献名称相应的语义相关度进行修正，来考虑该隐含的关联性，从而提高检索的效率和准确性。

在该实施例中，该方法首先如上述所讨论的基于科技文献名称的特征向量空间将接收到的检索词条表示为特征向量的形式并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度。然后如果检索词条中包含“的”字，则基于“的”字，将该检索词条分成前缀和后缀，找出训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称，并修正其对应的语义相关度。例如，将所找到的科技文献名称对应的语义相关度加上相关度修正值，该相关度修正值可以是一个在0与1之间的实数。在又一个实施例中，可以通过下面的公式来计算相关度修正值：

其中，α表示相关度修正值，r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目，n表示所述训练集中科技文献名称的总数目，β为相关度影响因子，其取值在0到1之间。最后，根据语义相关度进行排序，取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。

在本发明的又一个实施例中，还可以将用于检索的数据集中所有的科技文献分为指定的几个类别，记为S₁、S₂、S₃、S₄、S₅等类别。在如上述所讨论的获得检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度之后，如果检索词条中包含“的”字，则基于“的”字，将该检索词条分成前缀和后缀。然后可以采用下面的方法对语义相关度进行修正：

首先，如上文所述的，对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度加上相关度修正值α。

接着，计算检索词条中的前缀词对于每个类别的类别相关度修正系数，例如，前缀词t对于第i个类别的类别相关度修正系数W_i为：

其中表示前缀词t在第i个类别S_i包含的科技文献的名称中出现的总次数，m表示第i个类别S_i中包含的科技文献名称的数目，n_t表示前缀词t在数据集包含的科技文献的名称中出现的总次数，这里的α是上文计算的相关度修正值。

然后，对于每个类别内包含的所有的科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。经过上述的语义相关度修正过程之后，按照语义相关度的排序，取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。

在本发明的又一个实施例中，还提供了一种新的中文科技文献检索系统，其包括语义相关度计算模块、输出模块和特征提取模块。其中语义相关度计算模块采用如上文讨论的方法，基于科技文献名称的特征向量空间，将接收到的检索词条表示为特征向量的形式，并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度。输出模块用于取其名称对应的语义相关度高的前若干个科技文献作为检索结果。所述特征提取模块采用上文讨论的方法基于数据集中所有科技文献名称构建所述科技文献名称的特征向量空间。此外，该系统还可以包括相关度调整模块，用于对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度与相关度修正值相加。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种科技文献检索方法，所述方法包括：

c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间；

其中所述步骤1)还包括：

如果所述检索词条中包含中文字“的”，则对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度与相关度修正值相加；其中，所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分，所述相关度修正值为一个在0与1之间的实数；

其中所述相关度修正值是通过下面的公式计算的：

<mrow> <mi>&alpha;</mi> <mo>=</mo> <mi>&beta;</mi> <mo>&CenterDot;</mo> <mfrac> <mi>r</mi> <mi>n</mi> </mfrac> <mi>lg</mi> <mfrac> <mi>n</mi> <mi>r</mi> </mfrac> </mrow>

2.根据权利要求1所述的方法，还包括将用于检索的数据集中所有的科技文献分为多个指定的类别；以及在所述步骤1)还包括：

其中t表示检索词条的前缀，表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数，m表示属于第i个类的科技文献的数目，n_t表示前缀t在数据集的所有科技文献的名称中出现的总次数，α代表所述相关度修正值；以及

对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。

3.根据权利要求1所述的方法，在所述步骤1)中所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。

4.一种科技文献检索系统，所述系统包括：

其中，所述语义相关度计算模块还包括相关度调整模块，用于如果所述检索词条中包含中文字“的”，则对于其前缀与所述检索词条的前缀相同的各个科技文献名称，将其对应的语义相关度与相关度修正值相加；其中，所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分，所述相关度修正值为一个在0与1之间的实数；

其中所述相关度修正值是通过下面的公式计算的：

5.根据权利要求4所述的系统，其中用于检索的数据集中所有的科技文献被分为多个指定的类别；以及所述相关度调整模块还用于：

6.根据权利要求4所述的系统，其中，所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。