CN104166712B - 科技文献检索方法及系统 - Google Patents

科技文献检索方法及系统 Download PDF

Info

Publication number
CN104166712B
CN104166712B CN201410398279.3A CN201410398279A CN104166712B CN 104166712 B CN104166712 B CN 104166712B CN 201410398279 A CN201410398279 A CN 201410398279A CN 104166712 B CN104166712 B CN 104166712B
Authority
CN
China
Prior art keywords
scientific
title
technical literature
degree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410398279.3A
Other languages
English (en)
Other versions
CN104166712A (zh
Inventor
郭晓利
曲朝阳
潘峰
娄建楼
孙慧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN201410398279.3A priority Critical patent/CN104166712B/zh
Publication of CN104166712A publication Critical patent/CN104166712A/zh
Application granted granted Critical
Publication of CN104166712B publication Critical patent/CN104166712B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。

Description

科技文献检索方法及系统
技术领域
本发明涉及信息检索和数据挖掘领域,尤其涉及对科技文献的检索方法。
背景技术
随着信息技术和计算机的发展,各类电子文档的数量以空前的速度增长,电子文档正逐步取代传统的纸质出版物。电子文献检索已经成为获取信息的有效途径。
现有的电子文献检索方法通常是基于统计词频的方式来实现的。当输入检索的关键词时,依据所统计的关键词在电子文件中出现的频率来对检索结果进行排序。这类方法都是机械式地进行统计和匹配,而忽视了词本身在语义上的实际意义和词与词之间在语义上的关联性,而且也没有结合各种语言的语言习惯,检索效果并不理想。特别是对于科技类文献,一些领域通用的理论和方法术语出现的频率很高,但这些词频高的术语并不能很好地表征文献的特点,因而采用统计词频的方式对科技文献的检索效率并不高。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的科技文献检索方法及系统。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种科技文献检索方法,包括:
步骤1)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;
步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;
其中,所述科技文献名称的特征向量空间是通过下列操作得到的:
a)提取用于检索的数据集中所有科技文献名称来构成训练集;
b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。
上述方法中,所述步骤1)还可以包括:
如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在0与1之间的实数。
上述方法中,所述相关度修正值可以通过下面的公式计算的:
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,n表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在0到1之间。
上述方法中,还可以包括将用于检索的数据集中所有的科技文献分为多个指定的类别;以及在所述步骤1)还可以包括:
按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为:
其中t表示检索词条的前缀,表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
上述方法中,在所述步骤1)中所述语义相关度可以为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
又一方面,本发明提供了一种科技文献检索系统,包括:
语义相关度计算模块,用于基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;
输出模块,取其名称对应的语义相关度高的前若干个科技文献作为检索结果;
其中,所述科技文献名称的特征向量空间是通过下列操作得到的:
a)提取用于检索的数据集中所有科技文献名称来构成训练集;
b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。
上述系统中,所述语义相关度计算模块还可以包括相关度调整模块,用于如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在0与1之间的实数。
上述系统中,所述相关度修正值可以通过下面的公式计算的:
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,n表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在0到1之间。
上述系统中,其中用于检索的数据集中所有的科技文献可以被分为多个指定的类别;以及所述相关度调整模块还可以用于:
按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为:
其中t表示检索词条的前缀,表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
上述系统中,所述语义相关度可以为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
与现有技术相比,本发明的优点在于:
考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于科技文献的检索效率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的中文科技文献检索方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如在背景技术部分提到的,科技文献与网页、微博、新闻等不同,其是结构化的文档,而且可能包含很多领域通用的理论和方法的术语。因而,出现频率高的词并不一定能很好地表征科技文献。发明人经大量研究实践发现,科技文献的标题是对科技文献内容的高度概括,检索科技文献的标题的效率要比统计关键词在每篇科技文献的整个文本内容中出现的频率的效率高很多。虽然现有的文献检索平台也提供了对标题、摘要、文本内容的分类检索,但实质上仍然是统计关键词在标题、摘要、文本内容中出现的次数,而并没有考虑关键词本身在语义上的实际意义以及词与词之间在语义上的关联性。
针对上述问题,在本发明的一个实施例中,提供了一种新的中文科技文献检索方法。该方法包括首先基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式;接着计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;然后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。
其中所述科技文献名称的特征向量空间是通过下列过程得到的:首先提取用于检索的数据集中所有科技文献名称来构成训练集。接着对于训练集中每个科技文献名称进行分词处理。分词过程可采用IKAnalyzer、Lucene 或JE-Analysis等开源中文分词工具包来进行。在分词过程中,还可以去除停用词和一些对分类无影响的词汇,这有助于捕捉整个信息所要表达的真实意思,并减少最终可能影响分类任务的数据的维度,达到降低语句复杂度的目的。对于经分词处理后得到的训练集,可以建立由所有经分词得到的词汇构成的科技文献名称的特征向量空间。但是由于特征向量的维数过多会带来巨大的计算量,因此通常都会进行降维处理,选取权重值大的前k(k为正整数)个词语作为特征词,并构成科技文献名称的特征向量空间。这里,采用以每个词的词频与逆向文档频率的乘积作为该词的权重。其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和。所述每个词的逆向文档频率为:
然后,取其词频与逆向文档频率的乘积大的前k个词作为特征词来构成所述科技文献名称的特征向量空间。这样,对于每个科技文献名称,其特征向量可以表示为(n1,n2,n3,…nk),其中当该特征向量空间中第i(1≤i≤k)个词出现在该科技文献名称中时,ni取值为1,否则取值为0。类似地,对于用户输入的检索词条,也可以基于科技文献名称的特征向量空间将其表示成特征向量的形式,当该特征向量空间中第i个词出现在该检索词条中时,该检索词条的特征向量中第i个元素取值为1,否则取值为0。
在获得该检索词条的特征向量后,计算其与数据集中每个科技文献的名称的特征向量的语义相关度。例如,可以将两个特征向量之间的余弦距离、欧式距离或杰卡德距离作为这两个特征向量的语义相关度。这样计算的相关度,反映了检索词条与科技文献名称在语义上的关联性。语义相关度值越大,说明二者越接近。可以取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。
此外,可以当用于检索的数据集发生变化时,例如加入了新的科技文献等,可以通过上面的过程重新获取该数据集的科技文献名称的特征向量空间。
在又一个实施例中,还提供了一种基于限定词的中文科技文献检索方法,该方法不仅考虑检索词条与科技文献名称在语义上的关联性,还结合中文语言的表达习惯,以进一步提高检索的准确性。在现代汉语文法结构中,“的”字是现代汉语中出现频率最高的词。在论文、期刊、专利等科技文献的名称中,一般都是以某些名词或代词等加上“的”组成限定词,修饰后面的词或词组。在本实施例中,如果检索词条中包含“的”字,则可以将由该科技文献名称构成的、包含“的”字的词条以“的”字作为分界,从而将该构成的词条分为前后两个部分,分别成为前缀词和后缀词,或者简称为前缀和后缀。前缀词几乎相同的情况下,后缀词虽然不同,但由于这些后缀词与前缀词存在某种关联关系,因此,这些后缀词之间也存在一些内在联系,如包含、并列等关系,如表1所示。将表1整理后,可统一为如表2所示的形式。这些词条的前缀词都为“配电网重构”,后缀词均不相同,但后缀词因为它们共同的前缀词而存在着关联关系。
表1
表2
因此,可以利用“的”字在汉语文法中的独特作用,发现上述隐含的关联性。进而,可以通过对基于上文描述的方法计算获得的科技文献名称相应的语义相关度进行修正,来考虑该隐含的关联性,从而提高检索的效率和准确性。
在该实施例中,该方法首先如上述所讨论的基于科技文献名称的特征向量空间将接收到的检索词条表示为特征向量的形式并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度。然后如果检索词条中包含“的”字,则基于“的”字,将该检索词条分成前缀和后缀,找出训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度。例如,将所找到的科技文献名称对应的语义相关度加上相关度修正值,该相关度修正值可以是一个在0与1之间的实数。在又一个实施例中,可以通过下面的公式来计算相关度修正值:
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,n表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在0到1之间。最后,根据语义相关度进行排序,取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。
在本发明的又一个实施例中,还可以将用于检索的数据集中所有的科技文献分为指定的几个类别,记为S1、S2、S3、S4、S5等类别。在如上述所讨论的获得检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度之后,如果检索词条中包含“的”字,则基于“的”字,将该检索词条分成前缀和后缀。然后可以采用下面的方法对语义相关度进行修正:
首先,如上文所述的,对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度加上相关度修正值α。
接着,计算检索词条中的前缀词对于每个类别的类别相关度修正系数,例如,前缀词t对于第i个类别的类别相关度修正系数Wi为:
其中表示前缀词t在第i个类别Si包含的科技文献的名称中出现的总次数,m表示第i个类别Si中包含的科技文献名称的数目,nt表示前缀词t在数据集包含的科技文献的名称中出现的总次数,这里的α是上文计算的相关度修正值。
然后,对于每个类别内包含的所有的科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。经过上述的语义相关度修正过程之后,按照语义相关度的排序,取其名称对应的语义相关度大的前若干个科技文献作为与该检索词条对应的检索结果。
在本发明的又一个实施例中,还提供了一种新的中文科技文献检索系统,其包括语义相关度计算模块、输出模块和特征提取模块。其中语义相关度计算模块采用如上文讨论的方法,基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度。输出模块用于取其名称对应的语义相关度高的前若干个科技文献作为检索结果。所述特征提取模块采用上文讨论的方法基于数据集中所有科技文献名称构建所述科技文献名称的特征向量空间。此外,该系统还可以包括相关度调整模块,用于对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (6)

1.一种科技文献检索方法,所述方法包括:
步骤1)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;
步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;
其中,所述科技文献名称的特征向量空间是通过下列操作得到的:
a)提取用于检索的数据集中所有科技文献名称来构成训练集;
b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间;
其中所述步骤1)还包括:
如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在0与1之间的实数;
其中所述相关度修正值是通过下面的公式计算的:
<mrow> <mi>&amp;alpha;</mi> <mo>=</mo> <mi>&amp;beta;</mi> <mo>&amp;CenterDot;</mo> <mfrac> <mi>r</mi> <mi>n</mi> </mfrac> <mi>lg</mi> <mfrac> <mi>n</mi> <mi>r</mi> </mfrac> </mrow>
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,n表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在0到1之间。
2.根据权利要求1所述的方法,还包括将用于检索的数据集中所有的科技文献分为多个指定的类别;以及在所述步骤1)还包括:
按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为:
其中t表示检索词条的前缀,表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及
对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
3.根据权利要求1所述的方法,在所述步骤1)中所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
4.一种科技文献检索系统,所述系统包括:
语义相关度计算模块,用于基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;
输出模块,取其名称对应的语义相关度高的前若干个科技文献作为检索结果;
其中,所述科技文献名称的特征向量空间是通过下列操作得到的:
a)提取用于检索的数据集中所有科技文献名称来构成训练集;
b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间;
其中,所述语义相关度计算模块还包括相关度调整模块,用于如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在0与1之间的实数;
其中所述相关度修正值是通过下面的公式计算的:
<mrow> <mi>&amp;alpha;</mi> <mo>=</mo> <mi>&amp;beta;</mi> <mo>&amp;CenterDot;</mo> <mfrac> <mi>r</mi> <mi>n</mi> </mfrac> <mi>lg</mi> <mfrac> <mi>n</mi> <mi>r</mi> </mfrac> </mrow>
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,n表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在0到1之间。
5.根据权利要求4所述的系统,其中用于检索的数据集中所有的科技文献被分为多个指定的类别;以及所述相关度调整模块还用于:
按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为:
其中t表示检索词条的前缀,表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及
对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
6.根据权利要求4所述的系统,其中,所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
CN201410398279.3A 2014-08-13 2014-08-13 科技文献检索方法及系统 Expired - Fee Related CN104166712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410398279.3A CN104166712B (zh) 2014-08-13 2014-08-13 科技文献检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410398279.3A CN104166712B (zh) 2014-08-13 2014-08-13 科技文献检索方法及系统

Publications (2)

Publication Number Publication Date
CN104166712A CN104166712A (zh) 2014-11-26
CN104166712B true CN104166712B (zh) 2018-01-30

Family

ID=51910525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410398279.3A Expired - Fee Related CN104166712B (zh) 2014-08-13 2014-08-13 科技文献检索方法及系统

Country Status (1)

Country Link
CN (1) CN104166712B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
CN109117435B (zh) * 2017-06-22 2021-07-27 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN107357779B (zh) * 2017-06-27 2018-10-02 北京神州泰岳软件股份有限公司 一种获取机构名称的方法及装置
CN109815499B (zh) * 2019-01-25 2023-05-23 杭州凡闻科技有限公司 信息关联方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
CN103116587B (zh) * 2011-11-17 2015-09-09 阿里巴巴集团控股有限公司 一种可缺省关键词的挖掘方法、数据搜索方法及设备
CN103729364B (zh) * 2012-10-12 2017-08-18 腾讯科技(北京)有限公司 可再现内容的录入系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
科技文献共享平台全文检索技术研究;谭雷雨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090515;第2009年卷(第05期);正文第29-37,53页 *

Also Published As

Publication number Publication date
CN104166712A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
Akter et al. An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN108763213A (zh) 主题特征文本关键词提取方法
CN105426360B (zh) 一种关键词抽取方法及装置
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN105488077B (zh) 生成内容标签的方法和装置
Ruas et al. Multi-sense embeddings through a word sense disambiguation process
CN104408191B (zh) 关键词的关联关键词的获取方法和装置
CN109508378B (zh) 一种样本数据处理方法及装置
US20110196670A1 (en) Indexing content at semantic level
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
US8812504B2 (en) Keyword presentation apparatus and method
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN104166712B (zh) 科技文献检索方法及系统
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Bahassine et al. Arabic text classification using new stemmer for feature selection and decision trees
CN107526792A (zh) 一种中文问句关键词快速提取方法
Awajan Semantic similarity based approach for reducing Arabic texts dimensionality
Hajeer et al. A new stemming algorithm for efficient information retrieval systems and web search engines
Fodil et al. Theme classification of Arabic text: A statistical approach
Zhang et al. Efficient generation and processing of word co-occurrence networks using corpus2graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180130

Termination date: 20200813

CF01 Termination of patent right due to non-payment of annual fee