CN101251854A

CN101251854A - 一种生成检索词条的方法及数据检索方法和系统

Info

Publication number: CN101251854A
Application number: CNA2008100663146A
Authority: CN
Inventors: 毕亚雷; 徐洪奎; 杜如虚
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2008-03-19
Filing date: 2008-03-19
Publication date: 2008-08-27

Abstract

本发明公开了一种生成检索词条的方法及数据检索方法和系统，其生成检索词条的方法包括以下步骤：A.根据原始主题的词条查询相关词汇，并建立相关词汇推荐表；B.利用相关词汇推荐表查询资料库，检索文献摘要；C.对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；D.将推荐词条插入到相关词汇推荐表中，形成主题词推荐表。本发明主要运用自动化文本挖掘技术和统计技术，结合少量人工修正，获得全面的主题词推荐表，并利用该表进行资料库的检索。

Description

一种生成检索词条的方法及数据检索方法和系统

技术领域

本发明涉及资料库自动检索技术，尤其涉及的是，一种生成检索词条的方法及数据检索方法和系统。

背景技术

通常检索专利文献都是通过国家知识产权局网站(http://www.sipo.gov.cn/sipo/zljs/)上提供的专利文献数据库检索系统。在利用专利文献数据库检索系统进行专利检索时，可以在检索入口输入关系式进行检索。虽然检索入口对于专业的检索人士可能不会成为问题，但对非专业检索人士，要想达到专利检索的“全”、“准”，却不是一件容易的事情。

目前已有的实现这一目标的方法就是：

(1)、根据检索主题提供的有限关键字列表设置尽可能准确的检索关系式，检索文献库得到专利文献集合。

(2)、通过专利检索人员反复试检、大量阅读专利摘要，判断检索主题的国际专利分类号和检索主题的主题词等。这是一件非常复杂和专业性非常强的工作，而且要想在短时间内完成，需要专业水准的专利检索技能和检索主题方面的专业知识。

通过检索主题给出的单纯信息并不能全面反映其关键词分布情况，因此得到的检索结果通常不够准确全面。而通过专业的专利检索人员进行专利文献库检索时，需要人工阅读大量文献，费时费力，检索周期长，效率低下；对于非专业的专利检索人员，还需要进行专业的培训，学习与“专利检索主题”相关的知识，更进一步延长了专利检索时间。

因此，现有技术存在缺陷，需要进行改进。

发明内容

本发明的目的在于提供一种智能化的生成检索词条的方法及数据检索方法和系统，其主要运用自动化文本挖掘技术和统计技术，结合少量人工修正，获得全面的主题词推荐表，并利用该表进行资料库的检索。

为了实现上述目的，本发明采用如下技术方案：

本发明主要提供了一种生成检索词条的方法，所述方法包括以下步骤：

A、根据原始主题的词条查询相关词汇，并建立相关词汇推荐表；

B、利用相关词汇推荐表查询资料库，检索文献摘要；

C、对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；

D、将推荐词条插入到相关词汇推荐表中，形成主题词推荐表。

其中，所述相关词汇为：原始主题的同义词、近义词、相关词中的一种或几种的组合。

其中，所述步骤D之后还包括以下步骤：

E、获取用户指令，并判断用户指令是否继续检索，若是，则执行步骤F；

F、对主题词推荐表内的词条进行筛选；

G、根据筛选后保留的词条查询相关词汇，建立相关词汇推荐表，并返回步骤B。

其中，利用相关词汇推荐表中的词条构造正则表达查询资料库。

其中，所述步骤C中，采用以下步骤进行文本挖掘：

C1、使用分词技术提取文献摘要的词干；

C2、依据分词结果，利用文献特征提取方法获得文献摘要的文本特征矢量；

C3、建立类别模型，并对所获得的文本特征矢量进行分类；

C4、查询超过比例阈值门限的类别，并查找该类别模型的关键字，以该关键字作为所述推荐词条。

依据上述方法，本发明还提供了一种数据检索方法，所述方法包括以下步骤：

A0、根据原始主题的词条查询相关词汇，并建立相关词汇推荐表；

B0、利用相关词汇推荐表查询资料库，检索文献摘要；

C0、对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；

D0、将推荐词条插入到相关词汇推荐表中，形成主题词推荐表；

E0、利用主题词推荐表查询资料库，获得文献集。

其中，所述步骤D0与步骤E0之间还包括以下步骤：利用主题词推荐表查询与所述资料库相对应的分类号资料库，检索文献分类号，建立分类号推荐表；并且，在步骤E0中，结合主题词推荐表和分类号推荐表检索资料库，获得文献集。

依据上述方法，本发明还提供了一种检索词条生成器，所述生成器包括：

相关词条生成单元，用于根据原始主题的词条查询相关词汇，并建立相关词汇推荐表；

文献摘要查询单元，用于利用相关词汇推荐表查询资料库，并检索文献摘要；

主题词挖掘机，用于对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；及

插入单元，用于将推荐词条插入到相关词汇推荐表中，形成主题词推荐表。

其中，所述生成器还包括：

人机交互模块，用于将获得的主题词推荐表提供给用户；

判断单元，用于获取用户指令，并判断用户指令是否继续检索，若判断用户指令不继续检索，则控制所述插入单元输出主题词推荐表；

筛选单元，用于接收来自所述判断单元的控制指令，并利用所述人机交互模块筛选主题词推荐表内的词条，将筛选后保留的词条送入到所述相关词条生成单元中。

其中，所述生成器还包括：词典库，用于存储相关词汇，该词典库与所述相关词条生成单元相连。

其中，所述生成器还包括：资料库接口，该接口与所述文献摘要查询单元相连，用于进入资料库。

其中，所述主题词挖掘机包括：

分词词干提取单元，用于使用分词技术提取所述文献摘要的词干；

文献特征提取单元，用于接收分词结果，并利用文献特征提取方法获得文献摘要的文本特征矢量；

训练模型单元，用于建立类别模型；

分类器，用于依据类别模型对所获得的文本特征矢量进行分类；及

查找单元，用于根据分类结果查询超过比例阈值门限的类别，并读取该类别模型的关键字。

依据上述方法，本发明还提供了一种数据检索系统，所述系统包括：

主题词挖掘机，用于对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；

插入单元，用于将推荐词条插入到相关词汇推荐表中，形成主题词推荐表；及

查询单元，用于读取所述插入单元输出的主题词推荐表，并根据该主题词推荐表查询资料库，获得文献集。

其中，所述系统还包括：所述系统还包括：资料库接口，该接口与所述文献摘要查询单元和查询单元相连，用于进入资料库。

其中，所述系统还包括：分类号推荐表生成单元，该单元与所述插入单元、查询单元、资料库接口相连，用于利用主题词推荐表查询与所述资料库相对应的分类号资料库，检索文献分类号，建立分类号推荐表，并将该推荐表送入到所述查询单元中。

采用上述方案，本发明运用自动化文本挖掘技术和统计技术，结合少量人工修正，获得全面的主题词推荐表，其主要应用于专利文献检索中，代替专利文献检索中依靠大量人工的“专利文献库检索”、“专利文献阅读”、“主题词发现与总结”、“专利分类号获取”等环节，加快专利检索的工作流程。而且，本发明采用累积检索技术，结合IPC多次检索专利文献库，最终获得全面的与“专利检索主题”相关的专利文献集。本发明的方法被编写成专业软件，利用高性能计算机与用户实现人机交互式的专利检索过程，通过用户对主题词推荐表的干预和优化，累积检索专利文献库，最终获得与“专利检索主题”相关的全面专利文献集。

附图说明

图1为本发明方法的流程图；

图2是文本挖掘工作的流程图；

图3是本发明主题词挖掘机的结构图；

图4是本发明检索词条生成器的结构示意图；。

图5是本发明检索系统的结构示意图。

具体实施方式

以下结合附图详细说明本发明的技术方案。

如图1所示，本发明提供了一种生成检索词条的方法，其可以代替人工进行关键词的选择，以下以专利检索为背景详细说明本发明如何生成检索词条。

如图1所示：在用户提出“专利检索主题”任务时，会被要求提供一些原始主题词；本发明的方法首先将原始主题词输入到科技词典库中，然后根据原始主题的词条查出与检索主题相关的相关词汇推荐表T0(t01，t02，...，t0n)，其中相关词汇包括原始主题的同义词、近义词、相关词、以及描述同一主题的词；然后用相关词汇推荐表T0构造正则表达式，检索专利文献库，得到若干件专利摘要文献；而后运用文本挖掘技术处理得到的专利摘要文献，获得更加全面的与原始主题词内容相匹配的推荐词条，并将推荐词条插入到相关词汇推荐表T0中形成更加全面的主题词推荐表T1。这里的相关词是指与原始主题词条标签匹配度高的一些词条的总称。

如图1所示，本发明还可以通过人机交互平台将上述获得的主题词推荐表T1交给用户审核，同时获取用户的指令，并判断用户指令是否继续检索，若是，则利用人机交互平台对主题词推荐表内的词条进行筛选，然后重复输入到科技词典中，根据筛选后保留的词条查询相关词汇，建立相关词汇推荐表T0，并依次重复上述步骤，直到用户指令表示不再继续检索。在这里，用户指令是继续检索，则表示对当前结果不满意，用户指令是不继续检索，则表示对当前结果满意。从这上述过程看出，用户如果对主题词推荐表T1不满意，可以直接对其进行筛选优化，重新输入科技词典，重复执行上述检索过程，直到得到令用户满意的主题词推荐表Tn(n＝1，2，...)。

基于上述方法，本发明还提供了一种数据库检索方法。在获得用户满意的主题词推荐表Tn后，可用其构造正则表达式(此处的正则表达式是搜索、替换和解析复杂字符模式的一种强大而标准的方法，正则表达式就是记录文本规则的代码，属于现有技术通用的方法)，检索专利分类表(IPC)数据库，得到推荐的专利分类号，并建立分类号推荐表；最后利用主题词推荐表和专利分类号推荐表检索专利文献库，得到全面的专利文献集。在这里，还可以直接通过获得的用户满意的主题词推荐表Tn构造正则表达式，检索专利文献数据库，并得到专利文献集。(国际专利分类表(IPC)每五年发布一个新的版本，它是世界知识产权组织编制的国际通用的专利文献分类和检索工具，《关键词索引》(office catchword index)是与之配套的辅助工具，其编制目的是为了指示技术主题的分类位置。国家知识权局专利局专利文献部翻译了《关键词索引》，并进行了一定的修改和调整，出版了《国际专利分类表关键词索引》，以辅助检索中国专利文献。通过主题词推荐表和累积检索得到的符合检索主题的专利文献分布情况可以得到IPC分类号，有助于进一步协助专利文献的全面准确检索。)

如图1所示，从上述方法的过程中，主要涉及以下几个方面：

(1)科技词典的查询

科技字典主要解决同义词、相关词、同一概念词的检索，可以采用现有技术中已有的科技词典知识库，并针对专利的特殊性要求，定时对该科技词典进行更新。本发明的科技词典在最初编写时，可以加入行业专家的个人经验，词典的更新则是利用每次成功检索的专利文献来完成，即用户对检索的结果如果比较满意时，就可以把检索关系式中的主题词加入到词典中；科技词典的更新也可以利用文本挖掘技术，扫描检索出的专利文献，抽取主题词，结合用户的专业知识，有选择地把主题词更新到科技词典中。

(2)基于文本挖掘技术的主题词抽取技术

在图1中可以看到：利用文本挖掘的有关技术，从检索出的专利文献中获得全面的主题词推荐是完成“专利检索主题”任务的关键，这一环节被定义为主题词挖掘机或主题词挖掘过程，其工作原理如图2所示，其主要包括以下步骤：

100、使用分词技术提取文献摘要的词干。

中英文分词是文本信息处理的基础环节，对主题词挖掘的全面性和准确率起着重要的作用。中文分词目前常用的主要方法有：最大匹配分词(包括向前、向后以及前后相结合)、最短路径方法(切分出来的词数最少)、全切分方法(列出所有可能的分词结果)、以及最大概率方法(训练一个一元语言模型，通过计算，得到一个概率最大的分词结果)。

一、最大匹配分词是一种纯粹基于规则的方法，简单有效。在没有大规模预先切分好的熟语料的情况下，是唯一行之有效的方法。

二、最短路径方法采取的规则是使切分出来的词数最少，符合汉语自身的语言规律。可以取得较好的效果，但是不能正确切分许多不完全符合规则的句子。

三、全切分方法列举出所有可能的切分结果，避免在粗分的过程中就出现切分错误，将优选排错的任务交给后续过程。

四、最大概率分词方法的根据是：联合概率(各个词的词频相乘)最大的词串就是最终的切分结果，是一种效果较好的分词方法。

和中文相比，英文各个词语之间有空格分开，这种自然的特性导致不需要再对英文进行分词处理。然而，在英文中存在大量的时态、语态和单复数形式，这些形式的多样化导致了英文词语数量的急剧膨胀。如何将由于时态、语态和单复数引起的词语还原到词根是英文词干提取的主题。本发明采用“最大概率分词”对“中文”进行分析，采用“Stemming算法”对“英文”进行分析。Stemming算法则仅仅采用一组规则，而不需要词典即可实现英文词语还原，而且效率不错。

110，依据分词结果，利用文献特征提取方法获得文献摘要的文本特征矢量。

文本挖掘问题的最大特点和困难之一就是特征空间的高维性和文档表示向量的稀疏性。在文本挖掘中，通常采用词条作为最小的独立语义载体，原始的特征空间是由可能出现在文章中的全部词条构成。而中文的词条总数有二十多万条，这样高维的特征空间对于几乎所有的挖掘算法来说都偏大。寻求一种有效的特征抽取方法，降低特征空间的维数，提高挖掘的效率和精度，成为文本挖掘要面对的重要问题。特征选择和提取将文本挖掘从概念空间映射到可运算空间，从而使整个软件系统实现成为可能。在进行中英文分词模块之后，系统中的任意一篇专利文档可以看成一系列单词的组合。进一步，如果把单词列表看成是一个向量，单词是向量中的一个维度，那么整个文档集合将可以形成一个“文档——词”矩阵。

近年来在文本挖掘中使用较多的特征抽取方法包括文档频率(DF)、互信息(MI)、信息增益(IG)和开方拟和检验(CHI)等：

一、文档频率(Document frequency，DF)：表示在训练文献集中包含某个特征项t(关键词条)的文档数。

二、信息增益(Information Gain，IG)：通过统计某个特征项在一份文献中出现或不出现的次数来预测文献的类别。

三、互信息(Mutual information，MI)：计算某个特征项t和类别c之间的相关性

四、开方拟和检验(χ²-test，CHI)：度量特征项t和文献类别c之间的相关程度，并假设t和c之间符合具有一阶自由度的χ²分布

而，本发明采用的是CHI特征抽取方法。假设N表示训练语料库中的专利文献总数，c为某一特定类别，t表示特定的词条，A表示属于c类且包含t的文档频数，B表示不属于c类但是包含t的文档频数，C表示属于c类但是不包含t的文档频数，D是既不属于c也不包含t的文档频数。则t对于c的CHI值由下式计算：

χ^{2} (t, c) = \frac{N \times {(AD - CB)}^{2}}{(A + C) (B + D) (A + B) + (C + D)}

对于多类别的问题，分别计算t对于每个类别的CHI值，再用下式计算词条t对于整个语料的CHI值，分别进行检验：

χ_{\max}^{2} (t) = \max_{i = 1}^{m} χ^{2} (t, c_{i})

其中m为专利文献类别数。

120，建立类别模型，并对所获得的文本特征矢量进行分类。

进行专利文档的特征提取后，建立起描述文档信息的模型，比如布尔模型(Boolean Logical Model)、向量空间模型(Vector Space Model)、概率推理模型(Probabilistic Inferential Model)等，针对不同模型选择相应的文档分类算法，进而实现专利文献分类的功能。目前比较重要的分类算法有：

一、Bayes分类

Naive Bayes分类方法(以下简称NB法)是一种简单而又非常有效的分类方法。NB法的一个前提假设是：在给定的文档类语境下，文档属性是相互独立的。假设di为一任意文档，它属于文档类C＝{c1，c2，...，ck}中的某一类cj。对文档di进行分类，就是计算所有文档类在给定di情况下的概率，概率值最大的那个类就是di所在的类。

二、k最近邻参照法(k-nearest neighbor，kNN)

kNN分类算法是一种传统的基于统计的模式识别方法，它将一个文档的所属类别范畴的预测建立在与之最为相似的k个文档所属类别的概率分布上。对一个待分类文档d，系统在训练集中找到k个最相近的邻居，使用这k个邻居的类别作为该文档的候选类别。该文档与k个邻居之间的相似度作为候选类别的权重，然后使用预先得到的最优截尾阀值，就可得到该文档的最终分类列表。

三、支持向量机算法(support vector machine，SVM)

SVM由Vapnik提出，建立在计算学习理论的结构风险最小化(Structuralrisk minimization，SRM)原则之上，在保证学习机有足够的泛化能力的前提下，同时对独立的测试集保持较小的误差。其主要思想是针对两类分类问题，在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率。SVM一个重要的优点是可以处理线性不可分的情况：对非线性问题，SVM首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间，在这个空间中求广义最优分类面。通过学习算法，SVM可以自动寻找那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的推广性能和较高的分类准确率。

本发明就采用了上述SVM算法来实现特征分类，建立了如图3所示的主题词挖掘机的内部系统结构示意图。

从图3中可以看出分类软件的处理流程可以分为两个过程：训练和测试。在训练过程中，SVM训练器根据训练用的文献和其给定的初始类别进行一系列的学习过程运算，并最终形成规则库——训练模型；测试过程，亦即专利文献的分类过程，是SVM分类器将从专利文献库获取的专利文献根据训练模型进行分门别类的过程。

130，查询超过比例阈值门限的类别，并查找该类别模型的关键字，以该关键字作为所述推荐词条。

通过对检索出的专利文献进行自动化分类，可以获得其类别分布的统计信息，对于超过比例阈值门限的类别，查询其在类别模型中的关键字即可获得与专利检索主题相关的主题词推荐表。

上述步骤100至130的过程的处理对象可以是中或/和英文词条。在使用主题词挖掘机进行文本挖掘之前，需要利用已知的确定类别的专利文献对其进行训练，如图2所示，用以获得文献类别的训练模型。训练过程包括：使用中英文分词技术提取文献词干，使用特征提取技术将文献表示成“文本特征矢量”，根据多个文献的类别及其特征矢量得到该类别的主题词信息，并将其表述在文献类别的训练模型中。主题词挖掘过程针对待处理的专利文献，同样经过中英文分词、文献特征提取等处理过程得到其“文本特征矢量”；将每个待处理专利文献的“文本特征矢量”输入训练模型中做匹配检测判断其类别，即“专利文献分类”；而后统计待处理专利文献的类别结果，得到其主要类别信息；最后从文献类别的训练模型中得到该主要文献类别的主题词推荐表。

如图4和图5所示，依据上述方法本发明还提供了以下两个设备，其一是检索词条生成器，如图4所示，其二是一种数据检索系统，如图5所示。

如图4所示，检索词条生成器包括：相关词条生成单元202，用于根据原始主题的词条查询相关词汇，并建立相关词汇推荐表；

文献摘要查询单元203，用于利用相关词汇推荐表查询资料库，并检索文献摘要；主题词挖掘机204，用于对检索到的文献摘要进行文本挖掘，获得与主题词内容相匹配的推荐词条；及插入单元205，用于将推荐词条插入到相关词汇推荐表中，形成主题词推荐表。

在此基础上，所述生成器还包括：人机交互模块206，用于将获得的主题词推荐表提供给用户；判断单元207，用于获取用户指令，并判断用户指令是否继续检索，若判断用户指令不继续检索，则控制所述插入单元输出主题词推荐表；筛选单元208，用于接收来自所述判断单元的控制指令，并利用所述人机交互模块筛选主题词推荐表内的词条，将筛选后保留的词条送入到所述相关词条生成单元202中。

在此基础上，所述生成器还包括：词典库200，用于存储相关词汇，该词典库与所述相关词条生成单元202相连。

在此基础上，所述生成器还包括：资料库接口201，该接口与所述文献摘要查询单元相连，用于进入资料库，比如用于连接国家知识产权局的专利检索库等等。

其中，如图3所示，所述主题词挖掘机204包括：分词词干提取单元400，用于使用分词技术提取所述文献摘要的词干；文献特征提取单元401，用于接收分词结果，并利用文献特征提取方法获得文献摘要的文本特征矢量；训练模型单元402，用于建立类别模型；分类器403，用于依据类别模型对所获得的文本特征矢量进行分类；及查找单元404，用于根据分类结果查询超过比例阈值门限的类别，并读取该类别模型的关键字。

如图5所示，数据检索系统在上述检索词条生成器的结构基础上，还增加有：查询单元209，用于读取所述插入单元输出的主题词推荐表，并根据该主题词推荐表查询资料库，获得文献集，该查询单元209还需与资料库接口201相连。

如图5所示，数据检索系统还包括：分类号推荐表生成单元210，该单元与所述插入单元205、查询单元209、资料库接口201相连，用于利用主题词推荐表查询与所述资料库相对应的分类号资料库，检索文献分类号，建立分类号推荐表，并将该推荐表送入到所述查询单元209中。

以下通过一个(或几个)实际例子详细说明本技术方案以及所能达到的效果。

例如，将本发明应用于在“德温特专利库(Derwent Innovation Index)”中检索2000年以后“三星电子有限公司(Samsung Electronics Co.Ltd.)音频播放半导体及电子电路”的相关专利。

首先，初步简单检索。

(1)、假设给出初始关键字：samsung，audio，play；

(2)、经过科技字典，关键词表扩大为：samsung，audio/music/voice/sound，play/broadcast/announce；

(3)、设置检索正则表达式：AE＝(samsung)AND TI＝((audio OR musicOR sound OR voice)AND(play OR broadcast OR announce))AND DC＝(U^*)；Databases＝Electrical and Electronic Section，Engineering Section；Timespan＝2000-2008

(4)、共检索到专利文献23篇

然后，分类统计与关键字挖掘。

(1)、经过自动化文献分类，且同一份文档可被统计入不同的类别目录，23篇专利文献统计结果如下：

表1专利文献自动分类结果一

类别名称	文献数目(百分比)
类别名称	文献数目(百分比)	广播接收设备	14(60.9％)
数字计算机设备	13(54.2％)	广播接收设备	14(60.9％)
数字计算机设备	13(54.2％)	逻辑电路设计	11(47.8％)
音/视频记录设备	8(34.8％)	逻辑电路设计	11(47.8％)
音/视频记录设备	8(34.8％)	声学、音乐设备	5(21.7％)
数字存储器	4(17.2％)	声学、音乐设备	5(21.7％)
数字存储器	4(17.2％)	广播传输设备	4(17.2％)
功率设备	3(13％)	广播传输设备	4(17.2％)
功率设备	3(13％)	信号源设备	3(13％)
电话与数据传输设备	3(13％)	信号源设备	3(13％)
电话与数据传输设备	3(13％)	阻抗调谐网络设计	2(8.7％)
调制设备	1(4.3％)	阻抗调谐网络设计	2(8.7％)
调制设备	1(4.3％)	机器控制设备	1(4.3％)
集成电路	1(4.3％)	机器控制设备	1(4.3％)

(2)、假定类别检索门限为20％，检索文献比例超过类别检索门限的类别所属关键字，则可得到新的主题词推荐表：

samsung；audio，music，voice，sound，acoustics；play，broadcast，announce，method，filter，code，decode，record，receive；digital computer，logic circuit，IC，component，multimedia，medium，apparatus，instrument，device，system

(3)、将得到的新主题词推荐表交给用户筛选优化，得到更新的主题词推荐表：

samsung；audio，music，voice，sound，acoustics；play，method，filter，code，decode，record；circuit，IC，component，multimedia，medium

再次，进行深入检索。

(1)、用更新的主题词检索国际专利分类表(IPC)，得到如下分类号：

G06F-001/00；G06F-001/16；G06F-003/14；G06F-003/147；G06F-012/00；

G06F-013/00；G06F-017/00；G06F-017/14；G10K-011/00；G10K-011/16；

G10L-019/00；G10L-019/02；G10L-021/00；G11B-005/09；G11C-007/00；

G11C-007/16；G11C-008/00；H03F-001/26；H03F-003/20；H03F-003/38；

H03F-003/217；H03G-003/20；H03J-003/00；H03M-007/30；H03M-013/00；

H03M-013/41；H04B-001/10；H04B-001/16；H04B-001/26；H04B-001/66；

H04B-014/04；H04J-003/02；H04H-001/00；H04H-005/00；H04L-029/08；

H04N-005/44；H04N-005/60；H04N-005/63；H04N-005/91；H04N-005/445；

H04N-005/765；H04N-007/00；H04N-007/16；H04N-007/52；H04N-007/62；

H04N-007/015；H04N-007/173；H04R-003/00。

(2)、将更新的主题词推荐表输入科技字典，重新设置正则表达式：

AE＝(samsung)AND TI＝((audio OR music OR voice OR sound OR acoustics)AND(play OR method OR filter OR code OR decode OR record OR circuit ORcomponent OR multimedia OR medium))AND DC＝(U^*)；Databases＝Electricaland Electronic Section，Engineering Section；Timespan＝2000-2008。结合得到的IPC分类号，检索“德温特专利库(Derwent Innovation Index)”，得到专利文献共126篇。

(3)、经过自动化文献分类，且同一份文档可被统计入不同的类别目录，126篇专利文献统计结果如下：

表1专利文献自动分类结果二

类别名称	文献数目(百分比)
类别名称	文献数目(百分比)	逻辑电路设计	58(46％)
音/视频记录设备	51(40.5％)	逻辑电路设计	58(46％)
音/视频记录设备	51(40.5％)	数字计算机设备	45(35.7％)

功率设备	32(25.4％)
功率设备	32(25.4％)	广播接收设备	32(25.4％)
声学、音乐设备	21(16.7％)	广播接收设备	32(25.4％)
声学、音乐设备	21(16.7％)	信号源设备	20(15.9％)
广播传输设备	16(12.7％)	信号源设备	20(15.9％)
广播传输设备	16(12.7％)	电话与数据传输设备	14(11.1％)
阻抗调谐网络设计	12(9.5％)	电话与数据传输设备	14(11.1％)
阻抗调谐网络设计	12(9.5％)	数据录入设备	11(8.7％)
调制设备	9(7.1％)	数据录入设备	11(8.7％)
调制设备	9(7.1％)	机电设备	9(7.1％)
数字存储器	5(4％)	机电设备	9(7.1％)
数字存储器	5(4％)	半导体材料	2(1.6％)
印刷电路设计	2(1.6％)	半导体材料	2(1.6％)
印刷电路设计	2(1.6％)	机器控制设备	1(0.8％)
集成电路	1(0.8％)	机器控制设备	1(0.8％)
集成电路	1(0.8％)	模拟及混合计算机设备	1(0.8％)
计算机外部设备	1(0.8％)	模拟及混合计算机设备	1(0.8％)
计算机外部设备	1(0.8％)	分立部件	1(0.8％)
工程测试用设备	1(0.8％)	分立部件	1(0.8％)
工程测试用设备	1(0.8％)	医疗电子设备	1(0.8％)
废物处理	1(0.8％)	医疗电子设备	1(0.8％)
废物处理	1(0.8％)	教育类设备	1(0.8％)

从上述检索到的专利文献统计结果可以看出：第二次检索到的专利文献数目比第一次要多出4倍；而且从检索到的专利文献类别统计结果可以看出：“逻辑电路设计”类与“音/视频记录设备”类的比重排名由第一次类别统计中的第3、第4上升到第二次类别统计中的第1、第2。这两个类别的文献比“广播接收设备”和“数字计算机设备”类文献要更加符合检索主题“音频播放半导体及电子电路”的需求。因此，可得出结论：采用本发明所述的专利检索方法，可以检索到更加全面的专利文献集，并且随着检索行为的循环累积，得到的专利文献集合逐渐趋向于符合检索主题的需求。与现有技术相比，本发明不仅节约了大量人工，加快了专利文献检索的工作流程，而且得到的专利文献集合也比较准确全面。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1. 一种生成检索词条的方法，其特征在于，所述方法包括以下步骤：

B、利用相关词汇推荐表查询资料库，检索文献摘要；

2. 根据权利要求1所述的方法，其特征在于，所述相关词汇为：原始主题的同义词、近义词、相关词中的一种或几种的组合。

3. 根据权利要求1所述的方法，其特征在于，所述步骤D之后还包括以下步骤：

F、对主题词推荐表内的词条进行筛选；

4. 根据权利要求1所述的方法，其特征在于，利用相关词汇推荐表中的词条构造正则表达查询资料库。

5. 根据权利要求1所述的方法，其特征在于，所述步骤C中，采用以下步骤进行文本挖掘：

C1、使用分词技术提取文献摘要的词干；

C3、建立类别模型，并对所获得的文本特征矢量进行分类；

6、一种数据检索方法，其特征在于，所述方法包括以下步骤：

B0、利用相关词汇推荐表查询资料库，检索文献摘要；

E0、利用主题词推荐表查询资料库，获得文献集。

7、根据权利要求6所述的方法，其特征在于，所述步骤D0与步骤E0之间还包括以下步骤：

利用主题词推荐表查询与所述资料库相对应的分类号资料库，检索文献分类号，建立分类号推荐表；并且，

在步骤E0中，结合主题词推荐表和分类号推荐表检索资料库，获得文献集。

8. 一种检索词条生成器，其特征在于，所述生成器包括：

9. 根据权利要求8所述的生成器，其特征在于，所述生成器还包括：

人机交互模块，用于将获得的主题词推荐表提供给用户；

10. 根据权利要求8所述的生成器，其特征在于，所述生成器还包括：词典库，用于存储相关词汇，该词典库与所述相关词条生成单元相连。

11. 根据权利要求8所述的生成器，其特征在于，所述生成器还包括：资料库接口，该接口与所述文献摘要查询单元相连，用于进入资料库。

12. 根据权利要求8所述的生成器，其特征在于，所述主题词挖掘机包括：

训练模型单元，用于建立类别模型；

13. 一种数据检索系统，其特征在于，所述系统包括：

14. 根据权利要求13所述的系统，其特征在于，所述系统还包括：所述系统还包括：资料库接口，该接口与所述文献摘要查询单元和查询单元相连，用于进入资料库。

15. 根据权利要求14所述的系统，其特征在于，所述系统还包括：分类号推荐表生成单元，该单元与所述插入单元、查询单元、资料库接口相连，用于利用主题词推荐表查询与所述资料库相对应的分类号资料库，检索文献分类号，建立分类号推荐表，并将该推荐表送入到所述查询单元中。