CN101894158B

CN101894158B - 一种智能检索系统

Info

Publication number: CN101894158B
Application number: CN 201010232107
Authority: CN
Inventors: 孙俊; 赵纪元; 王月颖; 张振海
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2010-07-21
Filing date: 2010-07-21
Publication date: 2013-01-09
Anticipated expiration: 2030-07-21
Also published as: CN101894158A

Abstract

本发明公开了一种智能检索系统，初始化处理模块和词典查询模块，所述系统还包括：初步分析模块，根据词语的字符类型、字符串的长度，判断检索需求可能存在的属性；属性分析模块，根据初步分析模块所判断的词语可能存在的属性进行分析判断所述词语具体的属性；输出模块，根据用户的检索要求输出词语的属性。通过本系统，网页前台不需要用户输入属性信息，获取到检索需求后，将首先调用本系统获取属性字段，然后再从数据库中相应的属性字段中查寻检索需求。

Description

一种智能检索系统

技术领域

本发明涉及信息检索领域，尤其涉及一种智能检索系统。

背景技术

大量的文献，包括本科、硕士和博士毕业论文，如果将这些数据直接呈现给用户，是很难被用户使用的。因为在海量的并且没有任何索引信息的文献数据库中，用户查找若干篇所需要的文章，如同大海捞针。即使采用最细致的分类导航，用户也只能在其所需领域中逐篇文章地寻找，要想解决一个技术问题或者查找专业知识，将不得不阅读很多文章，直到其找到所需内容，而这个阅读查找过程是很低效的，有很多文章读完了才知道并不是所需。

为了能使用户有效的利用知识信息，从文献中提取出各类属性信息，如：会议名称、作者、学术方向等，将这些数据放入数据库，然后对各类属性信息建立索引，使用户能够从各种角度，使用不同的属性信息检索数据。比如通过作者名字、文献标题或者用户感兴趣的学术关键词查找，方便用户快速定位到所需要的文献。

现有技术的技术方案：

初始化处理，用户的检索需求可能是一个词或者多个词，当检索多个词时，本系统需要对多个词都做判断，因此初始化处理就是要把多个词区分开并逐个计算其属性。这里假定用户在词之间用空格分开，或者上层调用端口做了类似的处理，由于这里要求用户用空格隔开多个词，因此不需要分词及短词组合，可以保证速度和准确性。

根据词典查找属性，这里建立了一个检索需求对应属性的词典，通过词典能够又快又准的查到词典中的检索需求对应的属性。这个模块的作用主要就是将一些常见的检索需求，或者很难判断的检索需求及其所对应的属性写入到词典，通过查询词典，能够快速的判断检索需求的属性，如果该词典里没有检索需求，那么可以做后续的一些名实体识别工作。

属性输出，如果没有找到属性，那么可以在全文中检索。

现有技术的缺点

1)数据库面对的用户是各行各业的科研技术人员，他们对我们的数据库产品及其检索技术的熟悉程度是不同的，这样就会导致产品的使用情况不好。比如用户想查找“孙俊句法分析”，用户的本意是想找在“句法分析”领域，作者是“孙俊”的一些文献资料，如果用户了解网络出版总库，那么会选择作者检索项，并输入“孙俊”作为检索词，然后选择全文或者主题检索项，写下“句法分析”作为检索词，那么这样检索的结果将是比较准确的，虽然整个操作过程有些繁琐；相反，如果用户不了解网络出版总库，很可能直接在全文检索项中输入“孙俊句法分析”，这样我们的产品就会去全文中找“孙俊”和“句法分析”，由于计算机并不一定能识别“孙俊”是一个人名，很有可能会把它拆成两个字来检索，最后检索的结果就是全文中有“孙”、“俊”、“句法分析”的文章，这个结果就不能准确的满足用户需求。另外，我们通过互联网发布产品，也很难对各个用户进行产品使用培训，即使提供了产品使用说明的免费下载，效果可能依然不好。这样的结果就是：产品足够好，但是能用好的人不多。

2)本系统拥有一个比较大的词典，因此在系统运行时，会占用较大内存。并且随着总库数据的更新，词典必须也要随之更新，以满足新的检索需求。而随着词典的扩大，系统所占内存也会越来越大。

3)需要一个熟悉总库数据类型及词典结构的人来维护词典，维护人员需要及时了解总库数据的更新，并对词典进行更新以适应于新的数据。

发明内容

为解决上述存在的问题与缺陷，本发明提供了一种智能检索系统。所述技术方案如下：

一种智能检索系统，包括：初始化处理模块，用于对接收到的检索需求的多个词语进行初始化处理；词典查询模块，用于查找词语或词句的属性，初步分析模块、属性分析模块及输出模块，

初步分析模块，根据词语的字符类型、字符串的长度，判断检索需求可能存在的属性；

属性分析模块，根据初步分析模块所判断的词语可能存在的属性进行分析，判断所述词语具体的属性；

输出模块，输出根据检索属性得到的检索结果。

本发明提供的技术方案的有益效果是：

通过本系统，网页前台不需要用户输入属性信息；获取到检索需求后，将首先调用本系统获取属性字段，然后再从数据库相应的属性字段中查寻检索需求。系统的运行时间对检索时间没有较大影响，所占内存空间比较小，能够支持多线程访问。

附图说明

图1是本发明系统结构图；

图2是本发明系统结构流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述：

本实施例提供了一种智能检索系统，如图1所示，该系统包括：初始化处理模块，用户的检索需求可能是一个词或者多个词，当检索多个词时，要求用户用空格隔开，因此不需要分词及短词组合即可保证速度和准确性。词典查询模块，用于查找词语或词句的属性；该模块主要是将一些常见的检索需求，或者很难判断的检索需求及其所对应的属性写入到一个词典，通过查询词典，能够快速的判断检索需求的属性，如果该词典中没有检索需求，那么可以做后续的一些名实体识别工作，因此，本模块查询所需的时间很少，词典规模也不大。当从词典中查到检索需求词的属性时，则输出，否则，则调用初步分析模块。初步分析模块，根据检索需求的字符类型，字符串的长度，先大致判断检索需求有可能是哪些属性，然后调用相应的名实体属性分析模块识别检索需求。属性分析模块，判断词语的属性。所述属性分析模块包括CN号识别模块、专利号识别模块、ISBN识别模块、ISSN识别模块、基金识别模块、机构名识别模块及人名识别模块，但是在一次查询中并不要求所有的模块全部调用，根据初步分析模块的结果，选择调用其中的一部分模块来识别检索需求。其中，CN号识别模块、专利号识别模块、ISBN识别模块和ISSN识别模块是根据各种号码的定义规则来识别，而基金识别模块、机构名识别模块及人名识别模块是根据机器学习的方法，利用概率统计原理识别属性。输出模块，输出根据检索属性得到的检索结果。

如图2所示，系统结构实施流程，具体包括：

接收用户输入的检索需求，并对检索需求进行初始化处理；

检索需求包括一个词、或多个词、或词句。

根据词典查找词语或词句的属性，如果查询到相关的属性，则输出，否则执行下一步骤。

初步分析词语或词句的属性；

根据检索需求词语或词句的字符类型与字符串的长度先大致判断检索需求有可能是哪些属性，然后调用字词检索需求。

调用字词检索，如果检索到词语或词句的属性，则输出；否则输出全文进行查找；

在调用字词检索词语或词句的属性时，判断词语或词句是否是机构名称、ISSN名称、CNN名称、基金名称、人名、ISBN码或是否为专利等。

当判断词语是否是人名时，根据P(姓名)的概率与阈值间的关系进行判断，当其P(姓名)＞阈值，则认为是人名，输出。其中姓名的概率计算公式为

P(姓名)＝P(姓)*P(名|姓)

P(姓)为人名库和主词典中每个字作为姓的概率，其P(姓)的计算公式为：

P(名|姓)为在人名库中每个字作为名的概率，当名只有一个字时，

P1(名|姓)＝P(单字名)，

其中，P(单字名)为在人名库中每个字作为单子名的概率；

当名有两个字时，双字名的概率计算公式：

P(名首字)为在人名库中每个字作为双字人名首字的概率，P(名尾字)为在人名库中每个字作为双字人名尾字的概率。

当输入为“姓+单字+单字”的形式时，为：明确名的字数，比较P1(名|姓)和P2(名|姓)，取较大者作为P(名|姓)。

外文人名识别，从现有外国人名资源中提取出外文名，并统计外文名的字集，在识别过程中，如果遇到分词碎片，则依次向后考察每个分词碎片，记录其中在外文人名字集中出现的字数；根据阈值判断是否是人名并得到最终的识别结果。

当判断词语是否为机构名时，首先从机构名库中筛选出一级机构名；判断每个词语是否符合机构名开始条件，条件同时满足：在机构首词词典中，且概率大于0.1；词长大于2，即非碎片，“第”字除外；词性不是动词；如果符合，统计得到每个词语作为机构首词、机构中间词及机构尾词的概率，上述机构首词概率的计算公式为：

其中，主词典认为是机构名的候选词性为机构团体nt，地名ns，其他专名nz。

机构中间词概率的计算公式：

机构尾词概率的计算公式：

如果上述P(OrgInside)＞P(OrgEnd)，且不为停用词，则合并当前词到机构名，并记录概率；

如果当前词为数词，且前一个词为“第”，则合并当前词到机构名，并记录概率；

如果P(OrgEnd)＞P(OrgInside)，则扫描结束，当平均概率＞0.4时，认为是机构名，输出。

基金名识别，对输入文本分词；判断每个词是否符合基金名开始条件，基金名开始条件同时满足：在基金首词词典中，且概率大于0.1；词长大于2，即非碎片；词性不是动词；有些基金专用词语在分词时为碎片，但对于基金识别很重要，因此在此时附加提出，包括：十五、十一(五)等。如果符合计算基金首词概率P(FundBegin)、基金中间词概率P(FundInside)与基金尾词概率P(FundEnd)，开始向后扫描，考察每个词作为基金中间词和尾词的概率；其P(FundBegin)、P(FundInside)及P(FundEnd)的计算公式分别为：

如果P(FundInside)＞P(FundEnd)，且不为停用词，则合并当前词到基金名，并记录概率；如果P(FundEnd)＞P(FundInside)，则扫描结束，当平均概率＞0.4时，认为是基金名，输出。

在基金名识别之前的流程还包括：对基金库分词，分别得到基金首词、基金中间词和基金尾词；统计基金首词、中间词和尾词的词频；统计基金名的总词频分布；根据基金首词概率P(FundBegin)、基金中间词概率P(FundInside)与基金尾词概率P(FundEnd)的计算公式计算基金首词、基金中间词和基金尾词的概率分布。

ISBN判断，根据国际ISBN标准，识别输入的字符串是否为正确的ISBN号。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能检索系统，包括：初始化处理模块，用于对接收到的检索需求的多个词语进行初始化处理；词典查询模块，用于查找词语或词句的属性，其特征在于，所述系统还包括：初步分析模块、属性分析模块及输出模块，其中

属性分析模块，根据初步分析模块所判断的词语可能存在的属性进行分析，判断所述词语具体的属性；所述属性分析模块包括人名识别模块、机构名识别模块、基金名识别模块、ISBN识别模块、CN号识别模块、专利号识别模块及ISSN识别模块；所述人名识别模块，判断字符串是否是人名；其具体的识别判断包括：对检索需求的词语进行分词；判断每个词是单姓、复姓或专有人名，若在姓氏词典中，则记下姓氏概率；判断姓氏后面的第一个分词单元及姓氏后面的第二个分词单元，并计算名的概率；根据姓名的不同类别，计算得到姓名；

其中姓名的概率计算公式为

P(姓名)＝P(姓)*P(名|姓)

P1(名|姓)＝P(单字名)，

其中，P(单字名)为在人名库中每个字作为单字名的概率；

当名有两个字时，双字名的概率计算公式：

P(名首字)为在人名库中每个字作为双字人名首字的概率，P(名尾字)为在人名库中每个字作为双字人名尾字的概率；

当输入为“姓+单字+单字”的形式时，为：明确名的字数，比较P1(名|姓)和P2(名|姓)，取较大者作为P(名|姓)；

输出模块，输出根据检索属性得到的检索结果。

2.根据权利要求1所述的智能检索系统，其特征在于，其中所述检索需求还包括单个词语或词句。

3.根据权利要求1所述的智能检索系统，其特征在于，所述人名的识别判断还包括外文人名的识别。

4.根据权利要求1所述的智能检索系统，其特征在于，所述机构名识别模块，判断字符串是否是机构名；其具体判断包括：对输入的多个词语进行分词；判断每个词是否符合机构名开始条件；计算每个词作为机构中间词和尾词的概率，并比较机构中间词与机构尾词的概率，根据平均概率的大小进行机构名的判断。

5.根据权利要求4所述的智能检索系统，其特征在于，所述机构名判断之前的流程还包括：从机构库中筛选出一级机构名；对一级机构名分词，分别得到机构首词、机构中间词和机构尾词的词频并对所述词频进行统计；统计一级机构名的总词频分布；计算机构首词、机构中间词和机构尾词的概率分布。

6.根据权利要求1所述的智能检索系统，其特征在于，所述基金名识别模块，判断一个字符串是否是基金名；其具体判断包括：对输入的多个词语进行分词；判断每个词是否符合基金名开始条件；计算每个词作为基金中间词和尾词的概率，并比较基金中间词与基金尾词的概率，根据平均概率的大小进行基金名的判断。

7.根据权利要求6所述的智能检索系统，其特征在于，所述基金名判断之前得流程还包括：计算基金概率；对基金库分词、分别得到基金首词、基金中间词和基金尾词；统计基金首词、中间词和尾词的词频；统计基金名的总词频分布；计算基金首词、基金中间词和基金尾词的概率分布。

8.根据权利要求1所述的智能检索系统，其特征在于，所述ISBN识别模块：判断一个字符串是否是ISBN码。