CN101894160A

CN101894160A - 一种智能检索方法

Info

Publication number: CN101894160A
Application number: CN 201010232116
Authority: CN
Inventors: 孙俊; 赵纪元; 王月颖; 张振海
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2010-07-21
Filing date: 2010-07-21
Publication date: 2010-11-24
Anticipated expiration: 2030-07-21
Also published as: CN101894160B

Abstract

本发明公开了一种智能检索方法，该方法包括：根据用户检索需求，对其进行初始化处理；根据词典查找所述检索需求的属性；根据检索需求的字符类型与字符串的长度，判断检索需求可能存在的属性；根据所述检索需求可能存在的属性判断所述检索需求具体存在的属性；输出检索需求的属性。本发明通过对用户检索需求中词语或语句的分析，预测用户查询词语或语句的属性信息，并根据词语或语句不同的属性信息进行分类查询，返回更精确，用户满意度更高的检索结果。

Description

一种智能检索方法

技术领域

本发明涉及信息检索领域，尤其涉及一种智能检索方法。

背景技术

大量的文献包括本科、硕士和博士毕业论文，如果将这些数据直接呈现给用户，是很难被用户使用的。因为在海量的并且没有任何索引信息的文献数据库中，用户查找若干篇所需要的文章，如同大海捞针。即使采用最细致的分类导航，用户也只能在其所需领域中逐篇文章地查找，删掉要想解决一个技术问题或者查找专业知识，将不得不阅读很多文章，而这个阅读查找过程是很低效的，有很多文章读完了才知道并不是所需。

为了能使用户有效的利用知识信息，从文献中提取出各类属性信息，如：会议名称、作者、学术方向等，将这些数据放入数据库，然后对各类属性信息建立索引，使用户能够从各种角度，使用不同的属性信息检索数据。比如通过作者名字、文献标题或者用户感兴趣的学术关键词查找，方便用户快速定位到所需要的文献。

现有技术的技术方案：

根据词典查找属性，这里建立了一个检索需求对应属性的词典，通过词典能够又快又准的查到词典中的检索需求对应的属性。这个模块的作用主要就是将一些常见的检索需求，或者很难判断的检索需求及其所对应的属性写入到词典，通过查询词典，能够快速的判断检索需求的属性，如果该词典里没有检索需求，那么可以做后续的一些名实体识别工作。

属性输出，如果没有找到属性，那么可以在全文中检索。

现有技术的缺点

1)数据库面对的用户是各行各业的科研技术人员，他们对我们的数据库产品及其检索技术的熟悉程度是不同的，这样就会导致产品的使用情况不好。比如用户想查找“孙俊句法分析”，用户的本意是想找在“句法分析”领域，作者是“孙俊”的一些文献资料，如果用户了解网络出版总库，那么会选择作者检索项，并输入“孙俊”作为检索词，然后选择全文或者主题检索项，写下“句法分析”作为检索词，那么这样检索的结果将是比较准确的，虽然整个操作过程有些繁琐；相反，如果用户不了解网络出版总库，很可能直接在全文检索项中输入“孙俊句法分析”，这样我们的产品就会去全文中找“孙俊”和“句法分析”，由于计算机并不一定能识别“孙俊”是一个人名，很有可能会把它拆成两个字来检索，最后检索的结果就是全文中有“孙”、“俊”、“句法分析”的文章，这个结果就不能准确的满足用户需求。另外，我们通过互联网发布产品，也很难对各个用户进行产品使用培训，即使提供了产品使用说明的免费下载，效果可能依然不好。这样的结果就是：产品足够好，但是能用好的人不多。

2)本系统拥有一个比较大的词典，因此在系统运行时，会占用较大内存。并且随着总库数据的更新，词典必须也要随之更新，以满足新的检索需求。而随着词典的扩大，系统所占内存也会越来越大。

3)需要一个熟悉总库数据类型及词典结构的人来维护词典，维护人员需要及时了解总库数据的更新，并对词典进行更新以适应于新的数据。

现有技术如专利号为“99816628.6”的专利公开的技术为“将存储有限态文法、系统词典、上下文语言模型以及一个或多个实体语言模型存储到计算机存储装置中；计算机利用存储有限态文法和一个系统词典产生用于一串表意字符的一个字网格，然后依赖于一个上下文语言模型或一个或多个实体语言模型，所述计算机利用字网格通过确定所述表意字符串中的单词界限来产生分段的文本并依赖于上下文语言模型和所述一个或多个实体语言模型，所述计算机利用所述字网格识别在所述表意字符串中的一个或多个命名的实体。”该方法实施过程中必须利用分段器将字符串和名字文集分段成字串格式及建立上下文和实体模型基于分类的语言模型提供特征提取，所以上述方法实现起来比较繁琐，而且在实施过程中很容易出现差错。

现有技术如专利号为“200380111056.4”公开的技术内容为“一方面提供一种在一模式词典中诱导模式的方法，其中的模式词典中包含有多个带有其出现频率的初始模式入口，包括：确定出该词典中具有较低出现频率的一个或多个初始模式入口；以及放松所确定出的一个或多个初始模式入口中每一个入口的一个或多个限制从而拓宽所确定出的一个或多个初始模式入口所涵盖的范围。另一方面提供一种识别并分类一文本中命名实体的系统，其从文献中提取特征，来识别内核装置，通过隐藏马尔可夫模式来对命名实体进行识别并分类，回退订模装置，其通过限制松弛来回退定模从而处理一富特征空间中的数据稀疏。

现有的相关论文如： “隐马尔可夫模型在命名实体中的应用、一种松耦合的生物医学命名实体识别算法、一种基于位置概率模型中文人名识别方法、融合多特征的最大熵汉语命名实体识别模型、基于最大熵模型的中文命名实体识别研究、基于小规模尾字特征的中文命名实体识别研究、基于感知器的生物医学命名识体边界识别算法、基于单字提示特征的中文命名实体识别快速算法”现有的对比论文实现起来比较繁琐，而且还不容易实现。

发明内容

为解决上述存在的问题与缺陷，本发明提供了一种智能检索方法。所述技术方案如下：

一种智能检索方法，适用于任意数据库的任意属性的识别，其检索方法包括：

根据用户检索需求，对其进行初始化处理；

根据词典查找所述检索需求的属性；

根据检索需求的字符类型与字符串的长度，判断检索需求可能存在的属性；

根据所述检索需求可能存在的属性判断所述检索需求具体存在的属性；

输出根据检索属性得到的检索结果。

本发明提供的技术方案的有益效果是：

通过对用户检索需求中词语或语句的分析，预测用户查询词语或语句的属性信息，并根据词语或语句不同的属性信息进行分类查询，返回更精确，用户满意度更高的检索结果。

附图说明

图1是本发明检索方法流程图；

图2是本发明人名识别流程图；

图3是本发明机构名识别流程图；

图4是本发明基金名识别流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述：

本实施例提供了一种智能检索方法，如图1所示，该方法包括：

步骤10根据用户检索需求，对其进行初始化处理；

检索需求包括单个词或多个词或词句，其初始化处理包括分词，并过滤掉停用词，比如：的，是。

步骤20根据词典查找所述检索需求的属性，如果找到，执行步骤50，否则执行步骤30；

步骤30根据检索需求的字符类型与字符串的长度，判断检索需求可能存在的属性；

可能存在的属性识别包括CN号识别、专利号识别、ISBN识别、ISSN识别、基金识别、机构名识别及人名识别，在一次查询中并不要求所有的模块全部都调用，根据初步分析模块的结果，选择调用其中的一部分模块来识别检索需求。CN号识别、专利号识别、ISBN识别和ISSN识别是根据各种号码的定义规则来识别，而基金识别、机构名识别及人名识别是根据机器学习的方法，利用概率统计原理识别检索需求的属性。

步骤40根据所述检索需求可能存在的属性判断所述检索需求具体存在的属性，如果找到，执行步骤50，否则输出全文查找；

步骤50输出根据检索属性得到的检索结果；

所述属性有可能是按属性字段查找或其它可查找的方式。

如图2所示，人名识别的具体流程包括：

步骤201对检索需求中的词语进行分词。

步骤202判断每个词是否是单姓、复姓或专有人名，若在姓氏词典中，则记下姓氏的概率；

其姓氏计算的公式为：

P(姓)为在人名库和主词典中每个字作为姓的概率，加入主词典是为了使姓氏的概率分布更接近于语料的真实分布。

步骤203判断姓氏后面的第一个分词单元；

如果为姓+单词(非停用词)，则暂认为其为单字人名(当名只有一个字时)，记下单字名的概率，如果为姓+双字词，则把双字词拆分成姓+单字+单字的形式，按双字人名计算概率，其中单字人名的概率公式为：

P(名|姓)＝P(单字名) (2)

其中P(名|姓)用P(单字名)表示，即在人名库中每个字作为单字名的概率。

步骤204判断姓氏后面的第二个分词单元；

如果为姓+单字+单字(非停用词)，则查找双字名首字和尾字的概率，其概率的计算公司为：

P(名首字)为在人名库中每个字作为双字人名首字的概率，P(名尾字)为在人名库中每个字作为双字人名尾字的概率。

步骤205根据单字名与双字名的类别，计算得到P(姓名)；

如果P(姓名)＞阈值，则认为是人名，输出；其中P(姓名)的公式为

P(姓名)＝P(姓)*P(名|姓) (4)

为了计算P(名|姓)，其公式(2)中的P1(名|姓)与公式(3)中的P2(名|姓)是公式(4)中P(名|姓)的两种情况。

其各类姓名的概率阈值：

1、两字名：姓+单字名

如果P(姓名)＞0.05，则判断是姓名。例如，“王强”，王作为姓的概率为0.8，强作为名的概率为0.6，其：

P(姓名)＝P(姓)*P(名|姓)＝P(王)*P(强)＝0.8*0.6＝0.48＞0.05，所以判定“王强”是人名。以下同理。

2、三字名：姓+双字名首字+双字名尾字，例如：王文艳

如果P(姓名)＞0.18，则判断是姓名。

3)三字名，且名为一个词：姓+双字名成词，例如：王文静

如果P(姓)＞0.8且P(姓名)＞0.3，则判断是姓名。

在人名识别流程之前还包括以下流程：

计算姓氏的概率；

从人名库中得到姓氏库；统计人名库中姓氏字作为姓的总词频(标记为/nr的词语)，并与人名库的词频合并；统计人名库中姓氏字出现的总数；通过上述公式(1)计算在人名库和主词典中姓氏的总概率。

计算单字名的概率；

从人名库中得到单字名的名用字并统计单字名的频率；建立人名库中每个字到总词频的倒排索引；通过上述公式(2)计算单字名的概率。

计算双字名的概率；

从人名库中得到双字名的名用字，首字和尾字，并统计双字名首字和尾字的词频；根据人名库的倒排索引，通过公式(3)计算双字名首字尾字概率。

综上所述，人名的可能情况分为以下几种：姓+单字名、姓+双字名首字+双字名尾字、姓+双字名成词、复姓、专有人名及外文和少数民族人名。其判断的规则一般如下：人名结尾的常用停用词：的、了、等、是、与、对、说等；人名结尾的地名停用词：县、乡、市、省、镇、庄、村、社、坝、店、寨、州、区、河、江、湖、海、沟；遇到以上停用词和标点，如果是姓+停用词/标点，则认为不是人名，如果是姓+单字+停用词/标点，则认为是单字人名；姓+称谓词则不认为是人名，称谓词包括：书记、总理、主席、部长、主任、厂长、科长、同志、司令、连长、团长、先生、女士、教授级县官等；特殊姓的后处理规则：“万”后接数量词，则不是人名；特殊姓的后处理规则：“曾”后接副词、动词、数词，则不是人名。例如：曾一度，曾两次，曾报道等。

上述人名识别还包括对外文人名的识别，其识别具体过程包括：从现有外国人名资源中提出外文名，进而统计外文名的字集，共672个字；在识别过程中，如果遇到分词碎片，则依次向后考察每个分词碎片，记录其中在外文人名字集中出现的字数；根据阈值判断是否是人名；根据处理规则得到最终识别结果。其外文人名的识别算法具体包括：建立外文人名字库，对连续的分词碎片，统计其中含有的外文人名用字个数，如果外文人名个数/碎片总数大于0.8，且碎片数大于3，则认为可能是外文人名，同时结合边界规则，确定最后识别出的外文人名。其外文识别规则包括：碎片是数词、量词、形容词、副词、介词、动词、标点(不包括·—)时，不再外文人名字计数之内；人名结尾停用词：的、了、等、和、在、是、与、对、说、县、乡、市、省、镇、庄、村、社、坝、店、寨、州、区、河、江、湖、海、沟等；人名首字停用词：和、在、之等。

如图3所示，机构名识别的具体流程包括：

步骤301对检索需求中的词语进行分词。

步骤302判断每个词是否符合机构名开始条件；

其开始条件为：在机构首词词典中，概率大于0.1；词长大于2，即非碎片，“第”字除外；词性不是动词；其机构首词概率的计算公式为：

如果符合，执行步骤303；如果不符合，判断是否为其他可能存在的识别名。

步骤303考察每个词作为机构名中间词和尾词的概率；

如果机构中间词P(OrgInside)＞P(OrgEnd)，且不为停用词，则合并当前词到机构名，并记录概率；

如果当前词为数词，且前一个词为“第”，则合并当前词到机构名，并记录概率；

如果机构尾词P(OrgEnd)大于机构中间词P(OrgInside)，则扫描结束，当平均概率＞0.4时，认为是机构名，输出。

上述机构中间词和机构尾词的概率计算公式为：

上述机构中间词概率和机构尾词概率的计算均在一级机构名范围内。

其对机构名识别之前的流程还包括：

对机构库中的机构名分级，在机构库训练语料中筛选出所有一级机构名。

计算机构名的概率；

在计算机构名的概率时，首先对一级机构分词，分别得到机构首词、机构中间词和机构尾词并统计机构首词、机构中间词和机构尾词的词频；然后统计一级机构名的总词频分布；根据上述公式5、6和7分别计算机构首词、机构中间词和机构尾词的概率分布。

上述机构名识别的规则：

机构内部停用词：与、和、的、地、等、是、、(顿号)，当在遇到机构尾词之前遇到这些词时，结束结构名识别，认为此时的目标词串不是机构名；在目标词串内遇到“第”+数词(/m)无论概率大小，也认为其为机构名的内部词；修改机构中间词和机构尾词词典，使以下词语属于尾词的概率大于中间词概率：总厂、总公司、总工会、组织、银行等；在机构尾词词典中去掉人称词和地名，以减少歧义，例如：主席、司令、院士等等。

如图4所示，基金名识别的具体流程包括：

步骤401对检索需求中的词语进行分词。

步骤402判断每个词语是否符合基金名的开始条件；

其开始条件包括：在基金首词词典中，概率大于0.1，且每个词的词长大于2，即非碎片；词性不是动词；有些基金专用词语在分词时为碎片，但对于基金识别很重要，因此在此附加提出，包括：十五、十一(五)等；如果符合所述条件，则执行步骤403；否则判断是否符合其他识别名。

上述基金首词的计算公式为：

步骤403考察每个词作为基金中间词和尾词的概率；

如果基金中间词的概率P(FundInside)＞P(FundEnd)，且不为停用词，则合并当前词到基金名，并记录概率；

如果基金尾词大于P(FundEnd)＞P(FundInside)则扫描结束，当平均概率＞0.4时，认为是基金名，输出。

上述基金中间词和基金尾词概率的计算公式为：

基金名识别之前的流程还包括：

计算基金名概率；

在计算基金名概率时，首先对基金库分词，分别得到基金首词、基金中间词和基金尾词，并统计基金首词、中间词和尾词的词频；统计基金名的总词频分布；根据上述公式8、9和10分别计算基金首词、基金中间词和基金尾词的概率。

上述基金名识别的规则包括：

在开始识别时遇到标点″、“、《、(、(，以标点后的第一个词作为基金首词去查找概率，同时该标点也要并入基金名中；基金名内部停用词：和、的、地、等、是、及、暨，如果在遇到尾词之前遇到这些词，则结束基金名识别，认为此时的目标词串不是基金名。

ISBN码识别

根据国际ISBN标准，识别输入的字符串是否为正确的ISBN号。

ISBN码识别的规则包括10位的ISBN和13位的ISBN。

10位的ISBN

国际标准书号由十位数字组成，被三条短横线分为四段，每一段都有不同的含义。其中，第一个号码段是地区号，又叫组号(Group Identifier)，最短的是一位数字，最长的达五位数字，大体上兼顾文种、国别和地区。第二段号码是出版社代码(Publisher Identifier)，由其隶属的国家或地区ISBN中心分配，允许取值范围为2-5位数字。第三段是书序号(Title Identifier)，由出版社自己给出，而且每个出版社的书序号是定长的。最短的一位，最长的六位。出版社的规模越大，出书越多，序号越长。第十位是电子计算机的校验码(Check Digit)。固定一位，起止为0-10，10由X代替。四段数字之间应该用连字符(-)连接(例如：2-02-033598-0)。但是，有些图书馆集成系统不能自动分配连字符，图书馆编目人员也对ISBN的分段方式不甚了解，所以人们经常在书目记录中省略连字符(例如：2020335980)。标准书号的核对方法是加权法，即用10至2这9个数分别去乘标准书号的前9位数，其乘积之和加上校验码再除以常数11，如能够整除，则书号正确；否则，则书号错误。

13位的ISBN

2007年1月1日起，全世界所有ISBN代理机构将只发布13位的ISBN。新的ISBN实际上就是现在的EAN(欧洲物品号)。中国标准书号分为五部分：EAN·UCC前缀号、组区号、出版者号、出版序号、校验码，以人可识读的格式显示时，必须采用连字符分隔各部分如：ISBN 978-7-5076-0334-7。其中，EAN·UCC前缀是中国标准书号的第一部分。它是由国际EAN·UCC物品编码系统提供的3位数字，由国际ISBN中心向国际EAN组织申请获得。这组编码是国际ISBN系统的组成部分。国际EAN已经提供的EAN·UCC前缀为978和979，目前使用978，使用979的时间由国际ISBN中心决定。组区号是中国标准书号的第二部分。中国的组区号是“7”；组区号由国际ISBN中心分配。在ISBN系统中，组区号代表国家、地区或语言区。组区中的成员来自相同的语言区(例如：组区号3＝德语区)或相近地域(例如：组区号982＝南太平洋地区)。组区号分为5档。组区号长度可取1～5位数字。出版者号是中国标准书号的第三部分，代表组区内具体的出版者。出版者号的最小长度是2位，最大长度是7位，由出版者预期出版量决定。出版序号是中国标准书号的第四部分，它代表一个具体出版者出版的具体出版物。出版序号的长度与出版者计划出版量直接相关，最长由6位数字组成。校验码是中国标准书号的最后一位，它采用模数10加权算法计算得出，其值范围应该为0-9。交验算法：用1分别乘ISBN中的奇数位，用3乘以偶数位，成绩之和如果能被10整除，则正确；否，则错误。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能检索方法，包括：根据用户检索需求，对其进行初始化处理；根据词典查找所述检索需求的属性；其特征在于，所述检索方法适用于任意数据库的任意属性的识别，其检索方法还包括：

输出根据检索属性得到的检索结果。

2.根据权利要求1所述的智能检索方法，其特征在于，所述检索需求包括单个词语或多个词语或短句。

3.根据权利要求1所述的智能检索方法，其特征在于，所述检索需求可能存在的属性包括CN号识别、专利号识别、ISBN识别、ISSN识别、基金识别、机构名识别及人名识别；所述CN号识别、专利号识别、ISBN识别和ISSN识别是根据各种号码的定义规则进行识别；所述基金识别、机构名识别及人名识别利用概率统计识别属性。

4.根据权利要求3所述的智能检索方法，其特征在于，所述人名识别：判断一个字符串是否是人名，包括中文人名识别和外文人名识别，其中中文人名识别的具体流程包括：

如果是多个词时，进行分词；

判断每个词是单姓、复姓或专有人名，计算姓氏概率；

判断姓氏后面的第一个分词单元为单字人名或双字人名，计算单字人名与双字人名的概率，并比较单字名与双字名概率的大小；

判断姓氏后面的第二个分词单元，并根据其判断结果计算名的概率；

根据判断的姓名的不同类别，计算姓名的概率；

外文人名识别的流程包括：

建立外文人名字库，对连续的分词碎片，统计含有的外文人名用字个数；

通过外文人名用字个数与碎片总数的比较判断出是否为外文人名。

5.根据权利要求4所述的智能检索方法，其特征在于，所述人名识别之前还包括：计算人名库中姓氏的概率、单字名的概率及双字名的概率；

所述姓氏概率的计算公式为：

P(姓)为人名库和主词典中每个字作为姓的概率；

所述单字人名的概率计算公式：

P1(名|姓)＝P(单字名)

所述双字名的概率计算公式：

比较P1(名|姓)与P2(名|姓)的大小，取大着作为P(名|姓)；

所述姓名概率的计算公式为：

P(姓名)＝P(姓)*P(名|姓)。

6.根据权利要求3所述的智能检索方法，其特征在于，所述机构名识别：判断一个字符串是否为机构名，其具体识别流程包括：

对检索需求中的多个词语进行分词，并判断每个词语是否符合机构名开始条件；

如果符合，计算每个词作为机构中间词和尾词的概率；

根据中间词和尾词概率的大小，判断是否为机构名；

如果是，记录词的概率。

7.根据权利要求6所述的智能检索方法，其特征在于，在机构名识别流程之前还包括以下步骤：

将提取训练语料中的一级机构名；

对一级机构分词，分别得到机构首词、机构中间词和机构尾词，并统计其机构首词、机构中间词与机构尾词的词频；

统计一级机构名的总词频分布；

计算机构首词、机构中间词与机构尾词的概率；

所述机构首词P(OrgBegin)概率的计算公式为：

机构中间词P(OrgInside)概率的计算公式为：

机构尾词P(OrgEnd)概率的计算公式为：

所述机构名的开始条件包括：在机构首词词典中，概率大于0.1；每个词的词长大于2，即非碎片；词性不是动词。

8.根据权利要求3所述的智能检索方法，其特征在于，所述基金名识别：判断一个字符串是否是基金名，其具体识别流程包括：

对检索需求中的词语进行分词，并判断每个词语是否符合基金名开始条件；

如果符合，考察每个词作为基金中间词和尾词的概率；

根据中间词和尾词概率的大小，判断是否为基金名；

如果是，记录词的概率。

9.根据权利要求8所述的智能检索方法，其特征在于，基金名识别流程之前还包括以下步骤：

根据语料统计得到每个词语；

对每个词语分词，分别得到基金首词、基金中间词和基金尾词；

统计基金首词、基金中间词和基金尾词的词频；

统计基金名的总词频分布；

计算基金首词、基金中间词和基金尾词的概率；

所述基金首词P(FundBegin)概率的计算公式为：

基金中间词P(FundInside)概率的计算公式为：

基金尾词P(FundEnd)概率的计算公式为：

所述基金名的开始条件为：基金首词词典中，概率大于0.1；每个词的词长大于2，即非碎片；词性不是动词。

10.根据权利要求3所述的智能检索方法，其特征在于，所述ISBN识别：识别一个字符串是否是ISBN码，包括10位的ISBN码与13位的ISBN码。