CN101630315A - 一种快速检索方法及系统 - Google Patents
一种快速检索方法及系统 Download PDFInfo
- Publication number
- CN101630315A CN101630315A CN200810116757A CN200810116757A CN101630315A CN 101630315 A CN101630315 A CN 101630315A CN 200810116757 A CN200810116757 A CN 200810116757A CN 200810116757 A CN200810116757 A CN 200810116757A CN 101630315 A CN101630315 A CN 101630315A
- Authority
- CN
- China
- Prior art keywords
- retrieved
- name
- document
- information
- expert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000000284 extract Substances 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000012634 fragment Substances 0.000 claims description 27
- 238000013515 script Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种快速检索方法及系统,该方法包括:收集待检索对象列表及文档;在文档中标注出现在待检索对象列表中的待检索对象;抽取文档中已标注的待检索对象前后各若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个文档,得到该待检索对象对应的描述文档;根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果,该系统包括待检索信息获取单元、待检索对象标注单元、待检索信息抽取单元、待检索信息整理单元和检索单元。本发明在线下将对应对象列表中对象具有支持和描述信息识别并抽取汇集为一个文档,用户检索时直接将该对象对应的所有信息输出,检索速度快,检索精度高。
Description
技术领域
本发明涉及互联网信息处理领域,具体涉及一种快速检索方法及系统。
背景技术
搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。搜索引擎通过被称为网络爬行器的工具进行信息搜索,用索引器对抓取的信息进行整理,进而使用查询器进行用户查询,并返回相关结果列表,提供相关信息以满足用户的查询需求。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自己查询需求的关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击查找所需要的信息。
专家检索可以理解为是使用搜索引擎帮助用户查询给定主题方面的权威与可信人。文本检索会议TREC(Text Retrieval Conference)是文本检索领域中人气最旺、最具权威的评测会议,由美国国防部和美国国家技术标准局(NIST)联合主办。根据TREC对网络信息检索部分的权威定义,专家是某一个给定领域的权威性人物,而专家检索是根据用户给定的需求,利用搜索引擎收集的信息自动分析判断,返回一个相关专家结果列表,提供专家信息满足用户查询需求。提供的专家信息可以包括专家的姓名、主页信息、专家领域还有描述文档。其中描述文档的定义为在搜素引擎收集的信息文档中,搜索引擎可以判断为对某个候选人是专家具有支持信息的文档。专家检索之所以关键,是因为它提供给用户一个方便寻找某个领域专家的便捷方法。
由于在实际中用户有很强的寻找专家的需求,同时目前的通用搜索引擎很难满足用户寻找专家的需求,因此,自动准确地查找某一查询主题下的专家资源对于网络信息检索工具提高其信息收集的有效性十分重要,其定位技术也成为了网络信息检索研究和应用中的重点考察问题之一。反映在文本检索会议TREC(Text RetrievalConference)特意设立了一个专家检索的检索任务,每年都有来自世界各国的大学与研究机构进行搜索评测,同时在国际信息检索研究最高水平的SIGIR(International ACM SIGIR Conference on Research andDevelopment in Information Retrieval)会议上,专家检索查找技术无论从论文数目还是质量来看,近年来逐渐呈上升趋势。查找专家,是当前网络信息检索的发展热点,也已经获得了一些卓有成效的理论研究和实验结果。但总的来说,专家技术研究的发展还停留在一个相对低的水平上,作为评价标准的平均结果检索精度(Mean AveragePrecision,MAP)一直在40%左右徘徊。
传统专家检索技术采用的方式是给定某领域关键词,使用搜索引擎检索出相关的文档。然后从这些相关的文档中挖掘该领域的专家。该种方法在第一步找出相关文档中可以使用一些现有比较成熟的比如语言模型等方法,在第二步挖掘专家可以使用多种方法,比如统计这些文档中出现的专家名次数,然后按出现次数排序,出现的多的即为专家。
这种传统的检索方法存在的弊端是:1、找到的相关的文档中可能含有专家信息不多,因为专家名在整个文档集合中的分布是比较稀疏的;2、检索效率不高,由于整个第二步即专家挖掘过程都是在线上时间开展,也就是用户和搜索引擎交互的时间,因此用户希望这段时间越短越好,但当时间受限时,就不能采用比较复杂效果好的算法来寻找专家。3、查询词对专家的区分度不强,在第一步文档检索中,查询词的区分度是根据该词在文档集合中出现次数决定的,比如“导师”这个词在整个文档集合中出现不多,那么这个词对文档的区分度就很高。但是对于专家检索来说,“导师”这个词对于专家来说区分度就不高,因此传统方法不能解决查询词对专家区分度不同的问题。
在搜索引擎领域,不只是专家搜索引擎存在以上技术问题,对于其它需要获取特定方面信息的搜索引擎均存在以上问题。
发明内容
本发明的目的是提供一种快速检索方法及系统,可以解决需要获取特定方面信息的搜索引擎如专家检索所存在的速度慢、区分度不高的技术问题,有效提高了检索速度,且检索结果准确。
为实现上述目的,本发明采用如下技术方案:
一种快速检索方法,该方法包括步骤:s101,收集待检索对象列表及文档;s102,在所述文档中标注出现在所述待检索对象列表中的待检索对象;s103,抽取所述文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;s104,将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;s105,在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
其中,所述待检索对象为人名,所述人名为包括中文名和外文名,在收集的待检索人名列表中,将属于同一外文名的不同变体形式的待检索人名视为同一待检索人名。
其中,所述文档包括电子邮件,在步骤s101后还包括:根据电子邮件的格式化信息,获取由所述电子邮件的发件人和发件人邮箱地址信息、收件人与收件人地址信息、抄送人与抄送人地址信息分别构成包括人名与邮箱地址信息的人名邮箱对;将出现所述待检索人名列表中的待检索人名的人名邮箱对的邮箱地址信息抽取出来,添加到所述待检索人名列表中,所述抽取的人名邮箱对中包含的邮箱地址信息视为与所出现的待检索人名为同一待检索人名。
其中,所述文档包括不同数据格式的文档,步骤s102之前,还包括:对不同数据格式的文档进行预处理,转换为国际标准汉字编码的同一数据格式;根据所述文档的格式化信息,对预处理后的具有同一数据格式的文档进行冗余信息过滤,所述冗余信息包括文档中的脚本程序和头部信息。
其中,所述文档包括电子邮件,在步骤s103中,包括:根据电子邮件的格式化信息获取邮件的标题域、发件人域、接收人域、抄送人域、作者书写域;当所述已标注的待检索人名出现在电子邮件的发件人域时,则抽取所述电子的标题域和作者书写域的全部字符信息;当所述已标注的待检索人名出现在所述收件人域或抄送人域时,则抽取所述电子邮件的标题域的全部字符信息。
其中,在步骤s103中,还包括:根据电子邮件的格式化信息获取包括作者书写域、前文引文域、正文段落、子章节标题段落、文字加粗段落的正文域;当所述已标注的待检索人名出现在正文域时,则抽取已标注的待检索人名前后各若干个字符信息,同时还抽取所述电子邮件的标题域的字符信息、距离已标注的待检索人名之前最近的子章节标题段落的字符信息、距离已标注的待检索人名前后最近的文字加粗段落的字符信息。
其中,所述文档包括网页,在步骤s103中,包括:根据网页的格式化信息获取网页的标题域、正文域、子章节标题段落、文字加粗段落;当所述已标注的待检索人名出现在网页的正文域时,则抽取已标注的待检索人名前后各若干个字符信息,同时还抽取所述网页的标题域的字符信息、距离已标注的待检索人名之前最近的子章节标题段落的字符信息、距离已标注的待检索人名前后最近的文字加粗段落的字符信息。
其中,在步骤s103中,在文档中连续出现多个已标注的待检索人名,且其中每两个相邻的已标注的待检索人名间的字符数小于设定值,则所述连续出现的多个已标注的待检索人名构成待检索人名组,对于所述待检索人名组中的每一个待检索人名,在所述文档中抽取待检索人名组前的若干子符信息及待检索人名组后的若干个字符信息。
其中,在步骤s105中,在给出检索前包括步骤:获取每个待检索人名对应的描述文档的知识程度,所述知识程度与知识专注比成正比,所述知识专注比为:
该式中,b为用于调节知识专注比强度的常量,取值范围在0至1之间,所述Q为用户给定的查询词,所述片断为抽取的由已标注的待检索人名前的若干个字符信息与待检索人名后的若干个字符信息组成的片段;将前n个具有最高的知识程度的待检索人名对应的描述文档作为检索结果输出,其中n为设定值。
其中,在步骤s105中,在获取所述知识专注比后,还包括获取查询词Q的区分度,所述知识程度与查询词Q的区分度成正比,所述查询词Q的区分度为:
该式中,所述描述文档集合为由所有待检索人名对应的描述文档构成的集合。
其中,在步骤s105中,在获取查询词后,还包括获取每个待检索人名对应的描述文档的信息强度,所述每个待检索人名对应的描述文档信息强度为:
该式中,所述片断i为抽取的由已标注的待检索人名前的若干个字符信息与待检索人名后的若干个字符信息组成的片段,i为正整数用于区分不同的片断,所述该描述文档中片断i的信息强度为:
该式中,i的类型联系强度根据描述文档的类型设定的权重,取值范围0~1,k是用于调节信息强度的变量,k与查询词Q在片断i中出现的次数成正比,取值范围为0~1;每个待检索人名对应的描述文档的知识程度为:
知识程度=该描述文档的信息强度×查询词Q的区分度×知识专注比。
本发明还提供了一种快速检索系统,该系统包括:待检索信息获取单元,用于收集待检索对象列表及文档;待检索对象标注单元,用于在所述文档中标注出现在所述待检索对象列表中的待检索对象;待检索信息抽取单元,用于抽取所述文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;待检索信息整理单元,用于将由相同的待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;检索单元,在所有待检索对象对应的描述文档上离线建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
利用本发明提供的快速检索方法及系统具有以下有益效果:
若待检索对象式人名时,利用已有的人名列表(如由企业进行提供的专家人名列表),对收集的所有文档(由企业提供或通过网络爬虫下载)进行分析,事先将人名列表中与人名具有支持或者描述信息的内容进行自动识别与抽取,进而将这些被抽取的与人名信息相关的片段聚到一起构成一个该人名具有描述作用的文档;然后使用现有的搜索引擎简历索引的技术在这些描述文档集合上建立索引,当到来查询时,检索出相关的描述文档,返回该描述文档对应的人名。由于对人名(专家)的人名标注、描述文档片段识别与抽取,建立描述文档索引这些过程都是在线下自动完成的,因此可以大大提高用户在线搜索的反应时间,提高用户的满意度。
附图说明
图1为本发明快速检索方法的流程图;
图2为本发明快速检索系统的组成框图;
图3为本发明实施例中电子邮件中各区域标注示意图;
图4为本发明实施例中网页中各区域标注示意图;
图5为本发明实施例中人名获取过程流程图;
图6为本发明实施中在文档中进行人名标注流程图;
图7为本发明实施例中给出检索结果过程流程图。
具体实施方式
本发明提出的快速检索方法及系统,结合附图和实施例详细说明如下。
如图1所示为本发明快速检索方法流程图,该方法包括步骤:s101,收集待检索对象列表及文档;s102,在文档中标注出现在待检索对象列表中的待检索对象;s103,抽取文档中已标注的待检索对象前、后若干个字符信息;s104,将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;s105,在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
如图2所示为本发明快速检索系统的组成框图,该系统包括:待检索信息获取单元,用于收集待检索对象列表及文档;待检索对象标注单元,用于在文档中标注出现在待检索对象列表中的待检索对象;待检索信息抽取单元,用于抽取文档中已标注的待检索对象前、后若干个字符信息;待检索信息整理单元,用于将由相同的待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;检索单元,在所有待检索对象对应的描述文档上离线建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
实施例
本实施例中待检索对象为人名,检索方法是基于专家描述文档构建的快速专家检索方法,根据TREC对网络信息检索部分的权威定义,专家是某一个给定领域的权威性人物,而专家检索是根据用户给定的需求,利用搜索引擎收集的信息自动分析判断,返回一个相关专家结果列表,提供专家信息满足用户查询需求。利用本发明提供的检索方法收集企业提供的认为为专家的专家人名列表,及搜集可能包含专家支持信息的文档,可以解决现有技术中检索速度慢,专家检索效果不高且专家区分度低的问题,本实施例的详细过程为:
步骤1:收集待检索人名列表及文档
本实施例中待检索人名列表为专家人名列表,对于每一个搜索引擎商家来说,都要事先进行被检索文档信息的下载,将下载下来的文档信息保存在服务器上,离线建立索引,当用户查询时便可以根据查询关键词在服务器上已保存的文档信息中迅速查到相关信息并返回。本实施例中即可以利用现有技术中的网络爬虫将有可能包括专家的信息的文档下载下来,也可以直接收集由企业提供的可能包括专家的信息的文档,该文档可以是各种数据格式的文档,如网页、电子邮件、PDF与Word文档等。网络爬虫实际是一种网络下载工具,其特点是根据初始的网页(种子)不断链接网页并下载,同时还不断连接已下载网页所能链接的网页并下载,详细过程这里不再详述。
本实施例中的专家人名列表具体由企业提供的所有潜在专家的人名列表,过步骤为信息收集过程,可以采用不同的渠道,所收集的专家人名列表中的人名作为检索对象被认为是专家,如图5所示,具体包括步骤:
步骤1.1:获取初始专家人名集合及人名变体
本实施例中根据获得的人名得到人名集合列表,列表时,人名的表示根据中文名和外文人名用不用的方式表示。
对于中文人名,包括人的全名,即姓和名。
而外文人名包括名(Firstname),中间名(Middlename)和姓(Lastname),其中对于外文人名本实施例中还生成几种变体形式,以方便于在文档集合上进行标注,这些变体形式包括:
名(Firstname)姓(Lastname);
名(Firstname).姓(Lastname);
名的首字母大写(F).姓(Lastname);
名的首字母大写(F).中间名大写(M).姓(Lastname);
姓(Lastname,名(Firstname);
本实施例中的变体形式不限于以上几种形式,还可以根据需要作出其它的变体,从上面的变体可以看出,有可能出现一个人名用上述不同的形式表示的情况,本实施例中初始时,对所有不同的人名包括人名的变体形式,都对应分配一个专家标识号id,代表这个专家的可能用名形式。每个专家标识号id是系统自动分配的用户标识号,用于区别不同专家。
步骤1.2:人名集合排歧
在步骤1.1中获得的人名集合中存在着一定的歧义可能,例如不同专家标识号id的人名集合中存在着相同的人名变体形式,比如共同的名的首字母大写(F).姓(Lastname),因此,需要将同一个人名对应的其它变体形式被分配的标识号id删除,保证不同的专家使用不同的id号,避免出现同一个专家由于人名表示方式不同而采用不同标识号id的情况,本实施例中检查所有专家标识号id,删除所有隶属于不同专家标识号id的相同的人名变体的标识号id,即用一个标识号id表示该人名及对应的人名变体。该过程很简单,具体为使用枚举的方法罗列初始全部的人名的各所属的表示方式,判断其中是否有重复,将不同表示方式的人名表示相同部位,如姓、名和中间名对应比较,如果完全相同则表示是同一个人名。
步骤1.3:获取人名集合对应的邮箱名
在电子邮件文档中,可以根据电子的格式化信息,获取电子邮件头部的发件人、收取人、抄送人的人名与对应的邮箱地址信息,其中每一个人的人名与邮箱地址构成了一个人名-邮箱名对。
对所有的专家标识号id,从第一个专家M开始(这里的M表示第一个专家id),设其初始人名集合为该专家M的全名和所有的人名变体;在从电子邮件信息中抽取的所有的人名-邮箱名对中,将所有的出现有专家M的全名和人名变体的人名-邮箱名对中的邮箱地址添加到专家M的人名集合中,意味着这些邮箱是专家M使用的邮箱,也是专家M的一种人名标示。对专家M的所有可能邮箱名,记录其出现的次数,如果邮箱的出现次数小于等于3,则从专家M对应的人名集合中去除该邮箱名。删除出现次数少的邮箱是考虑到存在有的邮箱地址是敲错的,同时有可能某人借用了其他人邮箱发信的情况,因此只有一个邮箱被一个人使用多次时才能说明该邮箱是其使用的邮箱。
步骤2:在文档中进行人名标注
用于专家检索的数据集合通常来自于企业内部的各种数据格式的文档,包括网页、电子邮件、PDF与Word文档等,对于不同的数据格式需要进行不同的数据预处理,如图6所示为本实施例中人名标注过程,该过程包括:
步骤2.1:对于所有的网页与电子邮件文档,将其采用的不同的记录格式(如通用资源标志符即URI格式等)转换成国家标准汉字编码GBK格式,然后以UTF8(Unicode Transformation Format--8bit)的格式进行存储;
步骤2.2:对于PDF、Word和PPT等文档格式,采用格式解析程序将这些文档中的文本信息取出,然后以国家标准汉字编码的GBK格式,然后以UTF8的格式进行存储;
步骤2.3:对转好码的文档进行冗余信息的过滤,包括网页中的脚本程序、网页头部信息等,脚本程序和网页头部信息在格式化信息中使用超文本标记语言html格式的命令标注说明出来,如果识别到这些标注信息就可以判断出哪些为脚本程序,哪些为头部信息。
步骤2.4:利用步骤1中获得的专家人名集合在步骤2.3预处理后的文档中进行人名标注。对所有具有不同标识号专家id,从第一个专家M开始,对所有文档进行扫描,将专家M的人名集合中包括的所有的全名、人名变体、邮箱名在文档中的地方都标注出来,出现的专家M的标志前后以“<M id>识别出的专家的人名</M id>”的格式标记出,其中<M id>标识第一个专家M的标识号,然后遍历专家列表中的所有不同的id的专家,重复以上步骤,完成人名标注步骤。
步骤3:在文档集合中自动识别与抽取专家信息相关的知识片段
本实施例中根据文档不同的类型采用不同的专家信息抽取方法,若文档类型为电子邮件,采用如下方法:
根据电子邮件的格式化信息获取邮件的头域与正文域,如图3所示,头域包括标题域A、发件人域B、接收人域或抄送人域C,正文域包括普通段落、子章节标题段落、文字加粗段落和文字加斜段落,图3中的H域是关于这封邮件的日志信息,I域是到其他和这封邮件相关邮件的链接。
对于已经在电子邮件中被步骤2中标注出的专家标示符,具体为“<M id>识别出的专家的人名</M id>”,对其相关的知识片段信息的识别与抽取包括以下几种情况:
如果“识别出的专家的人名”出现在邮件头域的邮件发件人域B,则将邮件的标题域A和正文域中的作者书写域中(包括D、E、F、G,D为收信人称呼域,E为前文域,F为正文内容域,G为发信人结尾祝好与签名域)的全部内容作为支持专家C的专家描述文档标记出。本实施例中在标题域A的信息前后以<Mid_mailTitle>标题</M_mailTitle>的格式标记出。正文域中的作者书写域中的全部内容前后以<Mid_mailAuthor>作者书写内容</Mid_mailAuthor>标记出。
如果“识别出的专家的人名”出现在邮件头域的收件人或者抄送人域C,则将邮件的标题域A的全部内容作为支持M的专家描述文档标记出;标题域A的信息前后以<Mid_mailTitle>标题</M_mailTitle>的格式标记出。
对于在正文域中出现的“识别出的专家的人名”,首先对该“识别出的专家的人名”前后出现的100个字符(如果前或后少于100个字符,则取其所有)取出作为M的上下文描述文档片段,然后以<Mid_mailContext>正文域</M_mailContext>的格式标记出;接着将标题域前后以<Mid_mailTitle>标题域</M_mailContext>的格式标记出;接着将距离“识别出的专家的人名”之前最近的一个子章节标题段落以<Mid_mailHeading>子标题域</Mid_mailHeading>格式标记出;将“识别出的专家的人名”前后最近的文字加粗段落为<Cid_mailBold>粗体域</Cid_mailBold>格式标记出。
以上被标记出的这些描述信息都是“识别出的专家的人名”的id对应的专家信息相关描述信息。
若文档类型为网页,采用如下方法:
根据网页的格式化信息获取网页区分网页中的各个不同的域,如图4所示的被标注的标题域A1、正文域、子章节标题段落B1、文字加粗段落和文字加斜段落(图中C1为上下文描述文档域),由于网页中每个部分都有HTML格式化信息标注,例如头信息前后有<title></title>标注出,标题域有<heading1></heading1>或者<heading2></heading2>等标注出,粗体域有<bold></bold>标注出,斜体域有<italic></italic>标注出等,因此很容易将上述各个域区分出来。
对于在正文域中出现的“识别出的专家的人名”,首先对该标识前后出现的100个字符(如果前或后少于100个字符,则取其所有)取出作为专家M的上下文描述文档片段,之后以<Mid_webContext>正文域</M_webContext>的格式标记出;接着将标题域A1前后以<Mid_webTitle>标题域</M_webContext>的格式标记出;接着将距离“识别出的专家的人名”之前最近的一个正文子章节标题B1以<Mid_webHeading>子标题域</Mid_webHeading>格式标记出;将“识别出的专家的人名”前后最近的文字加粗段落为<Mid_webBold>粗体域</Mid_webBold>格式标记出。
在网页和其它类型的文档中,还存在多个“识别出的专家的人名”同时出现的情况,多个“识别出的专家的人名”出现在一起构成一个组。进行如下处理:
在文档中连续出现多个(本实施例中设定大于5个)的“识别出的专家的人名”,且其中每两个相邻“识别出的专家的人名”间字符数少于设定值(本实施例中该设定值为15),则这些连续出现的多个“识别出的专家的人名”构成一个专家组。对于组中的每一个专家N,在整个组前后的出现的100个字符(如果前或后少于100个字符,则取其所有)取出,以前后<Nid_groupContext>正文域</Nid_groupContext>的格式标记出。对每个专家N的标识号id与其后面的字符取出,前后以<Nid_groupDesrciption>正文域</Nid_Nid_groupDesrciption>的格式标记出。
以上被标记出的这些描述信息都是“识别出的专家的人名”的id对应的专家信息相关描述信息。
步骤4,构建专家对应的描述文档
在步骤3中标注出了每一个专家对应的描述文档片段。把每一个专家对应的全部的描述文档片段抽取出来拼接成一个描述文档,文件名命名为专家标识号id,这样即实现了每一个专家id对应于一个描述文档。
步骤5,离线建立索引,根据用于给定查询在专家描述文档集合上检索对应专家
离线建立索引技术为现有技术,这里不再详述。
本实施例中在用户给定查询词Q后,设在整个专家描述文档集合中共有L个描述文档,本实施例依次计算每一个专家对应的描述文档的专家知识程度,对所有专家对应的描述文档的专家知识程度值进行排序,取前n位作为查询结果返回(n为设定值),则这n个专家描述文档对应的专家就是给定查询词Q的领域的专家。如图7所示为给出检索结果的详细过程,该过程包括:
步骤5.1,计算描述文档的专家信息强度
本实施例中计算对于给定用户查询词Q,每个专家对应的描述文档的专家信息强度,即每个专家对应的描述文档中包含查询词Q的强度。设专家M对应的描述文档中包含有j个与M相关的描述文档片段(即上述利用格式化标记出的前后段信息),每个片段具有不同的标记信息,如<Mid_groupContext>、<Mid_webHeading>等。本实施例中首先计算描述文档中片段i的专家信息强度(i为正整数,表示描述文档中的第i个片段),计算公式为:
其中查询词Q在片段i中出现的次数,可以通过对片段i的字符中对查询词Q进行统计计数得到;i的类型联系强度是本实施例设定的一个值,决定着不同类型的描述文档与专家M的紧密程度,比如网页中的上下文类型<Cid_webContext>我们给定权重为1的联系强度。k是用于调节信息强度的变量(是指用户给定查询词Q出现在描述片段中次数,次数越多该值越大),取值范围在0到1之间。
当得到描述文档中每一个片段i的专家信息强度后,计算专家M对应的描述文档的专家信息强度:
将专家对应描述文档中的所有片段i的专家信息强度加起来,即得到M对应的描述文档的专家信息强度。
步骤5.2,计算查询词Q的专家区分度
查询词Q的专家区分度是由专家描述文档集合中文档数量与查询词Q出现在整个专家描述文档集合中的文档个数决定的,计算公式如下:
由于查询词Q出现在整个专家描述文档集合中的文档个数Q会少于专家描述文档集合中全部的文档数量,因此查询词Q的专家区分度会大于等于1。
步骤5.3,计算专家知识专注比
专家知识专注比被认为是候选人的与查询相关的知识与其具有所有的专家知识的比例,是对于一个描述文档中与查询相关的专家信息片段与描述文档中所有专家信息片段的比。对于每一个专家对应的描述文档,其专家知识专注比计算如下:
专家描述文档长度即文档中字符的数量。专家描述文档中查询词Q出现的片段和,即包含查询词Q的描述文档片段的字符数量的和,可以先统计查询词Q出现的专家描述文档片段,然后计算这些片段的长度和。b是用于调节专家知识专注比强度的设定常量,取值范围在0至1之间,该值越大,越强调专家知识专注比强度,由于专家描述文档中查询词Q出现的片段和是专家描述文档长度的一部分,所以专家知识专注比的取值范围必然在0至1之间。
步骤5.4,获取每个专家对应描述文档的专家知识程度
通过步骤5.1、5.2、5.3获取的专家信息强度、查询词的专家区分度、专家知识专注比,给定用户查询词Q,每个专家对应的专家描述文档的专家程度计算公式为:
描述文档的专家知识程度=专家信息强度×查询词的专家区分度×专家知识专注比
步骤5.5,对所有专家对应的描述文档的专家知识程度值进行排序,取前n位作为查询结果返回(n为设定值),则这n个专家描述文档对应的专家就是给定查询词Q的领域的专家。
为了验证本发明的有效性和可靠性,本实施例进行了性能评测的相关试验。
从运行效率上讲,当程序运行硬件环境为1.8G主频CPU、1G内存与100M的LAN网络时,原数据集大小为5G的数据上检索专家用时几个毫秒。这比较传统的先检索文档再抽取专家的专家检索方式耗时几秒的做法有了很大的提高。
从评价的正确性上讲,经过与TREC(Text Retrieval Conference)提供的专家检索任务的平台数据上的实验,自动检索专家准确率如下:在TREC2005数据集上准确率为27.4%,在TREC2006数据集准确率为50.8%。相比其他数十家参加该评测的公司与院校提供的检索性能结果比较,本实施例的结果在TREC2005数据集上性能最优,在TREC2006上性能排列第三。
本发明能够自动从企业的数据中自动识别与抽取专家相关的知识信息并构建专家描述文档,进而建立索引,可以实现专家的自动发现与检索。模型结构和参数简单,算法复杂度低,在实验测试数据上取得了很好的性能。这说明本发明具有较好的推广性和适应性,具有良好的应用前景。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (12)
1、一种快速检索方法,其特征在于,该方法包括步骤:
s101,收集待检索对象列表及文档;
s102,在所述文档中标注出现在所述待检索对象列表中的待检索对象;
s103,抽取所述文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;
s104,将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;
s105,在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
2、如权利要求1所述的快速检索方法,其特征在于,所述待检索对象为人名,所述人名为包括中文名和外文名,在收集的待检索人名列表中,将属于同一外文名的不同变体形式的待检索人名视为同一待检索人名。
3、如权利要求2所述的快速检索方法,其特征在于,所述文档包括电子邮件,在步骤s101后还包括:
根据电子邮件的格式化信息,获取由所述电子邮件的发件人和发件人邮箱地址信息、收件人与收件人地址信息、抄送人与抄送人地址信息分别构成包括人名与邮箱地址信息的人名邮箱对;
将出现所述待检索人名列表中的待检索人名的人名邮箱对的邮箱地址信息抽取出来,添加到所述待检索人名列表中,所述抽取的人名邮箱对中包含的邮箱地址信息视为与所出现的待检索人名为同一待检索人名。
4、如权利要求2所述的快速检索方法,其特征在于,所述文档包括不同数据格式的文档,步骤s102之前,还包括:
对不同数据格式的文档进行预处理,转换为国际标准汉字编码的同一数据格式;
根据所述文档的格式化信息,对预处理后的具有同一数据格式的文档进行冗余信息过滤,所述冗余信息包括文档中的脚本程序和头部信息。
5、如权利要求2所述的快速检索方法,其特征在于,所述文档包括电子邮件,在步骤s103中,包括:
根据电子邮件的格式化信息获取邮件的标题域、发件人域、接收人域、抄送人域、作者书写域;
当所述已标注的待检索人名出现在电子邮件的发件人域时,则抽取所述电子的标题域和作者书写域的全部字符信息;
当所述已标注的待检索人名出现在所述收件人域或抄送人域时,则抽取所述电子邮件的标题域的全部字符信息。
6、如权利要求5所述的快速检索方法,其特征在于,在步骤s103中,还包括:
根据电子邮件的格式化信息获取包括作者书写域、前文引文域、正文段落、子章节标题段落、文字加粗段落的正文域;
当所述已标注的待检索人名出现在正文域时,则抽取已标注的待检索人名前后各若干个字符信息,同时还抽取所述电子邮件的标题域的字符信息、距离已标注的待检索人名之前最近的子章节标题段落的字符信息、距离已标注的待检索人名前后最近的文字加粗段落的字符信息。
7、如权利要求2所述的快速检索方法,其特征在于,所述文档包括网页,在步骤s103中,包括:
根据网页的格式化信息获取网页的标题域、正文域、子章节标题段落、文字加粗段落;
当所述已标注的待检索人名出现在网页的正文域时,则抽取已标注的待检索人名前后各若干个字符信息,同时还抽取所述网页的标题域的字符信息、距离已标注的待检索人名之前最近的子章节标题段落的字符信息、距离已标注的待检索人名前后最近的文字加粗段落的字符信息。
8、如权利要求2~7之任一项所述的快速检索方法,其特征在于,在步骤s103中,在文档中连续出现多个已标注的待检索人名,且其中每两个相邻的已标注的待检索人名间的字符数小于设定值,则所述连续出现的多个已标注的待检索人名构成待检索人名组,对于所述待检索人名组中的每一个待检索人名,在所述文档中抽取待检索人名组前的若干子符信息及待检索人名组后的若干个字符信息。
11、如权利要求10所述的快速检索方法,其特征在于,在步骤s105中,在获取查询词后,还包括获取每个待检索人名对应的描述文档的信息强度,所述每个待检索人名对应的描述文档信息强度为:
其中,所述片断i为抽取的由已标注的待检索人名前的若干个字符信息与待检索人名后的若干个字符信息组成的片段,i为正整数用于区分不同的片断,所述该描述文档中片断i的信息强度为:
其中,i的类型联系强度根据描述文档的类型设定的权重,取值范围0~1,k是用于调节信息强度的变量,k与查询词Q在片断i中出现的次数成正比,取值范围为0~1;
每个待检索人名对应的描述文档的知识程度为:
知识程度=该描述文档的信息强度×查询词Q的区分度×知识专注比。
12、一种快速检索系统,其特征在于,该系统包括:
待检索信息获取单元,用于收集待检索对象列表及文档;
待检索对象标注单元,用于在所述文档中标注出现在所述待检索对象列表中的待检索对象;
待检索信息抽取单元,用于抽取所述文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;
待检索信息整理单元,用于将由相同的待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;
检索单元,在所有待检索对象对应的描述文档上离线建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101167571A CN101630315B (zh) | 2008-07-16 | 2008-07-16 | 一种快速检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101167571A CN101630315B (zh) | 2008-07-16 | 2008-07-16 | 一种快速检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101630315A true CN101630315A (zh) | 2010-01-20 |
CN101630315B CN101630315B (zh) | 2011-09-14 |
Family
ID=41575425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101167571A Active CN101630315B (zh) | 2008-07-16 | 2008-07-16 | 一种快速检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101630315B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376057A (zh) * | 2010-08-16 | 2012-03-14 | 富士通株式会社 | 对消费者生成媒体信息进行处理的方法和装置 |
CN106294578A (zh) * | 2016-07-27 | 2017-01-04 | 北京奇虎科技有限公司 | 一种定制搜索方法及装置 |
CN106776851A (zh) * | 2016-11-28 | 2017-05-31 | 国网上海市电力公司 | 文档结构化方法和设备 |
CN107609021A (zh) * | 2017-08-07 | 2018-01-19 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN107977398A (zh) * | 2016-10-24 | 2018-05-01 | 谷歌公司 | 对搜索结果文档进行排名 |
WO2019028628A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN117235345A (zh) * | 2023-11-16 | 2023-12-15 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4750476B2 (ja) * | 2005-06-07 | 2011-08-17 | キヤノン株式会社 | 文書検索装置及び方法と記憶媒体 |
CN101063975A (zh) * | 2007-02-15 | 2007-10-31 | 刘二中 | 电子文本处理与检索的方法和系统 |
-
2008
- 2008-07-16 CN CN2008101167571A patent/CN101630315B/zh active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376057A (zh) * | 2010-08-16 | 2012-03-14 | 富士通株式会社 | 对消费者生成媒体信息进行处理的方法和装置 |
CN106294578A (zh) * | 2016-07-27 | 2017-01-04 | 北京奇虎科技有限公司 | 一种定制搜索方法及装置 |
CN106294578B (zh) * | 2016-07-27 | 2019-12-10 | 北京奇虎科技有限公司 | 一种定制搜索方法及装置 |
CN107977398A (zh) * | 2016-10-24 | 2018-05-01 | 谷歌公司 | 对搜索结果文档进行排名 |
CN107977398B (zh) * | 2016-10-24 | 2021-12-10 | 谷歌有限责任公司 | 对搜索结果文档进行排名 |
CN106776851A (zh) * | 2016-11-28 | 2017-05-31 | 国网上海市电力公司 | 文档结构化方法和设备 |
CN107609021A (zh) * | 2017-08-07 | 2018-01-19 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
WO2019028628A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN107918674A (zh) * | 2017-12-12 | 2018-04-17 | 携程旅游网络技术(上海)有限公司 | 网页数据的采集方法及其系统、存储介质、电子设备 |
CN117235345A (zh) * | 2023-11-16 | 2023-12-15 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
CN117235345B (zh) * | 2023-11-16 | 2024-03-26 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101630315B (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101630315B (zh) | 一种快速检索方法及系统 | |
CN102073725B (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
US8630972B2 (en) | Providing context for web articles | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN100440224C (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
CN101329687B (zh) | 一种新闻网页定位方法 | |
US8271495B1 (en) | System and method for automating categorization and aggregation of content from network sites | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN109857956B (zh) | 基于标签和分块特征的新闻网页关键信息自动抽取方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN102306201B (zh) | 一种网页标题分析的方法和系统 | |
CN101620608A (zh) | 信息采集方法及系统 | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN103559234A (zh) | RESTful Web服务的自动化语义标注系统和方法 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
CN104462532A (zh) | 网页正文提取的方法和装置 | |
CN103942268A (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
CN106649557A (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN103116635A (zh) | 面向领域的暗网资源采集方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |