CN103605665B - 一种基于关键词的评审专家智能检索与推荐方法 - Google Patents

一种基于关键词的评审专家智能检索与推荐方法 Download PDF

Info

Publication number
CN103605665B
CN103605665B CN201310511342.5A CN201310511342A CN103605665B CN 103605665 B CN103605665 B CN 103605665B CN 201310511342 A CN201310511342 A CN 201310511342A CN 103605665 B CN103605665 B CN 103605665B
Authority
CN
China
Prior art keywords
expert
word
key word
field
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310511342.5A
Other languages
English (en)
Other versions
CN103605665A (zh
Inventor
徐小良
吴仁克
郑杨
潘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201310511342.5A priority Critical patent/CN103605665B/zh
Publication of CN103605665A publication Critical patent/CN103605665A/zh
Application granted granted Critical
Publication of CN103605665B publication Critical patent/CN103605665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures

Abstract

本发明公开了一种基于关键词的评审专家智能检索与推荐方法。本发明具体包括如下步骤:步骤1:将专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;步骤2:分字段提取每个专家信息的特征词;步骤3:基于特征词所在字段和权值构建专家知识表示模型,并建立专家信息索引库;步骤4:当用户输入关键词时会根据检索词库进行自动提示,同时利用检索词统计器实时更新检索词词库;步骤5:基于语义等信息计算关键词和专家信息间的检索相关度;步骤6:根据匹配度从高到低列出相关的专家。本发明通过输入关键词实现专家信息的智能全文检索以及推荐,更准确地检索出与待审科技项目相匹配的专家。

Description

一种基于关键词的评审专家智能检索与推荐方法
技术领域
本发明属于信息检索技术领域,尤其涉及一种基于关键词的评审专家智能检索与推荐方法,用于检索科技项目评审专家。
背景技术
随着科技项目申报管理系统在我国的迅速普及,科技项目的评审工作从以往的集中会议模式发展到当前的网络模式。评审专家根据领域知识和资助机构的资助标准,对项目申请书进行评议,资助机构依据评审专家的评议情况决定是否资助。科技项目管理系统的规模越来越大,形成大量的专家库信息。由于科技项目评审必须做到客观性、公正性和权威性,因此,如何快速准确地、智能地检索并遴选出与待审项目领域相匹配的评审专家,变得十分重要和关键。
现有的科技项目评审专家信息检索大多以字符精确匹配或模糊匹配的方式,从单字段或多字段进行筛选,检索过程只注重关键词的机械匹配,检索相关度计算忽略语义相关性的分析,不是针对专家信息的全文检索。在计算检索相关性时,缺乏考虑专家信息各字段具有不同的重要性;同时,由于没有建立专门的索引库,在专家信息量庞大的情况下,不能快速检索出结果,而且不能按照相关度进行排序。另外现有技术在输入关键词时大多缺乏智能联想提示功能。这些都会导致检索结果查全率和查准率不高,限制了在科技项目评审专家检索领域的自动分析和智能化处理的能力,直接约束了科技项目评审工作的社会服务能力。现今通用的全文检索技术在很多领域得到的应用,可有效缓解上述问题,但鲜有在专家信息领域的运用。
发明内容
本发明针对现有技术的不足,提出一种基于关键词的评审专家智能检索与推荐方法。
本发明解决问题所采用的技术方案包括如下步骤:
步骤1.评审专家信息的采集是专家智能检索的第一步,从科技项目申报管理系统后台数据库中收集评审专家知识信息。
步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库。
步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向等信息,切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词。
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合。通用停用词库采用哈工大停用词表,专业停用词库的构建是一个自学习不断完善的过程,设计了一个专业停用词库统计器,在不断进行的专家信息分词过程中统计词语的词频,词语在文本出现的概率大于一定阀值,将它纳入到专业停用词库,这些词语不是反映信息主题的特征词。
步骤5.构建专家知识表示模型:本发明利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM=(id,F,WF,T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij特征词语在所对应的字段内的出现频率权重,计算公式如下:
f ( v i j ) = v i j Σ i = 1 N v i j
根据知识表示模型的定义,评审专家信息的知识表示为:
步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库。
步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库。
所叙述的自动提示关键词的关键词词库的构建过程如下:
设计了一个关键词统计器,统计已检索过的关键词词频,以键值对<key,value>的方式索引入库。其中键key是历史关键词,值value是关键词的历史检索次数。若用户首次输入关键词term,则以<term,one>保存;否则,更新<term,num>为<term,num+1>。其中,one为检索次数初始值1,num为当前的关键词被检索次数。同时用户在检索输入框中输入关键词时,关键词统计器获取当前已输入的关键词语素S,从关键词词库中筛选关键词开头语素为S的相关关键词,设置历史检索次数阀值以历史检索次数降序的方式,自动地添加到检索输入框的下拉条目做关键词推荐。
步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下:
SimComplex(K,D)=φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D)
其中,D表示专家信息。
归一化上述综合相关度计算公式,检索相关度的计算公式如下:
Sim(K,D)i=SimComplex(K,D)i/SimComplex(K,D)max
其中,SimComplex(K,D)i表示关键词K与第i个专家信息的检索相关度,SimComplex(K,D)max表示关键词K与所有专家信息的最大检索相关度。
所述的关键词与专家信息特征词语的语义相似度的计算过程如下:
在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重等属性,其表示为Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,本发明定义关键词与专家信息的某个字段信息的语义相关度计算公式为:
S i m F S E M ( K , F ) = &Sigma; i = 1 n &lsqb; S E M ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) m i n f ( t ) m a x - f ( t ) m i n ) &rsqb;
上述公式中,n为字段内特征词个数,f(t)表示检索特征词t在字段F中频率权重,f(t)max表示最大频率权重,f(t)min表示最小频率权重,SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ(0<τ<1)的语义相似度值,n为对应的词语个数,关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算。在计算这个特征词与关键词的相关度时,特征词出现次数越多,则应突出这些词的贡献,因子1+(f(t)-f(t)min)/(f(t)max-f(t)min)适当地加强关键词与专家信息特征词的语义相似度值权重。特别地,如果关键词K与特征词t相同,则SimSEM(K,t)=1,即关键词语特征词相同,即两个词语是精确匹配的。
根据评审专家的知识表示模型的表示结构TM=(id,F,WF,T,V),每个专家信息由若干个专家字段构成,每个字段的重要性不同,字段权重也不同,将关键词语专家各个字段信息的语义相关度加权求和,得到关键词与评审专家整体信息的语义相关度,则关键词与评审专家整体信息的语义相关度的计算公式为:
S i m F S E M W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F S E M ( K , F )
其中,wf分别为字段权重参数,t为字段总数。
所述的词语间的语义相似度计算过程如下:
在知网语义词典中,如果对于两个词语W1和W2,W1有n个概念:S11,S12,...,S1n,W2有m个概念:S21,S22,...,S2m。词语W1和W2的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值:
S i m S E M ( W 1 , W 2 ) = m a x i = 1 , ... n . j = 1 ... m S i m ( S 1 i , S 2 i )
基于知网的词语相似度原理计算词汇相似度,实词和虚词具有不同的描述语言。其中,只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述,相似度分别记为Sim1(p1,p2)、Sim2(p1,p2)、Sim3(p1,p2)、Sim4(p1,p2)。两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算。
Sim 4 ( S 1 , S 2 ) = &Sigma; i = 1 4 &beta; i Sim i ( S 1 , S 2 )
βi(1≤i≤4)是可调节的参数,且有:β1234=1,β1≥β2≥β3≥β4
从上可以看出,传统的信息检索方式以采用关键词精确匹配的方式进行信息的检索,往往过于追求关键词与专家信息的词语精确性,本发明从语义角度更深层次地挖掘出关键词与专家信息所隐含的关系。
所述的关键词与专家信息特征词语的语素相似度的计算过程如下:
汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大。本发明引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算。语素相似度的计算公式为:
S I M C h a r a c t e r ( A , B ) = 2 &times; S a m e C ( A , B ) l e n ( A ) + l e n ( B )
其中,len(A)和len(B)是词语A和词语B的长度,SameC(A,B)表示词语A和词语B中相同语素的个数。例如:A=“常常”,B=“经常”则SIMCharacter(A,B)=0.5。
与求解关键词与专家信息的某个字段信息的语义相似度原理相同,关键词与专家信息的某个字段信息的语素相关度计算公式为:
S i m F C h r a c t e r ( K , F ) = &Sigma; i = 1 n &lsqb; S I M C h r a c t e r ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) m i n f ( t ) m a x - f ( t ) m i n ) &rsqb;
其中,f(t)表示检索特征词t在字段F中频率权重,n为字段内特征词个数。
与求解关键词与专家信息信息的语义相似度原理相同,关键词与专家信息的语素相关度计算公式为:
S i m F C h r a c t e r W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F C h r a c t e r ( K , F )
其中,wf分别为字段权重参数,t为字段总数。
步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源;B.选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出。(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出。
步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。
另外,传统的专家检索技术往往是从专家信息库中直接“拉取”专家信息,上述基于语义检索专家仍然不能满足用户的需求,优选地,本发明在语义检索专家信息的基础上,研究让检索系统根据用户自身特点进行个性化“推送”专家信息资源的技术,将基于用户访问行为的热门专家资源直接在显示在检索系统中。发明特别设置了用户检索专家信息访问行为的跟踪记录模块,在步骤9中进行统计,使得能够为用户自动地“推送”某一时段内被最多检索、历史被最多检索、被用户以前最多检索的专家信息,检索用户直接点击查看相关专家就可以找到满意的专家信息。
本发明有益效果如下:本发明技术方案提出基于关键词的专家智能检索与排序推荐方法,将丰富的专家库信息的半结构化数据作为基础资源,提取特征词并构建专家知识表示模型,利用基于语义等信息检索专家信息,弥补检索机械匹配的不足,实现了专家信息的全文检索以及推荐。与传统的基于关键词的检索方法相比,本发明更加便捷地、智能地检索出专家信息,也提高了评审专家信息的检索精准度。
附图说明
图1是本发明中基于关键词的科技项目评审专家智能检索与排序推荐方法的流程图。
具体实施方式
下面结合附图对本发明作进一步说明,应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。以下对本发明的具体实施方式作进一步详述,基于发明中的实施例,本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明的思路:(1)基于科技项目申报管理系统中丰富的评审专家信息,利用中科院分词系统ICTCLAS分词,根据通用停用词库和专业停用词库进行停用词过滤,分字段提取每个专家信息的特征词集合;(2)基于特征词所在字段和权值构建专家知识表示模型,利用Apache Lucene构建专家信息索引库;(3)基于词语语义等特征,计算关键词与专家信息的检索相关度,设定相关度阀值筛选符合条件的专家,防止“检索漂移”;(4)发明还构建了用于智能联想提示关键词的关键词词库,并提供了检索结果分字段查看功能和自动推荐热门专家资源信息功能,更加细致地、人性化地满足用户的检索需求。
本发明解决问题所采用的技术方案包括如下步骤:
步骤1.评审专家信息的采集是专家智能检索的第一步,从科技项目申报管理系统后台数据库中收集评审专家知识信息。
步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库。
步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向等信息,切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词。
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合。通用停用词库采用哈工大停用词表,专业停用词库的构建是一个自学习不断完善的过程,设计了一个专业停用词库统计器,在不断进行的专家信息分词过程中统计词语的词频,词语在文本出现的概率大于一定阀值,将它纳入到专业停用词库,这些词语不是反映信息主题的特征词。
步骤5.构建专家知识表示模型:本发明利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM=(id,F,WF,T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij特征词语在所对应的字段内的出现频率权重,计算公式如下:
f ( v i j ) = v i j &Sigma; i = 1 N v i j
根据知识表示模型的定义,评审专家信息的知识表示为:
步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库。
步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库。
所叙述的自动提示关键词的关键词词库的构建过程如下:
设计了一个关键词统计器,统计已检索过的关键词词频,以键值对<key,value>的方式索引入库。其中键key是历史关键词,值value是关键词的历史检索次数。若用户首次输入关键词term,则以<term,one>保存;否则,更新<term,num>为<term,num+1>。其中,one为检索次数初始值1,num为当前的关键词被检索次数。同时用户在检索输入框中输入关键词时,关键词统计器获取当前已输入的关键词语素S,从关键词词库中筛选关键词开头语素为S的相关关键词,设置历史检索次数阀值以历史检索次数降序的方式,自动地添加到检索输入框的下拉条目做关键词推荐。
步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下:
SimComplex(K,D)=φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D)
其中,D表示专家信息。
归一化上述综合相关度计算公式,检索相关度的计算公式如下:
Sim(K,D)i=SimComplex(K,D)i/SimComplex(K,D)max
其中,SimComplex(K,D)i表示关键词K与第i个专家信息的检索相关度,SimComplex(K,D)max表示关键词K与所有专家信息的最大检索相关度。
所述的关键词与专家信息特征词语的语义相似度的计算过程如下:
在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重等属性,其表示为Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,本发明定义关键词与专家信息的某个字段信息的语义相关度计算公式为:
S i m F S E M ( K , F ) = &Sigma; i = 1 n &lsqb; S E M ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) m i n f ( t ) m a x - f ( t ) m i n ) &rsqb;
上述公式中,n为字段内特征词个数,f(t)表示检索特征词t在字段F中频率权重,f(t)max表示最大频率权重,f(t)min表示最小频率权重,SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ(0<τ<1)的语义相似度值,n为对应的词语个数,关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算。在计算这个特征词与关键词的相关度时,特征词出现次数越多,则应突出这些词的贡献,因子1+(f(t)-f(t)min)/(f(t)max-f(t)min)适当地加强关键词与专家信息特征词的语义相似度值权重。特别地,如果关键词K与特征词t相同,则SimSEM(K,t)=1,即关键词语特征词相同,即两个词语是精确匹配的。
根据评审专家的知识表示模型的表示结构TM=(id,F,WF,T,V),每个专家信息由若干个专家字段构成,每个字段的重要性不同,字段权重也不同,将关键词语专家各个字段信息的语义相关度加权求和,得到关键词与评审专家整体信息的语义相关度,则关键词与评审专家整体信息的语义相关度的计算公式为:
S i m F S E M W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F S E M ( K , F )
其中,wf分别为字段权重参数,t为字段总数。
所述的词语间的语义相似度计算过程如下:
在知网语义词典中,如果对于两个词语W1和W2,W1有n个概念:S11,S12,...,S1n,W2有m个概念:S21,S22,...,S2m。词语W1和W2的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值:
S i m S E M ( W 1 , W 2 ) = m a x i = 1 , ... n . j = 1 ... m S i m ( S 1 i , S 2 i )
基于知网的词语相似度计算词汇相似度,实词和虚词具有不同的描述语言。其中,只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述,相似度分别记为Sim1(p1,p2)、Sim2(p1,p2)、Sim3(p1,p2)、Sim4(p1,p2)。两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算。
Sim 4 ( S 1 , S 2 ) = &Sigma; i = 1 4 &beta; i Sim i ( S 1 , S 2 )
βi(1≤i≤4)是可调节的参数,且有:β1234=1,β1≥β2≥β3≥β4
从上可以看出,传统的信息检索方式以采用关键词精确匹配的方式进行信息的检索,往往过于追求关键词与专家信息的词语精确性,本发明从语义角度更深层次地挖掘出关键词与专家信息所隐含的关系。
所述的关键词与专家信息特征词语的语素相似度的计算过程如下:
汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大。本发明引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算。语素相似度的计算公式为:
S I M C h a r a c t e r ( A , B ) = 2 &times; S a m e C ( A , B ) l e n ( A ) + l e n ( B )
其中,len(A)和len(B)是词语A和词语B的长度,SameC(A,B)表示词语A和词语B中相同语素的个数。例如:A=“常常”,B=“经常”则SIMCharacter(A,B)=0.5。
与求解关键词与专家信息的某个字段信息的语义相似度原理相同,关键词与专家信息的某个字段信息的语素相关度计算公式为:
S i m F C h r a c t e r ( K , F ) = &Sigma; i = 1 n &lsqb; S I M C h r a c t e r ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) m i n f ( t ) m a x - f ( t ) m i n ) &rsqb;
其中,f(t)表示检索特征词t在字段F中频率权重,n为字段内特征词个数。
与求解关键词与专家信息信息的语义相似度原理相同,关键词与专家信息的语素相关度计算公式为:
S i m F C h r a c t e r W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F C h r a c t e r ( K , F )
其中,wf分别为字段权重参数,t为字段总数。
步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源;B.选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出。(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出。
步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。
另外,传统的专家检索技术往往是从专家信息库中直接“拉取”专家信息,上述基于语义检索专家仍然不能满足用户的需求,优选地,本发明在语义检索专家信息的基础上,研究让检索系统根据用户自身特点进行个性化“推送”专家信息资源的技术,将基于用户访问行为的热门专家资源直接在显示在检索系统中。发明特别设置了用户检索专家信息访问行为的跟踪记录模块,在步骤9中进行统计,使得能够为用户自动地“推送”某一时段内被最多检索、历史被最多检索、被用户以前最多检索的专家信息,检索用户直接点击查看相关专家就可以找到满意的专家信息。
本发明有益效果如下:本发明技术方案提出基于关键词的专家智能检索与排序推荐方法,将丰富的专家库信息将半结构化数据作为基础资源,提取特征词并构建专家知识表示模型,利用基于语义等信息检索专家信息,弥补检索机械匹配的不足,实现了专家信息的全文检索以及推荐。与传统的基于关键词的检索方法相比,本发明更加便捷地、智能地检索出专家信息,也提高了评审专家信息的检索精准度。
以上所述仅是本发明的优选实施方式,应当指出,对于科技项目评审专家领域的智能检索与排序推荐,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应该视为本发明的法律保护范围。

Claims (3)

1.一种基于关键词的评审专家智能检索与推荐方法,其特征在于该方法的具体步骤是:
步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息;
步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库;
步骤3.对评审专家信息进行分词:首先根据评审专家信息中切分标记抽取专家信息,获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向;切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词;
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合,所述的通用停用词库采用哈工大停用词表;
步骤5.构建专家知识表示模型:利用专家信息的“半结构化”特征,对空间向量模型和物元知识集模型的扩展,建立知识表示模型TM=(id,F,WF,T,V),其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合,定义wf为字段权重集合的元素;T为特征词语集合;V表示字段所对应的特征词语及其权重集合,Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中第j个特征词语,f(vij)表示vij特征词语在所对应的字段内的出现频率权重,计算公式如下:
f ( v i j ) = v i j &Sigma; i = 1 N v i j ;
根据知识表示模型的定义,评审专家信息的知识表示为:
步骤6.索引库构建专家知识表示模型构建完成后,将专家信息索引入库:从基础项目库中读取评审专家的内容项信息;根据步骤4提取出的专家信息特征词;依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库;
步骤7.当用户输入关键词语素时,从关键词库中智能联想地自动提示关键词供用户选择,用户也可不选择自动提示关键词,而是继续输入自己的关键词语素,同时利用关键词统计器实时更新关键词词库;
步骤8.计算关键词和专家信息间的检索相关度:检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算,综合相关度的计算公式如下:
SimComplex(K,D)=φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D);
其中,D表示专家信息;
归一化上述综合相关度计算公式,检索相关度的计算公式如下:
Sim(K,D)i=SimComplex(K,D)i/SimComplex(K,D)max
其中,SimComplex(K,D)i表示关键词K与第i个专家信息的检索相关度,SimComplex(K,D)max表示关键词K与所有专家信息的最大检索相关度;
所述的关键词与专家信息特征词语的语义相似度的计算过程是:在评审专家知识表示模型中,字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重,其表示为Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},特征词频率权重越大,表示这个特征词越能够反映该字段的主题,定义关键词与专家信息的某个字段信息的语义相关度计算公式为:
S i m F S E M ( K , F ) = &Sigma; i = 1 n &lsqb; S E M ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) m i n f ( t ) m a x - f ( t ) min ) &rsqb; ;
上述公式中,n为字段内特征词个数,f(t)表示检索特征词t在字段F中频率权重,f(t)max表示最大频率权重,f(t)min表示最小频率权重,SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ的语义相似度值,0<τ<1,n为对应的词语个数,关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算;在计算这个特征词与关键词的相关度时,特征词出现次数越多,则应突出这些词的贡献,因子1+(f(t)-f(t)min)/(f(t)max-f(t)min)适当地加强关键词与专家信息特征词的语义相似度值权重;特别地,如果关键词K与特征词t相同,则SimSEM(K,t)=1,即关键词语特征词相同,即两个词语是精确匹配的;
根据评审专家的知识表示模型的表示结构TM=(id,F,WF,T,V),每个专家信息由若干个专家字段构成,每个字段的重要性不同,字段权重也不同,将关键词语专家各个字段信息的语义相关度加权求和,得到关键词与评审专家整体信息的语义相关度,则关键词与评审专家整体信息的语义相关度的计算公式为:
S i m F S E M W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F S E M ( K , F ) ;
其中,wf分别为字段权重参数,t为字段总数;
所述的关键词与专家信息特征词语的语素相似度的计算过程是:汉语中绝大多数词语的同义词、含有相同语素这一特点,语素相似度占重要的部分,比较两个词语中相同语素的个数,若相同语素的个数越多,则相似度就越大;引入语素相似度,将汉语的构词特征和计算机检索技术结合起来,它是辅助识别同义词的有效方法,在计算个别词语语义相似度不好的情况下,改善语义相似度的计算;语素相似度的计算公式为:
S I M C h a r a c t e r ( A , B ) = 2 &times; S a m e C ( A , B ) l e n ( A ) + l e n ( B ) ;
其中,len(A)和len(B)是词语A和词语B的长度,SameC(A,B)表示词语A和词语B中相同语素的个数;
与求解关键词与专家信息的某个字段信息的语义相似度原理相同,关键词与专家信息的某个字段信息的语素相关度计算公式为:
S i m F C h r a c t e r ( K , F ) = &Sigma; i = 1 n &lsqb; S I M C h r a c t e r ( K , t ) &CenterDot; ( 1 + f ( t ) - f ( t ) min f ( t ) m a x - f ( t ) min ) &rsqb; ;
其中,f(t)表示检索特征词t在字段F中频率权重,n为字段内特征词个数;
与求解关键词与专家信息信息的语义相似度原理相同,关键词与专家信息的语素相关度计算公式为:
S i m F C h r a c t e r W ( K , D ) = &Sigma; i = 1 t wf i &times; S i m F C h r a c t e r ( K , F )
其中,wf分别为字段权重参数,t为字段总数;
步骤9.A.对检索到的专家信息进行排序,同时将专家被检索次数记录更新,以便推荐基于用户访问行为的热门专家资源;B.选择不同字段或全字段方式查看专家信息:(1)当用户选择单一字段查看时,这一字段信息与关键词具有较强语义性相关的专家被筛选出,语义相关性较弱的不加入检索结果专家列表;检索结果按检索相关度从高到低排序输出;(2)当用户选择全字段查看时,检索结果直接按检索相关度从高到低排序输出;
步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注,便于用户的对专家信息的详细查看。
2.根据权利要求1所述的方法,其特征在于:步骤7中所述的自动提示关键词,其关键词词库的构建过程如下:
设计一个关键词统计器,统计已检索过的关键词词频,以键值对<key,value>的方式索引入库;其中键key是历史关键词,值value是关键词的历史检索次数;若用户首次输入关键词term,则以<term,one>保存;否则,更新<term,num>为<term,num+1>;其中,one为检索次数初始值1,num为当前的关键词被检索次数;同时用户在检索输入框中输入关键词时,关键词统计器获取当前已输入的关键词语素S,从关键词词库中筛选关键词开头语素为S的相关关键词,设置历史检索次数阀值以历史检索次数降序的方式,自动地添加到检索输入框的下拉条目做关键词推荐。
3.根据权利要求1所述的方法,其特征在于:所述的语义相似度计算过程如下:
在知网语义词典中,如果对于两个词语W1和W2,W1有n个概念:S11,S12,...,S1n,W2有m个概念:S21,S22,...,S2m;词语W1和W2的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值:
S i m S E M ( W 1 , W 2 ) = m a x i = 1 , ... n . j = 1 ... m S i m ( S 1 i , S 2 i ) ;
基于知网的词语相似度原理计算词汇相似度,实词和虚词具有不同的描述语言;其中,只需要计算其对应的句法义原或关系义原之间的相似度即可;实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述,相似度分别记为Sim1(p1,p2)、Sim2(p1,p2)、Sim3(p1,p2)、Sim4(p1,p2);两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算;
Sim 4 ( S 1 , S 2 ) = &Sigma; i = 1 4 &beta; i Sim i ( S 1 , S 2 ) ;
βi(1≤i≤4)是可调节的参数,且有:β1234=1,β1≥β2≥β3≥β4
CN201310511342.5A 2013-10-24 2013-10-24 一种基于关键词的评审专家智能检索与推荐方法 Active CN103605665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310511342.5A CN103605665B (zh) 2013-10-24 2013-10-24 一种基于关键词的评审专家智能检索与推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310511342.5A CN103605665B (zh) 2013-10-24 2013-10-24 一种基于关键词的评审专家智能检索与推荐方法

Publications (2)

Publication Number Publication Date
CN103605665A CN103605665A (zh) 2014-02-26
CN103605665B true CN103605665B (zh) 2017-01-11

Family

ID=50123890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310511342.5A Active CN103605665B (zh) 2013-10-24 2013-10-24 一种基于关键词的评审专家智能检索与推荐方法

Country Status (1)

Country Link
CN (1) CN103605665B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160699A (zh) * 2019-11-26 2020-05-15 清华大学 一种专家推荐方法及系统
CN112417271B (zh) * 2020-11-09 2023-09-01 杭州讯酷科技有限公司 一种带有字段推荐的系统智能构建方法

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823896B (zh) * 2014-03-13 2017-02-15 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法
CN104156386A (zh) * 2014-06-24 2014-11-19 国家电网公司 一种具有图像识别功能的数据处理方法及系统
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测功能的数据处理方法及系统
CN105335447A (zh) * 2014-08-14 2016-02-17 北京奇虎科技有限公司 基于计算机网络的专家问答系统及其构建方法
CN104391852B (zh) * 2014-09-15 2017-12-29 国家电网公司 一种建立关键词词库的方法和装置
CN104361102B (zh) * 2014-11-24 2018-05-11 清华大学 一种基于群组匹配的专家推荐方法及系统
CN104778201B (zh) * 2015-01-23 2018-01-02 湖南科技大学 一种基于多查询结果合并的在先技术检索方法
US20160314122A1 (en) * 2015-04-24 2016-10-27 Microsoft Technology Licensing, Llc. Identifying experts and areas of expertise in an organization
CN105320772B (zh) * 2015-11-02 2019-03-26 武汉大学 一种专利查重的关联论文查询方法
CN105512101B (zh) * 2015-11-30 2018-06-26 北大方正集团有限公司 一种自动构建主题词的方法及装置
CN105912581A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN106227771B (zh) * 2016-07-15 2019-05-07 浙江大学 一种基于社会化编程网站的领域专家发现方法
CN107885749B (zh) * 2016-09-30 2022-01-11 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN108073568B (zh) 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN106776878A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种基于ElasticSearch对MOOC课程进行分面检索的方法
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN107169027A (zh) * 2017-04-13 2017-09-15 武丽芬 一种大数据处理方法及装置
CN107256222B (zh) * 2017-04-27 2020-12-01 广州慧扬健康科技有限公司 基于自由词检索的电子病历快速检索系统
CN109086285B (zh) * 2017-06-14 2021-10-15 佛山辞荟源信息科技有限公司 基于语素的汉语智能处理方法和系统及装置
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN107992524B (zh) * 2017-11-07 2022-03-15 朗坤智慧科技股份有限公司 一种专家信息搜索及领域评分计算方法
CN108287875B (zh) * 2017-12-29 2021-10-26 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备
CN108681571B (zh) * 2018-05-05 2024-02-27 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108549730A (zh) * 2018-06-01 2018-09-18 云南电网有限责任公司电力科学研究院 一种专家信息的检索方法及装置
CN109144954B (zh) * 2018-09-18 2021-03-16 北京字节跳动网络技术有限公司 编辑文档的资源推荐方法、装置及电子设备
CN109388649B (zh) * 2018-09-28 2022-05-13 土流集团有限公司 一种土地智能推荐方法及系统
CN109345125A (zh) * 2018-10-11 2019-02-15 北京深度制耀科技有限公司 一种确定关键意见领袖的影响力的方法及装置
CN109597890B (zh) * 2018-11-23 2022-09-09 福建榕基软件股份有限公司 一种数据感知自动分发的方法及存储装置
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110245118B (zh) * 2019-06-27 2021-05-14 重庆市筑智建信息技术有限公司 一种bim资料信息三维网格化检索归档方法及其归档系统
CN110543862B (zh) * 2019-09-05 2022-04-22 北京达佳互联信息技术有限公司 数据获取方法、装置及存储介质
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN111813898A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 基于语义搜索的专家推荐方法、装置、设备及存储介质
CN112307302A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于关键词提取的新技术查询推荐方法
CN112287679A (zh) * 2020-10-16 2021-01-29 国网江西省电力有限公司电力科学研究院 一种科技项目评审中文本信息的结构化抽取方法及系统
CN112395416A (zh) * 2020-11-11 2021-02-23 湖南正宇软件技术开发有限公司 提案处理方法、装置、计算机设备和存储介质
CN113220824B (zh) * 2020-11-25 2023-01-17 科大讯飞股份有限公司 数据检索方法、装置、设备及存储介质
CN112417870A (zh) * 2020-12-10 2021-02-26 北京中电普华信息技术有限公司 一种专家信息的筛选方法及系统
CN112861010A (zh) * 2021-03-02 2021-05-28 北京赛时科技有限公司 一种领域专家精准匹配推荐系统及方法
CN113064924A (zh) * 2021-03-12 2021-07-02 中核核电运行管理有限公司 一种核电大数据经验检索与推送方法
CN113516094B (zh) * 2021-07-28 2024-03-08 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法
CN113591488A (zh) * 2021-08-04 2021-11-02 山西长河科技股份有限公司 一种语义分析方法及装置
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法
CN116738965A (zh) * 2023-05-25 2023-09-12 重庆亚利贝德科技咨询有限公司 一种科技查新委托历史数据的复用方法
CN116402478B (zh) * 2023-06-07 2023-09-19 成都普朗克科技有限公司 基于语音交互的生成清单的方法和装置
CN116862440B (zh) * 2023-07-18 2024-02-13 中咨高技术咨询中心有限公司 一种科研项目管理方法及系统
CN117725423A (zh) * 2024-02-18 2024-03-19 青岛海尔科技有限公司 基于大模型的反馈信息的生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775666B1 (en) * 2001-05-29 2004-08-10 Microsoft Corporation Method and system for searching index databases
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346702B2 (en) * 2009-05-22 2013-01-01 Step 3 Systems, Inc. System and method for automatically predicting the outcome of expert forecasts
US8924419B2 (en) * 2010-03-31 2014-12-30 Salesforce.Com, Inc. Method and system for performing an authority analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775666B1 (en) * 2001-05-29 2004-08-10 Microsoft Corporation Method and system for searching index databases
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103235774A (zh) * 2013-04-27 2013-08-07 杭州电子科技大学 一种科技项目申请书特征词提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160699A (zh) * 2019-11-26 2020-05-15 清华大学 一种专家推荐方法及系统
CN112417271B (zh) * 2020-11-09 2023-09-01 杭州讯酷科技有限公司 一种带有字段推荐的系统智能构建方法

Also Published As

Publication number Publication date
CN103605665A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN103544242B (zh) 面向微博的情感实体搜索系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105488024B (zh) 网页主题句的抽取方法及装置
US8751218B2 (en) Indexing content at semantic level
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎系统
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN103473283A (zh) 一种文本案例匹配方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN105893611A (zh) 一种构建面向社交网络的兴趣主题语义网络的方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN106599304B (zh) 一种针对中小型网站的模块化用户检索意图建模方法
CN105677664A (zh) 基于网络搜索的紧密度确定方法及装置
Ibrahim et al. Exquisite: explaining quantities in text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140226

Assignee: Hangzhou eddy current technology Co., Ltd

Assignor: Hangzhou Electronic Science and Technology Univ

Contract record no.: X2020330000008

Denomination of invention: Keyword based evaluation expert intelligent search and recommendation method

Granted publication date: 20170111

License type: Common License

Record date: 20200117