CN111813898A - 基于语义搜索的专家推荐方法、装置、设备及存储介质 - Google Patents

基于语义搜索的专家推荐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111813898A
CN111813898A CN202010884229.1A CN202010884229A CN111813898A CN 111813898 A CN111813898 A CN 111813898A CN 202010884229 A CN202010884229 A CN 202010884229A CN 111813898 A CN111813898 A CN 111813898A
Authority
CN
China
Prior art keywords
academic
expert
words
candidate
experts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010884229.1A
Other languages
English (en)
Inventor
王笑尘
唐杰
刘德兵
张鹏
仇瑜
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202010884229.1A priority Critical patent/CN111813898A/zh
Publication of CN111813898A publication Critical patent/CN111813898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于语义搜索的专家推荐方法、装置、设备及存储介质,该专家推荐方法包括:获得用户输入的文本信息;对文本信息进行预处理,得到包括多个学术词语的学术词语集合;基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表;根据候选专家列表确定专家推荐结果。借助于上述技术方案,本申请能够自动、快速地为具体的专家合作需求给出匹配的学术专家,提高专家推荐结果的成功率。

Description

基于语义搜索的专家推荐方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,例如涉及一种基于语义搜索的专家推荐方法、装置、设备及存储介质。
背景技术
目前,学术界与产业界、公共事务部门等领域的合作十分频繁,专家推荐是解决科研合作需求的重要步骤。现有的专家推荐系统中,输入通常是文本加上各种限制条件的组合。例如输入文本是“数据挖掘”,限制条件为北京地区,即需要专家推荐系统推荐出研究领域是数据挖掘,所在地区为北京的专家。然而,专家推荐系统通常是基于论文、专利等数据构建的,数据源中的语言描述偏学术化和专业化,由此也要求用户输入采用学术化的词语,当用户输入口语化、日常化等非学术化的表达需求时,推荐结果的相关性则较差。而且,现有的专家推荐系统通常以H-index等学术发表指标作为专家推荐结果的排序指标,对于以学术合作为需求的情况,得到的专家推荐结果排名和合作可能达成率之间缺乏关联,导致专家推荐结果的成功率较低。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。该概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种基于语义搜索的专家推荐方法、装置、设备及存储介质,以解决现有技术中存在着的专家推荐结果的成功率较低的问题。
第一方面,本申请实施例提供了一种专家推荐方法,该专家推荐方法包括:获得用户输入的文本信息;对文本信息进行预处理,得到包括多个学术词语的学术词语集合;基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表;根据候选专家列表确定专家推荐结果。
在一些实施例中,对文本信息进行预处理,得到包括多个学术词语的学术词语集合,包括:
对文本信息进行分词并去除停用词,得到包括多个分词词语的分词词语集合;
对分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合。
在一些实施例中,对分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合,包括:
将分词词语与预先构建的学术词语图谱进行匹配,其中,预先构建的学术词语图谱包括多个学术词语;
根据所述分词词语与学术词语图谱中的学术词语的相似度选择学术词语作为分词词语的匹配结果;
组合作为匹配结果的学术词语得到学术词语集合。
在一些实施例中,基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表,包括:
基于多个学术词语检索学术发表文档的信息及其引用量;
聚合检索到的学术发表文档的作者信息形成候选专家列表。
在一些实施例中,根据候选专家列表确定专家推荐结果,包括:
根据候选专家列表和专家画像确定专家推荐结果,其中,专家画像包括学术与业界合作相关指标。
在一些实施例中,学术与业界合作相关指标包括业界学术合作活跃度,业界学术合作活跃度是基于以下方式得到的:
统计专家在历史时间段内的历史学术发表数据;
根据历史学术发表数据中合作者为企业的组织信息生成专家业界合作记录;
根据专家业界合作记录的数量计算业界学术合作活跃度。
在一些实施例中,根据候选专家列表和专家画像确定专家推荐结果,包括:
根据专家画像、专家的学术发表文档的信息及其引用量,确定多个候选专家的专家评分;
按照每个候选专家的专家评分由高到低的顺序,对多个候选专家进行排序;
根据排序后的专家列表生成专家推荐结果;
其中,专家评分采用以下公式计算:
Figure DEST_PATH_IMAGE001
其中,score表示专家评分;
Figure 100002_DEST_PATH_IMAGE002
表示专家的学术发表文档的总引用量;
Figure 100002_DEST_PATH_IMAGE003
表示专家的第k篇学术发表文档的引用量;
Figure 100002_DEST_PATH_IMAGE004
表示专家被检索出的第k篇学术发表文档的发表年份;n表示专家的学术发表文档的总数量;y表示当前年份;
Figure 100002_DEST_PATH_IMAGE005
表示专家画像中包含的第j个指标;m表示专家画像中指标的总数量;
Figure 100002_DEST_PATH_IMAGE006
表示对当前项进行数值归一化的函数。
第二方面,本申请实施例提供了一种基于语义搜索的专家推荐装置,该专家推荐装置包括:
获取模块,被配置为获得用户输入的文本信息;
输入预处理模块,被配置为对文本信息进行预处理,得到包括多个学术词语的学术词语集合;
专家检索模块,被配置为基于所述学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表;
专家排序模块,被配置为根据所述候选专家列表确定专家推荐结果。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
本公开实施例提供的基于语义搜索的专家推荐方法、装置和产品,可以实现以下技术效果:
本申请通过获得用户输入的文本信息,随后对文本信息进行预处理,得到包括多个学术词语的学术词语集合,随后基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表,随后根据候选专家列表确定专家推荐结果,从而可以获得符合需求的学术专家列表,以及能够自动、快速地为具体的专家合作需求给出匹配的学术专家,提高专家推荐结果的成功率。而且,本申请利用包括学术与业界合作相关指标的专家画像确定专家推荐结果,进一步提高了推荐专家与学术合作需求的匹配度,推荐效果更优。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
至少一个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1示出了本申请实施例提供的一种基于语义搜索的专家推荐方法的流程图;
图2示出了本申请实施例提供的一种基于语义搜索的专家推荐装置的结构框图;
图3示出了本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,至少一个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
专家推荐是解决科研合作需求的重要步骤。专家推荐系统的输入通常是文本加上各种限制条件的组合。例如,专家系统的输入文本是“数据挖掘”,限制条件为北京地区,即需要专家推荐系统推荐出研究领域是数据挖掘,所在地区为北京的专家。
然而,现有专家推荐系统大多基于论文、专利等数据构建,且数据源中的语言描述偏学术化、专业化,但是不熟悉学术界的使用者,其对于专家推荐系统的输入通常偏口语化、日常化,因此较难得到符合需求的推荐结果。
例如,上述的“数据挖掘”为学术界习惯用词,不熟悉学术界的使用者,其输入可能是“在服务器数据中找到高价值用户”。
此外,对于现有的专家推荐系统来说,该专家推荐系统的推荐结果中的专家以高引用次数指数(H-index)等学术发表指标作为专家推荐结果的排序指标。但是,对于寻求学术合作这一需求而言,学术发表指标高的专家未必是更有可能达成合作关系的专家。
综上,现有技术中至少存在以下两个问题:使用者输入非学术化表达需求,导致推荐结果相关性差;推荐专家结果排名和合作可能达成率之间缺乏关联。
基于此,本申请实施例巧妙地提出了一种基于语义搜索的专家推荐方案,通过对使用者的输入进行多方面语义拓展,以达成高准确率、高召回率的专家推荐。同时,基于公开学术数据,对学术界专家建立多维度的专家画像,以提供具有更高合作达成可能性的推荐结果。
此外,当前学术界与产业界、公共事务部门等领域的合作十分频繁,本申请实施例能够自动、快速地为具体的专家合作需求给出匹配的学术专家。以及,相比于传统的公开学术搜索引擎,对于特定领域专家的推荐能够给出准确率相近、召回率更高的推荐结果。对于输入文本是长段复杂文本的情况,能够解决专家推荐失效的问题。相比于已有的专家推荐系统,本申请实施例可实现日常用语和学术用语的匹配,从而能够解决使用者输入文本日常口语化,导致专家推荐结果精度低的问题。
以及,本申请实施例通过对专家建立多维度的专家画像,并提升更有可能达成合作关系的专家的排名,从而能够提升系统推荐专家与使用者达成合作关系的可能性。
为了便于理解本申请实施例,首先在此对本申请实施例的一些术语进行解释如下:
“专家合作推荐”:它是指在给定的文本以及限制条件的组合下,给出符合需求的学术专家列表。
请参见图1,图1示出了本申请实施例提供的一种基于语义搜索的专家推荐方法的流程图。应理解,图1所示的专家推荐方法可以由基于语义搜索的专家推荐装置执行,该专家推荐方法可以与下文中的图3所示的专家推荐装置对应,该专家推荐装置可以是能够执行该专家推荐方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此。如图1所示,该专家推荐方法包括:
步骤S110,获得用户输入的文本信息。
其中,文本信息包括用户输入的文本内容。此外,该步骤中还可以获得限制条件,例如专家地域限制和专家年龄限制等。应理解,限制条件对应的具体条件可根据实际需求来进行设置,本申请实施例并不局限于此。
步骤S120,对文本信息进行预处理,得到包括多个学术词语的学术词语集合。
具体包括:
S1201,对文本信息进行分词并去除停用词,得到包括多个分词词语的分词词语集合。
其中,分词可基于条件随机场等统计方法,去除停用词可使用预构建的停用词表进行去除。经过分词、去除停用词后,文本信息被转化为包括多个分词词语的分词词语集合。
S1202,对分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合。
其中,包括将分词词语与预先构建的学术词语图谱进行匹配,其中,预先构建的学术词语图谱包括多个学术词语。学术词语图谱可以基于词频-逆文本频率指数(TermFrequency–Inverse Document Frequency,TF-IDF)等统计指标,在学术论文数据上进行统计排序得出。学术词语图谱需要保证图谱中的绝大多数词都是学术术语。该匹配为语义匹配,可以使用基于词嵌入方法的相似度匹配方法,也可以使用其他语义度量方法进行语义匹配。
根据分词词语与学术词语图谱中的学术词语的相似度选择学术词语作为词词语的匹配结果。例如基于词嵌入方法的相似度匹配方法,为在学术词语图谱中找到与某个输入词余弦相似度或欧氏距离最接近的一个词,作为匹配结果。
组合作为匹配结果的学术词语得到所述学术词语集合。
应理解,对文本信息进行预处理的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
步骤S130,基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表。
具体地,可基于搜索引擎技术,使用处理后的学术词语集合中的多个学术词语检索出学术发表文档的信息,并聚合检索到的学术发表文档的作者信息作为专家检索结果,若无限制条件,则以专家搜索结果作为候选专家列表,若有限制条件,则从该专家检索结果中筛选符合限制条件的专家形成候选专家列表。
此外,该步骤中还检索得到学术发表文档信息以及对应学术发表文档的引用量等信息,供后续用于确定专家推荐结果。
步骤S140,根据候选专家列表确定专家推荐结果。
可选地,根据候选专家列表和专家画像确定专家推荐结果,其中,专家画像包括学术与业界合作相关指标。
可选地,所述专家画像是预先生成的多维度画像,可包括学术活跃度、学术与业界合作相关指标等多个指标。
可选地,学术与业界合作相关指标包括业界学术合作活跃度,业界学术合作活跃度是基于以下方式得到的:
统计专家在历史时间段内的历史学术发表数据;
根据历史学术发表数据中合作者为企业的组织信息生成专家业界合作记录;
根据专家业界合作记录的数量计算业界学术合作活跃度。
本申请实施例的学术活跃度的一种统计方式是统计专家在最近k年的学术发表记录,根据发表数量、发表年份将学术活跃度分成高中低不同档次,或是直接提供数值型指标。其中,k为正整数。
本申请实施例的业界学术合作活跃度的一种统计方式是统计专家最近k年的历史学术发表数据中合作者的组织信息。对于其中属于企业的组织信息进行标记,每个被标记的专家与组织信息的组合,即是一条专家业界合作记录。其中,k为正整数。根据所有统计到的专家业界合作记录的数量计算出档次区分或者数值型指标作为业界学术合作活跃度。
可选地,利用专家画像、专家学术发表文档信息以及对应学术发表文档的引用量,将候选列表中的多个候选专家进行排序,包括:根据专家画像、专家的学术发表文档的信息及其引用量,确定多个候选专家的专家评分,以及按照每个候选专家的专家评分由高到低的顺序,对多个候选专家进行排序,根据排序后的专家列表生成专家推荐结果。其中,专家评分采用以下公式计算:
Figure 100002_DEST_PATH_IMAGE007
其中,score表示专家评分;
Figure DEST_PATH_IMAGE008
表示专家的学术发表文档的总引用量;
Figure DEST_PATH_IMAGE009
表示专家的第k篇学术发表文档的引用量;
Figure DEST_PATH_IMAGE010
表示专家被检索出的第k篇学术发表文档的发表年份;n表示专家的学术发表文档的总数量;y表示当前年份;
Figure DEST_PATH_IMAGE011
表示专家画像中包含的第j个指标;m表示专家画像中指标的总数量;
Figure DEST_PATH_IMAGE012
表示对当前项进行数值归一化的函数。
这里需要说明的是,函数
Figure DEST_PATH_IMAGE013
代表对当前项进行数值归一化的函数,具体函数需要根据实际需求调整,可选地
Figure DEST_PATH_IMAGE014
,i=1,2,3,4...。
将所有候选专家按照评分由高到低的顺序排序后,作为专家推荐结果输出;或者按照评分由高到低选择符合预设标准的专家作为专家推荐结果输出,所述预设标准例如为预设的数量或者预设的评分阈值。
因此,相比于传统的公开学术搜索引擎,本申请实施例能够给出准确率相近、召回率更高的推荐结果。对于输入文本是长段复杂文本的情况,能够解决专家推荐失效的问题。相比于已有的专家推荐系统,本申请实施例可实现日常用语和学术用语的匹配,从而能够解决使用者输入文本日常口语化,导致专家推荐精度低的问题。
以及,本申请实施例通过对专家建立多维度画像,并提升更有可能达成合作关系的专家的排名,从而能够提升系统推荐专家与使用者达成合作关系的可能性。
应理解,上述基于语义搜索的专家推荐方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,该变形之后的方案也属于本申请的保护范围。
请参见图2,图2示出了本申请实施例提供的一种基于语义搜索的专家推荐装置200的结构框图,应理解,该专家推荐装置200能够执行上述方法实施例中的各个步骤,该专家推荐装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该专家推荐装置200包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在专家推荐装置200的操作系统(operating system,OS)中的软件功能模块。具体地,该专家推荐装置200包括:
获取模块210,被配置为获得用户输入的文本信息;输入预处理模块220,被配置为对文本信息进行预处理,得到包括多个学术词语的学术词语集合;专家检索模块230,被配置为基于学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选列表;专家排序模块240,被配置为根据所述候选专家列表确定专家推荐结果。
可选地,获取模块210获得的文本信息包括文本内容。此外,获取模块210还用于获取限制条件,例如专家地域限制和专家年龄限制等。
可选地,输入预处理模块220的输入为原始输入的文本信息,输入预处理模块220的输出为处理后的学术词语集合。输入预处理模块220对用户输入的文本内容进行预处理,将其转化为适用于在学术发表数据上进行检索的形式。
在一些实施例中,输入预处理模块220,被配置为:对文本信息进行分词并去除停用词,得到包括多个分词词语的分词词语集合;对分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合。其中,分词可基于条件随机场等统计方法,去除停用词可使用预构建的停用词表进行去除。
在一些实施例中,输入预处理模块220,进一步被配置为:将分词词语与预先构建的学术词语图谱进行匹配,其中,预先构建的学术词语图谱包括多个学术词语;根据分词词语与学术词语图谱中的学术词语的相似度选择学术词语作为分词词语的匹配结果;组合作为匹配结果的学术词语得到学术词语集合。
可选地,学术词语图谱可以基于词频-逆文本频率指数(Term Frequency–InverseDocument Frequency,TF-IDF)等统计指标,在学术论文数据上进行统计排序得出。学术词语图谱需要保证图谱中的绝大多数词都是学术术语。该匹配为语义匹配,可以使用基于词嵌入方法的相似度匹配方法,也可以使用其他语义度量方法进行语义匹配。
根据分词词语与学术词语图谱中的学术词语的相似度选择学术词语作为词词语的匹配结果。例如基于词嵌入方法的相似度匹配方法,为在学术词语图谱中找到与某个输入词余弦相似度或欧氏距离最接近的一个词,作为匹配结果。
组合作为匹配结果的学术词语得到所述学术词语集合,作为后续模块的输入。
在一些实施例中,专家检索模块230进一步被配置为:基于搜索引擎技术,使用处理后的学术词语集合中的多个学术词语检索学术发表文档的信息,并聚合检索到的学术发表文档的作者信息作为专家检索结果,从该专家检索结果中筛选符合限制条件的专家形成形成候选专家列表。此外,专家检索模块230还检索得到对应学术发表文档的引用量等信息,供后续专家排序模块240使用。
在一些实施例中,专家排序模块240,进一步被配置为:根据候选专家列表和专家画像确定专家推荐结果,其中,所述专家画像包括学术与业界合作相关指标。
可选地,该装置还包括专家画像构建模块(未示出),专家画像构建模块根据专家发表数据构建专家画像,该专家画像可以为多维度的画像,包括学术活跃度、学术与业界合作相关指标等多个指标。其中,学术活跃度的一种统计方式是统计专家在最近k年的学术发表记录,根据发表数量、发表年份将学术活跃度分成高中低不同档次,或是直接提供数值型指标。其中,k为正整数。学术与业界合作相关指标包括业界学术合作活跃度,业界学术合作活跃度是基于以下方式得到的:统计专家在历史时间段内的历史学术发表数据;根据历史学术发表数据中合作者为企业的组织信息生成专家业界合作记录;根据专家业界合作记录的数量计算业界学术合作活跃度。业界学术合作活跃度的一种统计方式是统计专家最近k年的历史学术发表数据中合作者的组织信息。对于其中属于企业的组织信息进行标记,每个被标记的专家与组织信息的组合,即是一条专家业界合作记录。其中,k为正整数。根据所有统计到的专家业界合作记录的数量计算出档次区分或者数值型指标作为业界学术合作活跃度。
在一些实施例中,专家排序模块240,进一步被配置为利用专家画像、专家学术发表文档信息以及对应学术发表文档的引用量,将候选列表中的多个候选专家进行排序,包括:根据专家画像、专家的学术发表文档的信息及其引用量,确定多个候选专家的专家评分;按照每个候选专家的专家评分由高到低的顺序,对多个候选专家进行排序;根据排序后的专家列表生成专家推荐结果。
其中,专家评分采用以下公式计算:
Figure DEST_PATH_IMAGE015
其中,score表示专家评分;
Figure 1446DEST_PATH_IMAGE002
表示专家的学术发表文档的总引用量;
Figure 449745DEST_PATH_IMAGE003
表示专家的第k篇学术发表文档的引用量;
Figure 26220DEST_PATH_IMAGE004
表示专家被检索出的第k篇学术发表文档的发表年份;n表示专家的学术发表文档的总数量;y表示当前年份;
Figure DEST_PATH_IMAGE016
表示专家画像中包含的第j个指标;m表示专家画像中指标的总数量;
Figure DEST_PATH_IMAGE017
表示对当前项进行数值归一化的函数,可选地
Figure DEST_PATH_IMAGE018
,i=1,2,3,4...。
将所有候选专家按照评分由高到低的顺序排序后,作为专家推荐结果输出;或者按照评分由高到低选择符合预设标准的专家作为专家推荐结果输出,所述预设标准例如为预设的数量或者预设的评分阈值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图3,图3示出了本申请实施例提供的一种电子设备300的结构框图,该电子设备300包括:处理器(processor)310和存储器(memory)320,还可以包括通信接口(Communication Interface)330和总线340。其中,处理器310、通信接口320、存储器330可以通过总线340完成相互间的通信。通信接口320可以用于信息传输。处理器310可以调用存储器330中的逻辑指令,以执行上述实施例的基于语义搜索的专家推荐方法。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器330作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器310通过运行存储在存储器330中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的基于语义搜索的专家推荐方法。
存储器330可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器330可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令设置为执行上述基于语义搜索的专家推荐方法。
本公开实施例提供了一种计算机程序产品,包括存储在计算机可读存储介质上的计算机程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使上述计算机执行上述基于语义搜索的专家推荐方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括至少一个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例的方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。本公开实施例的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。当用于本申请中时,虽然术语“第一”、“第二”等可能会在本申请中使用以描述各元件,但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如,在不改变描述的含义的情况下,第一元件可以叫做第二元件,并且同样地,第二元件可以叫做第一元件,只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件,但可以不是相同的元件。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。
在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括该要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在附图中,考虑到清楚性和描述性,可以夸大元件或层等结构的宽度、长度、厚度等。当元件或层等结构被称为“设置在”(或“安装在”、“铺设在”、“贴合在”、“涂布在”等类似描述)另一元件或层“上方”或“上”时,该元件或层等结构可以直接“设置在”上述的另一元件或层“上方”或“上”,或者可以存在与上述的另一元件或层之间的中间元件或层等结构,甚至有一部分嵌入上述的另一元件或层。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (10)

1.一种基于语义搜索的专家推荐方法,其特征在于,包括:
获得用户输入的文本信息;
对所述文本信息进行预处理,得到包括多个学术词语的学术词语集合;
基于所述学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表;
根据所述候选专家列表确定专家推荐结果。
2.根据权利要求1所述的方法,其特征在于,对所述文本信息进行预处理,得到包括多个学术词语的学术词语集合,包括:
对所述文本信息进行分词并去除停用词,得到包括多个分词词语的分词词语集合;
对所述分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合。
3.根据权利要求2所述的方法,其特征在于,对所述分词词语集合中的分词词语进行语义化解析,转换获得包括多个学术词语的学术词语集合,包括:
将所述分词词语与预先构建的学术词语图谱进行匹配,其中,所述预先构建的学术词语图谱包括多个学术词语;
根据所述分词词语与所述学术词语图谱中的学术词语的相似度选择学术词语作为所述分词词语的匹配结果;
组合作为匹配结果的学术词语得到所述学术词语集合。
4.根据权利要求3所述的方法,其特征在于,基于所述学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表,包括:
基于所述多个学术词语检索学术发表文档的信息及其引用量;
聚合检索到的学术发表文档的作者信息形成候选专家列表。
5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述候选专家列表确定专家推荐结果,包括:
根据所述候选专家列表和专家画像确定专家推荐结果,其中,所述专家画像包括学术与业界合作相关指标。
6.根据权利要求5所述的方法,其特征在于,所述学术与业界合作相关指标包括业界学术合作活跃度,所述业界学术合作活跃度是基于以下方式得到的:
统计专家在历史时间段内的历史学术发表数据;
根据所述历史学术发表数据中合作者为企业的组织信息生成专家业界合作记录;
根据所述专家业界合作记录的数量计算业界学术合作活跃度。
7.根据权利要求6所述的方法,其特征在于,根据所述候选专家列表和专家画像确定专家推荐结果,包括:
根据所述专家画像、专家的学术发表文档的信息及其引用量,确定多个候选专家的专家评分;
按照每个候选专家的专家评分由高到低的顺序,对所述多个候选专家进行排序;
根据排序后的专家列表生成专家推荐结果;
其中,专家评分采用以下公式计算:
Figure DEST_PATH_IMAGE002
其中,score表示专家评分;
Figure DEST_PATH_IMAGE003
表示专家的学术发表文档的总引用量;
Figure DEST_PATH_IMAGE004
表示专家的第k篇学术发表文档的引用量;
Figure DEST_PATH_IMAGE005
表示专家被检索出的第k篇学术发表文档的发表年份;n表示专家的学术发表文档的总数量;y表示当前年份;
Figure DEST_PATH_IMAGE006
表示专家画像中包含的第j个指标;m表示专家画像中指标的总数量;
Figure DEST_PATH_IMAGE007
表示对当前项进行数值归一化的函数。
8.一种基于语义搜索的专家推荐装置,其特征在于,包括:
获取模块,被配置为获得用户输入的文本信息;
输入预处理模块,被配置为对所述文本信息进行预处理,得到包括多个学术词语的学术词语集合;
专家检索模块,被配置为基于所述学术词语集合中的多个学术词语查询学术数据库,获得包括多个候选专家的候选专家列表;
专家排序模块,被配置为根据所述候选专家列表确定专家推荐结果。
9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的基于语义搜索的专家推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于语义搜索的专家推荐方法。
CN202010884229.1A 2020-08-28 2020-08-28 基于语义搜索的专家推荐方法、装置、设备及存储介质 Pending CN111813898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884229.1A CN111813898A (zh) 2020-08-28 2020-08-28 基于语义搜索的专家推荐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884229.1A CN111813898A (zh) 2020-08-28 2020-08-28 基于语义搜索的专家推荐方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111813898A true CN111813898A (zh) 2020-10-23

Family

ID=72859779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884229.1A Pending CN111813898A (zh) 2020-08-28 2020-08-28 基于语义搜索的专家推荐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111813898A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381381A (zh) * 2020-11-12 2021-02-19 深圳供电局有限公司 一种智能推荐专家的装置
CN112487161A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 一种面向企业需求的专家推荐方法、装置、介质及设备
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN113516094A (zh) * 2021-07-28 2021-10-19 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105677795A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 抽象语义的推荐方法、推荐装置及推荐系统
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质
CN110597987A (zh) * 2019-08-21 2019-12-20 微梦创科网络科技(中国)有限公司 一种搜索推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN105677795A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 抽象语义的推荐方法、推荐装置及推荐系统
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质
CN110597987A (zh) * 2019-08-21 2019-12-20 微梦创科网络科技(中国)有限公司 一种搜索推荐方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381381A (zh) * 2020-11-12 2021-02-19 深圳供电局有限公司 一种智能推荐专家的装置
CN112381381B (zh) * 2020-11-12 2023-11-17 深圳供电局有限公司 一种智能推荐专家的装置
CN112487161A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 一种面向企业需求的专家推荐方法、装置、介质及设备
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN113516094A (zh) * 2021-07-28 2021-10-19 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法
CN113516094B (zh) * 2021-07-28 2024-03-08 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法

Similar Documents

Publication Publication Date Title
Lindstedt Structural topic modeling for social scientists: A brief case study with social movement studies literature, 2005–2017
CN111813898A (zh) 基于语义搜索的专家推荐方法、装置、设备及存储介质
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
Santos et al. Learning to combine multiple string similarity metrics for effective toponym matching
Sutabri et al. Improving naïve bayes in sentiment analysis for hotel industry in Indonesia
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112632397A (zh) 基于多类型学术成果画像及混合推荐策略的个性化推荐方法
CN112559684A (zh) 一种关键词提取及信息检索方法
EP2558988A1 (en) Ascribing actionable attributes to data that describes a personal identity
WO2015084404A1 (en) Matching of an input document to documents in a document collection
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN114661902A (zh) 基于多特征融合的文献库冷启动作者同名消歧方法及设备
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN111078828A (zh) 一种企业历史信息抽取方法及系统
Tobing et al. Catapa resume parser: end to end Indonesian resume extraction
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
CN112868001B (zh) 文档检索装置、文档检索程序、文档检索方法
CN112163158A (zh) 一种基于搜索历史、浏览足迹的搜索推荐方法
Yang et al. A mixture record linkage approach for US patent inventor disambiguation
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
CN107169065B (zh) 一种特定内容的去除方法和装置
CN115526601A (zh) 文件管理方法及装置
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
Kang et al. Recognising informative Web page blocks using visual segmentation for efficient information extraction.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201023

RJ01 Rejection of invention patent application after publication