CN113641785A - 基于多维度的科技资源相似词检索方法及电子设备 - Google Patents

基于多维度的科技资源相似词检索方法及电子设备 Download PDF

Info

Publication number
CN113641785A
CN113641785A CN202110721872.7A CN202110721872A CN113641785A CN 113641785 A CN113641785 A CN 113641785A CN 202110721872 A CN202110721872 A CN 202110721872A CN 113641785 A CN113641785 A CN 113641785A
Authority
CN
China
Prior art keywords
words
scientific
search
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110721872.7A
Other languages
English (en)
Other versions
CN113641785B (zh
Inventor
杜军平
段跃锋
薛哲
徐欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110721872.7A priority Critical patent/CN113641785B/zh
Publication of CN113641785A publication Critical patent/CN113641785A/zh
Application granted granted Critical
Publication of CN113641785B publication Critical patent/CN113641785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种基于多维度的科技资源相似词检索方法及电子设备,所述方法包括:获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;获取用户输入的检索词;对所述检索词进行第一维度相似关系判定、第二维度相似关系判定或第三维度相似关系判定。本公开的检索方法及电子设备,有效解决了科研人员对跨学科专业词语掌握不准确、不全面的问题,有效降低跨学科检索科技成果的难度。

Description

基于多维度的科技资源相似词检索方法及电子设备
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种基于多维度的科技资源相似词检索方法及电子设备。
背景技术
在很多情况下,不同的专业领域对于同样的科技资源信息存在的不同的表达,这对科研人员的科技学术成果检索带来了难度。由于科员人员难以掌握不同专业领域的专业词语,因此,在检索时通常存在检索不准确、不全面的问题,给科研工作带来了一定困扰。
发明内容
有鉴于此,本公开的目的在于提出一种基于多维度的科技资源相似词检索方法及电子设备,包括:
一种基于多维度的科技资源相似词检索方法,包括:
获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;
获取用户输入的检索词;
对所述检索词进行第一维度相似关系判定,得到第一候选相似词,响应于确定所述第一候选相似词的数量大于或等于检索需求阈值,输出所述第一候选相似词为检索结果;
响应于确定所述第一候选相似词的数量小于所述检索需求阈值,对所述检索词进行第二维度相似关系判定,得到第二候选相似词;响应于确定所述第一候选相似词及所述第二候选相似词的数量之和大于或等于所述检索需求阈值,输出所述第一候选相似词及所述第二候选相似词为检索结果;
响应于确定所述第一候选相似词及所述第二候选相似词的数量之和小于所述检索需求阈值,对所述检索词进行第三维度相似关系判定,得到第三候选相似词,输出所述第一候选相似词、所述第二候选相似词及所述第三候选相似词为检索结果。
进一步的,所述科技资源实体词包括从通用知识库中抽取的科技资源相关的基础实体词及基于所述基础实体词获取的与所述基础实体词有所述相似关系的相似关系词。
进一步的,所述对所述检索词进行第一维度相似关系判定包括:获取所述科技资源知识库中与所述检索词有所述相似关系的所述科技资源实体词为所述第一候选相似词。
进一步的,所述对所述检索词进行第二维度相似关系判定包括:
获取预先构建的用以提取所述科技资源实体词和所述检索词的深度语义特征的深度语义特征提取模型;
获取预先计算的相似度阈值,所述相似度阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的语义距离,得到至少一个第一相似度值,取所有所述第一相似度值的平均值为所述相似度阈值;
基于所述科技资源实体词及所述检索词的深度语义特征,计算所述检索词与每个所述科技资源实体词之间的语义距离,得到至少一个第二相似度值,取所有大于所述相似度阈值的所述第二相似度值所对应的所述科技资源实体词作为所述第二候选相似词。
进一步的,所述深度语义特征提取模型包括BERT模型及双向长短时记忆网络模型,所述BERT模型的运行次序位于所述双向长短时记忆网络模型之前。
进一步的,所述语义距离的计算包括余弦相似度计算,所述余弦相似度的计算公式如下:
Figure BDA0003137113180000021
其中,D(X,Y)表示深度语义特征X与深度语义特征Y之间的余弦相似度,所述Xi与Yi表示深度语义特征X与深度语义特征Y的语义特征向量在同一个维度下第i个投影的值。
进一步的,所述对所述检索词进行第三维度相似关系判定包括:
获取预先计算的编辑距离阈值;
基于所述科技资源实体词及所述检索词的字符位置,计算所述检索词与每个所述科技资源实体词之间的序列编辑距离,得到至少一个第二编辑距离值,取所有大于所述编辑距离阈值的所述第二编辑距离值所对应的所述科技资源实体词作为所述第三候选相似词。
进一步的,所述编辑距离阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的序列编辑距离,得到至少一个第一编辑距离值,取所有所述第一编辑距离值的平均值为所述编辑距离阈值。
进一步的,所述序列编辑距离的计算公式如下:
响应于确定待计算词对的最后一个字符相同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1-1);
响应于确定待计算词对的最后一个字符不同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1);
其中,Q(C,V)表示序列编辑距离,C、V分别表示待计算词对的字符序列,k与l表示待计算词对的字符序列中字符的位置。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于多维度的科技资源相似词检索方法。
从上面所述可以看出,本公开提供的基于多维度的科技资源相似词检索方法及电子设备,有效解决了科研人员对跨学科专业词语掌握不准确、不全面的问题,构建科技资源知识库,有效检索和扩充科技资源相似词,有效降低跨学科检索科技成果的难度;通过创建包括BERT模型及双向长短时记忆网络模型的深度语义特征提取模型,实现深度语义特征提取,提高相似词检索的准确性;同时结合语义距离与序列编辑距离,有效解决语义距离不适用于长文本词获取相似词的问题,进一步实现科技资源相似词的有效扩充,提高科技资源相似词获取的准确性及全面性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个或多个实施例的基于多维度的科技资源相似词检索方法流程图;
图2为本公开一个或多个实施例的基于多维度的科技资源相似词检索装置结构示意图;
图3为本公开一个或多个实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”、“第三”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
近些年来,随着科技的快速发展,相应的科技学术成果数量迅速增加,各个学科领域内的科学人员规模也迅速增加,每时每刻都有新的科技信息被公开。科技学术成果主要指科学研究活动产生的科技信息、海量文献和学者数据,包括学者、论文、专利、期刊会议和科技图像数据等。目前许多的学术机构和相关数据服务公司都开放了大量的学术数据,与之有关的科技学术成果也在急剧增加,这些数据具有多模态异构性、多样的存储方式和不同的数据结构,给科技信息提取、相似信息扩展、科技学术成果的查询带来了全新的挑战。尤其在跨学科检索过程中,由于经常存在跨学科主题词不一致的情况存在,而科研人员难以对准确掌握多领域的专业词语,从而大大增加了跨学科检索科技学术成果的难度。
基于上述情况,如图1所示,本发明提供了一种基于多维度的科技资源相似词检索方法,包括:
获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;
获取用户输入的检索词;
对所述检索词进行第一维度相似关系判定,得到第一候选相似词,响应于确定所述第一候选相似词的数量大于或等于检索需求阈值,输出所述第一候选相似词为检索结果;
响应于确定所述第一候选相似词的数量小于所述检索需求阈值,对所述检索词进行第二维度相似关系判定,得到第二候选相似词;响应于确定所述第一候选相似词及所述第二候选相似词的数量之和大于或等于所述检索需求阈值,输出所述第一候选相似词及所述第二候选相似词为检索结果;
响应于确定所述第一候选相似词及所述第二候选相似词的数量之和小于所述检索需求阈值,对所述检索词进行第三维度相似关系判定,得到第三候选相似词,输出所述第一候选相似词、所述第二候选相似词及所述第三候选相似词为检索结果。
本方法中,当第一候选相似词的数量满足所述检索需求阈值时,则输出所述第一候选相似词为检索结果,否则继续进行第二维度相似关系判定;当第一维度相似关系判定及第二维度相似判定的检索结果仍然不满足检索需求阈值时,则继续进行第三维度相似关系判定。通过对检索词进行第一维度相似关系判定、第二维度相似关系判定、第三维度相似关系判定,从三个维度对检索词与科技资源实体词的相似度进行判断,能够实现对科技资源相似词的有效检索和扩充,有效解决科研人员对跨学科专业词语掌握不准确、不全面的问题,降低跨学科检索科技成果的难度。
在科技资源知识库应用过程中,检索需求阈值可根据用户的需求进行设置,可设置获取1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17乃至更多数量的科技资源相似词为检索需求阈值。
在一些实施例中,所述科技资源知识库可进行自主更新和扩充。当输入未存储在科技资源知识库的检索词时,系统可将该检索词及该检索词的第一维度相似关系判定、第二维度相似关系判定、及第三维度相似关系判定的检索结果进行存储,实现科技资源知识库的自主更新。
在一些实施例中,所述科技资源实体词包括从通用知识库中抽取的科技资源相关的基础实体词及基于所述基础实体词获取的与所述基础实体词有所述相似关系的相似关系词。
目前已有许多较为完善的知识库,而这些知识库几乎都是针对通用词进行构建的,这些通用知识库在科技数据这种垂直领域上难以应用。因此,在预先构建科技资源知识库的时候,利用基于BERT融合局部特征的注意力机制的算法从通用知识库中进行科技资源相关词汇的实体抽取,作为基础实体词,再以基础实体词为基础,利用基于正则表示式的规则匹配从众包知识库中递归获取基础实体词的相似词,即相似关系词,实现跨学科语义的科技资源相似词的获取,将基础实体词、相似关系词及两者之间的相似关系使用neo4j图数据库进行存储,完成科技资源知识库的构建。除此之外,科技资源知识库的科技资源实体词抽取也可采用人工筛选。另外,除了使用众包进行基础实体词相似词的获取和扩充外,还可使用搜词工具等进行科技资源知识库的扩充。在进行科技资源相似词检索时,通过直接获取预先构建的科技资源知识库,可以实现直接获取与检索词具有相似关系的科技资源实体词,整个获取过程简单易得,且准确率高。同时,科技资源知识库可以进行定期或不定期更新,进行基础实体词和相似关系词的扩充,使得科技资源知识库更为完善。
在一些实施例中,所述对所述检索词进行第一维度相似关系判定包括:获取所述科技资源知识库中与所述检索词有所述相似关系的所述科技资源实体词为所述第一候选相似词。在获取用户输入的检索词后,若所述检索词已存储在科技资源知识库中,则直接获取科技资源知识库中与所述检索词有相似关系的科技资源实体词作为第一候选相似词,当第一候选相似词的数量大于或等于检索需求阈值时,则直接输出第一候选相似词为检索结果;当所述检索词并未存储在科技资源知识库中时,那么能获取到的所述第一候选相似词数量为0,则明显不满足于检索需求阈值,继续进行后续的计算。整个过程中,由于直接从预先构建的科技资源知识库中获取已有相似关系的科技资源实体词,因此运算复杂度较低、简单易得,能够有效提高科技资源相似词的检索效率。
在一些实施例中,所述对所述检索词进行第二维度相似关系判定包括:
获取预先构建的用以提取所述科技资源实体词和所述检索词的深度语义特征的深度语义特征提取模型;
获取预先计算的相似度阈值,所述相似度阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的语义距离,得到至少一个第一相似度值,取所有所述第一相似度值的平均值为所述相似度阈值;
基于所述科技资源实体词及所述检索词的深度语义特征,计算所述检索词与每个所述科技资源实体词之间的语义距离,得到至少一个第二相似度值,取所有大于所述相似度阈值的所述第二相似度值所对应的所述科技资源实体词作为所述第二候选相似词。
由于科技资源知识库中难以包含所有科技资源相似词,因此通过语义距离的计算,进一步获取、筛选检索词的相似词,能够对科技资源相似词的获取进行有效补充。当第一候选相似词及第二候选相似词的数量大于或等于检索需求阈值时,输出所述第一候选相似词及第二候选相似词为检索结果。
进一步的,所述深度语义特征提取模型包括BERT模型及双向长短时记忆网络模型,所述BERT模型的运行次序位于所述双向长短时记忆网络模型之前。利用BERT模型与双向长短时记忆网络模型(BiLSTM)结合,可以实现文本深度语义特征的提取。BiLSTM相较于其他语义特征提取模型,对于类似于文本序列这种动态的序列问题处理有着较好的效果,BiLSTM可以从序列的前向与后向获取特征信息,这样能够更多更全的得到序列的信息,并结合BERT模型增强文本语义提升的效果,提升了模型的整体效果,有效解决科技资源文本数据存在的语义离散性、多义性等问题。
在一些实施例中,所述相似度阈值(δ)的计算公式如下:
Figure BDA0003137113180000071
其中n表示n对待计算词对,m表示第m对待计算词对,D(Xm,Ym)表示第m对待计算词对的语义距离。
在一些实施例中,所述语义距离的计算包括余弦相似度计算,所述余弦相似度的计算公式如下:
Figure BDA0003137113180000072
其中,D(X,Y)表示深度语义特征X与深度语义特征Y之间的余弦相似度,所述Xi与Yi表示深度语义特征X与深度语义特征Y的语义特征向量在同一个维度下第i个投影的值。
在一些实施例中,所述对所述检索词进行第三维度相似关系判定包括:获取预先计算的编辑距离阈值;基于所述科技资源实体词及所述检索词的字符位置,计算所述检索词与每个所述科技资源实体词之间的序列编辑距离,得到至少一个第二编辑距离值,取所有大于所述编辑距离阈值的所述第二编辑距离值所对应的所述科技资源实体词作为所述第三候选相似词。
语义距离的计算对词频较高的词提取结果较好,而对于长文本词的判断效果不佳,因此引入词对的序列编辑距离。序列编辑距离更适合长文本词的相似度判断,与基于语义距离的第二维度相似关系判定形成有效互补,有效扩充相似度判断维度,提高相似度判断的准确性,实现对科技资源相似词的准确扩充,从而提高科技资源相似词检索的准确度和完善度。完成第三维度相似关系判定后,输出第一候选相似词、第二候选相似词、第三候选相似词为检索结果。
在一些实施例中,最终检索结果的输出数量可以根据用户的需求或使用习惯进行调整,可设置检索结果的输出数量为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17乃至更多。可选的,检索结果的输出数量与检索需求阈值相等。进一步可选的,所述第一候选相似词、第二候选相似词、第三候选相似词按由前到后的优先次序进行展示。进一步可选的,当检索得到的第一候选相似词、第二候选相似词或第三候选相似词的数量之和大于设置的检索结果输出数量时,分别取相似关系近、第二相似度值大、第二编辑距离值大的进行检索结果输出。
在一些实施例中,所述编辑距离阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的序列编辑距离,得到至少一个第一编辑距离值,取所有所述第一编辑距离值的平均值为所述编辑距离阈值。
在一些实施例中,所述编辑距离阈值(α)计算公式如下:
Figure BDA0003137113180000081
其中,其中n表示n对待计算词对,m表示第m对待计算词对,Q(Cm,Vm)表示第m对待计算词对的序列编辑距离。
在一些实施例中,所述序列编辑距离的计算公式如下:
响应于确定待计算词对的最后一个字符相同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1);
响应于确定待计算词对的最后一个字符不同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1);
其中,Q(C,V)表示序列编辑距离,C、V分别表示待计算词对的字符序列,k与l表示待计算词对的字符序列中字符的位置。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种基于多维度的科技资源相似词检索装置。
参考图2,所述基于多维度的科技资源相似词检索装置,包括:
第一获取模块201,用以获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;
第二获取模块202,用以获取用户输入的检索词;
第一维度相似关系判定及输出模块203,用以对所述检索词进行第一维度相似关系判定,得到第一候选相似词,响应于确定所述第一候选相似词的数量大于或等于检索需求阈值,输出所述第一候选相似词为检索结果;
第二维度相似关系判定及输出模块204,用以响应于确定所述第一候选相似词的数量小于所述检索需求阈值,对所述检索词进行第二维度相似关系判定,得到第二候选相似词;响应于确定所述第一候选相似词及所述第二候选相似词的数量之和大于或等于所述检索需求阈值,输出所述第一候选相似词及所述第二候选相似词为检索结果;
第三维度相似关系判定及输出模块205,用以响应于确定所述第一候选相似词及所述第二候选相似词的数量之和小于所述检索需求阈值,对所述检索词进行第三维度相似关系判定,得到第三候选相似词,输出所述第一候选相似词、所述第二候选相似词及所述第三候选相似词为检索结果。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于多维度的科技资源相似词检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一实施例所述的基于多维度的科技资源相似词检索方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于多维度的科技资源相似词检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于多维度的科技资源相似词检索方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于多维度的科技资源相似词检索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于多维度的科技资源相似词检索方法,包括:
获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;
获取用户输入的检索词;
对所述检索词进行第一维度相似关系判定,得到第一候选相似词,响应于确定所述第一候选相似词的数量大于或等于检索需求阈值,输出所述第一候选相似词为检索结果;
响应于确定所述第一候选相似词的数量小于所述检索需求阈值,对所述检索词进行第二维度相似关系判定,得到第二候选相似词;响应于确定所述第一候选相似词及所述第二候选相似词的数量之和大于或等于所述检索需求阈值,输出所述第一候选相似词及所述第二候选相似词为检索结果;
响应于确定所述第一候选相似词及所述第二候选相似词的数量之和小于所述检索需求阈值,对所述检索词进行第三维度相似关系判定,得到第三候选相似词,输出所述第一候选相似词、所述第二候选相似词及所述第三候选相似词为检索结果。
2.根据权利要求1所述的方法,其中,所述科技资源实体词包括从通用知识库中抽取的科技资源相关的基础实体词及基于所述基础实体词获取的与所述基础实体词有所述相似关系的相似关系词。
3.根据权利要求1所述的方法,其中,所述对所述检索词进行第一维度相似关系判定包括:获取所述科技资源知识库中与所述检索词有所述相似关系的所述科技资源实体词为所述第一候选相似词。
4.根据权利要求1~3任一项所述的方法,其中,所述对所述检索词进行第二维度相似关系判定包括:
获取预先构建的用以提取所述科技资源实体词和所述检索词的深度语义特征的深度语义特征提取模型;
获取预先计算的相似度阈值,所述相似度阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的语义距离,得到至少一个第一相似度值,取所有所述第一相似度值的平均值为所述相似度阈值;
基于所述科技资源实体词及所述检索词的深度语义特征,计算所述检索词与每个所述科技资源实体词之间的语义距离,得到至少一个第二相似度值,取所有大于所述相似度阈值的所述第二相似度值所对应的所述科技资源实体词作为所述第二候选相似词。
5.根据权利要求4所述的方法,其中,所述深度语义特征提取模型包括BERT模型及双向长短时记忆网络模型,所述BERT模型的运行次序位于所述双向长短时记忆网络模型之前。
6.根据权利要求4所述的方法,其中,所述语义距离的计算包括余弦相似度计算,所述余弦相似度的计算公式如下:
Figure FDA0003137113170000021
其中,D(X,Y)表示深度语义特征X与深度语义特征Y之间的余弦相似度,所述Xi与Yi表示深度语义特征X与深度语义特征Y的语义特征向量在同一个维度下第i个投影的值。
7.根据权利要求1~3、5~6任一项所述的方法,其中,所述对所述检索词进行第三维度相似关系判定包括:
获取预先计算的编辑距离阈值;
基于所述科技资源实体词及所述检索词的字符位置,计算所述检索词与每个所述科技资源实体词之间的序列编辑距离,得到至少一个第二编辑距离值,取所有大于所述编辑距离阈值的所述第二编辑距离值所对应的所述科技资源实体词作为所述第三候选相似词。
8.根据权利要求7所述的方法,其中,所述编辑距离阈值通过以下方法计算得到:计算每一组具有所述相似关系的所述科技资源实体词的序列编辑距离,得到至少一个第一编辑距离值,取所有所述第一编辑距离值的平均值为所述编辑距离阈值。
9.根据权利要求8所述的方法,其中,所述序列编辑距离的计算公式如下:
响应于确定待计算词对的最后一个字符相同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1-1);
响应于确定待计算词对的最后一个字符不同,按如下公式计算:
Q(C,V)=1+min(ckvl-1,ck-1vl,ck-1vl-1);
其中,Q(C,V)表示序列编辑距离,C、V分别表示待计算词对的字符序列,k与l表示待计算词对的字符序列中字符的位置。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。
CN202110721872.7A 2021-06-28 2021-06-28 基于多维度的科技资源相似词检索方法及电子设备 Active CN113641785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721872.7A CN113641785B (zh) 2021-06-28 2021-06-28 基于多维度的科技资源相似词检索方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721872.7A CN113641785B (zh) 2021-06-28 2021-06-28 基于多维度的科技资源相似词检索方法及电子设备

Publications (2)

Publication Number Publication Date
CN113641785A true CN113641785A (zh) 2021-11-12
CN113641785B CN113641785B (zh) 2023-08-01

Family

ID=78416264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721872.7A Active CN113641785B (zh) 2021-06-28 2021-06-28 基于多维度的科技资源相似词检索方法及电子设备

Country Status (1)

Country Link
CN (1) CN113641785B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840645A (zh) * 2022-07-04 2022-08-02 北京邮电大学 专家学者科技资源信息的文本语义检索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163461A1 (en) * 2002-02-08 2003-08-28 Decode Genetics, Ehf. Method and system for defining sets by querying relational data using a set definition language
CN109189907A (zh) * 2018-08-22 2019-01-11 山东浪潮通软信息科技有限公司 一种基于语义匹配的检索方法及装置
CN112131394A (zh) * 2020-08-18 2020-12-25 国网河北省电力有限公司沧州供电分公司 一种科技成果关键词网络构建方法及装置
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163461A1 (en) * 2002-02-08 2003-08-28 Decode Genetics, Ehf. Method and system for defining sets by querying relational data using a set definition language
CN109189907A (zh) * 2018-08-22 2019-01-11 山东浪潮通软信息科技有限公司 一种基于语义匹配的检索方法及装置
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质
CN112131394A (zh) * 2020-08-18 2020-12-25 国网河北省电力有限公司沧州供电分公司 一种科技成果关键词网络构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩普;王东波;王子敏;: "词汇相似度计算和相似词挖掘研究进展", 情报科学 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840645A (zh) * 2022-07-04 2022-08-02 北京邮电大学 专家学者科技资源信息的文本语义检索方法及装置

Also Published As

Publication number Publication date
CN113641785B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
JP6278893B2 (ja) 対話型マルチモード画像検索
US9424668B1 (en) Session-based character recognition for document reconstruction
CN110287312A (zh) 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN108829854B (zh) 用于生成文章的方法、装置、设备和计算机可读存储介质
CN109344396A (zh) 文本识别方法、装置、及计算机设备
CN112818457A (zh) 基于cad图纸的bim模型智能生成方法及系统
CN111079944A (zh) 迁移学习模型解释实现方法及装置、电子设备、存储介质
CN110110198A (zh) 一种网页信息抽取方法及装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113641785B (zh) 基于多维度的科技资源相似词检索方法及电子设备
CN114049463A (zh) 一种二叉树的数据网格化、网格点数据的获取方法及装置
CN110008391A (zh) 用户兴趣画像的构建方法及装置、存储介质、计算机设备
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
WO2023138546A1 (zh) 信息处理方法、装置、电子设备及存储介质
US9286376B2 (en) Apparatus and method for processing a multidimensional string query
CN114995729A (zh) 一种语音绘图方法、装置及计算机设备
CN113238750A (zh) 一种病例表单设计器及目标表单界面生成方法
CN112380117A (zh) 一种软件测试基础用例的生产方法、装置和电子设备
CN112148751A (zh) 用于查询数据的方法和装置
JP6167531B2 (ja) 領域検索方法、領域インデックス構築方法および領域検索装置
CN112163404B (zh) 一种文本生成方法、装置、电子设备及存储介质
CN115577078B (zh) 一种工程造价审计信息检索方法、系统、设备及存储介质
CN116484846A (zh) 一种电力行业关键词库的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant