CN110442702A - 搜索方法、装置、可读存储介质和电子设备 - Google Patents

搜索方法、装置、可读存储介质和电子设备 Download PDF

Info

Publication number
CN110442702A
CN110442702A CN201910754562.8A CN201910754562A CN110442702A CN 110442702 A CN110442702 A CN 110442702A CN 201910754562 A CN201910754562 A CN 201910754562A CN 110442702 A CN110442702 A CN 110442702A
Authority
CN
China
Prior art keywords
information
data information
approximation coefficient
data
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910754562.8A
Other languages
English (en)
Other versions
CN110442702B (zh
Inventor
孙一凫
沈启
吴若飒
陈海阳
孟芦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Geyun Technology Co Ltd
Original Assignee
Beijing Geyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Geyun Technology Co Ltd filed Critical Beijing Geyun Technology Co Ltd
Priority to CN201910754562.8A priority Critical patent/CN110442702B/zh
Publication of CN110442702A publication Critical patent/CN110442702A/zh
Application granted granted Critical
Publication of CN110442702B publication Critical patent/CN110442702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种搜索方法、装置可读存储介质和电子设备,所述方法将数据信息以树形结构分层排列存储,在检索过程中通过将目标文本与所述数据信息逐层进行对比,以确定多个匹配结果。再对获取的全部匹配结果根据匹配值进行排序,根据匹配值输出搜索结果。所述方法在不需要输入精准信息的情况下就能精准的确定匹配结果,提高搜索的准确率。

Description

搜索方法、装置、可读存储介质和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种搜索方法、装置可读存储介质和电子设备。
背景技术
随着科技的快速发展,人们可以从互联网或某个容量较大的存储介质中获取的信息量非常庞大,且复杂。当获取某个信息时,需要对信息进行检索、筛选。但由于在进行信息检索时输入的信息可能不准确或不够清楚,难以准确的得到需要的信息。
发明内容
有鉴于此,本发明实施例提供一种搜索方法、装置可读存储介质和电子设备,旨在检索信息不准确的情况下精准的确定匹配结果。
第一方面,本发明实施例公开了一种搜索方法,所述方法包括:
确定目标文本和结构化信息集合,所述结构化信息集合中包括以树形结构分层排列的多个数据信息;
确定所述目标文本和所述各数据信息的信息近似系数;
响应于目标数据信息的信息近似系数大于阈值,获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合;
根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值;
根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
进一步地,所述方法还包括:
根据所述结构化信息集合确定编码字典,所述编码字典中包含全部所述数据信息的关键词及对应的编码。
进一步地,所述根据所述结构化信息集合确定编码字典包括:
对所述结构化信息集合中全部数据信息进行分词操作以确定包含全部分词结果的关键词集合;
对所述关键词集合中的各元素进行编码;
根据所述关键词集合中的各元素和对应的编码确定编码字典。
进一步地,所述确定所述目标文本和所述各数据信息的信息近似系数包括:
根据所述目标文本、各数据信息和编码字典确定所述各数据信息的第一近似系数;
根据所述目标文本和各数据信息的文本内容确定各数据信息的第二近似系数;
根据第二近似系数对所述第一近似系数进行修正以确定所述信息近似系数。
进一步地,所述根据所述目标文本、各数据信息和编码字典确定所述各数据信息的第一近似系数包括:
根据所述目标文本和编码字典确定第一编码信息;
根据目标数据信息和编码字典确定所述目标数据信息对应的第二编码信息;
根据所述第一编码信息所述目标数据信息对应的第二编码信息确定所述目标数据信息对应的第一近似系数。
进一步地,所述确定所述目标文本和所述各数据信息的信息近似系数还包括:
确定历史信息,所述历史信息用于记录用户反馈;
根据所述历史信息修正所述目标数据信息对应的信息近似系数。
进一步地,所述方法还包括:
根据所述用户历史信息调整阈值和预设数量。
第二方面,本发明实施例公开了一种搜索装置,所述装置包括:
数据存储模块,用于确定目标文本和结构化信息集合,所述结构化信息集合中包括以树形结构分层排列的多个数据信息。
第一计算模块,用于确定所述目标文本和所述各数据信息的信息近似系数。
第二计算模块,用于判断目标数据信息的信息近似系数是否大于阈值,是则获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合。
匹配模块,用于根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值。
排序模块,用于根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
第三方面,本发明实施例公开了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例公开了一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例所述的方法将数据信息以树形结构分层排列存储,在检索过程中通过将目标文本与所述数据信息逐层进行对比,以确定多个匹配结果。再对获取的全部匹配结果根据匹配值进行排序,根据匹配值输出搜索结果。可以实现在输入的检索信息不准确的情况下精准的确定匹配结果,提高搜索的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的搜索方法的流程图;
图2为本发明实施例的结构化信息集合的示意图;
图3为本发明实施例的搜索装置的示意图;
图4为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前在建筑领域,负责建筑施工改造项目和建筑运维管理的工作人员数量很多,他们的学历、背景、专业领域都各不相同。而在工作时的所涉及和需要记录的建筑、项目等信息繁多且复杂。不同的工作人员想要查找需要的建筑信息内容时因受自己的专业领域影响,输入的搜索信息不够准确或不够清楚,会导致搜索过程的效率不高。因此本申请提供了一种解决上述问题的搜索方法,当工作人员输入不够准确或不够清楚的搜索信息时,精准的确定匹配结果。
图1为本发明实施例的搜索方法的流程图,如图1所示,所述方法包括:
步骤S100:确定目标文本和结构化信息集合。
具体地,所述目标文本为用于搜索数据信息的文本,例如可以是用户输入的文本信息,或对用户输入的语音信息或其他代码数据等进行处理得到的文本信息。所述结构化信息集合中包括以树形结构分层排列的多个数据信息,其中每个数据信息为所述树形结构中的一个节点,每一层的节点为上一层节点的进一步分类或具体的内容。例如,当作为所述树形结构第一层根节点的数据信息为“建筑信息”时,所述树形结构第二层各节点的数据信息为所述“建筑信息”的进一步分类,例如可以包括“建筑”、“楼层”、“设备”、“人员”和“标准作业程序”等,所述树形结构第三层的各节点通过对所述第二层的各节点进一步分类得到,例如所述节点“设备”进一步分类得到的所述第三层各节点为“空调”、“消防”和“给排水”等,所述“空调”又可以在下一层中进一步划分为各种型号,以此类推完成所述树形结构的分层排列,确定目标文本和结构化信息集合。
进一步地,根据所述结构化信息集合确定编码字典。在确定所述结构化信息集合之后,为了方便所述搜索过程中用于搜索的目标文本关键词和各数据信息关键词的对比,对所述结构化信息集合中数据信息的关键词进一步进行提取,并将提取到的全部关键词设定对应的编码。可选地,所述将提取到的全部关键词设定对应的编码的过程包括以下步骤:
步骤S110:对所述结构化信息集合中全部数据信息进行分词操作以确定包含全部分词结果的关键词集合。
具体地,所述分词过程可以通过自然语言分词工具将所述结构化信息集合中存储的全部数据信息的中文、英文信息进行分词。例如将“标准作业程序”分为“标准”、“作业”和“程序”三个关键词。所述分词过程例如可以基于参考词典搜索、最大概率切分、隐马尔可夫模型和维特比算法等方式实现。或通过大量的数据信息和对应的关键词构建训练集合,再根据所述训练集合训练分词模型,最终将所述结构化信息集合中的各数据信息输入所述分词模型中以确定对应的关键词,其中所述分词模型例如可以是卷积神经网络模型或循环神经网络模型等。确定所述结构化信息集合中全部数据信息的关键词后,根据所述全部关键词构建关键词集合,并将所述关键词集合中重复的关键词删除。
步骤S120:对所述关键词集合中的各元素进行编码。
具体地,所述关键词集合中的每个元素表征一个关键词,对所述各元素进行编码即为所述关键词集合中的每一个关键词设定一个对应的编码。所述编码例如可以是字符串、数字、单词等与所述关键词一一对应数据,例如当所述关键词包括“建筑”、“楼层”、“设备”和“人员”时,所述编码依次为“001”、“002”、“003”和“004”。
步骤S130:根据所述关键词集合中的各元素和对应的编码确定编码字典。
具体地,所述编码字典用于存储所述关键词集合中的关键词和编码的对应关系,可以根据关键词在所述编码字典中查询对应的编码,或根据编码在所述编码字典中查询对应的关键词。
步骤S200:确定所述目标文本和所述各数据信息的信息近似系数。
具体地,每个数据信息对应一个信息近似系数,通过将目标文本与所述各数据信息进行对比确定,用于表征所述数据信息与所述目标文本的匹配程度。可选的,所述确定与各数据信息的信息近似系数的过程包括:
步骤S210:根据所述目标文本、各数据信息和编码字典确定所述各数据信息的第一近似系数。
具体地,所述步骤中逐层对比各数据信息和目标文本得到第一近似系数。所述编码字典中记录关键词和编码的对应关系,例如所述编码字典中的关键词包括“建筑”、“楼层”、“设备”和“人员”,对应的编码依次为“001”、“002”、“003”和“004”。所述步骤S210进一步还包括:
步骤S211:根据所述目标文本和编码字典确定第一编码信息。
具体地:先对所述目标文本进行分词操作,提取所述目标文本中的关键词,再根据所述目标文本中包含的关键词在所述编码字典中确定对应的编码,根据确定的编码组成第一编码信息。例如,当所述目标文本为“工作人员操作设备”时,提取到的所述关键词包括“工作”、“人员”、“操作”和“设备”。当所述编码字典中的关键词包括“建筑”、“楼层”、“设备”和“人员”,对应的编码依次为“001”、“002”、“003”和“004”时,根据所述目标文本中包含的关键词确定的所述第一编码信息为{“003”,“004”}。
步骤S212:根据目标数据信息和编码字典确定所述目标数据信息对应的第二编码信息。
具体地:根据所述结构化信息集合中每一个数据信息得到对应的第二编码信息,获取所述目标数据信息中包含的关键词,再根据所述关键词在所述编码字典中确定对应的编码,根据确定的编码组成与所述目标数据信息对应的第二编码信息。例如所述目标数据信息为“楼层”时,根据步骤S211中的编码字典确定对应的第二编码信息为{“002”};当所述目标数据信息为“人员”时,根据步骤S211中的编码字典确定对应的第二编码信息为{“004”}。
步骤S213:根据所述第一编码信息和所述目标数据信息对应的第二编码信息确定所述目标数据信息对应的第一近似系数。
具体地,根据所述第一编码信息和所述各数据信息对应的第二编码信息的匹配程度确定与每个所述数据信息的第一近似系数。所述确定第一近似系数的方式例如可以为统计所述第一编码信息中的编码在所述第二编码信息中出现的数量与所述第一编码信息中包含元素数的比值,例如,当所述第一编码信息为{“001”,“002”,“003”,“005”,“004”},所述第二编码信息为{“001”,“002”,“003”,“005”}时,所述第一近似系数为80%。
进一步地,所述第一编码信息中各元素对应的关键词在检索过程中起到的作用大小不同,且所述关键词在树形结构或者结构化数据集合中出现的次数数目不同。本实施例中可以根据所述第一编码信息中各元素在所述树形结构或者结构化数据集合中出现的次数计算各元素对应的概率值,然后统计所述第一编码信息中的编码在所述第二编码信息中出现的数量与所述第一编码信息中包含元素数的比值,得到第一近似系数。可选的,所述各元素对应的概率值通过统计各元素在树形结构或者结构化数据集合中出现的次数,计算次数的倒数得到。例如当所述第一编码信息对应的目标文本为“工作人员操作设备”,所述编码字典中的关键词包括“建筑”、“楼层”、“设备”和“人员”,对应的编码依次为“001”、“002”、“003”和“004”时,根据所述目标文本中包含的关键词确定的所述第一编码信息为{“003”,“004”}。其中,首先,通过统计各元素在树形结构或者结构化数据集合中出现的次数,计算次数的倒数得到各元素的概率值。如“设备”在树形结构或者结构化信息集合中出现的次数为N次,得到所述“设备”对应的概率值为1/N,“人员”在树形结构后结构化信息集合中出现的次数为M次,则“人员”对应的概率值为1/M。然后统计所述第一编码信息中的编码在所述第二编码信息中出现的数量与所述第一编码信息中包含元素数的比值,得到第一近似系数。还是以“工作人员操作设备”为例,第一编码信息与第二编码信息{“003”}对比时,得到的第一近似系数为1/(N*4);第一编码信息与第二编码信息{“004”}对比时,得到的第一近似系数为1/(M*4)。其中,4代表了目标文本“工作/人员/操作/设备”所代表的元素数量为4。。
所述步骤通过对比所述目标文本和各数据信息的关键词确定所述目标文本和各数据信息的匹配程度。
步骤S220:根据所述目标文本和各数据信息的文本内容确定各数据信息的第二近似系数。
具体地,在所述步骤中逐层对比各数据信息和目标文本的第二近似系数。确定包含所述目标文本中全部字的第一文本集合,以及包含所述目标数据信息中全部字的第二文本集合,对比所述第一文本集合和第二文本集合的相似程度以确定所述第三系数。所述对比第一文本集合和第二文本集合的相似程度例如可以为统计所述第一文本集合中的字在所述第二文本集合中出现的数量与所述第一文本集合中包含字数量的比值。当然,对于在树形结构或者结构化数据集合中频繁出现或者偶尔出现的字,其概率可以是不同的。例如,可以根据所述第一文本集合中某个字在所述树形结构或者结构化数据集合中出现的次数计算各字对应的概率值,然后统计所述第一文本集合中字在第二文本集合中出现的数量与所述第一文本集合中包含字的数量的比值。可选的,所述各字对应的概率值通过统计各字在树形结构或者结构化数据集合中出现的次数,计算次数的倒数得到。例如当所述目标文本为“工作人员操作设备”,所述目标数据信息为“设备”时,所述第一文本集合为{“工”,“作”,“人”,“员”,“操”,“作”,“设”,“备”},第二文本集合为{“设”“备”},其中,如“设”在树形结构或者结构化信息集合中出现的次数为T次,得到所述“设”对应的概率值为1/T;如“备”在树形结构或者结构化信息集合中出现的次数为X次,得到所述“备”对应的概率值为1/X。不考虑概率值的情况下,第一文本集合与第二文本集合的第二近似系数为0.25;考虑概率值的情况下,第一文本集合与第二文本集合的第二近似系数为(1/T+1/X)/8。。可选的,所述第二近似系数的确定过程和所述第一近似系数的确定过程可以同步独立进行。
所述步骤通过对比所述目标文本和各数据信息包含的字确定所述目标文本和各数据信息的匹配程度。
步骤S230:根据第二近似系数对所述第一近似系数进行修正以确定所述信息近似系数。
具体地,所述第二近似系数用于对所述各数据信息的第一近似系数进行修正以确定所述信息近似系数,所述确定信息近似系数的过程例如可以通过计算所述第一近似系数和第二近似系数的加权和得到,所述权重为预先设定的常数。例如当所述第一近似系数为A,所述第二近似系数为B时,所述信息近似系数X=μ1A+μ2B,其中μ1和μ2分别为预设的常数。除此之外,所述信息近似系数还可以通过计算所述第一近似系数和第二近似系数的乘积。作为本实施例的另一个可选的实施方式,还可以直接将所述第一近似系数确定为所述信息近似系数,不对所述第一近似系数进行修正;或当根据所述第一近似系数无法确定所述信息近似系数时,可以将所述第二近似系数确定为所述信息近似系数。
进一步地,所述信息近似系数还可以根据历史信息进行修正,所述历史信息用于记录用户反馈。例如当用户多次反馈某个数据信息不是要搜索的内容时,将所述数据信息对应的信息近似系数调低;当用户多次反馈某个数据信息是要搜索的内容时,将所述数据信息对应的信息近似系数调高。所述信息近似系数的调整可以通过调整在计算所述第一近似系数和所述第二近似系数时各元素对应的概率值来实现。
步骤S300:响应于目标数据信息的信息近似系数大于阈值,获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合。
具体地,当一个数据信息的信息近似系数大于设定的阈值时,在所述树形结构中确定表征所述数据信息的节点所在分支该节点以上的全部数据信息,并根据上述与目标文本匹配的全部数据信息组成信息组合。例如,所述树形结构第一层根节点的数据信息为“建筑信息”,所述树形结构第二层各节点的数据信息为“建筑”、“楼层”、“设备”、“人员”,所述树形结构第三层各节点“空调”、“消防”和“给排水”为对“设备的进一步划分”。当所述“空调”对应的信息近似系数大于阈值时,确定信息组合为{“建筑信息”,“设备”,“空调”}。每一个大于阈值的数据信息,都可以得到一个相应的数据信息组合。可以认为是一条搜索路径。
步骤S400:根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值。
具体地,所述匹配值可以通过计算所述信息组合内各数据信息的信息近似系数的和确定。例如,当所述信息组合为{“建筑信息”,“设备”,“空调”},各元素对应的信息近似系数依次为0.1、0和0.7时,确定所述匹配值为0.8。
步骤S500:根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
具体地,每个信息组合均对应一个匹配值,根据所述匹配值对所述信息组合进行排序,例如将所述各信息组合根据匹配值由大到小的顺序进行排序;再从所述排序中从第一个元素开始获取预定数量的信息组合输出。
进一步地,所述步骤S300中所述的阈值和步骤S500中的预定数量可以根据历史信息进行修正。例如当用户多次反馈没有找到需要信息时,可以适当将所述预定数量调大和/或将所述阈值调小;当用户多次反馈信息正确且所述正确信息集中在前推荐时,可以适当将所述预定数量调小和/或将所述阈值调大。
所述方法将数据信息以树形结构分层排列存储,在检索过程中通过将目标文本与所述数据信息逐层进行对比,以确定多个匹配结果。再对获取的全部匹配结果根据匹配值进行排序,根据匹配值输出搜索结果。所述方法在不需要输入精准信息的情况下就能精准的确定匹配结果,提高搜索的准确率。
图2为本发明实施例的结构化信息集合的示意图,如图2所示,所述结构化信息集合中的数据信息以树状结构分层排列。
具体地,所述树形结构中的第一层为数据信息1,所述树形结构中的第二层为数据信息2、数据信息3和数据信息4,所述树形结构的第三层为数据信息5、数据信息6、数据信息7、数据信息8、数据信息9和数据信息10。其中所述第二层的数据信息2、数据信息3和数据信息4为第一层的数据信息1的进一步分类,所述第三层的数据信息5和数据信息6为所述第二层的数据信息2的进一步分类,所述数据信息7为所述数据信息3的内容,所述数据信息8、数据信息9和数据信息10为所述数据信息4的进一步分类,依次类推构成以树状结构分层排列的结构化信息集合。当根据图1所述的搜索方法对所述结构化信息集合进行搜索时,依次逐层确定用于搜索的目标文本和所述结构化信息集合中的各数据信息的信息近似系数,当所述信息近似系数大于阈值时根所述数据信息和所述数据信息在树形结构中所在分支以上全部与目标文本匹配的数据信息确定信息组合,再进一步确定所述信息组合的匹配值,根据所述匹配值对信息组合排序并输出搜索结果。
图3为本发明实施例的搜索装置的示意图,用于实现如图1所述的搜索方法,如图3所示,所述搜索装置包括数据存储模块30、第一计算模块31、第二计算模块32、匹配模块33和排序模块34。
具体地,所述数据存储模块30用于确定目标文本和结构化信息集合,所述结构化信息集合中包括以树形结构分层排列的多个数据信息。所述第一计算模块31用于确定所述目标文本和所述各数据信息的信息近似系数。所述第二计算模块32用于判断目标数据信息的信息近似系数是否大于阈值,是则获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合。所述匹配模块33用于根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值。所述排序模块34用于根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
所述装置用于实现本申请实施例所述的搜索方法,将数据信息以树形结构分层排列存储,在检索过程中通过将目标文本与所述数据信息逐层进行对比,以确定多个匹配结果。再对获取的全部匹配结果根据匹配值进行排序,根据匹配值输出搜索结果。能够在输入信息模糊或不准确的条件下精准的确定匹配结果,提高搜索的准确率。
图4为本发明实施例的电子设备的示意图,如图4所示,在本实施例中,所述电子设备包括服务器、终端等。如图所示,所述电子设备包括:至少一个处理器42;与至少一个处理器通信连接的存储器41;以及与存储介质通信连接的通信组件43,所述通信组件43在处理器的控制下接收和发送数据;其中,存储器41存储有可被至少一个处理器42执行的指令,指令被至少一个处理器42执行以实现上述实施例中的搜索方法。
具体地,所述存储器41作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器42通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述搜索方法。
存储器41可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器41可选包括相对于处理器42远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器41中,当被一个或者多个处理器42执行时,执行上述任意方法实施例中的搜索方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种搜索方法,其特征在于,所述方法包括:
确定目标文本和结构化信息集合,所述结构化信息集合中包括以树形结构分层排列的多个数据信息;
确定所述目标文本和所述各数据信息的信息近似系数;
响应于目标数据信息的信息近似系数大于阈值,获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合;
根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值;
根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述结构化信息集合确定编码字典,所述编码字典中包含全部所述数据信息的关键词及对应的编码。
3.根据权利要求2所述的方法,其特征在于,所述根据所述结构化信息集合确定编码字典包括:
对所述结构化信息集合中全部数据信息进行分词操作以确定包含全部分词结果的关键词集合;
对所述关键词集合中的各元素进行编码;
根据所述关键词集合中的各元素和对应的编码确定编码字典。
4.根据权利要求2所述的方法,其特征在于,所述确定所述目标文本和所述各数据信息的信息近似系数包括:
根据所述目标文本、各数据信息和编码字典确定所述各数据信息的第一近似系数;
根据所述目标文本和各数据信息的文本内容确定各数据信息的第二近似系数;
根据第二近似系数对所述第一近似系数进行修正以确定所述信息近似系数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本、各数据信息和编码字典确定所述各数据信息的第一近似系数包括:
根据所述目标文本和编码字典确定第一编码信息;
根据目标数据信息和编码字典确定所述目标数据信息对应的第二编码信息;
根据所述第一编码信息和所述目标数据信息对应的第二编码信息确定所述目标数据信息对应的第一近似系数。
6.根据权利要求4所述的方法,其特征在于,所述确定所述目标文本和所述各数据信息的信息近似系数还包括:
确定历史信息,所述历史信息用于记录用户反馈;
根据所述历史信息修正所述目标数据信息对应的信息近似系数。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述用户历史信息调整阈值和预设数量。
8.一种搜索装置,其特征在于,所述装置包括:
数据存储模块,用于确定目标文本和结构化信息集合,所述结构化信息集合中包括以树形结构分层排列的多个数据信息;
第一计算模块,用于确定所述目标文本和所述各数据信息的信息近似系数;
第二计算模块,用于判断目标数据信息的信息近似系数是否大于阈值,是则获取所述树形结构中用于表征所述目标数据信息的节点以上全部与目标文本匹配的数据信息以确定信息组合;
匹配模块,用于根据所述信息组合内各数据信息的信息近似系数确定所述信息组合对应的匹配值;
排序模块,用于根据各信息组合对应的匹配值对所述信息组合进行排序并输出预定数量的信息组合。
9.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
CN201910754562.8A 2019-08-15 2019-08-15 搜索方法、装置、可读存储介质和电子设备 Active CN110442702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910754562.8A CN110442702B (zh) 2019-08-15 2019-08-15 搜索方法、装置、可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910754562.8A CN110442702B (zh) 2019-08-15 2019-08-15 搜索方法、装置、可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110442702A true CN110442702A (zh) 2019-11-12
CN110442702B CN110442702B (zh) 2022-09-02

Family

ID=68435780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910754562.8A Active CN110442702B (zh) 2019-08-15 2019-08-15 搜索方法、装置、可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110442702B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN112100180A (zh) * 2020-09-21 2020-12-18 北京嘀嘀无限科技发展有限公司 位置范围的确定方法、装置、存储介质和电子设备
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备
CN112818005A (zh) * 2021-02-03 2021-05-18 北京清科慧盈科技有限公司 结构化数据的搜索方法、装置、设备及存储介质
CN114373173A (zh) * 2022-01-12 2022-04-19 中国平安人寿保险股份有限公司 数据处理方法、装置、终端设备及存储介质
CN117252514A (zh) * 2023-11-20 2023-12-19 中铁四局集团有限公司 基于深度学习和模型训练的建筑物资库数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083608A (zh) * 2006-05-30 2007-12-05 华为技术有限公司 设备管理树节点信息的查询方法及其终端设备
CN102456055A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 兴趣点检索的方法及装置
CN103778124A (zh) * 2012-10-17 2014-05-07 北大方正集团有限公司 一种树形结构查询方法及装置
CN108875044A (zh) * 2018-06-27 2018-11-23 北京三快在线科技有限公司 联系人搜索方法、装置、存储介质及电子设备
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083608A (zh) * 2006-05-30 2007-12-05 华为技术有限公司 设备管理树节点信息的查询方法及其终端设备
CN102456055A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 兴趣点检索的方法及装置
CN103778124A (zh) * 2012-10-17 2014-05-07 北大方正集团有限公司 一种树形结构查询方法及装置
CN108875044A (zh) * 2018-06-27 2018-11-23 北京三快在线科技有限公司 联系人搜索方法、装置、存储介质及电子设备
CN110046236A (zh) * 2019-03-20 2019-07-23 腾讯科技(深圳)有限公司 一种非结构化数据的检索方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538840A (zh) * 2020-06-23 2020-08-14 基建通(三亚)国际科技有限公司 一种文本分类方法及装置
CN112100180A (zh) * 2020-09-21 2020-12-18 北京嘀嘀无限科技发展有限公司 位置范围的确定方法、装置、存储介质和电子设备
CN112100180B (zh) * 2020-09-21 2022-03-04 北京嘀嘀无限科技发展有限公司 位置范围的确定方法、装置、存储介质和电子设备
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备
CN112818005A (zh) * 2021-02-03 2021-05-18 北京清科慧盈科技有限公司 结构化数据的搜索方法、装置、设备及存储介质
CN112818005B (zh) * 2021-02-03 2024-02-02 北京清科慧盈科技有限公司 结构化数据的搜索方法、装置、设备及存储介质
CN114373173A (zh) * 2022-01-12 2022-04-19 中国平安人寿保险股份有限公司 数据处理方法、装置、终端设备及存储介质
CN117252514A (zh) * 2023-11-20 2023-12-19 中铁四局集团有限公司 基于深度学习和模型训练的建筑物资库数据处理方法
CN117252514B (zh) * 2023-11-20 2024-01-30 中铁四局集团有限公司 基于深度学习和模型训练的建筑物资库数据处理方法

Also Published As

Publication number Publication date
CN110442702B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN107463658B (zh) 文本分类方法及装置
CN105045875B (zh) 个性化信息检索方法及装置
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN111966810B (zh) 一种用于问答系统的问答对排序方法
EP2577521A2 (en) Detection of junk in search result ranking
CN113127632B (zh) 基于异质图的文本摘要方法及装置、存储介质和终端
WO2021139074A1 (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN106886565B (zh) 一种基础房型自动聚合方法
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN110222192A (zh) 语料库建立方法及装置
CN111339424B (zh) 基于关键词进行搜索的方法、装置、设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN110347821B (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111767404B (zh) 一种事件挖掘方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant