CN117725077A - 标识搜索方法、装置、计算机设备、存储介质和程序产品 - Google Patents
标识搜索方法、装置、计算机设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN117725077A CN117725077A CN202311581179.XA CN202311581179A CN117725077A CN 117725077 A CN117725077 A CN 117725077A CN 202311581179 A CN202311581179 A CN 202311581179A CN 117725077 A CN117725077 A CN 117725077A
- Authority
- CN
- China
- Prior art keywords
- query
- data
- result
- identification
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000004590 computer program Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000000875 corresponding effect Effects 0.000 claims description 57
- 238000004458 analytical method Methods 0.000 claims description 54
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种标识搜索方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:接收标识搜索请求,所述标识搜索请求携带有查询数据;将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;基于所述第一查询结果以及所述答案样式得到搜索结果。采用本方法不需要用户记住标识字符串,从而简化了标识搜索过程。
Description
技术领域
本申请涉及工业互联网技术领域,特别是涉及一种标识搜索方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
工业互联网作为数字化转型的主要推手,将标识解析技术和搜索引擎技术相结合,实现全面、准确、快速的工业数据发现和共享。作为一种新型的工业领域垂直搜索系统,相比于通用搜索和传统工业领域垂直搜索,工业互联网标识资源搜索在工业数据采集、数据挖掘、搜索意图理解等方面具有天然优势。
但是工业互联网标识搜索通常需要输入标识字符串,进行标识搜索,这样在不知道标识字符串时,几乎无法进行标识搜索。
发明内容
基于此,有必要针对上述技术问题,提供一种无需记住标识字符串的标识搜索方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供一种标识搜索方法,所述方法包括:
接收标识搜索请求,所述标识搜索请求携带有查询数据;
将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;
获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;
通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;
基于所述第一查询结果以及所述答案样式得到搜索结果。
在其中一个实施例中,所述数据模板还包括是否需要进行标识查询的查询标志;所述方法还包括:
当相匹配的所述目标问题对应的所述数据模板的所述查询标识为不需要进行标识查询时,继续执行基于所述第一查询结果以及所述答案样式得到搜索结果的步骤;
当相匹配的所述目标问题对应的所述数据模板的所述查询标识为需要进行标识查询时,基于所述第一查询结果进行标识解析得到解析结果,根据所述解析结果得到第二查询结果;
基于所述第二查询结果以及所述答案样式得到搜索结果。
在其中一个实施例中,所述基于所述第一查询结果进行标识解析得到解析结果,至少包括以下一种:
当所述查询数据中包括至少一个标识代码时,通过所述标识代码填充所述第一查询结果,得到解析结果;
获取与所述第一查询结果对应的标识后缀代码表,并基于所述标识后缀代码表中的目标标识代码填充所述第一查询结果,得到解析结果;
获取与所述第一查询结果对应的企业自定义编码规则,基于所述企业自定义编码规则得到企业自定义代码,并通过所述企业自定义代码填充所述第一查询结果,得到解析结果;
通过随机数或有序数填充所述第一查询结果中的企业自定义代码位,得到解析结果。
在其中一个实施例中,所述方法还包括:
将与所述查询数据相匹配的所述目标问题对应的所述数据模板按照匹配度进行排序;
当通过所述查询语句对知识图谱数据库进行查询未得到第一查询结果,或基于所述第一查询结果进行标识解析未得到第二查询结果时,基于匹配度获取下一与所述查询数据匹配的所述目标问题对应的所述数据模板中的查询语句,并继续执行通过所述查询语句对知识图谱数据库进行查询的步骤,直至得到搜索结果。
在其中一个实施例中,所述方法还包括:
将所得到的所述搜索结果以及所述查询数据关联存储至缓存中;
所述将所述查询数据与预先配置的数据模板进行匹配之前,还包括:
将所述查询数据与所述缓存中存储的所述查询数据进行匹配;
当所述查询数据与所述缓存中存储的所述查询数据的匹配度大于或等于目标匹配度时,获取匹配成功的所述缓存中存储的所述查询数据对应的搜索结果,作为所述查询数据的搜索结果。
在其中一个实施例中,所述方法还包括:
基于更新规则,对所述缓存中关联存储的所述搜索结果以及所述查询数据进行更新。
在其中一个实施例中,所述方法还包括:
当所述搜索结果为多条时,获取配置的排序规则;
基于所述排序规则对所述搜索结果进行排序,并输出排序后的搜索结果。
在其中一个实施例中,所述方法还包括:
记录所述搜索请求对应的搜索过程中的目标指标值;
基于所述目标指标值,调整所述搜索请求的搜索过程。
在其中一个实施例中,所述方法还包括:
获取目标查询数据以及答案内容;
基于所述目标查询数据确定目标问题,基于所述答案内容确定查询语句以及答案样式;
基于所述目标问题、所述查询语句以及所述答案样式得到数据模板。
在其中一个实施例中,所述方法还包括:
对不同行业的标识的编码规范进行数据提取,得到三元组数据;
基于所述三元组数据得到知识图谱数据库。
第二方面,本申请还提供一种标识搜索装置,所述装置包括:
接收模块,用于接收标识搜索请求,所述标识搜索请求携带有查询数据;
模板匹配模块,用于将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;
查询语句获取模块,用于获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;
知识图谱查询模块,用于通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;
搜索结果生成模块,用于基于所述第一查询结果以及所述答案样式得到搜索结果。
第三方面,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
上述标识搜索方法、装置、计算机设备、存储介质和计算机程序产品,在进行标识搜索时,仅需要输入查询数据,通过查询数据与预先配置的数据模板的目标问题进行匹配得到查询语句,进而通过查询语句对知识图谱数据库进行查询,从而得到标识的第一查询结果,进而根据答案样式和第一查询结果得到搜索结果,不需要用户记住标识字符串,从而简化了标识搜索过程。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中的标识的示意图;
图2为一个实施例中标识搜索方法的应用环境图;
图3为一个实施例中标识搜索方法的流程示意图;
图4为一个实施例中数据模板的示意图;
图5为一个实施例中的知识图谱数据库的示意图;
图6为另一个实施例中的标识搜索方法的流程图;
图7为一个实施例中标识搜索装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
其中为了方便理解,在详细介绍本申请之前,对本申请所涉及的标识进行说明,具体可以参见图1所示,图1为一个实施例中的标识的示例,在该实施例中,工业互联网标识包括标识前缀和标识后缀,其中前缀与后缀之间以UTF-8字符“/”分隔;其中标识前缀包括国家代码、行业代码、企业代码,用于唯一标识企业主体;以AAA行业标识编码规范为例,标识后缀包括基础分类代码、品牌代码、型号代码、流通特征代码、生产日期代码和企业自定义等代码,用于唯一识别标识对象,结合图1所示,(AAA行业,使用,xx编码规范)表示AAA行业使用xx编码规范;(YYY公司,企业前缀,88.XXX.ABCDEF)表示YYY公司企业前缀代码是88.XXX.ABCDEF。
本申请实施例提供的标识搜索方法,可以应用于如图2所示的应用环境中。其中,终端202通过网络与标识搜索系统204进行通信,标识搜索系统204还与标识解析系统206相通信。数据存储系统可以存储标识搜索系统204需要处理的数据。数据存储系统可以集成在标识搜索系统204上,也可以放在云上或其他网络服务器上。
其中,终端202可以将标识搜索请求发送至标识搜索系统204,标识搜索系统204接收标识搜索请求,并将标识搜索请求所携带的查询数据与预先配置的数据模板中的目标问题进行匹配,并获取与查询数据相匹配的目标问题对应的数据模板,然后基于该数据模板中的查询语句对知识图谱数据库进行查询,得到第一查询结果,该知识图谱数据库是基于不同行业的标识的编码规范生成的,这样知识图谱数据库中即存储有标识的前缀、前缀的编码规范以及标识后缀的编码规范,通过查询知识图谱数据库可以实现标识的查询,且若是不需要对标识解析系统206查询,则基于第一查询结果和答案样式得到搜索结果,若是需要对标识解析系统206进行查询,则标识解析系统206基于第一查询结果进行标识解析得到解析结果,根据解析结果得到第二查询结果,基于第二查询结果以及答案样式得到搜索结果,并反馈至终端202,这样不需要用户记住标识字符串,从而简化了标识搜索过程。
其中,终端202可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。标识搜索系统204以及标识解析系统206可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个示例性的实施例中,如图3所示,提供了一种标识搜索方法,以该方法应用于图1中的标识搜索系统为例进行说明,包括以下步骤302至步骤306。
其中:
S302:接收标识搜索请求,标识搜索请求携带有查询数据。
其中,标识搜索请求是由第三方发起的,例如通过第三方影城程序发起的,该标识搜索请求所携带的查询数据可以为文本、音频、视频、图像中的一种或多种。
在其中一些可选的实施例中,标识搜索系统接收到标识搜索请求后,对查询数据进行文本提取,其中当查询数据为文本时,则直接获取文本;当查询数据为音频,则可以识别音频中的语音信息,并转换为文本以实现文本的提取;当查询数据为视频时,可以提取视频中某帧图像中的文本;当查询数据为图像时,则提取图像中的文本,以实现对查询数据的理解。这样使得本申请的标识搜索系统既支持传统搜索引擎搜索模式,支持快速检索,如关键字、文本搜索等,还支持图像、语音以及视频的搜索。
其中可选地,在提取到查询数据对应的文本后,还可以提取文本中的关键词,该关键词用于后续与数据模板的匹配。在其中一个可选的实施例中,该关键词可以包括下文中知识图谱数据库中的实体。
S304:将查询数据与预先配置的数据模板中的目标问题进行匹配;其中,数据模板还包括查询语句以及答案样式。
其中,数据模板是用于将查询语句转换为知识图谱数据库的查询语句,例如SQL脚本。结合图4所示,图4为一个实施例中数据模板的示意图,该数据模板可以包括目标问题、查询语句以及答案样式。其中目标问题用于表示用户所提出的问题模型,其是常见的搜索问题,其可以是基于各用户的历史行为得到的。查询语句为将该目标问题转化得到的知识图谱数据库对应的查询脚本,例如SQL脚本。答案样式是为返回搜索结果的样式,其目的是为了接近于人的回答形式。
在其他的可选的实施例中,数据模板还可以包括槽位。该槽位可以为目标问题中的关键词,这样在查询数据与数据模块匹配中的目标问题匹配时,可以将查询数据的关键词与该槽位对应的目标问题中的关键词进行匹配,并根据关键词的匹配结果确定与查询数据相匹配的目标问题。在其中一个可选的实施例中,为了提高搜索效率,当数据模板的数量大于预设数量时,为了降低数据模板的匹配时间,提高数据模板的匹配效率,可以增加槽位字段。其中该槽位字段可以为知识图谱数据库中的实体、属性、关系或标签,槽位字段的数量可以根据数据模板中具体的实体、属性、关系或标签的个数决定。
在其他的可选的实施例中,数据模板还可以包括是否需要进行标识查询的查询标志。其中是否需要进行标识查询与目标问题相关,也即数据模板中的目标问题确定后,则该查询标志确定,通过设置该查询标志,以指示标识搜索系统是否需要调用标识解析系统以进一步地进行标识解析。为了方便理解,当目标问题对应的答案仅包括标识前缀时,则无需进行标识解析,即查询标识表征无需进行标识查询。当目标问题对应的答案还包括标识后缀时,则需要进行标识解析,即查询标识表征需要进行标识查询。
在其中一个可选的实施例中,数据模板是预先配置的,该数据模板中的内容可以基于目标问题确定。该数据模板的配置方式可以包括:获取目标查询数据以及答案内容;基于目标查询数据确定目标问题,基于答案内容确定查询语句以及答案样式;基于目标问题、查询语句以及答案样式得到数据模板。其中目标查询数据以及答案内容可以是常见搜索问题以及答案内容,这样基于该些场景搜索问题确定目标问题,基于答案内容确定查询语句和答案样式,后续还可以基于目标问题和知识图谱数据库确定槽位,基于答案内容和目标问题确定查询标识等,从而生成完整的数据模板。在其他可选的实施例中,若查询数据未对应有数据模板时,则可以记录该查询数据,并统计未对应有数据模板的查询数据的出现次数,若出现次数大于次数阈值,则输出该查询数据,以便于及时生成数据模板。在其他的可选的实施例中,本实施例中还提供对数据模板的维护功能,以实现数据模板的增加、删除、修改以及查询等功能。
S306:获取与查询数据相匹配的目标问题对应的数据模板,并获取数据模板中的查询语句。
其中查询数据与目标问题的是否匹配可以通过查询数据对应的关键词与槽位的关键词的关键词匹配度确定,在其中一个可选的实施例中,基于查询数据对应的关键词与槽位的关键词的关键词匹配度,得到查询数据和目标问题的目标匹配度,然后基于该目标匹配度进行排序,基于排序的结果获取到与查询数据相匹配的目标问题对应的数据模板。结合图4,每个目标问题均对应至少一个查询语句,标识搜索系统获取到该查询语句,从而将查询数据转换为知识图谱数据库对应的查询语句。
为了方便理解,假设查询语句为查询某企业2022年3月12日生产的某型号5G天线主板是哪个厂商提供的。将其与数据模板进行匹配,根据相似度进行排序,取得分最高的数据模板,以图4中的数据模板为例,本次最接近的目标问题是第四个数据模板中的目标问题,因此将第四个数据模板作为匹配成功的数据模板。
S308:通过查询语句对知识图谱数据库进行查询,得到第一查询结果;其中知识图谱数据库是基于不同行业的标识的编码规范生成的。
其中,知识图谱数据库是基于不同行业的标识的编码规范生成的。具体结合图5所示,图5为一个实施例中的知识图谱数据库的示意图,在该实施例中,该知识图谱数据库包括与标识前缀对应的实体,标识前缀的编码规范以及标识后缀的编码规范。其中标识的编码规范可以包括多条规则,每一条规则对应一个三元组,例如(实体,关系,实体)或者(实体、属性、值),如:(xx行业,使用,xx规范),(xx行业,包含,xx企业),(xx公司,企业前缀,88.343.xxxxxx),然后将这些三元组通过互联起来,形成一张图谱。
其中可选地,本实施例中还可以提供知识图谱数据库的管理功能,通过基本增删改查对知识图谱数据库进行微调,实现图谱元素的增删改查,图谱正确性越高,图谱内容越丰富,搜索效果就越好。
为了方便理解,在其中一个可选的实施例中,该知识图谱数据库的生成方式包括:对不同行业的标识的编码规范进行数据提取,得到三元组数据;基于三元组数据得到知识图谱数据库。具体地,获取到不同行业的标识的编码规范,该编码规范包括多条编码规则,对每一条编码规则进行数据提取得到三元组,然后将三元组互联,得到知识图谱数据库。
在其中一个可选的实施例中,后续可以创建可视化图谱,例如通过NEO4J进行可视化图谱创建,如创建一个节点的示例:CREATE(n:industry{name:'企业A',address:城市A}),创建一个关系的示例:match(n:标签{name:"YYY公司"})set n.idprefix="88.XXX.ABCDEF"return n,最终将所有节点、属性、关系创建完成,即完成图谱的创建。后续可以通过MATCH(n)RETURN n即可查看整个知识图谱。
其中,在获取到查询语句后,通过查询语句查询知识图谱数据库,以得到第一查询结果,其中第一查询结果可以包括知识图谱数据库中实体、属性、关系或标签,例如标识的前缀,结合图5所示,即知识图谱数据库中与各个企业相连接的前缀,从而实现标识的搜索。
这样通过引入知识图谱,从而使得本申请的搜索能力更加智能,其可以实现对文本、音视频等多模态数据的识别技术,能够对数据要素进行特征提取,实现数据去重和异常识别等数据清洗技术;针对特定工业场景的知识构建,支持工业语义网知识计算技术与知识图谱动态更新与扩展技术;在知识构建过程中,利用工业互联网标识编码自带的关联性进行数据的融合关联。
S310:基于第一查询结果以及答案样式得到搜索结果。
其中答案样式是搜索结果的显示样式,将第一查询结果中各实体、属性、关系或标签填充至答案样式中以得到搜索结果,并将搜索结果发送至对应的终端。
在其中一个可选的实施例中,数据模板还包括是否需要进行标识查询的查询标志;方法还包括:当相匹配的目标问题对应的数据模板的查询标识为不需要进行标识查询时,例如查询标识为0时(在其他的实施例中可以通过其他的形式表示,这里的0仅是举例说明),继续执行基于第一查询结果以及答案样式得到搜索结果的步骤;当相匹配的目标问题对应的数据模板的查询标识为需要进行标识查询时,例如查询标识为1时(在其他的实施例中可以通过其他的形式表示,这里的1仅是举例说明),基于第一查询结果进行标识解析得到解析结果,根据解析结果得到第二查询结果;基于第二查询结果以及答案样式得到搜索结果。
其中,当查询表示表征还需要进行标识查询时,则通过标识解析系统进一步地进行标识的二次查询,可以理解的是,通过标识解析系统的查询主要是为了获取到标识的后缀。结合图5所示,此时标识后缀信息不足,可能缺少基础分类代码、品牌代码、型号代码、流通特征代码、生成日期代码、企业自定义代码中的一个或多个,为此进行标识解析以进行填充得到完整的标识,从而基于标识进行解析得到符合要求的标识搜索结果,基于第二查询结果和答案样式得到搜索结果。
在其中一个可选的实施例中,该方法还包括:当搜索结果为多条时,获取配置的排序规则;基于排序规则对搜索结果进行排序,并输出排序后的搜索结果。
其中排序规则包括但不限于按照时间排序(正序、倒序),按照标识解析体系排序,按照应用排序,按相关度排序(相关度可定义);根据内容相关性、结果重要性、时效性、关系关联性等因素对搜索结果进行模型排序或者人工排序等等。
上述标识搜索方法,在进行标识搜索时,仅需要输入查询数据,通过查询数据与预先配置的数据模板的目标问题进行匹配得到查询语句,进而通过查询语句对知识图谱数据库进行查询,从而得到标识的第一查询结果,进而根据答案样式和第一查询结果得到搜索结果,不需要用户记住标识字符串,从而简化了标识搜索过程。这样在通过知识图谱进行工业互联网标识搜索,突破标识搜索瓶颈,让标识搜索变得简单,也有利于标识的推广及应用。通过实施该方法后,在进行标识搜索时,用户只需要输入想要搜索标识的意图,可以通过语音、视频、图片、文字等方式进行输入,如搜索“A公司B产品信息”,经过知识图谱进行分析推理,标识搜索系统立即输出A公司B产品信息,无需通过输入一串标识字符串进行标识搜索,解决了需要用户强制记住标识字符串的问题,同时让标识更具有“人性化”,极大简化标识搜索过程。
在其中一个实施例中,基于第一查询结果进行标识解析得到解析结果,至少包括以下一种:当查询数据中包括至少一个标识代码时,通过标识代码填充第一查询结果,得到解析结果;获取与第一查询结果对应的标识后缀代码表,并基于标识后缀代码表中的目标标识代码填充第一查询结果,得到解析结果;获取与第一查询结果对应的企业自定义编码规则,基于企业自定义编码规则得到企业自定义代码,并通过企业自定义代码填充第一查询结果,得到解析结果;通过随机数或有序数填充第一查询结果中的企业自定义代码位,得到解析结果。
其中对于第一查询结果的标识解析包括多种方式,具体的方式可以包括以下至少一种:
当查询数据中存在一个或多个代码时,则可以直接填充第一查询结果。
当查询数据中不存在代码时,则基于第一查询结果获取到企业对应的标识后缀代码表,基于标识后缀代码表中的目标标识代码填充第一查询结果,例如通过标识后缀代码表中的第一个进行填充。
当企业自定义代码需要填充时,则基于企业自定义编码规则得到企业自定义代码,并通过企业自定义代码填充第一查询结果。
在其他的实施例中,还可以通过随机数或有序数的方式作为企业自定义代码,以填充第一查询结果。
这样填充后的第一查询结果可以为完整的标识,将完整的标识发送到标识解析系统进行解析得到第二查询结果,后续将第二查询结果填充至答案样式中,得到搜索结果。
上述实施例中,可以通过不同的方式对标识解析得到完整的标识,进而后续查询得到第二查询结果。
在其中一个实施例中,上述标识搜索方法还包括:将与查询数据相匹配的目标问题对应的数据模板按照匹配度进行排序;当通过查询语句对知识图谱数据库进行查询未得到第一查询结果,或基于第一查询结果进行标识解析未得到第二查询结果时,基于匹配度获取下一与查询数据匹配的目标问题对应的数据模板中的查询语句,并继续执行通过查询语句对知识图谱数据库进行查询的步骤,直至得到搜索结果。
其中,若是基于确定的查询语句未得到对应的搜索结果,也即当通过查询语句对知识图谱数据库进行查询未得到第一查询结果,或基于第一查询结果进行标识解析未得到第二查询结果时,则继续获取下一与查询数据相匹配的目标问题,并获取目标问题对应的数据模板后,重复上述过程,直至得到搜索结果。
上述实施例中,将与查询数据相匹配的目标问题对应的数据模板按照匹配度进行排序,这样按照匹配度排序后,可以基于匹配度获取到各与查询数据相匹配的目标问题,进而可以确保存在搜索结果。
在其中一个实施例中,上说标识搜索方法还包括:将所得到的搜索结果以及查询数据关联存储至缓存中;将查询数据与预先配置的数据模板进行匹配之前,还包括:将查询数据与缓存中存储的查询数据进行匹配;当查询数据与缓存中存储的查询数据的匹配度大于或等于目标匹配度时,获取匹配成功的缓存中存储的查询数据对应的搜索结果,作为查询数据的搜索结果。
其中,本实施例中,在每次得到搜索结果后,还将所得到的搜索结果以及查询数据关联存储至缓存中,例如放在缓存中的堆栈中,采用后进先出的思想进行排序,当与之前提过的查询数据很高时,例如大于或等于目标匹配度时,可将搜索结果直接返回给终端,减少用户搜索次数,降低系统压力,且减少标识搜索系统与外部标识解析系统的交互次数,降低解析时延。
在其中一个可选的实施例中,该方法还包括:基于更新规则,对缓存中关联存储的搜索结果以及查询数据进行更新。
其中更新规则可以包括但不限于最近最少使用策略、大小自适应最近最少使用策略、加权缓存策略、准入策略中的至少一个。这样基于更新规则对缓存中的内容进行更新,可以保证数据的实时性和准确性。
在其中一个实施例中,该方法还包括:记录搜索请求对应的搜索过程中的目标指标值;基于目标指标值,调整搜索请求的搜索过程。
其中目标指标值包括但不限于搜索过程中标识请求/应答、时延、解析量、服务器软硬件资源状态、一定时间内标识解析访问量以及本地缓存命中情况中的至少一个。
其中基于时延,可以确定搜索请求处理的时间延迟,当时间延迟大于时间阈值时,及时调整搜索请求的搜索过程,例如调整访问路径以便下次能够用最短时间获取搜索结果,其中访问路径可以是指基于与查询数据相匹配的目标问题对应的数据模板按照匹配度所确定的查询语句的先后顺序,修改这个顺序,以改变搜索请求的处理时间。
其中,为了便于本领域技术人员的理解,结合图6所示,图6为另一个实施例中的标识搜索方法的流程图,在该实施例中,标识搜索系统接收到标识搜索请求,进行标识搜索,具体地,将查询数据的关键词与数据模板中的槽位进行匹配,确定匹配的数据模板,然后获取到数据模板的查询语句,基于查询语句查询知识图谱数据库得到第一查询结果,若还需要进行标识解析,则通过标识解析数据库进行标识解析,并基于解析的结果得到第二查询结果,这样基于第一查询结果或第二查询结果以及答案样式得到搜索结果,并将搜索结果反馈给终端。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的标识搜索方法的标识搜索装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个标识搜索装置实施例中的具体限定可以参见上文中对于标识搜索方法的限定,在此不再赘述。
在一个示例性的实施例中,如图7所示,提供了一种标识搜索装置,包括:接收模块701、模板匹配模块702、查询语句获取模块703、知识图谱查询模块704和搜索结果生成模块705,其中:
接收模块701,用于接收标识搜索请求,所述标识搜索请求携带有查询数据;
模板匹配模块702,用于将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;
查询语句获取模块703,用于获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;
知识图谱查询模块704,用于通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;
搜索结果生成模块705,用于基于所述第一查询结果以及所述答案样式得到搜索结果。
在其中一个实施例中,所述数据模板还包括是否需要进行标识查询的查询标志;该装置还包括解析模块,用于当相匹配的所述目标问题对应的所述数据模板的所述查询标识为不需要进行标识查询时,继续执行基于所述第一查询结果以及所述答案样式得到搜索结果的步骤;当相匹配的所述目标问题对应的所述数据模板的所述查询标识为需要进行标识查询时,基于所述第一查询结果进行标识解析得到解析结果,根据所述解析结果得到第二查询结果;基于所述第二查询结果以及所述答案样式得到搜索结果。
在其中一个实施例中,上述解析模块用于通过以下至少一种方式所述基于所述第一查询结果进行标识解析得到解析结果:当所述查询数据中包括至少一个标识代码时,通过所述标识代码填充所述第一查询结果,得到解析结果;获取与所述第一查询结果对应的标识后缀代码表,并基于所述标识后缀代码表中的目标标识代码填充所述第一查询结果,得到解析结果;获取与所述第一查询结果对应的企业自定义编码规则,基于所述企业自定义编码规则得到企业自定义代码,并通过所述企业自定义代码填充所述第一查询结果,得到解析结果;通过随机数或有序数填充所述第一查询结果中的企业自定义代码位,得到解析结果。
在其中一个实施例中,上述装置还包括:循环模块,用于将与所述查询数据相匹配的所述目标问题对应的所述数据模板按照匹配度进行排序;当通过所述查询语句对知识图谱数据库进行查询未得到第一查询结果,或基于所述第一查询结果进行标识解析未得到第二查询结果时,基于匹配度获取下一与所述查询数据匹配的所述目标问题对应的所述数据模板中的查询语句,并继续执行通过所述查询语句对知识图谱数据库进行查询的步骤,直至得到搜索结果。
在其中一个实施例中,上述装置还包括:缓存模块,用于将所得到的所述搜索结果以及所述查询数据关联存储至缓存中;
缓存匹配模块,用于将所述查询数据与所述缓存中存储的所述查询数据进行匹配;当所述查询数据与所述缓存中存储的所述查询数据的匹配度大于或等于目标匹配度时,获取匹配成功的所述缓存中存储的所述查询数据对应的搜索结果,作为所述查询数据的搜索结果。
在其中一个实施例中,上述装置还包括:缓存更新模块,用于基于更新规则,对所述缓存中关联存储的所述搜索结果以及所述查询数据进行更新。
在其中一个实施例中,上述装置还包括:结果排序模块,用于当所述搜索结果为多条时,获取配置的排序规则;基于所述排序规则对所述搜索结果进行排序,并输出排序后的搜索结果。
在其中一个实施例中,上述装置还包括:调整模块,用于记录所述搜索请求对应的搜索过程中的目标指标值;基于所述目标指标值,调整所述搜索请求的搜索过程。
在其中一个实施例中,上述装置还包括:模块生成模块,用于获取目标查询数据以及答案内容;基于所述目标查询数据确定目标问题,基于所述答案内容确定查询语句以及答案样式;基于所述目标问题、所述查询语句以及所述答案样式得到数据模板。
在其中一个实施例中,上述装置还包括:知识图谱数据库生成模块,用于对不同行业的标识的编码规范进行数据提取,得到三元组数据;基于所述三元组数据得到知识图谱数据库。
上述标识搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据模块。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标识搜索方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (14)
1.一种标识搜索方法,其特征在于,所述方法包括:
接收标识搜索请求,所述标识搜索请求携带有查询数据;
将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;
获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;
通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;
基于所述第一查询结果以及所述答案样式得到搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述数据模板还包括是否需要进行标识查询的查询标志;所述方法还包括:
当相匹配的所述目标问题对应的所述数据模板的所述查询标识为不需要进行标识查询时,继续执行基于所述第一查询结果以及所述答案样式得到搜索结果的步骤;
当相匹配的所述目标问题对应的所述数据模板的所述查询标识为需要进行标识查询时,基于所述第一查询结果进行标识解析得到解析结果,根据所述解析结果得到第二查询结果;
基于所述第二查询结果以及所述答案样式得到搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一查询结果进行标识解析得到解析结果,至少包括以下一种:
当所述查询数据中包括至少一个标识代码时,通过所述标识代码填充所述第一查询结果,得到解析结果;
获取与所述第一查询结果对应的标识后缀代码表,并基于所述标识后缀代码表中的目标标识代码填充所述第一查询结果,得到解析结果;
获取与所述第一查询结果对应的企业自定义编码规则,基于所述企业自定义编码规则得到企业自定义代码,并通过所述企业自定义代码填充所述第一查询结果,得到解析结果;
通过随机数或有序数填充所述第一查询结果中的企业自定义代码位,得到解析结果。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将与所述查询数据相匹配的所述目标问题对应的所述数据模板按照匹配度进行排序;
当通过所述查询语句对知识图谱数据库进行查询未得到第一查询结果,或基于所述第一查询结果进行标识解析未得到第二查询结果时,基于匹配度获取下一与所述查询数据匹配的所述目标问题对应的所述数据模板中的查询语句,并继续执行通过所述查询语句对知识图谱数据库进行查询的步骤,直至得到搜索结果。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
将所得到的所述搜索结果以及所述查询数据关联存储至缓存中;
所述将所述查询数据与预先配置的数据模板进行匹配之前,还包括:
将所述查询数据与所述缓存中存储的所述查询数据进行匹配;
当所述查询数据与所述缓存中存储的所述查询数据的匹配度大于或等于目标匹配度时,获取匹配成功的所述缓存中存储的所述查询数据对应的搜索结果,作为所述查询数据的搜索结果。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于更新规则,对所述缓存中关联存储的所述搜索结果以及所述查询数据进行更新。
7.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
当所述搜索结果为多条时,获取配置的排序规则;
基于所述排序规则对所述搜索结果进行排序,并输出排序后的搜索结果。
8.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
记录所述搜索请求对应的搜索过程中的目标指标值;
基于所述目标指标值,调整所述搜索请求的搜索过程。
9.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
获取目标查询数据以及答案内容;
基于所述目标查询数据确定目标问题,基于所述答案内容确定查询语句以及答案样式;
基于所述目标问题、所述查询语句以及所述答案样式得到数据模板。
10.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
对不同行业的标识的编码规范进行数据提取,得到三元组数据;
基于所述三元组数据得到知识图谱数据库。
11.一种标识搜索装置,其特征在于,所述装置包括:
接收模块,用于接收标识搜索请求,所述标识搜索请求携带有查询数据;
模板匹配模块,用于将所述查询数据与预先配置的数据模板中的目标问题进行匹配;其中,所述数据模板还包括查询语句以及答案样式;
查询语句获取模块,用于获取与所述查询数据相匹配的所述目标问题对应的数据模板,并获取所述数据模板中的查询语句;
知识图谱查询模块,用于通过所述查询语句对知识图谱数据库进行查询,得到第一查询结果;其中所述知识图谱数据库是基于不同行业的标识的编码规范生成的;
搜索结果生成模块,用于基于所述第一查询结果以及所述答案样式得到搜索结果。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311581179.XA CN117725077A (zh) | 2023-11-22 | 2023-11-22 | 标识搜索方法、装置、计算机设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311581179.XA CN117725077A (zh) | 2023-11-22 | 2023-11-22 | 标识搜索方法、装置、计算机设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725077A true CN117725077A (zh) | 2024-03-19 |
Family
ID=90207777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311581179.XA Pending CN117725077A (zh) | 2023-11-22 | 2023-11-22 | 标识搜索方法、装置、计算机设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725077A (zh) |
-
2023
- 2023-11-22 CN CN202311581179.XA patent/CN117725077A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907244B2 (en) | Modifying field definitions to include post-processing instructions | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
US11681944B2 (en) | System and method to generate a labeled dataset for training an entity detection system | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
US9870382B2 (en) | Data encoding and corresponding data structure | |
CN104750776A (zh) | 使用元数据访问数据库平台中的信息内容 | |
CN105138649A (zh) | 数据的搜索方法、装置及终端 | |
CN107169003B (zh) | 一种数据关联方法及装置 | |
CN114817717A (zh) | 搜索方法、装置、计算机设备和存储介质 | |
WO2024050972A1 (zh) | 数据库表的分片方法、装置、计算机设备和存储介质 | |
CN108509059B (zh) | 一种信息处理方法、电子设备和计算机存储介质 | |
CN115577147A (zh) | 可视化情报图谱检索方法、装置、电子设备及存储介质 | |
CN117725077A (zh) | 标识搜索方法、装置、计算机设备、存储介质和程序产品 | |
CN115146103A (zh) | 图像检索方法、装置、计算机设备、存储介质和程序产品 | |
CN110737662B (zh) | 一种数据分析方法、装置、服务器及计算机存储介质 | |
CN114461606A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN110609926A (zh) | 数据标签存储管理方法及装置 | |
CN115221249B (zh) | 跨库数据查询方法、装置、计算机设备和存储介质 | |
CN116644084B (zh) | 处理三维模型构件数据的方法、装置、设备和存储介质 | |
CN117688140B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN113626600B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
WO2022204845A1 (zh) | 实体热度生成方法、装置、存储介质及电子设备 | |
CN116975198A (zh) | 信息查询方法、装置、设备和介质 | |
CN113961636A (zh) | 对象关系查询方法、装置、计算机设备、存储介质 | |
WO2022194080A1 (zh) | 数据标注方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |