CN117349312A - 单词标准化、查询方法、装置、电子设备以及存储介质 - Google Patents
单词标准化、查询方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN117349312A CN117349312A CN202311387647.XA CN202311387647A CN117349312A CN 117349312 A CN117349312 A CN 117349312A CN 202311387647 A CN202311387647 A CN 202311387647A CN 117349312 A CN117349312 A CN 117349312A
- Authority
- CN
- China
- Prior art keywords
- word
- spoken
- standardized
- target
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 155
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 238000010606 normalization Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了单词标准化、查询方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及语音技术、智能搜索、大语言模型等领域。具体实现方案为:将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识;根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式;以及根据目标标准化单词,确定待处理单词的标准化形式。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及语音技术、智能搜索、大语言模型等领域,具体地,涉及一种单词标准化、查询方法、装置、电子设备以及存储介质。
背景技术
大规模分布式系统可以包含多个服务,每个服务可以包含多个指标,高可用系统是多地多活架构,包含很多机房。人机交互过程中,涉及到大量的名字。大语言模型给生产力带来了显著提升,基于大语言模型使得人机交互变得更便利,人可以以口语化的方式完成交互过程。例如,口语化查询系统中各服务的指标,口语化询问系统中各服务的部署状态,口语化获取各服务的知识,口语化完成对服务的操作等等。
发明内容
本公开提供了一种单词标准化、查询方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种单词标准化方法,包括:将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识;根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式;以及根据目标标准化单词,确定待处理单词的标准化形式。
根据本公开的另一方面,提供了一种查询方法,包括:获取口语化查询语句,口语化查询语句中包括口语化单词;基于本公开的单词标准化方法,将口语化单词转换为标准化单词,得到标准化查询语句;以及基于标准化查询语句进行查询。
根据本公开的另一方面,提供了一种单词标准化装置,包括:匹配模块,用于将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识;标准化单词确定模块,用于根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式;以及标准化模块,用于根据目标标准化单词,确定待处理单词的标准化形式。
根据本公开的另一方面,提供了一种查询装置,包括:口语化查询语句获取模块,用于获取口语化查询语句,口语化查询语句中包括口语化单词;单词转换模块,用于基于本公开的单词标准化装置,将口语化单词转换为标准化单词,得到标准化查询语句;以及查询模块,用于基于标准化查询语句进行查询。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的单词标准化方法和查询方法其中至少一种方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开的单词标准化方法和查询方法其中至少一种方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现本公开的单词标准化方法和查询方法其中至少一种方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用单词标准化方法和查询方法其中至少一种方法及相应装置的示例性系统架构;
图2示意性示出了根据本公开实施例的单词标准化方法的流程图;
图3示意性示出了根据本公开实施例的基于向量数据库和第一大语言模型实现口语名转换的示意图;
图4示意性示出了根据本公开实施例的查询方法的流程图;
图5示意性示出了根据本公开实施例的采用基于本公开的名字转换服务及查询方法构建的查询系统,实现基于spec的口语化知识问答的操作示意图;
图6示意性示出了根据本公开实施例的调用spec处理工具完成结果的加工的示意图;
图7示意性示出了根据本公开实施例的单词标准化装置的框图;
图8示意性示出了根据本公开实施例的查询装置的框图;以及
图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
在基于大语言模型进行人机交互的过程中,需要将各种口语化名字和真实名字之间的映射信息作为知识写在prompt(提词)中。
发明人在实现本公开构思的过程中发现,在系统规模非常庞大的情况下,大量的名字知识会面临prompt爆炸的问题,使口语化交互变得不可行。
此外,研发和运维日常工作中,经常需要查询服务的基本信息。例如“A服务使用了多少CPU quota(配额)”、“B服务使用了什么亲和性策略”、“C服务有哪些词典数据”等。获取这些知识,要求用户要精准地记住服务名、机房名,清楚服务描述信息中各个字段的含义,非常复杂。没有一定的工作经验,很难轻易地得到该些问题的答案。
图1示意性示出了根据本公开实施例的可以应用单词标准化方法和查询方法其中至少一种方法及相应装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用单词标准化方法和查询方法其中至少一种方法及相应装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的单词标准化方法和查询方法其中至少一种方法及相应装置。
如图1所示,根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的单词标准化方法和查询方法其中至少一种方法一般可以由第一终端设备101、第二终端设备102或第三终端设备103执行。相应地,本公开实施例所提供的单词标准化装置和查询装置其中至少一种装置也可以设置于第一终端设备101、第二终端设备102或第三终端设备103中。
或者,本公开实施例所提供的单词标准化方法和查询方法其中至少一种方法一般也可以由服务器105执行。相应地,本公开实施例所提供的单词标准化装置和查询装置其中至少一种装置一般可以设置于服务器105中。本公开实施例所提供的单词标准化方法和查询方法其中至少一种方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的单词标准化装置和查询装置其中至少一种装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
例如,在需要对待处理代词进行标准化时,第一终端设备101、第二终端设备102、第三终端设备103可以获取待处理单词,然后将获取的待处理单词发送给服务器105,由服务器105将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识;根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式;并根据目标标准化单词,确定待处理单词的标准化形式。或者由能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群对待处理单词进行分析,并实现确定待处理单词的标准化形式。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的单词标准化方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识。
在操作S220,根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式。
在操作S230,根据目标标准化单词,确定待处理单词的标准化形式。
根据本公开的实施例,向量数据库作为与大模型相辅相成的一种技术,可以提供模糊匹配的能力和海量的存储能力。在本实施例中,可以预先采集多个口语化单词。然后,可以将每个口语化单词通过embedding模型转换成一个口语化单词向量,每个口语化单词向量可以对应一个向量标识。口语化单词向量及其向量标识可以预先存储于向量数据库中。
根据本公开的实施例,待处理单词和口语化单词可以相同或不同,两者均可包括各类场景下、具有各类词义的字或词。在获得待处理单词之后,可以将待处理单词通过embedding模型转换成向量,得到待处理单词向量。
根据本公开的实施例,在确定两向量之间的相似度大于预设阈值的情况下,均可以判定为该两向量相匹配。例如,在待处理单词向量与口语化单词向量的相似度大于预设阈值的情况下,可以将该口语化单词向量确定为与待处理单词向量相匹配的目标口语化单词向量。相似度可以通过欧式距离计算,且可不限于此。
根据本公开的实施例,映射信息可以维护在普通数据库中。由于映射信息记录有向量标识与标准化单词之间的关联关系。在获得目标向量标识的情况下,可以根据映射信息,确定目标标准化单词。
需要说明的是,映射信息还可以记录有具有关联关系的向量标识、口语化标识和标准化单词三者之间的关系,在此不做限定。
根据本公开的实施例,在获得目标标准化单词的情况下,可以将目标标准化单词确定待处理单词的标准化形式。也可以对目标标注化进行进一步处理以确定待处理单词的标准化形式,在此不做限定。
通过本公开的上述实施例,基于向量数据库的模糊匹配能力和海量存储能力,从向量层面实施匹配,实现了口语化单词向标准化单词转换的功能,缓解了prompt爆炸的问题。此外,基于此功能,可以建设口语化知识查询的能力,在研发和运维日常工作中,能起到较大的作用,减轻了用户的记忆痛苦,让想查询的知识能够一句话直达,可有效节省用户的时间,提升工作效率。
下面结合具体实施例,对图2所示的方法做进一步说明。
根据本公开的实施例,在执行上述操作S220之前,可以首先确定映射信息。该方法可以包括:获取与样本标准化单词相对应的样本口语化单词。确定样本口语化单词的样本向量标识。根据样本向量标识和样本标准化单词,确定关联关系。根据至少一个关联信息,确定映射信息。
根据本公开的实施例,针对一个样本标准化单词,可以有多种与之相对应的样本口语化单词实现口语化表示。
例如,样本标准化单词可以包括真实名,样本口语化单词可以包括真实名和口语名。根据具有关联关系的真实名和口语名的组合可以确定一个原始知识。原始知识可以包括至少一个。原始知识格式例如可以具体表现为如下形式:
真实名1:口语名11、口语名12、口语名13等;
真实名2:口语名21、口语名22、口语名23等;
真实名3:口语名31、口语名32、口语名33等。
结合前述实施例,可以将每个口语名、或者每个真实名和每个口语名通过embedding模型转换成一个向量,作为样本口语化单词向量,每个样本口语化单词向量及其所具有的样本向量标识,可以预先存储至向量数据库中。基于上述原始知识和向量数据库存储中的内容,可以根据样本向量标识首先确定与该向量标识相对应的口语名原文。然后,可以根据该口语名原文确定与其相对应的真实名原文。在本实施例中,例如可以根据样本向量标识和真实名原文确定一个关联关系,并可根据该关联关系确定映射信息。
根据本公开的实施例,由于与一个样本标准化单词相对应的样本口语化单词可以有多个,则样本向量标识可以有多个,并可确定多个关联关系。在该种情况下,可以根据该多个关联关系,确定与该一个样本标准化单词相对应的映射信息。
根据本公开的实施例,上述操作S230可以包括:响应于获得多个目标标准化单词,将多个目标标准化单词输入第一大语言模型,得到与待处理单词的相关度最高的一个目标标准化单词,作为待处理单词的标准化形式。
根据本公开的实施例,在对待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配的过程中,例如可以得到多个目标口语化单词向量,从而可以得到多个目标向量标识。在该情况下,结合映射信息,例如可以得到多个目标标准化单词。在获得多个目标标准化单词的情况下,可以结合第一大语言模型实现提纯。
根据本公开的实施例,对应于第一大语言模型,例如可以设计第一prompt内容如下:你是一个识别准确且泛化能力优秀的类别标签识别系统。用户会先提供一些样本查询的样本名称,你需要给出你认为最合适的类别标签。举例如下。
例子1:
[样本名称]:[今天是几号],[今天的日期];[类别标签]:[DATE#null#null];
[样本名称]:[今天是星期几],[今天是周几];[类别标签]:[WEEK#DAY#null];
[样本名称]:[今天的天气],[明天的天气];[类别标签]:[WEATHER#null#null];
[用户查询的样本名称]:[一星期中的哪一天];
你必须给出的1个最合适的类别标签:WEEK#DAY#null。
例子2:
[样本名称]:[词典有哪些],[给我词典列表],[词典全集];[类别标签]:[D#ALL#null];
[样本名称]:[词典的数量],[总共有多少个词典];[类别标签]:[D#SUM#null];
[样本名称]:[版本号是什么],[给我查一下版本号],[是什么版本];[类别标签]:[P#VER#null];
[用户查询的样本名称]:[版本号];
你必须给出的1个最合适的类别标签:P#VER#null。
图3示意性示出了根据本公开实施例的基于向量数据库和第一大语言模型实现口语名转换的示意图。
如图3所示,例如,上述原始知识可以预先通过第一embedding模型310,转换成知识向量,并存储至数据库中,包括:知识向量及其向量标识存储至向量数据库330中,知识向量的向量标识及与其相对应的口语名原文、以及口语名与真实名的关系存储至普通数据库340中。
待处理单词例如为query1,query1可以是一个口语名。首先,query1可以通过第二embedding模型320,转换成query向量。然后,可以从向量数据库330中查找出与query向量最相关的N个向量,并通过它们的向量ID(标识),从普通数据库340中找到与该向量ID相对应的原文,该原文可以包括口语名和真实名,得到知识候选集。
基于N个向量的N个向量ID确定的知识候选集中的原文可以有N个。通过将知识候选集中的N个原文输入第一prompt+第一大语言模型模块350,结合前述针对第一prompt的定义,可以得到query1的标准化形式的精确结论。
例如,假设N=3,query1为:口语名12′。通过向量数据库330和普通数据库340得到的知识候选集例如可以包括:口语名12、口语名13、口语名31。基于此结合原始知识例如可以得到如下要输入第一大语言模型的第一prompt:
[样本名称]:[口语名11],[口语名12],[口语名13];[类别标签]:[真实名1];
[样本名称]:[口语名31],[口语名32],[口语名33];[类别标签]:[真实名3];
[用户查询的样本名称]:[口语名12′];
你必须给出的1个最合适的类别标签:(query1的标准化形式的精确结论)。
通过将上述第一prompt输入第一大语言模型,可以得到query1的标准化形式的精确结论。
通过本公开的上述实施例,可以结合大语言模型的知识,较为准确且快速的得到结果,减少操作流程,提高用户操作体验。
基于上述实施例,实现了一套首先基于向量数据库进行小范围查询,然后由大预言模型提纯的方法,可以基于向量数据库完成海量口语名到真实名的转换技术。通过将该方法封装成名字转换服务,并提供录入接口和查询接口,可以应用于各类名字转换业务中。
图4示意性示出了根据本公开实施例的查询方法的流程图。
如图4所示,该方法包括操作S410~S430。
在操作S410,获取口语化查询语句,口语化查询语句中包括口语化单词。
在操作S420,将口语化单词转换为标准化单词,得到标准化查询语句。
在操作S430,基于标准化查询语句进行查询。
根据本公开的实施例,上述操作S420可以基于前述单词标准化方法进行实施。例如,在获得口语化查询语句之后,可以首先通过语义分析或分词等方式确定口语化查询语句中的口语化单词。然后,可以基于前述单词标准化方法实现的名字转换服务,将口语化查询语句中的口语化单词转换为标准化单词,并可在将全部可以转换的口语化单词均转换为标准化单词之后,将获得的语句确定为标准化查询语句。在后续查询过程中,可以基于标准化查询语句实施查询。
通过本公开的上述实施例,由于将口语化查询语句转换为了标准化查询语句进行查询,可有效扩展用户想要使用的口语化查询语句的语句丰富度,减少了用户的记忆量,提升了用户体验。此外,由于无论用户使用何种口语化查询语句,均会被转换为标准化查询语句进行查询,还有利于提升查询结果的准确度。
下面结合具体实施例,对图4所示的方法做进一步说明。
根据本公开的实施例,在执行上述操作S420之前,也可以首先将口语化查询语句转换为口语化多元组序列。口语化多元组序列中可以包括如下至少一个元素:具有特定语义信息的口语化单词、表征口语化查询语句所包含的计算方式的计算标识等,且可不限于此。然后,在执行上述操作S420的过程中,可以将口语化多元组序列中的口语化单词转换为标准化单词,得到标准化多元组序列,作为标准化查询语句。
根据本公开的实施例,标准化查询语句可以为具有预设格式的语句。例如,预设格式可以包括多元组序列格式,且可不限于此。在该种情况下,可以首先将口语化查询语句转换为口语化多元组序列。然后,通过将口语化多元组序列中的口语化单词转换为标准化单词,可以得到多元组序列格式的标准化查询语句。
根据本公开的实施例,上述将口语化查询语句转换为口语化多元组序列可以包括:对口语化查询语句进行分词,得到单词候选集。根据特定语义信息,从单词候选集中筛选得到具有特定语义信息的口语化单词。
根据本公开的实施例,可以结合语义理解,对口语化查询语句进行分词,该过程例如可以包括:文本清洗、词性标注和命名实体识别、句法分析和语义理解、关键参数提取等。由于口语化查询语句可能包含一些无关紧要的元素,如标点符号、停用词等,可以在文本清洗过程中对其进行清洗,转换成可以用于进一步分析的形式。在词性标注和命名实体识别的过程中,可以通过词性标注和命名实体识别技术,确定口语化查询语句中各个词汇的词性以及名词短语,得到单词候选集,以利于后续的参数提取。在句法分析和语义理解的过程中,可以通过句法分析,理解句子的结构,如主谓宾等。再结合语义理解,可以确定关键参数的位置和含义。最后,在关键参数提取的过程中,可以根据句法分析和语义理解的结果,提取出所需参数。例如,可以结合特定语义信息,从单词候选集中筛选得到具有特定语义信息的口语化单词。
根据本公开的实施例,口语化查询语句可以表征查询服务或机房的运行情况的语句。例如,在服务查询场景下,上述特定语义信息可以包括如下至少一种语义信息:表征服务名的语义信息、表征机器名的语义信息,表征要查询字段的字段名的语义信息等,且可不限于此。
根据本公开的实施例,上述将口语化查询语句转换为口语化多元组序列可以包括:将口语化查询语句输入第二大语言模型,得到口语化多元组序列。
根据本公开的实施例,在服务查询场景下,对应于第二大语言模型,例如可以设计第二prompt内容如下:你是任务拆解专家,你会接受用户的口语化描述的指标查询任务,并将它拆解成4元组。在任务中,可能会包含[服务名]、[机房名]、[字段名]、[计算方式]这些信息,你的输出格式为:(服务名,机房名,字段名,计算方式)。
通过将口语化查询语句输入上述第二大语言模型,可以得到口语化四元组序列。
需要说明的是,得到的口语化多元组序列可不限于如上实施例所述的四元组,例如还可以包括三元组、二元组、五元组等,且可不限于此。得到的口语化多元组序列具体为几元组,可以通过定义第二prompt的输出格式设定。
根据本公开的实施例,由于口语化查询语句中并不一定包含具有特定语义信息的口语化单词,上述将口语化查询语句转换为口语化多元组序列可以包括:响应于确定口语化查询语句中不存在具有特定语义信息的口语化单词,将口语化多元组序列中用于记录具有特定语义信息的口语化单词确定为空值。
基于前述实施例,例如,指标查询任务中不包含机房信息,在该种情况下,可以将上述口语化四元组序列中的机房名确定为JF1,可以表示空值。
根据本公开的实施例,上述将口语化查询语句转换为口语化多元组序列可以包括:响应于确定口语化查询语句为表征统计类别的语句,将计算标识确定为查询标识。响应于确定口语化查询语句为表征查询类别的语句,将计算标识确定为求和标识。
基于前述实施例,例如,如果指标查询任务的命令中包含“多少个”、“总共”、“消耗”、“占用”、“使用”等,可以表示需要进行统计,[计算方式]可以确定为sum,用以输出统计结果。否则,可以认为是查询字段,[计算方式]可以设置于北tch,用以输出查询结果。
例如,以Q作为输入的指标查询任务为,以A作为输出的口语化四元组序列,可以得到如下实施结果。
Q:AA服务的cpu quota;A:(AA,JF1,cpu quota,fetch)。
Q:JF2机房Searcher的磁盘配置;A:(Searcher,JF2,磁盘配置,fetch)。
Q:BAC在GZ机房使用了多少网络资源;A:(BAC,GZ,网络资源,sum)。
需要说明的是,计算标识可不限于如上两种,还可以根据业务去修自适应设置表征其他含义的计算标识,例如可以用SQL语句描述查询条件作为计算标识等,在此不进行限定。
通过本公开的上述实施例,通过将口语化查询语句转换为口语化多元组序列,可以有利于提取得到口语化查询语句的关键信息,通过基于关键信息进行单词标准化并实施查询,可以减少计算量,提升查询效率,并可有利于提高查询结果的准确度。
根据本公开的实施例,上述查询方法还可以包括:根据服务的服务资源信息,确定与服务相关的服务名。以服务名为键,以服务资源信息的存储路径为值,确定针对服务生成的键值对信息。将针对至少一个服务生成的至少一个键值对信息存储至资源数据库中。
根据本公开的实施例,服务例如可以包括分布式系统等,且可不限于此。每个服务可以包括可执行文件、词典等程序信息。词典可用于描述用户的属性。每个服务还可以具有资源描述,可以包括几万台机器,几千个服务,每个服务可以有多个实例,一台机器上可能有多个实例等资源信息。例如,一台机器上可以启动多个进程。针对每个进程可以限制其使用的cpu资源、内存资源、磁盘资源、网络资源等等。一个服务的各类信息,可以被描述为spec(描述)。不同机房的spec可能不一样。每个机房的每个服务可以有1个spec。
根据本公开的实施例,spec是一个json格式的文件,可以描述一个服务的所有属性信息。不同服务的spec可以有相同的字段。spec的字段可以有很多,每个字段都可以有丰富的口语化描述方式。例如,每个spec里可以有1个“服务真实名”字段,也可以有对应的“服务口语名”字段。每个spec还可以有个链接,即上述服务资源信息的存储路径。通过访问存储路径,可以读取服务的spec的内容,从而可以获得该服务的程序信息、资源信息等各类信息。
图5示意性示出了根据本公开实施例的采用基于本公开的名字转换服务及查询方法构建的查询系统,实现基于spec的口语化知识问答的操作示意图。
如图5所示,基于本公开的名字转换服务及查询方法构建的查询系统500包括第二prompt+第二大语言模型模块510、名字转换服务520、spec处理工具530。
根据本公开的实施例,名字转换服务520可以基于前述单词标准化方法实现,在此不再赘述。在该实施例中,可以将spec各字段口语化名字,可以包括每个spec的真实名和口语名,各服务口语化名字,可以包括所有服务的真实名和口语名,以及各机房口语化名字,可以包括所有机房的真实名和口语名,都预先录入到名字转换服务520中。
结合前述服务查询场景,口语化查询语句例如为query2,query2可以是spec口语化查询问题。可以首先基于第二prompt+第二大语言模型模块510,完成query2的拆分,得到口语化四元组序列。口语化四元组序列可以包括至少一条四元组内容:(服务口语名,机房口语名,spec字段口语名,value计算方式)。然后,可以调用名字转换服务520的API(Application Programming Interface,应用程序接口),将口语化四元组序列中的服务口语名、机房口语名、spec字段口语名,进行真实名转换。转换成全部由真实名表达的标准化四元组序列。对应于口语化四元组序列的数目,标准化四元组序列可以具有对应数目的四元组内容:(服务真实名,机房真实名,spec字段真实名,value计算方式)。之后,可以调用spec处理工具530,对标准化四元组序列进行处理,完成结果的加工。
根据本公开的实施例,在调用spec处理工具完成结果的加工之前,可以从各个服务的spec内容里,读取得到与该服务相关的服务名,例如可以包括spec中存储的“服务真实名”和“服务口语名”,然后将其与spec的链接一起存储至资源数据库中,以供后续spec处理工具检索、加工使用。
根据本公开的实施例,上述查询方法还可以包括:根据标准化多元组序列中的标准化单词序列,获取与标准化单词序列相关的目标字段值。根据计算标识所表征的计算方式,对目标字段值进行计算,得到口语化查询语句的查询结果。
根据本公开的实施例,标准化单词序列可以表征标准化多元组序列中具有特定语义信息的标准化单词构成的序列。目标字段值可以表征具有特定语义信息的标准化单词对应的value值。每个服务的标准化单词及其目标字段值可以以一一对应的关系存储至资源数据库中。在该种情况下,通过读取资源数据库中的信息,可以获得标准化单词序列的value值。
根据本公开的实施例,标准化多元组序列中的计算标识可以表征value计算方式。在获得value值的情况下,可以基于该value计算方式,对value值进行进一步计算,并将计算结果返回。例如,计算标识为sun,可以对表征同一字段属性的目标字段值进行加和,得到查询结果并输出。例如,计算标识为fetch,可以将目标字段值作为查询结果并输出。
根据本公开的实施例,标准化单词序列可以包括至少一个服务名。上述根据标准化多元组序列中的标准化单词序列,获取与标准化单词序列相关的目标字段值可以包括:根据至少一个服务名,从资源数据库中获取与至少一个服务名相关的目标键值对信息。根据目标键值对信息中的目标存储路径,读取目标服务资源信息。根据目标服务资源信息,确定目标字段值。
根据本公开的实施例,服务的服务名及其spec链接可以以key-value对的形式存储至资源数据库中。在该种情况下,可以通过首先确定与至少一个服务名相关的目标key-value对信息。然后,根据目标key-value对信息中的spec链接,即目标存储路径,读取相应服务的spec内容,即目标服务资源信息,以获得与该至少一个服务名相对应的目标字段值,即value值。
需要说明的是,在标准化多元组序列中仅包括服务名的情况下,目标字段值可以表征该服务名所对应的服务的所有指标的字段值。在标准化多元组序列中仅包括服务名和机房名的情况下,目标字段值可以表征该服务名所对应服务下的机房中所有指标的字段值。在此不进行限定。
根据本公开的实施例,标准化单词序列还可以包括指标字段名。上述根据目标服务资源信息,确定目标字段值可以包括:根据指标字段名,从目标服务资源信息中读取与指标字段名相关的指标字段值,作为目标字段值。
根据本公开的实施例,指标字段名可以表征上述spec字段真实名。在标准化多元组序列中包括spec字段真实名的情况下,可以通过读取相应服务的spec内容,提取得到相应字段的value值。
图6示意性示出了根据本公开实施例的调用spec处理工具完成结果的加工的示意图。
根据本公开的实施例,在存在新增服务的情况下,如图6所示,可以首先将该新增服务的spec提交到Paas平台610。Paas平台610可以根据spec部署程序,并启动相应的新增服务。因此,Paas平台610可以有每一个服务的全量的实时的spec信息。针对Paas平台610可以连接有一个定时进程620。定时进程620可以定时从PaaS平台610获取所有服务的原始spec,并将该原始spec与服务真实名、机房真实名关联后,存储到key-value类型的spec数据库630,即上述资源数据库。以供spec处理工具640检索、加工时使用。
如图6所示,spec处理工具600可以包括:f函数、g函数、h函数。上述标准化四元组序列(服务真实名,机房真实名,spec字段真实名,value计算方式)可以作为spec处理工具600的输入。f函数可以通过发起http请求,获取json文件,实现获取服务真实名对应的原始spec的功能,可以包括:根据标准化四元组序列中的服务真实名和机房真实名,从spec数据库中,获取到对应的原始spec的链接。g函数通过解析json文件,提取字段,可以用于从原始spec中提取spec字段真实名对应的value。h函数可以根据value计算方式,对value进行计算,并返回结果。
需要说明的是,spec数据库630中对应于key存储的value的内容,可以为定时进程620从Paas平台610实施读取的相应服务的原始spec内容,也可以为相应服务的原始spec的链接,在此不进行限定。在value为原始spec的链接的情况下,可以基于该链接,查询Paas平台610。由于最新的spec内容保存在Paas平台610上,通过保存链接作为value的方式,在每次查询spec内容的时候,均可以得到最新的数据。
通过本公开的上述实施例,可以基于查询方法进一步建设spec口语化知识查询的能力,有利于知识了解程度不同的用户均能够实现准确、快速的口语化查询。
图7示意性示出了根据本公开实施例的单词标准化装置的框图。
如图7所示,单词标准化装置700包括匹配模块710、标准化单词确定模块720和标准化模块730。
匹配模块710,用于将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与待处理单词向量相匹配的目标口语化单词向量的目标向量标识,口语化单词向量为对口语化单词进行转换得到的,口语化单词向量具有向量标识。
标准化单词确定模块720,用于根据映射信息,确定与目标向量标识相关的目标标准化单词,映射信息包括向量标识与标准化单词之间的关联关系,标准化单词表征口语化单词的标准化形式。
标准化模块730,用于根据目标标准化单词,确定待处理单词的标准化形式。
根据本公开的实施例,单词标准化装置还包括口语化单词获取模块、向量标识确定模块、关联关系确定模块和映射信息确定模块。
口语化单词获取模块,用于获取与样本标准化单词相对应的样本口语化单词。
向量标识确定模块,用于确定样本口语化单词的样本向量标识。
关联关系确定模块,用于根据样本向量标识和样本标准化单词,确定关联关系。
映射信息确定模块,用于根据至少一个关联信息,确定映射信息。
根据本公开的实施例,标准化模块包括第一大语言模型处理子模块。
第一大语言模型处理子模块,用于响应于获得多个目标标准化单词,将多个目标标准化单词输入第一大语言模型,得到与待处理单词的相关度最高的一个目标标准化单词,作为待处理单词的标准化形式。
图8示意性示出了根据本公开实施例的查询装置的框图。
如图8所示,查询装置800包括口语化查询语句获取模块810、单词转换模块820和查询模块830。
口语化查询语句获取模块810,用于获取口语化查询语句,口语化查询语句中包括口语化单词。
单词转换模块820,用于基于如权利要求15-17中任一项的装置,将口语化单词转换为标准化单词,得到标准化查询语句。
查询模块830,用于基于标准化查询语句进行查询。
根据本公开的实施例,查询装置还包括序列转换模块。
序列转换模块,用于将口语化查询语句转换为口语化多元组序列,口语化多元组序列中包括如下至少一个元素:具有特定语义信息的口语化单词、表征口语化查询语句所包含的计算方式的计算标识。
单词转换模块包括单词转换子模块。
单词转换子模块,用于将口语化多元组序列中的口语化单词转换为标准化单词,得到标准化多元组序列,作为标准化查询语句。
根据本公开的实施例,序列转换模块包括分词子模块和筛选子模块。
分词子模块,用于对口语化查询语句进行分词,得到单词候选集。
筛选子模块,用于根据特定语义信息,从单词候选集中筛选得到具有特定语义信息的口语化单词。
根据本公开的实施例,序列转换模块包括第二大语言模型处理子模块。
第二大语言模型处理子模块,用于将口语化查询语句输入第二大语言模型,得到口语化多元组序列。
根据本公开的实施例,序列转换模块包括空值确定子模块。
空值确定子模块,用于响应于确定口语化查询语句中不存在具有特定语义信息的口语化单词,将口语化多元组序列中用于记录具有特定语义信息的口语化单词确定为空值。
根据本公开的实施例,特定语义信息包括如下至少一种语义信息:表征服务名的语义信息、表征机器名的语义信息,表征要查询字段的字段名的语义信息。
根据本公开的实施例,序列转换模块包括查询标识确定子模块和求和标识确定子模块。
查询标识确定子模块,用于响应于确定口语化查询语句为表征统计类别的语句,将计算标识确定为查询标识。
求和标识确定子模块,用于响应于确定口语化查询语句为表征查询类别的语句,将计算标识确定为求和标识。
根据本公开的实施例,查询装置还包括字段值获取模块和计算模块。
字段值获取模块,用于根据标准化多元组序列中的标准化单词序列,获取与标准化单词序列相关的目标字段值。
计算模块,用于根据计算标识所表征的计算方式,对目标字段值进行计算,得到口语化查询语句的查询结果。
根据本公开的实施例,查询装置还包括服务名确定模块、键值对生成模块和存储模块。
服务名确定模块,用于根据服务的服务资源信息,确定与服务相关的服务名。
键值对生成模块,用于以服务名为键,以服务资源信息的存储路径为值,确定针对服务生成的键值对信息。
存储模块,用于将针对至少一个服务生成的至少一个键值对信息存储至资源数据库中。
根据本公开的实施例,标准化单词序列包括至少一个服务名。字段值获取模块包括键值对获取子模块、资源信息读取子模块和字段值确定子模块。
键值对获取子模块,用于根据至少一个服务名,从资源数据库中获取与至少一个服务名相关的目标键值对信息。
资源信息读取子模块,用于根据目标键值对信息中的目标存储路径,读取目标服务资源信息。
字段值确定子模块,用于根据目标服务资源信息,确定目标字段值。
根据本公开的实施例,标准化单词序列还包括指标字段名。字段值确定子模块包括字段值读取单元。
字段值读取单元,用于根据指标字段名,从目标服务资源信息中读取与指标字段名相关的指标字段值,作为目标字段值。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的单词标准化方法和查询方法其中至少一种方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开的单词标准化方法和查询方法其中至少一种方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现本公开的单词标准化方法和查询方法其中至少一种方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至输入/输出(I/O)接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如单词标准化方法和查询方法其中至少一种方法。例如,在一些实施例中,单词标准化方法和查询方法其中至少一种方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的单词标准化方法和查询方法其中至少一种方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行单词标准化方法和查询方法其中至少一种方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (31)
1.一种单词标准化方法,包括:
将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与所述待处理单词向量相匹配的目标口语化单词向量的目标向量标识,所述口语化单词向量为对口语化单词进行转换得到的,所述口语化单词向量具有向量标识;
根据映射信息,确定与所述目标向量标识相关的目标标准化单词,所述映射信息包括所述向量标识与标准化单词之间的关联关系,所述标准化单词表征所述口语化单词的标准化形式;以及
根据所述目标标准化单词,确定所述待处理单词的标准化形式。
2.根据权利要求1所述的方法,还包括:在所述根据映射信息,确定与所述目标向量标识相关的目标标准化单词之前,
获取与样本标准化单词相对应的样本口语化单词;
确定所述样本口语化单词的样本向量标识;
根据所述样本向量标识和所述样本标准化单词,确定一个关联关系;以及
根据至少一个所述关联信息,确定所述映射信息。
3.根据权利要求1所述的方法,其中,所述根据所述目标标准化单词,确定所述待处理单词的标准化形式包括:
响应于获得多个目标标准化单词,将所述多个目标标准化单词输入所述第一大语言模型,得到与所述待处理单词的相关度最高的一个目标标准化单词,作为所述待处理单词的标准化形式。
4.一种查询方法,包括:
获取口语化查询语句,所述口语化查询语句中包括口语化单词;
基于如权利要求1-3中任一项所述的方法,将所述口语化单词转换为标准化单词,得到标准化查询语句;以及
基于所述标准化查询语句进行查询。
5.根据权利要求4所述的方法,还包括:在所述将所述口语化单词转换为标准化单词,得到标准化查询语句之前,
将所述口语化查询语句转换为口语化多元组序列,所述口语化多元组序列中包括如下至少一个元素:具有特定语义信息的口语化单词、表征所述口语化查询语句所包含的计算方式的计算标识;
所述将所述口语化单词转换为标准化单词,得到标准化查询语句包括:
将所述口语化多元组序列中的口语化单词转换为标准化单词,得到标准化多元组序列,作为所述标准化查询语句。
6.根据权利要求5所述的方法,其中,所述将所述口语化查询语句转换为口语化多元组序列包括:
对所述口语化查询语句进行分词,得到单词候选集;以及
根据所述特定语义信息,从所述单词候选集中筛选得到所述具有特定语义信息的口语化单词。
7.根据权利要求5所述的方法,其中,所述将所述口语化查询语句转换为口语化多元组序列包括:
将所述口语化查询语句输入第二大语言模型,得到所述口语化多元组序列。
8.根据权利要求5-7中任一项所述的方法,其中,所述将所述口语化查询语句转换为口语化多元组序列包括:
响应于确定所述口语化查询语句中不存在具有所述特定语义信息的口语化单词,将所述口语化多元组序列中用于记录所述具有特定语义信息的口语化单词确定为空值。
9.根据权利要求5-8中任一项所述的方法,其中,所述特定语义信息包括如下至少一种语义信息:表征服务名的语义信息、表征机器名的语义信息,表征要查询字段的字段名的语义信息。
10.根据权利要求5-9中任一项所述的方法,其中,所述将所述口语化查询语句转换为口语化多元组序列包括:
响应于确定所述口语化查询语句为表征统计类别的语句,将所述计算标识确定为查询标识;以及
响应于确定所述口语化查询语句为表征查询类别的语句,将所述计算标识确定为求和标识。
11.根据权利要求5-10中任一项所述的方法,还包括:
根据所述标准化多元组序列中的标准化单词序列,获取与所述标准化单词序列相关的目标字段值;以及
根据所述计算标识所表征的计算方式,对所述目标字段值进行计算,得到所述口语化查询语句的查询结果。
12.根据权利要求11所述的方法,还包括:在所述根据所述标准化多元组序列中的标准化单词序列,获取与所述标准化单词序列相关的目标字段值之前,
根据服务的服务资源信息,确定与所述服务相关的服务名;
以所述服务名为键,以所述服务资源信息的存储路径为值,确定针对所述服务生成的键值对信息;以及
将针对至少一个服务生成的至少一个键值对信息存储至资源数据库中。
13.根据权利要求12所述的方法,其中,所述标准化单词序列包括至少一个服务名;所述根据所述标准化多元组序列中的标准化单词序列,获取与所述标准化单词序列相关的目标字段值包括:
根据所述至少一个服务名,从所述资源数据库中获取与所述至少一个服务名相关的目标键值对信息;
根据所述目标键值对信息中的目标存储路径,读取目标服务资源信息;以及
根据所述目标服务资源信息,确定所述目标字段值。
14.根据权利要求13所述的方法,其中,所述标准化单词序列还包括指标字段名;所述根据所述目标服务资源信息,确定所述目标字段值包括:
根据所述指标字段名,从所述目标服务资源信息中读取与所述指标字段名相关的指标字段值,作为所述目标字段值。
15.一种单词标准化装置,包括:
匹配模块,用于将待处理单词的待处理单词向量与存储于向量数据库中的口语化单词向量进行匹配,得到与所述待处理单词向量相匹配的目标口语化单词向量的目标向量标识,所述口语化单词向量为对口语化单词进行转换得到的,所述口语化单词向量具有向量标识;
标准化单词确定模块,用于根据映射信息,确定与所述目标向量标识相关的目标标准化单词,所述映射信息包括所述向量标识与标准化单词之间的关联关系,所述标准化单词表征所述口语化单词的标准化形式;以及
标准化模块,用于根据所述目标标准化单词,确定所述待处理单词的标准化形式。
16.根据权利要求15所述的装置,还包括:
口语化单词获取模块,用于获取与样本标准化单词相对应的样本口语化单词;
向量标识确定模块,用于确定所述样本口语化单词的样本向量标识;
关联关系确定模块,用于根据所述样本向量标识和所述样本标准化单词,确定关联关系;以及
映射信息确定模块,用于根据至少一个所述关联信息,确定所述映射信息。
17.根据权利要求15所述的装置,其中,所述标准化模块包括:
第一大语言模型处理子模块,用于响应于获得多个目标标准化单词,将所述多个目标标准化单词输入所述第一大语言模型,得到与所述待处理单词的相关度最高的一个目标标准化单词,作为所述待处理单词的标准化形式。
18.一种查询装置,包括:
口语化查询语句获取模块,用于获取口语化查询语句,所述口语化查询语句中包括口语化单词;
单词转换模块,用于基于如权利要求15-17中任一项所述的装置,将所述口语化单词转换为标准化单词,得到标准化查询语句;以及
查询模块,用于基于所述标准化查询语句进行查询。
19.根据权利要求18所述的装置,还包括:
序列转换模块,用于将所述口语化查询语句转换为口语化多元组序列,所述口语化多元组序列中包括如下至少一个元素:具有特定语义信息的口语化单词、表征所述口语化查询语句所包含的计算方式的计算标识;
所述单词转换模块包括:
单词转换子模块,用于将所述口语化多元组序列中的口语化单词转换为标准化单词,得到标准化多元组序列,作为所述标准化查询语句。
20.根据权利要求19所述的装置,其中,所述序列转换模块包括:
分词子模块,用于对所述口语化查询语句进行分词,得到单词候选集;以及
筛选子模块,用于根据所述特定语义信息,从所述单词候选集中筛选得到所述具有特定语义信息的口语化单词。
21.根据权利要求19所述的装置,其中,所述序列转换模块包括:
第二大语言模型处理子模块,用于将所述口语化查询语句输入第二大语言模型,得到所述口语化多元组序列。
22.根据权利要求19-21中任一项所述的装置,其中,所述序列转换模块包括:
空值确定子模块,用于响应于确定所述口语化查询语句中不存在具有所述特定语义信息的口语化单词,将所述口语化多元组序列中用于记录所述具有特定语义信息的口语化单词确定为空值。
23.根据权利要求19-22中任一项所述的装置,其中,所述特定语义信息包括如下至少一种语义信息:表征服务名的语义信息、表征机器名的语义信息,表征要查询字段的字段名的语义信息。
24.根据权利要求19-23中任一项所述的装置,其中,所述序列转换模块包括:
查询标识确定子模块,用于响应于确定所述口语化查询语句为表征统计类别的语句,将所述计算标识确定为查询标识;以及
求和标识确定子模块,用于响应于确定所述口语化查询语句为表征查询类别的语句,将所述计算标识确定为求和标识。
25.根据权利要求19-24中任一项所述的装置,还包括:
字段值获取模块,用于根据所述标准化多元组序列中的标准化单词序列,获取与所述标准化单词序列相关的目标字段值;以及
计算模块,用于根据所述计算标识所表征的计算方式,对所述目标字段值进行计算,得到所述口语化查询语句的查询结果。
26.根据权利要求25所述的装置,还包括:
服务名确定模块,用于根据服务的服务资源信息,确定与所述服务相关的服务名;
键值对生成模块,用于以所述服务名为键,以所述服务资源信息的存储路径为值,确定针对所述服务生成的键值对信息;以及
存储模块,用于将针对至少一个服务生成的至少一个键值对信息存储至资源数据库中。
27.根据权利要求26所述的装置,其中,所述标准化单词序列包括至少一个服务名;所述字段值获取模块包括:
键值对获取子模块,用于根据所述至少一个服务名,从所述资源数据库中获取与所述至少一个服务名相关的目标键值对信息;
资源信息读取子模块,用于根据所述目标键值对信息中的目标存储路径,读取目标服务资源信息;以及
字段值确定子模块,用于根据所述目标服务资源信息,确定所述目标字段值。
28.根据权利要求27所述的装置,其中,所述标准化单词序列还包括指标字段名;所述字段值确定子模块包括:
字段值读取单元,用于根据所述指标字段名,从所述目标服务资源信息中读取与所述指标字段名相关的指标字段值,作为所述目标字段值。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311387647.XA CN117349312A (zh) | 2023-10-24 | 2023-10-24 | 单词标准化、查询方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311387647.XA CN117349312A (zh) | 2023-10-24 | 2023-10-24 | 单词标准化、查询方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117349312A true CN117349312A (zh) | 2024-01-05 |
Family
ID=89362827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311387647.XA Pending CN117349312A (zh) | 2023-10-24 | 2023-10-24 | 单词标准化、查询方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349312A (zh) |
-
2023
- 2023-10-24 CN CN202311387647.XA patent/CN117349312A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11521603B2 (en) | Automatically generating conference minutes | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
EP3958145A1 (en) | Method and apparatus for semantic retrieval, device and storage medium | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111274267A (zh) | 一种数据库查询方法、装置及计算机可读取存储介质 | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
EP4141697A1 (en) | Method and apparatus of processing triple data, method and apparatus of training triple data processing model, device, and medium | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN117112595A (zh) | 一种信息查询方法、装置、电子设备及存储介质 | |
CN113220710A (zh) | 数据查询方法、装置、电子设备以及存储介质 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN114818736B (zh) | 文本处理方法、用于短文本的链指方法、装置及存储介质 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
CN117349312A (zh) | 单词标准化、查询方法、装置、电子设备以及存储介质 | |
CN113220841B (zh) | 确定鉴别信息的方法、装置、电子设备和存储介质 | |
CN116089459B (zh) | 数据检索方法、装置、电子设备及存储介质 | |
CN116258138B (zh) | 知识库构建方法、实体链接方法、装置及设备 | |
CN115828915B (zh) | 实体消歧方法、装置、电子设备和存储介质 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN113377922B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 | |
CN118093805A (zh) | 一种问答方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |