CN116561288A - 事件查询方法、装置、计算机设备、存储介质及程序产品 - Google Patents
事件查询方法、装置、计算机设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116561288A CN116561288A CN202310847815.2A CN202310847815A CN116561288A CN 116561288 A CN116561288 A CN 116561288A CN 202310847815 A CN202310847815 A CN 202310847815A CN 116561288 A CN116561288 A CN 116561288A
- Authority
- CN
- China
- Prior art keywords
- event
- vector
- information
- query
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 321
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 40
- 230000006399 behavior Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000003416 augmentation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种事件查询方法、装置、计算机设备、存储介质及程序产品,本申请实施例可以是基于人工智能的事件查询,包括:接收事件查询请求,所述事件查询请求中携带自然语言查询文本;响应于所述事件查询请求,对所述自然语言查询文本进行向量化处理,得到文本向量;从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件;输出与所述自然语言查询文本匹配的所述事件;其中,所述向量数据库关联存储有事件和事件向量,所述向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。通过向量查询可以快速查询到所需事件,提高了事件查询的效率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种事件查询方法、装置、计算机设备、存储介质及程序产品,其中,该装置为事件查询装置,存储介质为计算机可读存储介质,程序产品为计算机程序产品。
背景技术
随着互联网技术的快速发展,通过互联网进行信息交互越来越普及,例如用户可以通过互联网搜索获知大量信息或者与其他用户进行信息交流等,给用户带来了极大的便利。在信息交互的过程中,往往会产生一些举报事件或表彰事件等各类事件,为了方便对事件进行管理,一般需要建立事件数据库,并将事件录入事件数据库中进行管理。
目前,常规建立事件数据库的方案,需要依赖人工对非结构化的事件相关数据进行清洗和手动登记后,再存入事件数据库中,而对于量级较大事件需要入库时,清洗数据的人力成本高,耗时较长。当需要查询事件数据库中的某些事件时,需要用户输入非常确定性的查询条件来进行文本查询,或者利用事件数据库自有较弱的检索能力进行文本查询,该文本查询需要处理事件数据库中较多事件文本,计算量较大,并且用户在查询过程中往往不能准确提供非常确定性的查询条件,使得查询结果与用户的期望相差较大,用户不得不多次尝试提供不同的查询条件进行多次查询,导致事件查询的效率较低。
发明内容
本申请实施例提供一种事件查询方法、装置、计算机设备、存储介质及程序产品,可以提高事件查询的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种事件查询方法,包括:
接收事件查询请求,所述事件查询请求中携带自然语言查询文本;
响应于所述事件查询请求,对所述自然语言查询文本进行向量化处理,得到文本向量;
从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件;
输出与所述自然语言查询文本匹配的所述事件;
其中,所述向量数据库关联存储有事件和事件向量,所述向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
根据本申请的一个方面,还提供了一种事件查询装置,包括:
接收单元,用于接收事件查询请求,所述事件查询请求中携带自然语言查询文本;
响应单元,用于响应于所述事件查询请求,对所述自然语言查询文本进行向量化处理,得到文本向量;
查询单元,用于从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件;
输出单元,用于输出与所述自然语言查询文本匹配的所述事件;
其中,所述向量数据库关联存储有事件和事件向量,所述向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
在一些实施方式中,所述事件查询装置还包括:
分析单元,用于对多个所述事件进行共性分析,得到多个所述事件的共性信息;
共性信息输出单元,用于输出所述共性信息。
在一些实施方式中,所述分析单元具体用于:获取操作指示信息,所述操作指示信息用于引导共性分析;将多个所述事件以及所述操作指示信息输入大语言模型,以通过所述大语言模型进行共性分析,得到多个所述事件的共性信息。
在一些实施方式中,所述事件查询装置还包括:
第一获取单元,用于响应于所述事件的触发操作,获取所述事件对应的目标事件描述信息;
描述信息输出单元,用于输出所述目标事件描述信息。
在一些实施方式中,所述事件查询装置还包括:
第二获取单元,用于获取事件描述信息;
提取单元,用于通过所述大语言模型对所述事件描述信息进行信息提取,得到事件摘要信息;
生成单元,用于根据所述事件摘要信息生成事件;
处理单元,用于对所述事件进行向量化处理,得到事件向量;
存储单元,用于将所述事件和所述事件向量关联存储至所述向量数据库。
在一些实施方式中,所述第二获取单元具体用于:获取对被举报对象的举报信息;基于所述举报信息生成事件描述信息。
在一些实施方式中,所述生成单元具体用于:获取所述被举报对象,在所述事件描述信息所描述事件发生时的对象行为信息;根据所述事件摘要信息和所述对象行为信息生成事件。
在一些实施方式中,所述事件摘要信息包括所述被举报对象的账号、事件发生时间和事件概要,所述生成单元具体用于:对所述账号、所述事件发生时间、所述事件概要和所述对象行为信息进行融合,得到事件。
在一些实施方式中,所述提取单元具体用于:获取提取指示信息,所述提取指示信息用于引导信息提取;将所述事件描述信息和所述提取指示信息输入所述大语言模型,以通过所述大语言模型进行信息提取,得到事件摘要信息。
在一些实施方式中,所述查询单元具体用于:计算所述文本向量与所述向量数据库中存储的事件向量之间的相似度;筛选出相似度大于预设相似度阈值的事件向量,得到候选事件向量;将与所述候选事件向量关联的事件,作为与所述自然语言查询文本匹配的事件。
根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种事件查询方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种事件查询方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种事件查询方法。
本申请实施例可以接收携带自然语言查询文本的事件查询请求,并响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;然后可以从向量数据库中快速查询到与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,此时可以输出与自然语言查询文本匹配的事件。由于向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型自动对事件描述信息进行事件摘要信息提取得到,向量数据库中的事件向量通过对事件进行向量化处理得到,而无需人工手动处理入库,提高了事件入库的效率,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,查询计算量较小,提高了事件查询的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的事件查询方法应用的场景示意图;
图2是本申请实施例提供的事件查询方法的流程示意图;
图3是本申请实施例提供的向量数据库构建的流程示意图;
图4是本申请实施例提供的向量数据库和事件数据库构建的示意图;
图5是本申请实施例提供的共性信息获取的示意图;
图6是本申请实施例提供的目标事件描述信息获取的示意图;
图7是本申请实施例提供的事件显示的示意图;
图8是本申请实施例提供的事件查询方法的另一流程示意图;
图9是本申请实施例提供的事件查询方法的另一流程示意图;
图10是本申请实施例提供的事件查询方法的另一流程示意图;
图11是本申请实施例提供的事件查询装置的示意图;
图12是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请以下描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
本申请以下描述中,所涉及的术语“第一\第二”等仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供一种事件查询方法、装置、计算机设备、存储介质及程序产品。
请参阅图1,图1为本申请实施例所提供的事件查询方法应用的场景示意图,该事件查询方法可以应用于事件查询系统,该事件查询系统可以包括服务器10和终端20等,服务器10可以集成有本申请提供的事件查询装置,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。该终端20可以是手机、平板电脑、笔记本电脑、台式电脑、或者可穿戴设备等。
服务器10与终端20之间可以通过有线或无线通信方式进行直接或间接地连接,例如可以通过有线网络或无线网络进行连接,其中,有线网络可以包括局域网、城域网和广域网等,该无线网络可以包括蓝牙、WIFI及其他实现无线通信的网络,本申请在此不做限制。可以在服务器10上或独立于服务器10设置数据库30,用于为服务器10提供数据存储服务,例如,可以在服务器10上设置用于关联存储事件和事件向量的向量数据库。服务器10可用于为终端20或终端20上安装的客户端提供服务,该客户端可以包括即时通信客户端、以及浏览器客户端等。
其中,服务器10可以用于接收终端20通过客户端发送的事件查询请求,该事件查询请求中可以携带有自然语言查询文本,该自然语言查询文本可以是查询事件所需输入的查询文本。然后,服务器10可以响应于事件查询请求,通过预先设置的向量化模型(如embedding模型)对自然语言查询文本进行向量化处理,得到文本向量,从关联存储有事件和事件向量的向量数据库中,快速查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,此时服务器10可以将该事件发送给终端20,终端20可以在客户端的显示界面内显示与自然语言查询文本匹配的事件。由于向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型自动对事件描述信息进行事件摘要信息提取得到,向量数据库中的事件向量通过对事件进行向量化处理得到,而无需人工手动处理入库,提高了事件入库的效率,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,查询计算量较小,提高了事件查询的效率。
需要说明的是,图1所示的事件查询方法应用的场景示意图仅仅是一个示例,本申请实施例描述的事件查询方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着事件查询方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例中,可以采用人工智能学习方式实现对事件查询,如通过向量化模型对事件进行向量化处理,以及通过大语言模型对事件进行信息提取或共性分析等,提高了事件查询的效率。需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(Machine Learning, ML)技术,其中,深度学习(Deep Learning,DL)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在机器视觉、语音处理技术、自然语言处理等领域。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学等。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、以知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
可以理解的是,在本申请的具体实施方式中,涉及到事件、举报信息、对象行为信息、以及账号等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从事件查询装置的角度进行描述,该事件查询装置具体可以集成在服务器等计算机设备中。
请参阅图2,图2是本申请一实施例提供的事件查询方法的流程示意图。该事件查询方法可以包括步骤S101至步骤S104:
S101、接收事件查询请求,事件查询请求中携带自然语言查询文本。
本实施例可以应用于事件查询场景,该事件可以是正能量的事件,也可以是负能量的事件,在此处不做限定,例如,该事件可以是不法分子以非法占有为目的获得财物的相关事件,又例如,该事件可以是积极分子做了对社会有利的事得到表彰的相关事件。
当需要对事件进行查询时,可以接收用户输入的事件查询请求,或者接收终端发送的事件查询请求,或者响应于查询指令生成事件查询请求等,该事件查询请求中可以携带有自然语言查询文本以及其他信息等,该自然语言查询文本可以是待查询的用于描述问题的文本。
在一些实施方式中,为了提高后续事件查询的可靠性,可以对查询请求中携带的自然语言查询文本进行增广处理,以便基于增广处理得到的多样化的自然语言查询文本进行案件查询。例如,可以对查询请求中携带的初始自然语言查询文本进行分词处理,得到多个词语,然后对多个词语进行取近义词、取同义词、以及语义分析等增广处理,得到多个候选词语,基于多个词语和多个候选词语生成自然语言查询文本,以增加了自然语言查询文本的丰富性和多样性。
S102、响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量。
在接收到事件查询请求后,可以响应于事件查询请求,通过向量化模型对事件查询请求中携带的自然语言查询文本进行向量化处理,得到文本向量,该文本向量可以是低维度的数字化文本,例如,可以通过向量化模型将自然语言查询文本映射为二进制数字序列,并对二进制数字序列进行压缩处理,得到文本向量。
其中,向量化模型可以Embedding模型,该Embedding模型可以是一种将离散型数据(如文本等)映射到连续型向量空间的模型,例如Word2Vec模型。在自然语言处理中,Embedding模型通常用于将单词或字符转换为向量表示,以便于计算机设备进行处理,该向量通常具有一些有意义的特征,例如相似的单词在向量空间中距离较近,不同的单词在向量空间中距离较远。Embedding模型具体可以使用HuggingFace提供的GanymedeNil/text2vec-large-chinese模型来将对自然语言查询文本进行向量化处理,得到文本向量。
S103、从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件。
其中,向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。向量数据库(Vector Database)可以是一种用于存储向量数据的数据库,与传统的关系型数据库不同,向量数据库通常使用特殊的数据结构和算法来支持向量的存储、索引、查询和管理等。向量数据库可以支持各种向量操作,例如向量相似度计算、向量聚类、以及向量检索等。
大语言模型(Large Language Model)可以是基于深度学习技术训练的能够处理自然语言的模型,如可以对自然语言文本进行理解、生成和预测等。大语言模型可以使用如百科文本、新闻文章、小说等各种类型的数据集进行训练,以学习自然语言的语法、语义和上下文等信息,使得大语言模型可以用于各种自然语言处理任务,例如文本分类、情感分析、机器翻译、以及问答系统等。大语言模型的具体类型可以包括生成式预训练Transfomer模型(Generative Pre-Trained Transformer,GPT)、聊天生成预训练转换器 (ChatGenerative Pre-trained Transformer,ChatGPT)、自变换器的双向编码器表征量模型(Bidirectional Encoder Representations from Transformers,BERT)、以及文本生成式对话模型(ChatGLM-6B)等,在此处不作限定。
以下将对向量数据库和事件数据库的构建进行详细说明。
在一些实施方式中,如图3所示,从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件之前,案件查询方法还可以包括步骤S10至步骤S50:
S10、获取事件描述信息。
具体地,首先可以获取事件描述信息,该事件描述信息可以是用于详细描述事件发生的时间和事件发生的细节等的描述文本,事件描述信息可以包括多个,事件描述信息的获取方式可以包括:通过客户端的投诉接口接收用户输入的举报信息,基于举报信息生成事件描述信息,或者,收集用户反馈事件发生的细节等来生成事件描述信息,当然,还可以通过其他方式获取事件描述信息,在此不做限定。
在一些实施方式中,获取事件描述信息,可以包括:获取对被举报对象的举报信息;基于举报信息生成事件描述信息。例如,为了提高事件描述信息获取的便捷性,可以接收具有举报功能的客户端发送的对被举报对象的举报信息,从而可以基于举报信息生成事件描述信息,该被举报对象可以是不法分子、不法分子的身份标识或者不法分子使用的账号等,该举报信息可以包括事件发生的时间、被举报对象的信息和事件发生的细节等信息,可以将举报信息填入事件描述模板,从而生成事件描述信息。
S20、通过大语言模型对事件描述信息进行信息提取,得到事件摘要信息。
在得到事件描述信息后,可以通过大语言模型对事件描述信息进行信息提取,得到事件摘要信息,该事件摘要信息可以包括被举报对象的账号、事件发生时间和事件概要等,该事件概要可以是对事件详细的细节进行关键信息提炼得到的事件简要描述信息。为了提高事件摘要信息提取的准确性,在一些实施方式中,通过大语言模型对事件描述信息进行信息提取,得到事件摘要信息,可以包括:获取提取指示信息,提取指示信息用于引导信息提取;将事件描述信息和提取指示信息输入大语言模型,以通过大语言模型进行信息提取,得到事件摘要信息。
其中,提取指示信息可以包括事件摘要信息模板和例子等,用于引导大语言模型准确进行事件摘要信息的提取。可以通过配置界面对提取指示信息进行配置,或者从信息库中获取匹配的提取指示信息,然后将事件描述信息和提取指示信息输入大语言模型,通过大语言模型基于提取指示信息对事件描述信息进行信息提取,得到账号、事件发生时间和事件概要等事件摘要信息,实现了利用大语言模型的提取归纳能力,可以自动地对非结构化的事件描述信息进行信息提取,提高了事件摘要信息提取的准确性和便捷性。
S30、根据事件摘要信息生成事件。
在得到事件摘要信息后,可以根据事件摘要信息生成事件,例如,可以对账号、事件发生时间和事件概要等进行拼接,得到事件,该事件可以是简要描述事件发生的文本。为了提高事件生成的灵活性,在一些实施方式中,根据事件摘要信息生成事件,可以包括:获取被举报对象,在事件描述信息所描述事件发生时的对象行为信息;根据事件摘要信息和对象行为信息生成事件。
例如,可以通过被举报对象注册账号的后台系统,获取被举报对象使用的账号,在事件描述信息所描述事件发生时的对象行为信息,该对象行为信息可以包括被举报对象的账号与已注册到该后台系统的其他账号之间的交互信息,还可以包括被举报对象的账号发布的内容等行为特征,该对象行为信息的具体内容可以根据实际需求进行灵活设置,在此处不做限定。
此时,可以根据事件摘要信息和对象行为信息生成事件,在一些实施方式中,事件摘要信息包括被举报对象的账号、事件发生时间和事件概要,根据事件摘要信息和对象行为信息生成事件,可以包括:对账号、事件发生时间、事件概要和对象行为信息进行融合,得到事件。
例如,可以对账号、事件发生时间、事件概要和对象行为信息进行拼接,得到事件,或者将账号、事件发生时间、事件概要和对象行为信息填入事件模板,得到事件,提高了事件生成的灵活性。
S40、对事件进行向量化处理,得到事件向量。
在得到包含账号、事件发生时间、事件概要和对象行为信息等事件后,可以通过向量化模型(例如GanymedeNil/text2vec-large-chinese模型)对事件进行向量化处理,得到事件向量。
S50、将事件和事件向量关联存储至向量数据库。
此时,可以为事件向量设置索引或事件编号等,将事件和事件向量,以及索引或事件编号等关联存储至向量数据库中,可以采用相似向量检索(Facebook AI SimilaritySearch,FAISS)来作为向量数据库引擎,以便提高后续从向量数据库查询事件向量的效率。
另外,可以将事件描述信息存储至事件数据库(如关系型数据库MySQL或者分布式数据库ElasticSearch)中,或者将事件描述信息和事件关联存储至事件数据库中,该事件数据库与向量数据库不同。该事件数据库和向量数据库的存储结构和查询算法等可以根据实际需求进行灵活设置,在此不做限定。例如,如图4所示,可以通过大语言模型从事件描述信息中提取账号、事件发生时间(即时间)和事件概要等信息,以及通过特征系统获取被举报对象在事件描述信息所描述事件发生时的对象行为信息,该特征系统为被举报对象注册账号的后台系统。然后对账号、事件发生时间、事件概要和对象行为信息进行拼接,得到事件,将事件和事件描述信息关联存储至事件数据库中,以及通过向量化模型对事件进行向量化得到事件向量,并将事件和事件向量关联存储至向量数据库中。
向量数据库和事件数据库均可以根据实际需求进行离线或在线更新和维护等,在此不作限定。在获取到多个事件描述信息,并将多个事件描述信息对应的事件和事件描述信息关联存储至事件数据库,以及将多个事件描述信息对应的事件和事件向量关联存储至向量数据库后,向量数据库中存储有多个事件和事件向量,事件数据库中存储有多个事件和事件描述信息。
需要说明的是,由于事件可以包括账号、事件发生时间、事件发生地址、以及事件概要等多种信息,因此,为了提高事件获取的灵活性,可以获取事件描述信息的类型,并获取与该类型匹配的已训练的多个信息提取模型,通过各信息提取模型分别提取不同信息,例如,可以通过信息提取模型A从事件描述信息中提取账号,通过信息提取模型B从事件描述信息中提取事件发生时间,通过信息提取模型C从事件描述信息中提取事件发生地址,通过信息提取模型D从事件描述信息中提取事件概要等,不同类型的信息可以用不同信息提取模型来提取,不同信息提取模型均通过训练样本进行训练,可以精准提取到相应的信息。
在一些实施方式中,从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,可以包括:计算文本向量与向量数据库中存储的事件向量之间的相似度;筛选出相似度大于预设相似度阈值的事件向量,得到候选事件向量;将与候选事件向量关联的事件,作为与自然语言查询文本匹配的事件。
在上述构建好向量数据库,以及得到自然语言查询文本对应的文本向量后,当需要对事件进行查询时,可以调用向量数据库的查询接口获取相似度最高的一个或者多个。例如,可以计算文本向量与向量数据库中存储的事件向量之间的相似度,该相似度的计算可以是向量距离的计算,若向量距离越小,则相似度越高,反之,若向量距离越大,则相似度越小。然后可以筛选出相似度大于预设相似度阈值的事件向量,得到一个或多个候选事件向量,其中,预设相似度阈值可以根据实际需求进行灵活设置,在此不作限定。由于向量数据库中关联存储有事件和事件向量,因此,在确定候选事件向量后,可以从向量数据库中快速获取到与候选事件向量关联的事件,此时可以将与候选事件向量关联的事件,作为与自然语言查询文本匹配的事件,提高了事件获取的效率。
S104、输出与自然语言查询文本匹配的事件。
在得到与自然语言查询文本匹配的事件后,可以向终端输出与自然语言查询文本匹配的事件,例如可以将自然语言查询文本匹配的事件发送给终端,该终端可以是事件查询请求发送的终端,可以通过终端的显示屏显示或语音播报等形式输出与自然语言查询文本匹配的事件,还可以显示案件编号等其他信息,以便风控工程师或者安全运营人员等用户查看。在得到与自然语言查询文本匹配的事件后,还可以通过分析模型对事件进行自动分析,以便采取必要措施,该分析模型的具体类型在此处不做限定。
本实施例通过利用大语言模型的提取归纳能力,可以从收集的非结构化事件描述信息提取出有用的事件摘要信息,以便入库,可以大量节省人力,可以自动化处理更多事件描述信息,丰富向量数据库。以及利用大语言模型对上下文以及用户意图的理解能力,可以输出更符合用户查询需求以及接近事实的答案(即与自然语言查询文本匹配的事件),仅需采用自然语言描述问题,即可快速查询得到相关的事件,以便后续对事件的分析更加便捷和全面。
在一些实施方式中,事件包括多个,从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件之后,事件查询方法还可以包括:对多个事件进行共性分析,得到多个事件的共性信息;输出共性信息。
在得到与自然语言查询文本匹配的事件后,为了提高事件分析的便捷性以及信息输出的丰富性,可以自动对多个事件进行共性分析,得到多个事件的共性信息,该共性信息可以是对多个事件的共性总结得到的信息,具体内容在此不做限定。在得到共性信息后,可以将共性信息发送给终端,通过终端显示屏显示或语音播报等形式输出共性信息,而无需人工总结,实现了自动化的共性分析,提高了事件分析的便捷性。
在一些实施方式中,对多个事件进行共性分析,得到多个事件的共性信息,可以包括:获取操作指示信息,操作指示信息用于引导共性分析;将多个事件以及操作指示信息输入大语言模型,以通过大语言模型进行共性分析,得到多个事件的共性信息。
为了提高了事件分析的效率,可以通过大语言模型自动进行事件分析,例如,如图5所示,在通过向量化模型对自然语言查询文本进行向量化处理,得到文本向量,并从向量数据库中查询得到与文本向量匹配的事件向量,以及与事件向量关联的事件后,可以获取操作指示信息,该操作指示信息可以包括事件分析模板和例子等,该操作指示信息用于引导大语言模型对事件进行共性分析。可以通过配置界面对操作指示信息进行配置,或者从信息库中获取匹配的操作指示信息,然后将多个事件以及操作指示信息输入大语言模型,通过大语言模型基于操作指示信息对多个事件进行共性分析,得到多个事件的共性信息。或者,可以将自然语言查询文本、多个事件以及操作指示信息输入大语言模型,以通过大语言模型进行共性分析,得到多个事件的共性信息。实现了通过大语言模型自动进行共性分析,提高了事件分析的效率。
在一些实施方式中,从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件之后,案件查询方法还可以包括:响应于事件的触发操作,获取事件对应的目标事件描述信息;输出目标事件描述信息。
例如,如图6所示,在得到与自然语言查询文本匹配的事件后,可以从用于存储事件描述信息的事件数据库中,获取与事件对应的目标事件描述信息,输出与自然语言查询文本匹配的事件和目标事件描述信息。或者,如图7所示,可以将与自然语言查询文本匹配的事件发送给终端,通过终端显示与自然语言查询文本匹配的事件,如事件1至事件n,还可以显示事件总结(即共性信息),然后,通过终端接收用户针对显示的事件的点击、滑动或按压等触发操作(如点击事件1),接收终端发送的触发操作,响应于事件的触发操作,从用于存储事件描述信息的事件数据库中,获取事件对应的事件描述信息,得到目标事件描述信息。将目标事件描述信息发送给终端,通过终端显示屏显示或语音播报等形式输出目标事件描述信息,提高了信息输出的丰富性和灵活性。
本申请实施例可以接收携带自然语言查询文本的事件查询请求,并响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;然后可以从向量数据库中快速查询到与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,此时可以输出与自然语言查询文本匹配的事件。由于向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型自动对事件描述信息进行事件摘要信息提取得到,向量数据库中的事件向量通过对事件进行向量化处理得到,而无需人工手动处理入库,提高了事件入库的效率,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,查询计算量较小,提高了事件查询的效率。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以事件查询装置集成在服务器为例,该服务器可以集成有向量数据库、事件数据库、大语言模型、向量化模型和特征系统等,本实施例中事件查询方法可以包括构建向量数据库和事件数据库,基于事件查询请求执行事件查询操作,以及查询目标事件描述信息等多个不同阶段,以下将进行详细说明。
(一)构建向量数据库和事件数据库。
请参阅图8,图8是本申请一实施例提供的事件查询方法的流程示意图。该事件查询方法可以包括:
S201、终端向服务器发送事件描述信息。
终端可以通过客户端的投诉接口,接收用户输入的对被举报对象的举报信息,基于举报信息生成事件描述信息,并将举报信息发送给服务器。或者,终端可以接收用户输入的对被举报对象的举报信息,将举报信息发送给服务器,服务器基于举报信息生成事件描述信息,例如,服务器可以将举报信息填入事件描述模板,从而生成事件描述信息。
S202、服务器通过大语言模型从事件描述信息中提取被举报对象的账号、事件发生时间和事件概要,作为事件摘要信息。
服务器通过大语言模型对事件描述信息进行信息提取,得到被举报对象的账号、事件发生时间和事件概要,将被举报对象的账号、事件发生时间和事件概要,作为事件摘要信息。例如,服务器可以获取提取指示信息,该提取指示信息用于引导信息提取,将事件描述信息和提取指示信息输入大语言模型,以通过大语言模型基于提取指示信息对事件描述信息进行信息提取,得到被举报对象的账号、事件发生时间和事件概要等事件摘要信息。实现了利用大语言模型的提取归纳能力,可以自动地对非结构化的事件描述信息进行信息提取,提高了事件摘要信息提取的准确性和便捷性。
S203、服务器通过特征系统获取对象行为信息。
该特征系统为被举报对象注册账号的后台系统,服务器可以通过后台系统,获取被举报对象使用的账号,在事件描述信息所描述事件发生时的对象行为信息,该对象行为信息可以包括被举报对象的账号与已注册到该后台系统的其他账号之间的交互信息,还可以包括被举报对象的账号发布的内容等行为特征。
S204、服务器将事件摘要信息和对象行为信息拼接成事件,并将事件和事件描述信息关联存储至事件数据库。
服务器可以对账号、事件发生时间、事件概要和对象行为信息进行拼接,得到事件,或者将账号、事件发生时间、事件概要和对象行为信息填入事件模板,得到事件,提高了事件生成的灵活性。
S205、服务器通过向量化模型对事件进行向量化处理,得到事件向量。
S206、服务器将事件和事件向量关联存储至向量数据库。
服务器可以为事件向量设置索引,将事件、事件向量以及索引等以树结构的形式关联存储至向量数据库中,可以采用FAISS来作为向量数据库引擎,以便提高后续从向量数据库查询事件向量的效率。
需要说明的是,向量数据库和事件数据库均可以根据实际需求进行离线或在线更新和维护等,在此不作限定。服务器在接收到多个事件描述信息,并将多个事件描述信息对应的事件和事件描述信息关联存储至事件数据库,以及将多个事件描述信息对应的事件和事件向量关联存储至向量数据库后,向量数据库中存储有多个事件和事件向量,事件数据库中存储有多个事件和事件描述信息。
S207、服务器向终端返回针对事件描述信息的响应信息。
其中,响应信息可的具体内容可以根据实际需求进行灵活设置,在此不做限定。例如,服务器可以向终端返回事件描述信息对应的举报信息已受理,事件描述信息已存储完成等相关响应信息。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对事件查询方法的详细描述,此处不再赘述。
本实施例中,服务器可以通过大语言模型从接收到的事件描述信息中提取被举报对象的账号、事件发生时间和事件概要,以及通过特征系统获取对象行为信息,将账号、事件发生时间、事件概要和对象行为信息拼接成事件,并将事件和事件描述信息关联存储至事件数据库。并且,可以通过向量化模型对事件进行向量化处理,得到事件向量,将事件和事件向量关联存储至向量数据库。实现了通过自动对事件处理并入库,而无需人工手动处理入库,提高了事件入库的效率和便捷性。
(二)基于事件查询请求执行事件查询操作。
请参阅图9,图9是本申请一实施例提供的事件查询方法的流程示意图。该事件查询方法可以包括:
S301、终端向服务器发送携带自然语言查询文本的事件查询请求。
S302、服务器通过向量化模型对自然语言查询文本进行向量化处理,得到文本向量。
服务器可以响应于事件查询请求,通过向量化模型对事件查询请求中携带的自然语言查询文本进行向量化处理,得到文本向量。
S303、服务器从向量数据库中查询与文本向量匹配的多个事件向量和多个事件。
服务器可以从向量数据库中查询与文本向量之间的相似度大于预设相似度阈值的多个事件向量,并获取与每个事件向量关联的事件,得到与自然语言查询文本匹配的多个事件。
S304、服务器通过大语言模型对多个事件进行共性分析,得到多个事件的共性信息。
其中,该共性信息可以是对多个事件进行总结得到的事件总结。例如,服务器可以获取操作指示信息,操作指示信息用于引导共性分析;将多个事件以及操作指示信息输入大语言模型,以通过大语言模型基于操作指示信息对多个事件进行共性分析,得到多个事件的共性信息。实现了通过大语言模型自动进行共性分析,提高了事件分析的效率。
S305、服务器将与自然语言查询文本匹配的多个事件,以及多个事件的共性信息,发送给终端。
S306、终端显示多个事件,以及多个事件的共性信息。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对事件查询方法的详细描述,此处不再赘述。
本实施例中,服务器可以通过向量化模型对事件查询请求中携带的自然语言查询文本进行向量化处理,得到文本向量,并从向量数据库中查询与文本向量匹配的多个事件向量和多个事件,以及通过大语言模型对多个事件进行共性分析,得到多个事件的共性信息。实现了自动对事件进行查询和分析总结,而无需人工处理,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,提高了事件查询的效率。
(三)查询目标事件描述信息。
请参阅图10,图10是本申请一实施例提供的事件查询方法的流程示意图。该事件查询方法可以包括:
S401、终端向服务器发送携带自然语言查询文本的事件查询请求。
S402、服务器通过向量化模型对自然语言查询文本进行向量化处理,得到文本向量。
服务器可以响应于事件查询请求,通过向量化模型对事件查询请求中携带的自然语言查询文本进行向量化处理,得到文本向量。
S403、服务器从向量数据库中查询与文本向量匹配的多个事件向量和多个事件。
服务器可以从向量数据库中查询与文本向量之间的相似度大于预设相似度阈值的多个事件向量,并获取与每个事件向量关联的事件,得到与自然语言查询文本匹配的多个事件。
S404、服务器通过大语言模型对多个事件进行共性分析,得到多个事件的共性信息。
其中,该共性信息可以是对多个事件进行总结得到的事件总结。例如,服务器可以获取操作指示信息,操作指示信息用于引导共性分析;将多个事件以及操作指示信息输入大语言模型,以通过大语言模型基于操作指示信息对多个事件进行共性分析,得到多个事件的共性信息。实现了通过大语言模型自动进行共性分析,提高了事件分析的效率。
S405、服务器将与自然语言查询文本匹配的多个事件,以及多个事件的共性信息,发送给终端。
S406、终端显示多个事件,以及多个事件的共性信息。
S407、终端向服务器发送事件获取请求。
终端在显示多个事件和共性信息后,可以接收用户基于对事件的触发操作,生成事件获取请求,并将事件获取请求发送给服务器。
S408、服务器从事件数据库中获取与事件关联的目标事件描述信息。
服务器可以响应于事件获取请求,从事件数据库中获取与事件关联的事件描述信息,得到目标事件描述信息。
S409、服务器将目标事件描述信息发送给终端。
S410、终端显示目标事件描述信息。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对事件查询方法的详细描述,此处不再赘述。
本实施例中,服务器可以通过向量化模型对事件查询请求中携带的自然语言查询文本进行向量化处理,得到文本向量,并从向量数据库中查询与文本向量匹配的多个事件向量和多个事件,以及通过大语言模型对多个事件进行共性分析,得到多个事件的共性信息。并且,基于接收到的事件获取请求,从事件数据库中获取与事件关联的事件描述信息,得到目标事件描述信息。实现了自动对事件进行查询和分析总结,而无需人工处理,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,以及可以根据需求快速获取目标事件描述信息,不仅提高了事件查询的效率,而且提高了信息获取的丰富性和灵活性。
为便于更好的实施本申请实施例提供的事件查询方法,本申请实施例还提供一种基于上述事件查询方法的装置。其中名词的含义与上述事件查询方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图11,图11为本申请实施例提供的事件查询装置的结构示意图,其中该事件查询装置500可以包括接收单元501、响应单元502、查询单元503、以及输出单元504等。
其中,接收单元501,用于接收事件查询请求,事件查询请求中携带自然语言查询文本;
响应单元502,用于响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;
查询单元503,用于从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件;
输出单元504,用于输出与自然语言查询文本匹配的事件;
其中,向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
在一些实施方式中,事件查询装置500还包括:
分析单元,用于对多个事件进行共性分析,得到多个事件的共性信息;
共性信息输出单元,用于输出共性信息。
在一些实施方式中,分析单元具体用于:获取操作指示信息,操作指示信息用于引导共性分析;将多个事件以及操作指示信息输入大语言模型,以通过大语言模型进行共性分析,得到多个事件的共性信息。
在一些实施方式中,事件查询装置500还包括:
第一获取单元,用于响应于事件的触发操作,获取事件对应的目标事件描述信息;
描述信息输出单元,用于输出目标事件描述信息。
在一些实施方式中,事件查询装置500还包括:
第二获取单元,用于获取事件描述信息;
提取单元,用于通过大语言模型对事件描述信息进行信息提取,得到事件摘要信息;
生成单元,用于根据事件摘要信息生成事件;
处理单元,用于对事件进行向量化处理,得到事件向量;
存储单元,用于将事件和事件向量关联存储至向量数据库。
在一些实施方式中,第二获取单元具体用于:获取对被举报对象的举报信息;基于举报信息生成事件描述信息。
在一些实施方式中,生成单元具体用于:获取被举报对象,在事件描述信息所描述事件发生时的对象行为信息;根据事件摘要信息和对象行为信息生成事件。
在一些实施方式中,事件摘要信息包括被举报对象的账号、事件发生时间和事件概要,生成单元具体用于:对账号、事件发生时间、事件概要和对象行为信息进行融合,得到事件。
在一些实施方式中,提取单元具体用于:获取提取指示信息,提取指示信息用于引导信息提取;将事件描述信息和提取指示信息输入大语言模型,以通过大语言模型进行信息提取,得到事件摘要信息。
在一些实施方式中,查询单元503具体用于:计算文本向量与向量数据库中存储的事件向量之间的相似度;筛选出相似度大于预设相似度阈值的事件向量,得到候选事件向量;将与候选事件向量关联的事件,作为与自然语言查询文本匹配的事件。
本申请实施例可以由接收单元501接收携带自然语言查询文本的事件查询请求,并由响应单元502响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;然后可以由查询单元503从向量数据库中快速查询到与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,此时可以由输出单元504输出与自然语言查询文本匹配的事件。由于向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型自动对事件描述信息进行事件摘要信息提取得到,向量数据库中的事件向量通过对事件进行向量化处理得到,而无需人工手动处理入库,提高了事件入库的效率,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,查询计算量较小,提高了事件查询的效率。
本申请实施例还提供一种计算机设备,该计算机设备可以是服务器等,如图12所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图12中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
接收携带自然语言查询文本的事件查询请求,响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,输出与自然语言查询文本匹配的事件。其中,向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
由于向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型自动对事件描述信息进行事件摘要信息提取得到,向量数据库中的事件向量通过对事件进行向量化处理得到,而无需人工手动处理入库,提高了事件入库的效率,并且通过向量查询可以快速查询到与文本向量匹配的事件向量及快速获得关联的事件,查询计算量较小,提高了事件查询的效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对事件查询方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质(即存储介质)中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种事件查询方法,包括:
接收携带自然语言查询文本的事件查询请求,响应于事件查询请求,对自然语言查询文本进行向量化处理,得到文本向量;从向量数据库中查询与文本向量匹配的事件向量,并获取与事件向量关联的事件,得到与自然语言查询文本匹配的事件,输出与自然语言查询文本匹配的事件。其中,向量数据库关联存储有事件和事件向量,向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种事件查询方法中的步骤,因此,可以实现本申请实施例所提供的任一种事件查询方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种事件查询方法、装置、计算机设备、存储介质及程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种事件查询方法,其特征在于,包括:
接收事件查询请求,所述事件查询请求中携带自然语言查询文本;
响应于所述事件查询请求,对所述自然语言查询文本进行向量化处理,得到文本向量;
从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件;
输出与所述自然语言查询文本匹配的所述事件;
其中,所述向量数据库关联存储有事件和事件向量,所述向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
2.根据权利要求1所述的事件查询方法,其特征在于,所述事件包括多个,所述从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件之后,所述方法还包括:
对多个所述事件进行共性分析,得到多个所述事件的共性信息;
输出所述共性信息。
3.根据权利要求2所述的事件查询方法,其特征在于,所述对多个所述事件进行共性分析,得到多个所述事件的共性信息,包括:
获取操作指示信息,所述操作指示信息用于引导共性分析;
将多个所述事件以及所述操作指示信息输入大语言模型,以通过所述大语言模型进行共性分析,得到多个所述事件的共性信息。
4.根据权利要求1所述的事件查询方法,其特征在于,所述从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件之后,所述方法还包括:
响应于所述事件的触发操作,获取所述事件对应的目标事件描述信息;
输出所述目标事件描述信息。
5.根据权利要求1所述的事件查询方法,其特征在于,所述从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件之前,所述方法还包括:
获取事件描述信息;
通过所述大语言模型对所述事件描述信息进行信息提取,得到事件摘要信息;
根据所述事件摘要信息生成事件;
对所述事件进行向量化处理,得到事件向量;
将所述事件和所述事件向量关联存储至所述向量数据库。
6.根据权利要求5所述的事件查询方法,其特征在于,所述获取事件描述信息,包括:
获取对被举报对象的举报信息;
基于所述举报信息生成事件描述信息。
7.根据权利要求6所述的事件查询方法,其特征在于,所述根据所述事件摘要信息生成事件,包括:
获取所述被举报对象,在所述事件描述信息所描述事件发生时的对象行为信息;
根据所述事件摘要信息和所述对象行为信息生成事件。
8.根据权利要求7所述的事件查询方法,其特征在于,所述事件摘要信息包括所述被举报对象的账号、事件发生时间和事件概要,所述根据所述事件摘要信息和所述对象行为信息生成事件,包括:
对所述账号、所述事件发生时间、所述事件概要和所述对象行为信息进行融合,得到事件。
9.根据权利要求5所述的事件查询方法,其特征在于,所述通过所述大语言模型对所述事件描述信息进行信息提取,得到事件摘要信息,包括:
获取提取指示信息,所述提取指示信息用于引导信息提取;
将所述事件描述信息和所述提取指示信息输入所述大语言模型,以通过所述大语言模型进行信息提取,得到事件摘要信息。
10.根据权利要求1至9任一项所述的事件查询方法,其特征在于,所述从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件,包括:
计算所述文本向量与所述向量数据库中存储的事件向量之间的相似度;
筛选出相似度大于预设相似度阈值的事件向量,得到候选事件向量;
将与所述候选事件向量关联的事件,作为与所述自然语言查询文本匹配的事件。
11.一种事件查询装置,其特征在于,包括:
接收单元,用于接收事件查询请求,所述事件查询请求中携带自然语言查询文本;
响应单元,用于响应于所述事件查询请求,对所述自然语言查询文本进行向量化处理,得到文本向量;
查询单元,用于从向量数据库中查询与所述文本向量匹配的事件向量,并获取与所述事件向量关联的事件,得到与所述自然语言查询文本匹配的事件;
输出单元,用于输出与所述自然语言查询文本匹配的所述事件;
其中,所述向量数据库关联存储有事件和事件向量,所述向量数据库中的事件通过大语言模型对事件描述信息进行事件摘要信息提取得到。
12.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至10任一项所述的事件查询方法。
13.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至10任一项所述的事件查询方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器加载,以执行权利要求1至10任一项所述的事件查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847815.2A CN116561288B (zh) | 2023-07-12 | 2023-07-12 | 事件查询方法、装置、计算机设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310847815.2A CN116561288B (zh) | 2023-07-12 | 2023-07-12 | 事件查询方法、装置、计算机设备、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561288A true CN116561288A (zh) | 2023-08-08 |
CN116561288B CN116561288B (zh) | 2024-01-05 |
Family
ID=87503951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310847815.2A Active CN116561288B (zh) | 2023-07-12 | 2023-07-12 | 事件查询方法、装置、计算机设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561288B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118245497A (zh) * | 2024-05-24 | 2024-06-25 | 亚信科技(中国)有限公司 | 一种指标向量检索方法、系统及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124954A1 (en) * | 2014-11-03 | 2016-05-05 | International Business Machines Corporation | Using Synthetic Events to Identify Complex Relation Lookups |
CN112148843A (zh) * | 2020-11-25 | 2020-12-29 | 中电科新型智慧城市研究院有限公司 | 文本处理方法、装置、终端设备和存储介质 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN113868252A (zh) * | 2021-09-27 | 2021-12-31 | 中国人民银行清算总中心 | 数据库模式匹配方法及装置、sql查询语句生成方法 |
CN114003799A (zh) * | 2020-07-27 | 2022-02-01 | 阿里巴巴集团控股有限公司 | 事件推荐方法、装置和设备 |
CN114357117A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 事务信息查询方法、装置、计算机设备及存储介质 |
US20220138489A1 (en) * | 2020-11-05 | 2022-05-05 | Samsung Electronics Co., Ltd. | Method of live video event detection based on natural language queries, and an apparatus for the same |
CN114547072A (zh) * | 2022-02-10 | 2022-05-27 | 招商银行股份有限公司 | 自然语言查询转换sql方法、系统、设备及存储介质 |
-
2023
- 2023-07-12 CN CN202310847815.2A patent/CN116561288B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124954A1 (en) * | 2014-11-03 | 2016-05-05 | International Business Machines Corporation | Using Synthetic Events to Identify Complex Relation Lookups |
CN114003799A (zh) * | 2020-07-27 | 2022-02-01 | 阿里巴巴集团控股有限公司 | 事件推荐方法、装置和设备 |
US20220138489A1 (en) * | 2020-11-05 | 2022-05-05 | Samsung Electronics Co., Ltd. | Method of live video event detection based on natural language queries, and an apparatus for the same |
CN112148843A (zh) * | 2020-11-25 | 2020-12-29 | 中电科新型智慧城市研究院有限公司 | 文本处理方法、装置、终端设备和存储介质 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
CN113377850A (zh) * | 2021-06-09 | 2021-09-10 | 深圳前海墨斯科技有限公司 | 认知物联网大数据技术平台 |
CN113868252A (zh) * | 2021-09-27 | 2021-12-31 | 中国人民银行清算总中心 | 数据库模式匹配方法及装置、sql查询语句生成方法 |
CN114357117A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 事务信息查询方法、装置、计算机设备及存储介质 |
CN114547072A (zh) * | 2022-02-10 | 2022-05-27 | 招商银行股份有限公司 | 自然语言查询转换sql方法、系统、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118245497A (zh) * | 2024-05-24 | 2024-06-25 | 亚信科技(中国)有限公司 | 一种指标向量检索方法、系统及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116561288B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11651236B2 (en) | Method for question-and-answer service, question-and-answer service system and storage medium | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN109145168A (zh) | 一种专家服务机器人云平台 | |
CN111026840B (zh) | 文本处理方法、装置、服务器和存储介质 | |
Hsu et al. | Integrating machine learning and open data into social Chatbot for filtering information rumor | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN116561288B (zh) | 事件查询方法、装置、计算机设备、存储介质及程序产品 | |
CN117556024B (zh) | 知识问答方法以及相关设备 | |
CN117807204A (zh) | 工程机械故障问题的问答诊断方法、装置、设备和介质 | |
CN118132719A (zh) | 一种基于自然语言处理的智能对话方法及系统 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN117951270A (zh) | 一种文档检索方法、装置及相关设备 | |
CN113392220B (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
CN113672522B (zh) | 测试资源压缩方法以及相关设备 | |
CN113821669B (zh) | 搜索方法、装置、电子设备和存储介质 | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN117009373A (zh) | 实体查询方法、查询端、请求端和电子设备 | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
Zhang et al. | Design and implementation of power question answering and visualization system based on knowledge graph | |
CN118551027B (zh) | 一种基于水利知识图谱的智能问答系统的构建方法 | |
CN117725153B (zh) | 文本匹配方法、装置、电子设备和存储介质 | |
CN117131184B (zh) | 一种基于知识图谱的场地土壤污染问答系统及问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |