CN116304109A - 基于会议知识图谱的检索方法、系统、介质及电子设备 - Google Patents
基于会议知识图谱的检索方法、系统、介质及电子设备 Download PDFInfo
- Publication number
- CN116304109A CN116304109A CN202310335011.4A CN202310335011A CN116304109A CN 116304109 A CN116304109 A CN 116304109A CN 202310335011 A CN202310335011 A CN 202310335011A CN 116304109 A CN116304109 A CN 116304109A
- Authority
- CN
- China
- Prior art keywords
- conference
- knowledge
- graph
- knowledge graph
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000008569 process Effects 0.000 claims description 15
- 238000012800 visualization Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 11
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 239000004973 liquid crystal related substance Substances 0.000 claims 2
- 238000012423 maintenance Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 description 13
- 239000000047 product Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000009960 carding Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供一种基于会议知识图谱的检索方法、系统、介质及电子设备;所述方法包括:获取会议知识;根据所述会议知识构建会议知识图谱;基于所述会议知识图谱检索会议内容和/或会议设备故障;本申请通过建立会议知识图谱,能够实现基于该会议知识图谱进行会议内容与会议设备故障的检索,从而能够让会议内容检索更高效,让会议设备运维更智能。
Description
技术领域
本申请属于自然语音处理技术领域,涉及一种会议知识图谱,特别是涉及一种基于会议知识图谱的检索方法、系统、介质及电子设备。
背景技术
会议作为企业集体决策及重要事项部署的最关键管理行为,是企业的核心管理业务之一,每天有无数场会议在进行,会议主题繁杂,会前整理参会信息,会后回顾会议,了解未参与的会议内容,就成了费时费力的事。
发明内容
本申请的目的在于提供一种基于会议知识图谱的检索方法、系统、介质及电子设备,用于解决上述背景技术中指出的问题。
第一方面,本申请提供一种基于会议知识图谱的检索方法,所述方法包括:获取会议知识;根据所述会议知识构建会议知识图谱;基于所述会议知识图谱检索会议内容和/或会议设备故障。
本申请中,通过建立会议知识图谱,能够实现基于该会议知识图谱进行会议内容与会议设备故障的检索,从而能够让会议内容检索更高效,让会议设备运维更智能。
在第一方面的一种实现方式中,所述会议知识至少包括:第一数据和/或第二数据;所述获取会议知识至少包括:从会议业务数据库中提取所述第一数据;所述第一数据至少包括以下任意一种格式:ppt、pdf、word、excel、视频、语音、语音转写文本文件、图片;其中,图片格式至少包括以下任意一种数据:批注、白板、笔记、截图;和/或从第三方数据库中提取所述第二数据;所述第二数据至少包括:客户信息。
本实现方式中,不仅从会议业务数据库中提取第一数据,作为会议知识,还会从第三方数据库中提取第二数据,作为会议知识,从而丰富了会议知识的内容,及后续基于该会议知识构建的会议知识图谱内容的完整性和全面性。
在第一方面的一种实现方式中,所述根据所述会议知识构建会议知识图谱包括:关联会议基本信息与所述会议知识,以构建所述会议知识图谱;其中,所述会议基本信息至少包括以下任意一种:议题名称、持续时间、汇报人、议题资料显示。
在第一方面的一种实现方式中,所述基于所述会议知识图谱检索会议内容包括:获取检索标签;根据所述检索标签于所述会议知识图谱中检索所述会议内容。
在第一方面的一种实现方式中,所述基于所述会议知识图谱检索会议内容还包括:根据所述会议内容扩充所述检索标签,以在下一次检索时,根据扩充的检索标签于所述会议知识图谱中进行检索。
本实现方式中,通过不断扩充检索标签,便于后续的检索过程。
在第一方面的一种实现方式中,所述根据所述会议内容扩充所述检索标签包括:根据所述会议内容生成文本数据库,以基于所述文本数据库中的会议标签扩充所述检索标签;所述文本数据库中至少包括以下任意一种会议标签:会议纪要、会议主题、会议关键字、参会人、会议类型;和/或根据所述会议内容生成多媒体标签,以利用所述多媒体标签扩充所述检索标签;所述多媒体标签至少包括以下任意一种格式的标签:图片、视频、音频;和/或根据所述会议内容获取身份标签,以利用所述身份标签扩充所述检索标签。
在第一方面的一种实现方式中,在所述基于所述会议知识图谱检索会议内容和/或会议设备故障的步骤之前,所述方法还包括:更新所述会议知识图谱;所述基于所述会议知识图谱检索会议内容和/或会议设备故障包括:基于更新后的会议知识图谱检索会议内容和/或会议设备故障;和/或所述方法还包括:将所述会议知识图谱的图存储于图数据库中,以实现所述会议知识图谱的可视化,及所述会议内容和/或所述会议设备故障检索过程的可视化。
本实现方式中,通过引入图数据库,可完成会议知识图谱及检索过程的可视化,从而通过可视化实现将复杂的信息以非常直观的方式呈现出来,使得用户对隐藏信息的来龙去脉一目了然。
第二方面,本申请提供一种基于会议知识图谱的检索系统,所述系统包括:获取模块,用于获取会议知识;构建模块,用于根据所述会议知识构建会议知识图谱;检索模块,用于基于所述会议知识图谱检索会议内容和/或会议设备故障。
第三方面,本申请提供电子设备,所述电子设备包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的基于会议知识图谱的检索方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现上述的基于会议知识图谱的检索方法。
如上所述,本申请所述的基于会议知识图谱的检索方法、系统、介质及电子设备,具有以下有益效果:
与现有技术相比,本申请提供了一种基于会议知识图谱的检索方法,能够实现对会议内容及会议设备故障的检索;通过会议知识图谱,可以帮助进行会议知识梳理、知识分层,拓宽知识延伸、筛选目标知识、形成会议知识点思维链条,从而把碎片化数据转化为全面知识网络,最终为上层应用提供有效的知识服务。
附图说明
图1显示为本申请实施例所述的基于会议知识图谱的检索方法的流程图。
图2显示为本申请实施例所述的会议资料文件与会议基本信息的关系图。
图3显示为本申请实施例所述的语音及语音转写文本与会议基本信息之间的关联图。
图4显示为本申请实施例所述的构建会议知识图谱的原理图。
图5显示为本申请实施例所述的基于会议知识图谱检索会议内容的流程图。
图6显示为本申请实施例所述的构建RDF的原理图。
图7显示为本申请实施例所述的基于会议知识图谱检索会议设备故障的原理图。
图8显示为本申请实施例所述的会议知识图谱检索可视化的结构示意图。
图9显示为本申请实施例所述的基于会议知识图谱的检索系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
参阅图1至图9。本申请以下实施例提供了基于会议知识图谱的检索方法、系统、介质及电子设备,与现有技术相比,本申请能够实现对会议内容及会议设备故障的检索;通过会议知识图谱,可以帮助进行会议知识梳理、知识分层,拓宽知识延伸、筛选目标知识、形成会议知识点思维链条,从而把碎片化数据转化为全面知识网络,最终为上层应用提供有效的知识服务。
知识图谱在描述真实世界中存在的各种实体或概念及其关系,节点表示实体或概念,边则由属性或关系构成,本质上它是一种基于图的数据结构,由节点(Point)和边(Edge)组成,构成一张巨大的语义网络图。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络,它提供了从“关系”的角度去分析问题的能力。
当前许多组织开始使用知识图谱来建立包含知识资产、服务问题、解决方案和用户体验的“360度”数字化解决方案。知识图谱擅长捕捉现实世界的复杂性,以一种直观的方式存储信息,因为数据的存储方式与人类思考和可视化信息的方式相同。知识图谱也比传统的关系数据模型灵活得多,可以很容易地添加、更改和删除数据,以响应真实世界的变化。这减少了创建数据的技术负担,并使技术和业务用户更容易检索和理解信息。
结合前述背景技术中所指出的问题,本申请通过建立会议内容知识与会议设备故障的知识图谱,能够让会议内容检索更高效。
另外,在IOT架构普适化的今天,智慧办公的智能硬件层出不穷,会议系统智能前端也在持续的更新换代,智能前端硬件的维护与运维成为IT部门十分关键但耗费巨大人力成本的问题。大型企业,迫切需要更加高效的智能设备知识关系检索系统来支持运维工程师的日常工作,帮助企业降本增效。本申请通过构建的会议知识图谱能够实现会议设备故障检索,从而让会议设备运维更智能。
需要说明的是,会议全生命周期中,各类结构化和非结构化的数据信息冗杂,难以整理,文本、标签、音频、图片、视频、白板、批注很难通过系统进行全面的,精细化、标签化管理。本申请中,通过会议内容标注、标签管理,形成以会议主题、会议设备、会议场所、会议发起人、会议运维人员等为中心实体、以会议各类大场景、中场景,小场景为依据的各类“关系”构建会议知识图谱。当想要再次检索回顾的时候,能够通过会议知识图谱,发现、洞察、挖掘会议与会议之间,会议与设备之间、会议与会议组织者之间相互关联,相互依赖、相互从属等一些列复杂的关系,为内容检索提供更多的可能性,比如更加全面的会议纪要、文本、待办、督办、板书、批注等全面而综合的可视化内容关系数据。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
如图1所示,本实施例提供一种基于会议知识图谱的检索方法,应用于一电子设备;具体地,所述方法包括:
步骤S1、获取会议知识。
于一实施例中,所述会议知识至少包括但不限于:第一数据和/或第二数据。
于一实施例中,所述获取会议知识至少包括但不限于:从会议业务数据库中提取所述第一数据。
于一实施例中,所述第一数据至少包括但不限于以下任意一种格式:ppt、pdf、word、excel、视频、语音、语音转写文本文件、图片。
于一实施例中,图片格式至少包括但不限于以下任意一种数据:批注、白板、笔记、截图。
于一实施例中,从第三方数据库中提取所述第二数据。
于一实施例中,所述第二数据至少包括但不限于:客户信息;诸如,该第二数据还可包括:组织产品和服务的信息。
于一实施例中,在提取第一数据的步骤之前,还包括预处理原始会议数据,以提取出所述第一数据。
需要说明的是,该原始会议数据包括在会议过程中,获取的所有与会议相关的原型数据(如图4中所示)。
于一实施例中,预处理包括:监控处理,自动语音转写处理、文本标点处理。
(1)监控处理:语音是根据WebSocket协议从前端HTML页面传输的。该监控处理是通过端口实时监控前端页面发送的二进制语音流信号数据,并将数据保存在缓冲池中。当缓冲池数据大于16000字节时,缓冲池中的二进制语音流数据传输到后续的「自动语音转写处理」中。
(2)自动语音转写处理:将接收到的二进制语音流数据转换为无标点的文本,并以多线程的方式将其发送到前端,得到「语音转写文本」显示结果。缓冲池中的无标点文本则根据上下文信息进行校对和更正,修正后的结果被传递给后续的「文本标点处理」。
(3)文本标点处理:通过在特定语料库上基于BERT训练的模型,将接收到的无标点文本数据转换为带有标点符号的文本数据,并将转换结果保存在文本缓冲池中。此缓冲池用于缓存已加标点的文本,这是因为只有在识别出完整的句子后,该句子才会被发送到后续的「构建会议知识图谱」步骤中,因此该处理会将完整的句子发送到会议知识图谱构建阶段,最后一部分没有标点符号的文本被缓存。如果带标点的文本都是完整的句子,并且句号在文本的末尾,则缓冲池被清空。
知识图谱非常擅长聚合来自多个来源的信息。知识图谱可以从多个来源(如CRM系统、产品数据和供应商系统等)提取有关客户的信息。这种聚合视图意味着可以使用知识图谱来确定应该将哪些内容块组装在一起,以最佳地与客户的关注点保持一致。组件化内容管理生成分块的内容,而知识图谱组装“正确的”内容块,构建起基于“主题”的知识区域。
在经上述预处理之后,需要对会议内容进行标注、标签管理、处理结构化与非结构化的数据,搭建以会议主题、参会人员、会议设备为中心的会议知识图谱及知识库。会议知识图谱可以聚合的不仅仅是客户的信息,还用于聚合关于组织产品和服务的信息。这些信息可以来自产品信息管理系统、产品目录等(而这些又是来源于第三方数据库)。有了这些信息,会议知识图谱就可以查看客户拥有的产品以及这些产品的最新信息,从而可以向客户提供具有高度针对性的、几乎是预测性的信息。
按数据源类型划分,知识获取包括从结构化、半结构化和非结构化的数据中获取知识。从结构化数据中获取知识,需把关系数据库中的数据转换成RDF形式的知识,可使用开源工具D2RQ等将关系数据库转换为RDF,但难点在于难以自动与图谱模式结合与映射,需要依赖人工编写映射规则;从半结构化的网页数据获取知识主要采用包装器方法,而对于行文格式稳定的文本可视作半结构化数据,可通过格式解析、基于规则的方法进行抽取。
本申请中,采用DeepKE开源并且可扩展的知识图谱提取工具包,支持知识库群体中复杂的低资源、文档级和多模态场景,实现了各种信息抽取任务,包括命名实体识别、关系抽取和属性抽取三大知识抽取任务,并支持复杂的应用场景,如低资源少样本和文档篇章级抽取场景。
目前,DeepKE已支持单句/多句篇章、多模态、低资源等复杂知识图谱构建场景,包括实体、关系和属性抽取任务,支持多种格式和不同大小的数据规模,并提供开箱即用的实体关系抽取模型,用户可灵活地进行训练、预测和自动调参,并自定义数据集和参数。通过统一的框架,DeepKE允许开发人员和研究人员根据自己的需要定制数据集和模型,从非结构化数据中提取信息。具体来说,DeepKE不仅针对不同的任务和场景提供了丰富的功能模块和模型实现,还通过一致的框架组织所有组件,以保持足够的模块化和可扩展性。
DeepKE新增多模态实体和关系抽取。与文本相关的丰富的图像信号可以起到增强上下文的作用,有助于复杂情境的知识抽取。DeepKE提供了一个简单的基于Transformer和前缀(Prefix)注意力增强的多模态实体关系抽取模型IFAformer模型。IFAformer在每一个Transformer层同时拼接上下文和视觉特征的多头注意力键值,它们可以隐式地对齐文本和相关图像中物体的特征。
步骤S2、根据所述会议知识构建会议知识图谱。
知识库与知识图谱能够快速迁移、覆盖知识图谱层面和语言理解层面,搭建语义相似度模型、预训练模型、通用意图分类模型等来支撑会议知识库、知识图谱的快读迁移和复用迭代。
知识图谱的构建过程,也包含知识图谱的更新过程。
于一实施例中,在所述基于所述会议知识图谱检索会议内容和/或会议设备故障的步骤之前,所述方法还包括:更新所述会议知识图谱。
如图4所示,本申请中,会议知识图谱的构建从最原始的原型数据出发,采用一系列自动或者半自动的技术手段,从会议业务数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。
知识图谱表示,对于跨媒体相关性分析,需要一种符合跨媒体特性的数据表达机制,通过建立统一的数据模型来表达不同模态对象,同时还能反映对象间的潜在关系。
本申请采用入多模态语义文档(MAD)定义,即将具有相同注释语义类别的多模态数据命名为多模态语义文档。例如,同一个参会人的会议纪要、发言文本、图像、视频、音频等文件都归类为同一个MAD。
于一实施例中,所述根据所述会议知识构建会议知识图谱包括:关联会议基本信息与所述会议知识,以构建所述会议知识图谱。
如图2所示,会前场景下,上传数字化会议系统的资料:ppt、pdf、word、excel、视频(MP4格式),以及语音、语音转写文本文件等会议资料文件,作为第二类非结构化数据,与会议基本信息构建映射关系后,存储在专用文件服务器与MongoDB数据库(主要存储非结构化数据与会议基本信息的关系数据,对应上述的会议业务数据库)。
会中及会后场景下,大量的会议批注、大屏白板、个人笔记、重点截图等图片作为第一类非结构化数据,与会议基本信息关联构建知识图谱关系,其中图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。
如图3所示,显示为语音及语音转写文本与会议基本信息之间的关联图。
如图2和图3所示,于一实施例中,所述会议基本信息至少包括但不限于以下任意一种:议题名称、持续时间、汇报人、议题资料显示。
需要说明的是,通过对会议基本信息和会议知识进行知识图谱表示,可完成会议知识图谱的构建。例如,将一条会议纪要以及会议时间、会议地点等属性作为节点,建立会议纪要节点和会议属性节点之间的关系。
步骤S3、基于所述会议知识图谱检索会议内容和/或会议设备故障。
一、基于会议知识图谱的会议内容检索
会议知识图谱的图存储在图数据库(Neo4j)中,图数据库以图论为理论基础,用节点和关系所组成的图,为真实世界直观地建模,支持百亿量级甚至千亿量级规模的巨型图的高效关系运算和复杂关系分析。
图数据库,不同于关系型数据库,一修改便容易“牵一发而动全身”图数据库可实现数据间的“互联互通”,与传统的关系型数据库相比,图数据库更擅长建立复杂的关系网络。
当用户进行搜索时,搜索结果及其联想,都来自于知识图谱技术的应用,个性化推荐作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务,也来自于知识图谱技术的应用。
依托多模态、语音识别技术,可依据说话人音频特征提取初始会议标签(如参会人、主持人),如将参会人作为关键词进行检索,可得到参会人参会视频、图片、音频。将会议音频转换成文字记录,结合NLP、情感分析等技术手段得到会议纪要、会议主题、会议关键词、会议类型等信息,作为会议知识库中标签的扩充,方便后续进行检索。核心实现步骤如下:
多模态会议内容分析与标签生成
①音频原始数据:经过“音频转文本”、“自动会议纪要”模块处理(如图4所示),生成文本数据库,包括会议纪要、会议主题、会议关键字、参会人、会议类型等检索标签。
②视频原始数据:经过“像素声源定位与身份识别”模块(如图4所示),生成以检索标签列表归类的图片、视频片段和音频片段。
③身份特征原始数据:包括人脸特征(图像)和声纹特征(音频),输入“像素声源定位与身份识别”模块(如图4所示),以构建参会人身份标签。
如图5所示,于一实施例中,所述基于所述会议知识图谱检索会议内容包括:
步骤S31、获取检索标签。
步骤S32、根据所述检索标签于所述会议知识图谱中检索所述会议内容。
于一实施例中,所述基于所述会议知识图谱检索会议内容还包括:
步骤S33、根据所述会议内容扩充所述检索标签,以在下一次检索时,根据扩充的检索标签于所述会议知识图谱中进行检索。
于一实施例中,所述根据所述会议内容扩充所述检索标签包括:根据所述会议内容生成文本数据库,以基于所述文本数据库中的会议标签扩充所述检索标签。
于一实施例中,所述文本数据库中至少包括但不限于以下任意一种会议标签:会议纪要、会议主题、会议关键字、参会人、会议类型。
于一实施例中,所述根据所述会议内容扩充所述检索标签包括:根据所述会议内容生成多媒体标签,以利用所述多媒体标签扩充所述检索标签。
于一实施例中,所述多媒体标签至少包括但不限于以下任意一种格式的标签:图片、视频、音频。
于一实施例中,所述根据所述会议内容扩充所述检索标签包括:根据所述会议内容获取身份标签,以利用所述身份标签扩充所述检索标签。
二、基于会议知识图谱的会议设备故障检索
如图6所示,本申请,通过对会议设备运维知识系统的每一条故障描述进行拆解和分类(CNN),面向会议状态屏、电子席卡、语音转写记录仪、无纸化终端、主控盒子构建出了5中三元式推理规则,分别为:故障现象和故障现象之间存在并发症,故障前执行的操作间接导致的故障现象,某故障原因导致的故障现象,报警信息伴随的故障现象,故障部位常见的故障现象。使用Neo4j图数据库存储。
如图7所示,当用户输入一条会议设备故障信息时,按照上面构建RDF的方法,对会议设备故障描述先按照标点符号分句,然后使用CNN分类,识别出此次故障中用户执行了哪些操作,出现了哪些故障现象,然后根据会议知识图谱进行对照,除了推理出故障原因以及解决办法之外,还会推理出与已经发现的故障相关的未发现的设备故障,通过用户进一步检查反馈,可以进一步提高诊断结果的可靠性。如果用户没有找到满意的解决方法,还可以通过在线爬取网上的解决办法来做参考,如果找到了满意的解决办法,系统会将此次维修记录补充到会议知识图谱中,实现知识库的自学习。
如图8所示,于一实施例中,所述方法还包括:将所述会议知识图谱的图存储于图数据库中,以实现所述会议知识图谱的可视化,及所述会议内容和/或所述会议设备故障检索过程的可视化。
知识图谱在数字化会议中可应用于智能搜索、精准推荐、知识推理、智能交互以及可视化显示等不同场景。通过对非结构化以及半结构化的会议文本进行知识提取以完成会议知识图谱的构建,在会议知识图谱本体的基础上可进一步挖掘深层关系,精准推荐、智能交互。通过引入Neo4j等图数据库,可完成会议知识图谱的可视化。
对于每一个搜索的关键词,可以通过会议知识图谱来返回更丰富、更全面的信息。比如搜索一个人的会议纪要,我们的智能搜索引擎可以返回与这个纪要相关的会议时间、会议地点、主持人等属性信息。
基于知识图谱,我们也可以提供数据可视化的服务。可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来,使得我们对隐藏信息的来龙去脉一目了然。
于一实施例中,所述基于所述会议知识图谱检索会议内容和/或会议设备故障包括:基于更新后的会议知识图谱检索会议内容和/或会议设备故障。
图谱平台是基于企业内外部的海量多源异构数据,提供完整的图谱构建与应用流程,实现数据抽取、数据融合、图构建、图可视化研判、图计算、图分析、图挖掘、图模式匹配等,并提供各类图应用输出方式以及图业务场景,助力企业快速完成图谱的一站式应用,深度挖掘数据之间的关联价值,赋能数字化转型。
本申请中,通过会议知识图谱,可以帮助进行会议知识梳理、知识分层,拓宽知识延伸、筛选目标知识、形成会议知识点思维链条,从而把碎片化数据转化为全面知识网络,最终为上层应用提供有效的知识服务。了解各行业如何利用知识图谱来提升知识。
从会议知识分享、智能分析和会议知识档3个维度,建立知识的生命周期。从会议信息的归集展示到基于会议类型标签的数据分析,到应用于不同业务的场景,到后期与流程进行嫁接。以事件驱动的维度,事件消息驱动、复杂的关系图谱构建、客户和产品智能匹配、机器学习和NLP(自然语言处理)五方面的技术,支持智能的会议内容检索应用。
知识图谱推理可以从两个角度来看,一是从逻辑演绎的角度,它是一个多个命题约束下真值判断的问题;二是可以从图的角度来理解知识图谱推理,可以建模分析链接预测的问题,可根据图中的节点来预测节点之间的关联;(如:给出两个实体,预测两者之间有哪种边,即哪种关系;给定某一个实体、某一条边,能预测出哪些实体与这个实体有某种关联。)知识图谱在智慧会议内容检索场景中,具有丰富的应用价值:
会前检索。作为企业的中高层管理者,每周要参加10个会议,虽然会议组织者会通过邮件、短信等方式来提供会议地点、会议资料和演讲者信息,但是大数量的会议信息整合查找邮件不易,对记忆力也是极大的考验,需要一个会议内容检索入口,随时可以查询各种会议日程、议题清单等。
会后检索。产品/项目总监每周都要接受来自不同团队的产品、项目数10个汇报主题,会议主题进行分类及关联,例如一个产品会议与相关的产品交付项目会议的联系。有的会议因为日程安排冲突而未参加,例如:需求变更会议,通过回顾会议内容以及会议结果,知识图谱进行用户偏好分析,协助评估变更与客户预期的一致性;项目周例会未参加,通过周例会来评估整体的项目进度。当团队中出现相互推卸任务和责任等情况,通过该项目的历史会议及记录来复现历史全貌信息,做到公正协调。团队中不同角色在做什么任务/事情,有什么成果,通过会议检索功能能够方便的查看的了解。
最后,综合上述信息,通过推荐产生器向目标用户推送其感兴趣的会议内容,并基于用户反馈对推荐性能进行评估,进一步调整推荐产生器,以适应用户偏好。
比如会后任务管理,进行任务分配或创建会议过程记录、自动提取摘要、构建会议知识库等.本项目将一款产品将会前、会中、会后三个阶段的事务处理、数据流程整合、融汇贯通,形成全生命周期的会议管理过程,填补了目前会议系统全场景覆盖的缺失。对智慧会议产业链的推进发展有着重要意义。
于一实施例中,基于会议知识图谱为用户做出推荐。
具体地,利用会议知识图谱对多源异构数据的整合性,可以对大数据环境下互联网上的数据进行知识抽取,得到更加细粒度的用户和项目的特征信息,从而更精准地计算用户与用户、用户与项目、项目与项目之间的相关性,最后为用户做出推荐。
具体到会议数据集,可以表现为在客户端收集每个用户的原始数据,包括搜索的会议纪要、会议事项、上下文数据(如时间、主题等)上传至服务器端进行处理。服务器端一方面从各个垂直网站及百科网站中进行相关数据搜集,构建会议知识图谱;另一方面,对用户偏好进行获取,建立用户知识图谱。
本申请基于开源平台,对会议内容进行标注、标签管理、处理结构化与非结构化的数据,搭建以会议主题、会议发起人、会议设备为中心,以会议时间为线索的会议知识图谱,基于会议知识图谱,构建会议内容和会议设备故障检索应用。
本申请实施例所述的基于会议知识图谱的检索方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
本申请实施例还提供一种基于会议知识图谱的检索系统,所述基于会议知识图谱的检索系统可以实现本申请所述的基于会议知识图谱的检索方法,但本申请所述的基于会议知识图谱的检索方法的实现装置包括但不限于本实施例列举的基于会议知识图谱的检索系统的结构,凡是根据本申请的原理所做的现有技术的结构变形和替换,都包括在本申请的保护范围内。
如图9所示,本实施例提供一种基于会议知识图谱的检索系统,所述系统包括:
获取模块91,用于获取会议知识。
构建模块92,用于根据所述会议知识构建会议知识图谱。
检索模块93,用于基于所述会议知识图谱检索会议内容和/或会议设备故障。
需要说明的是,所述获取模块91、所述构建模块92及所述检索模块93的结构及原理与上述会议知识图谱的检索方法中的步骤(步骤S1~S3)一一对应,故在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请还提供一种电子设备,所述电子设备包括:存储器,所述存储器用于存储计算机程序;处理器,所述处理器用于执行所述计算机程序,以使所述电子设备执行上述基于会议知识图谱的检索方法。
本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种基于会议知识图谱的检索方法,其特征在于,所述方法包括:
获取会议知识;
根据所述会议知识构建会议知识图谱;
基于所述会议知识图谱检索会议内容和/或会议设备故障。
2.根据权利要求1所述的基于会议知识图谱的检索方法,其特征在于,所述会议知识至少包括:第一数据和/或第二数据;所述获取会议知识至少包括:
从会议业务数据库中提取所述第一数据;所述第一数据至少包括以下任意一种格式:ppt、pdf、word、excel、视频、语音、语音转写文本文件、图片;其中,图片格式至少包括以下任意一种数据:批注、白板、笔记、截图;和/或
从第三方数据库中提取所述第二数据;所述第二数据至少包括:客户信息。
3.根据权利要求1所述的基于会议知识图谱的检索方法,其特征在于,所述根据所述会议知识构建会议知识图谱包括:关联会议基本信息与所述会议知识,以构建所述会议知识图谱;其中,
所述会议基本信息至少包括以下任意一种:议题名称、持续时间、汇报人、议题资料显示。
4.根据权利要求1所述的基于会议知识图谱的检索方法,其特征在于,所述基于所述会议知识图谱检索会议内容包括:
获取检索标签;
根据所述检索标签于所述会议知识图谱中检索所述会议内容。
5.根据权利要求4所述的基于会议知识图谱的检索方法,其特征在于,所述基于所述会议知识图谱检索会议内容还包括:
根据所述会议内容扩充所述检索标签,以在下一次检索时,根据扩充的检索标签于所述会议知识图谱中进行检索。
6.根据权利要求5所述的基于会议知识图谱的检索方法,其特征在于,所述根据所述会议内容扩充所述检索标签包括:
根据所述会议内容生成文本数据库,以基于所述文本数据库中的会议标签扩充所述检索标签;所述文本数据库中至少包括以下任意一种会议标签:会议纪要、会议主题、会议关键字、参会人、会议类型;和/或
根据所述会议内容生成多媒体标签,以利用所述多媒体标签扩充所述检索标签;所述多媒体标签至少包括以下任意一种格式的标签:图片、视频、音频;和/或
根据所述会议内容获取身份标签,以利用所述身份标签扩充所述检索标签。
7.根据权利要求1所述的基于会议知识图谱的检索方法,其特征在于,在所述基于所述会议知识图谱检索会议内容和/或会议设备故障的步骤之前,所述方法还包括:更新所述会议知识图谱;
所述基于所述会议知识图谱检索会议内容和/或会议设备故障包括:基于更新后的会议知识图谱检索会议内容和/或会议设备故障;和/或
所述方法还包括:将所述会议知识图谱的图存储于图数据库中,以实现所述会议知识图谱的可视化,及所述会议内容和/或所述会议设备故障检索过程的可视化。
8.一种基于会议知识图谱的检索系统,其特征在于,所述系统包括:
获取模块,用于获取会议知识;
构建模块,用于根据所述会议知识构建会议知识图谱;
检索模块,用于基于所述会议知识图谱检索会议内容和/或会议设备故障。
9.一种电子设备,其特征在于,所述电子设备包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至7中任一项所述的基于会议知识图谱的检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至7中任一项所述的基于会议知识图谱的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335011.4A CN116304109A (zh) | 2023-03-30 | 2023-03-30 | 基于会议知识图谱的检索方法、系统、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335011.4A CN116304109A (zh) | 2023-03-30 | 2023-03-30 | 基于会议知识图谱的检索方法、系统、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116304109A true CN116304109A (zh) | 2023-06-23 |
Family
ID=86779739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310335011.4A Pending CN116304109A (zh) | 2023-03-30 | 2023-03-30 | 基于会议知识图谱的检索方法、系统、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304109A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666746A (zh) * | 2020-06-05 | 2020-09-15 | 中国银行股份有限公司 | 会议纪要的生成方法及装置、电子设备及存储介质 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
CN113256262A (zh) * | 2021-06-04 | 2021-08-13 | 上海明略人工智能(集团)有限公司 | 会议纪要的自动生成方法、系统、存储介质及电子设备 |
CN113806554A (zh) * | 2021-09-14 | 2021-12-17 | 上海云思智慧信息技术有限公司 | 面向海量会议文本的知识图谱构建方法 |
CN114385827A (zh) * | 2021-12-29 | 2022-04-22 | 上海云思智慧信息技术有限公司 | 面向会议知识图谱的检索方法 |
CN114756686A (zh) * | 2022-03-30 | 2022-07-15 | 同济大学 | 一种基于知识图谱的知识推理和故障诊断方法 |
-
2023
- 2023-03-30 CN CN202310335011.4A patent/CN116304109A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666746A (zh) * | 2020-06-05 | 2020-09-15 | 中国银行股份有限公司 | 会议纪要的生成方法及装置、电子设备及存储介质 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
CN113256262A (zh) * | 2021-06-04 | 2021-08-13 | 上海明略人工智能(集团)有限公司 | 会议纪要的自动生成方法、系统、存储介质及电子设备 |
CN113806554A (zh) * | 2021-09-14 | 2021-12-17 | 上海云思智慧信息技术有限公司 | 面向海量会议文本的知识图谱构建方法 |
CN114385827A (zh) * | 2021-12-29 | 2022-04-22 | 上海云思智慧信息技术有限公司 | 面向会议知识图谱的检索方法 |
CN114756686A (zh) * | 2022-03-30 | 2022-07-15 | 同济大学 | 一种基于知识图谱的知识推理和故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11394667B2 (en) | Chatbot skills systems and methods | |
US11823074B2 (en) | Intelligent communication manager and summarizer | |
US20130132138A1 (en) | Identifying influence paths and expertise network in an enterprise using meeting provenance data | |
US20100114899A1 (en) | Method and system for business intelligence analytics on unstructured data | |
CN115203576B (zh) | 一种金融知识协同管理系统、方法、设备及存储介质 | |
US20160086499A1 (en) | Knowledge brokering and knowledge campaigns | |
CN114417012A (zh) | 一种生成知识图谱的方法和电子设备 | |
CN113220951A (zh) | 一种基于智能内容的医学临床支持方法和系统 | |
US20240037941A1 (en) | Search results within segmented communication session content | |
CN117236676A (zh) | 一种基于多模态事件抽取的rpa流程挖掘方法和装置 | |
Norambuena et al. | Narrative sensemaking: strategies for narrative maps construction | |
CN114662002A (zh) | 对象推荐方法、介质、装置和计算设备 | |
Wang et al. | Rom: A requirement opinions mining method preliminary try based on software review data | |
CN116304109A (zh) | 基于会议知识图谱的检索方法、系统、介质及电子设备 | |
CN112307212A (zh) | 一种用于广告投放的投放舆情监测方法 | |
US20230045408A1 (en) | System and Method for Dynamic Knowledge Transition | |
Luccioni et al. | Ensuring the Inclusive Use of Natural Language Processing in the Global Response to COVID-19 | |
US20230094459A1 (en) | Data modeling for virtual collaboration environment | |
Miliano et al. | Machine Learning-based Automated Problem Categorization in a Helpdesk Ticketing Application | |
KR102390185B1 (ko) | 유의어 클러스터링에 기반한 서사 콘텐츠 생성시스템 및 그 방법 | |
Al-Mansoori et al. | Sentiment Analysis Algorithm for Arabic Reviews on the Movies Domain | |
US20230252054A1 (en) | Providing a state-of-the-art summarizer | |
US20240144916A1 (en) | Machine learning enabled category creation | |
US20240144088A1 (en) | Machine learning enabled interaction summarization and analysis | |
US20240144089A1 (en) | Machine learning enabled communication driver identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |