CN110837544A - 事件单数据的处理方法、装置、电子设备及存储介质 - Google Patents
事件单数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110837544A CN110837544A CN201911086959.0A CN201911086959A CN110837544A CN 110837544 A CN110837544 A CN 110837544A CN 201911086959 A CN201911086959 A CN 201911086959A CN 110837544 A CN110837544 A CN 110837544A
- Authority
- CN
- China
- Prior art keywords
- data
- event
- event list
- retrieval
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种事件单数据的处理方法、装置、电子设备及存储介质,可以应对事件单精确抑或模糊的查询需求,并提供案例维护、分类、反馈等功能。其中方法包括:获取当前事件单数据;对当前事件单数据进行分词等处理;将待检索内容按照预定检索规则进行检索,得到一定数量的相似历史事件单数据,检索操作包括以下至少之一:全文检索、图谱检索、语义检索。通过本发明,可以加快当前事件单的处理速度,减少客户的等待时间。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种事件单数据的处理方法、装置、电子设备及存储介质。
背景技术
国内金融业(例如,银行)IT系统支撑着庞大的业务活动,技术细节遍布业务的各个角落。对于联机交易和批量业务,由于程序、逻辑设计引起的问题每天都会出现很多,除了行内柜员等操作出现的问题,还会存在服务宕机、内部账务问题等,这些问题都会引发客户投诉。这些行内行外的各种问题汇聚在一起,不断进入IT支持部门,以寻求解决。
例如,某行支持部下属几个部门每天会接收近千个事件单,包括生产故障、服务需求等问题。这些事件单往往涉及多个应用系统,会经历层层分派,首先由运行值班岗分派给该事件单最可能的归属部门,之后由归属部门内部支持经理分析,或转相关开发人员,或转其他应用的支持经理,得到解决方案并实施后关闭该事件单。在各次分派转发中,支持经理需要根据经验来判断事件单的归属,考虑归属于哪个应用组的可能性最大,计算相似度。除了委派专人分派事件单,每个支持经理大量的时间精力都用于处理各种事件单。
也就是说,目前的事件单数量较多、且由于需要人为转发到相关处理人员处进行处理,导致了整体事件单的处理速度较慢、客户等待时间较长的问题。
发明内容
有鉴于此,本发明提供一种事件单数据的处理方法、装置、电子设备及存储介质,以解决上述提及的至少一个问题。
根据本发明的第一方面,提供一种事件单数据的处理方法,所述方法包括:获取当前事件单数据;对所述当前事件单数据进行分词处理,得到多个检索词;根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;根据所述多个相似历史事件单数据处理所述当前事件单。
根据本发明的第二方面,提供一种事件单数据的处理装置,所述装置包括:数据获取单元,用于获取当前事件单数据;分词单元,用于对所述当前事件单数据进行分词处理,得到多个检索词;检索单元,用于根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;处理单元,用于根据所述多个相似历史事件单数据处理所述当前事件单。
根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述事件单数据的处理方法的步骤。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述事件单数据的处理方法的步骤。
由上述技术方案可知,通过对获取的当前事件单数据进行分词处理后得到多个检索词,并根据检索词进行检索操作,得到多个相似历史事件单数据,随后根据多个相似历史事件单数据来处理该当前事件单,如此,可以加快当前事件单的处理速度,减少客户的等待时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的事件单数据处理方法的流程图;
图2是根据本发明实施例的检索初始化流程图;
图3是根据本发明实施例的的检索流程示意图;
图4是根据本发明实施例的检索反馈流程示意图;
图5是根据本发明实施例的事件单数据处理装置的结构框图;
图6是根据本发明实施例的事件单数据处理装置的详细结构框图;
图7是根据本发明实施例的检索单元53的结构框图;
图8是根据本发明实施例的事件单数据处理装置的结构示例图;
图9是根据本发明实施例的电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于目前的事件单数量较多、且由于需要人为转发到相关处理人员处进行处理,导致了整体事件单的处理速度较慢、客户等待时间较长的问题。对于许多事件单而言,往往重复性较强,但又不容易联想到。而且,事件单具有较多相似特点,例如,银行、金融术语较多,逻辑性较强等。基于此,本发明实施例提供一种事件单数据的处理方案,该方案可以实现快速处理相似事件单,加快事件单的处理速度,减少客户等待时间。
图1是根据本发明实施例的事件单数据处理方法的流程图,如图1所示,该方法包括:
步骤101,获取当前事件单数据;
步骤102,对所述当前事件单数据进行分词处理,得到多个检索词;
步骤103,根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;
步骤104,根据所述多个相似历史事件单数据处理所述当前事件单。
通过对获取的当前事件单数据进行分词处理后得到多个检索词,并根据检索词进行检索操作,得到多个相似历史事件单数据,随后根据多个相似历史事件单数据来处理该当前事件单,如此,可以加快当前事件单的处理速度,减少客户的等待时间。
在实际操作中,可以预先将历史事件单数据存储在数据库中,并根据所述历史事件单数据执行如下操作:(1)基于全文检索技术建立事件单索引;(2)基于图数据结构建立事件单图谱;(3)将每一个历史事件单数据进行分词处理,并基于预定词向量模型确定各词汇向量,以确定每个历史事件单数据的向量,其中,各词汇向量对应不同的权重。
具体而言,在步骤103中,根据多个检索词进行全文检索操作具体包括:根据多个检索词和事件单索引确定部分数量的相似历史事件单数据。
根据多个检索词进行图谱检索操作包括:根据多个检索词和事件单图谱确定部分数量的相似历史事件单数据。
根据多个检索词进行语义检索操作包括:根据多个检索词基于预定词向量模型(例如,基于word2vec的词向量模型)确定当前事件单数据的向量;之后根据当前事件单数据的向量和每个历史事件单数据的向量、以向量值堆排序确定部分数量的相似历史事件单数据。
在具体实施过程中,可以基于全文检索操作、图谱检索操作和语义检索操作中一个或多个进行检索,以得到预定数量的多个相似历史事件单数据。
以下分别描述全文检索操作、图谱检索操作和语义检索操作。
(1)全文检索操作
全文检索操作可以基于Apache(一种Web服务器软件)开源的solr(一种搜索应用服务器)全文检索软件(也可以采用其他全文检索软件)来实现字、词粒度的匹配查询。可以设置多个核心(core),核心包括索引和相关配置文件,用于存储不同的被检索文本,避免互相干扰。具体而言,可以划分事件单库、变更单库、值班攻略库、历史检索库等。
在本发明实施例中,分词处理可以采用中文分词器来实现,中文分词器可以自定义词典,提高搜索准确性。通过调配参数,可以支持长文本检索。
(2)图谱检索操作
图谱检索操作可以实现精确检索,在本发明实施例中,图谱检索操作可以采用开源的图数据库,例如janus。根据存储在数据库中的历史事件单数据,进行基于图数据结构分析,得到实体关系信息。其中,实体包括业务应用名称、操作、现象、报错代码等,关系包括从属、因果等逻辑关系。将实体关系信息导入图数据库,建立实体关系图谱(或称为事件单图谱)。之后,根据步骤102的检索词,逐词检索图数据库,查询出最邻近的一层实体或关系,取并集返回,得到相似历史事件单数据。
(3)语义检索操作
在本发明实施例中,语义检索操作可以基于词向量模型(例如,基于word2vec的词向量模型)来实现。语义检索操作首先需要对词向量模型进行学习训练,根据数据库(或者案例库)中的历史事件单数据,计算出各种词汇的向量,以文本形式保存,一般数量级越大,查询精度越高。案例库更新后,可以对词向量模型继续进行学习训练,重新全量计算。通过训练,把对文本内容的处理转化为向量空间中的运算,而向量空间上的相似度可以用来表示文本语义相似度。其中,一些金融术语的向量权重可以乘以预定系数(该系数可以人为确定),使得整个文本的向量更有偏向性。在系统初始化时,加载训练好的词向量模型,历史事件单数据的向量加载进内存,作为缓存使用,可以缩短语义检索时间。
在检索到预定数量的多个相似历史事件单之后,还可以根据多个相似历史事件单数据的历史评论信息对该多个相似历史事件单数据进行排序。这样,可以将相似度高的历史事件单数据排在前面,以便于用户(例如,支持经理)参考历史事件单数据来快速处理当前事件单,减少客户等待时间。
优选地,还可以对上述多个相似历史事件单数据分别进行检索结果评价操作,以生成新的评论信息,该评论信息可以是对于检索准确性的评价,这有助于提高后续检索的准确率。
在处理当前事件单之后,可以根据当前事件单的处理方式更新事件单索引、事件单图谱、和预定词向量模型,在预定词向量模型更新后,即进一步训练后,根据更新后的预定词向量模型重新确定各词汇向量、以重新确定每个历史事件单数据的向量。如此,可以进一步提高检索准确率。
为了更好地理解本发明实施例,以下结合图2-图4来详细描述本发明实施例。
图2是根据本发明实施例的检索初始化流程图,如图2所示:
步骤201:根据数据库中的历史事件单数据设置文本案例库,以便于执行检索操作,该案例库可以在执行步骤104之后增加、修改、删除案例,并且,可以从数据库,定时拉取生产数据库中的案例,并进行格式整理。
步骤202:从案例库构建索引以用于全文检索操作,支持全量、增量重建,以及从案例库构建知识图谱以用于图谱检索操作,支持全量、增量重建。
步骤203:进行分词处理,根据分词后的案例进行词向量模型训练,学习词向量。系统初始化时,文本路径和内容存入Map类数据结构,文本路径和文本语义向量值也存入Map类数据结构。
图3是根据本发明实施例的的检索流程示意图,如图3所示:
步骤301:将当前事件单描述输入或粘贴到搜索框,点击查询按钮。
步骤302,检索内容并行进行全文检索、图谱检索。
步骤303,检索内容串行进行语义检索。
在实际操作中,检索内容可以并行进行全文检索、图谱检索和语义检索。
步骤304:对检索到的历史事件单数据进行排名计算和分类。
具体而言,将全文检索、图谱检索和语义检索返回的历史事件单列表进行排序,可以各取前若干名,也可以使用语义检索修正全文检索(即对全文检索的前若干名通过语义检索再计算排名)等。将需要展现到前端的历史事件单按评论信息(例如,点赞)进行排序,形成最终列表,展现在web界面。对于需要分类的检索,取前若干名的权重加和作为分类输出。
在实际操作中,语义检索可以先对检索内容基于词向量模型计算语义向量,再将该向量与缓存中的案例库向量做相似度计算,根据向量值堆取排序靠前的多个历史事件单数据返回。
图4是根据本发明实施例的检索反馈流程示意图,如图4所示:
步骤401:用户对检索结果中的历史事件单数据进行评论,例如,点赞。
步骤402:根据用户评论更新数据库;
步骤403:淘汰缓存(一种数据库缓存更新策略);
步骤404:用户评论对后续的全文检索、语义检索的排名计算会产生影响,例如,根据标识字段提升一定排名。
本发明实施例提供的快速处理事件单方案,满足了相似事件单精确和模糊的检索需求,能够协助支持人员快速、准确解决事件单问题,可以减少客户等待时间,提高客户满意度。
基于相似的发明构思,本发明实施例还提供一种事件单数据的处理装置,该装置优选地用于实现上述的方法实施例。
图5是事件单数据处理装置的结构框图,如图5所示,该装置包括:数据获取单元51、分词单元52、检索单元53和处理单元54,其中:
数据获取单元51,用于获取当前事件单数据;
分词单元52,用于对所述当前事件单数据进行分词处理,得到多个检索词;
检索单元53,用于根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;
处理单元54,用于根据所述多个相似历史事件单数据处理所述当前事件单。
通过分词单元52对数据获取单元51获取的当前事件单数据进行分词处理后得到多个检索词,检索单元53根据检索词进行检索操作,得到多个相似历史事件单数据,随后处理单元54根据多个相似历史事件单数据来处理该当前事件单,如此,可以加快当前事件单的处理速度,减少客户的等待时间。
在实际操作中,如图6所示,上述装置还包括:
存储单元55,用于预先将历史事件单数据存储在数据库中;
索引建立单元56,用于根据所述历史事件单数据、基于全文检索技术建立事件单索引;
图谱建立单元57,用于根据所述历史事件单数据、基于图数据结构建立事件单图谱;
向量确定单元58,用于将每一个历史事件单数据进行分词处理,并基于预定词向量模型确定各词汇向量,以确定每个历史事件单数据的向量,其中,各词汇向量对应不同的权重。
排序单元59,用于根据所述多个相似历史事件单数据的历史评论信息对该多个相似历史事件单数据进行排序。
评论生成单元510,用于对所述多个相似历史事件单数据分别进行检索结果评价操作,以生成新的评论信息。
更新单元511,用于根据所述当前事件单的处理方式更新所述事件单索引、所述事件单图谱、所述各词汇向量以及各词汇向量的权重。之后,向量确定单元58还用于根据更新后的各词汇向量及其权重重新确定每个历史事件单数据的向量。如此,可以提高检索的准确率。
如图7所示,上述检索单元53具体包括:全文检索模块531、图谱检索模块532和语义检索模块533,其中:
全文检索模块531具体用于:根据所述多个检索词和所述事件单索引确定部分数量的相似历史事件单数据。
图谱检索模块532具体用于:根据所述多个检索词和所述事件单图谱确定部分数量的相似历史事件单数据。
语义检索模块533包括:当前事件单向量确定子模块5331和相似历史事件单数据确定子模块5332,其中:
当前事件单向量确定子模块5331,用于根据所述多个检索词基于所述预定词向量模型(例如,基于word2vec的词向量模型)确定所述当前事件单数据的向量;
相似历史事件单数据确定子模块5332,用于根据所述当前事件单数据的向量和所述每个历史事件单数据的向量、以向量值堆排序确定部分数量的相似历史事件单数据。
在具体实施过程中,可以执行全文检索模块531、图谱检索模块532和语义检索模块533中一个或多个进行检索,以得到预定数量的多个相似历史事件单数据。
上述各单元、各模块、各子模块的具体实施过程可以参见上述方法实施例中的描述,此处不再赘述。
在具体实施过程中,上述各单元、各模块、各子模块可以单一设置、也可以组合设置,本发明不限于此。
图8是根据本发明实施例的事件单数据处理装置的示例图,如图8所示,该示例为事件单智能搜索分析系统,如图8所示,该系统包括:Web前端81、文本案例库82、全文检索模块83、知识图谱检索模块84、语义检索模块85、排名计算及分类模块86、自动拉取模块87、内存缓存模块88、数据库89,以下分别对这些模块进行详细描述。
Web前端81是向用户展现操作界面的场所,提供辅助分析所需要的各种功能,包括搜索(或检索)、单个或批量案例的增删改查、点赞、评论、用户管理。单个或批量案例的增加、修改、删除对于索引的影响实时生效,并影响缓存中的新文件路径和内容。对检索结果的评价,例如点赞等,会影响检索结果排名。
文本案例库82支持多格式文本存储处理,可以提取富文本格式文件,同时也可以采用MySQL(关系型数据库管理系统)存储各种搜索信息。在本发明实施例中,数据源可以是自动拉取生产数据库的案例,还可以是用户维护案例,即用户可以增加、修改、删除案例。
全文检索模块83可以基于Apache(一种Web服务器软件)开源的solr(一种搜索应用服务器)全文检索软件(也可以采用其他全文检索软件)来实现字、词粒度的匹配查询。可以设置多个核心(core),核心包括索引和相关配置文件,用于存储不同的被检索文本,避免互相干扰。具体而言,可以划分事件单库、变更单库、值班攻略库、历史检索库等。
在本发明实施例中,分词处理可以采用中文分词器来实现,中文分词器可以自定义词典,提高搜索准确性。通过调配参数,可以支持长文本检索。
知识图谱检索模块84属于精确搜索部分,知识图谱检索模块84可以基于开源的图数据库,例如janus,根据存储在数据库中的历史事件单数据,进行基于图数据结构分析,得到实体关系信息。其中,实体包括业务应用名称、操作、现象、报错代码等,关系包括从属、因果等逻辑关系。将实体关系信息导入图数据库,建立实体关系图谱(或称为事件单图谱)。之后,分词单元得到的检索词,逐词检索图数据库,查询出最邻近的一层实体或关系,取并集返回,得到相似历史事件单数据。
语义检索模块85基于词向量模型(例如,基于word2vec的词向量模型)来实现。首先需要对词向量模型进行学习训练,根据数据库(或者案例库)中的历史事件单数据,计算出各种词汇的向量,以文本形式保存。案例库更新后,可以对词向量模型继续进行学习训练,重新全量计算。
在用户输入搜索内容后进行分词操作,分词操作可以采用多种分词器来实现,也可以采用全文检索阶段的分词。使用停用词词典,去除输入文本中的停用词。根据词向量模型对剩余的词语查询向量值(词语的向量值预先已训练学习,从文本文件中读取后,在项目启动时保存为类Map数据结构)。文本分词后,调节文本局部权重(可以采用多种方法,比如关键词表、自注意力机制等),从全文的检索转移到搭配、关键词的层面,减少冗余、次要信息的干扰。之后,可以采用加和方式来计算向量值,得到文本的总体向量值,之后与缓存向量计算相似度。
排名计算及分类模块86的排名计算功能包括:语义检索的排名采用向量值堆排序,例如,以检索文本向量与案例库历史事件单数据向量夹角的余弦值为依据取前几个返回结果。由于目前案例量级不到百万,采用完全遍历已基本满足低于1秒的查询时间要求,对于案例量级超过百万或者更大的情况,对全文检索、图谱检索和语义检索进行优化。例如,全文检索分核心(core)存储,语义检索分类存储,或者全文检索后可以采用语义检索进行修正。语义检索可以单独运行(与全文检索、图谱检索并行计算),也可以与全文检索合并(与全文检索串行计算)检索,对全文检索结果进行二次计算,进行结果修正。由于图谱检索结果与历史案例无关,一般可以列在最前面。
排名计算及分类模块86的事件单分类功能可以以标签形式和该事件单展现在前端页面,也可以提供外接API(Application Programming Interface,应用程序接口)接口。分类功能具体实现可以采用多种模型,比如KNN(k-Nearest Neighbors,最近邻)模型、主题模型、语义模型等。一般而言,较快捷的解决方案是直接采用全文检索排序(案例库除了事件单标题、描述、解决办法等,也包含其归属的应用或组别),根据排名较高的相似事件单的标签选取搜索内容的组别,其中需要计算排名靠前的若干事件单的权重。对于一些没有类别标识的事件单,可以采用多种模型计算归属(包括词向量模型),并对于一些关键词调节权重,以提高准确性。
自动拉取模块87,对于不断更新的事件单数据库,采用定时自动拉取,从生产API获取数据后,后台在全文检索、图谱检索和语义检索自动更新索引,并将缓存中的路径、内容信息刷新。
内存缓存模块88包括两种:一种以数据结构缓存,另一种是以内存数据库(如redis)作为缓存。数据结构的缓存保存了词向量模型的向量值、文本案例的路径内容信息;内存数据库缓存保存评论信息。系统运行时,数据结构缓存在Web容器的堆中,由于数据量较大,需要相应调整堆大小。
数据库89用于存储各种事件单、用户、点赞、评论等信息。
本发明实施例提供的事件单智能搜索分析系统,通过精确检索和语义分析等方式,可以实现准确查询和模糊查询,且具有事件单分派、案例文本库维护等功能。该系统能够加快支持经理处理事件单速度,减少客户问题等待时间。
图9是根据本发明实施例的电子设备的示意图。图9所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器901和存储器902。处理器901和存储器902通过总线903连接。存储器902适于存储处理器901可执行的一条或多条指令或程序。该一条或多条指令或程序被处理器901执行以实现上述事件单数据的处理方法中的步骤。
上述处理器901可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器901通过执行存储器902所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线903将上述多个组件连接在一起,同时将上述组件连接到显示控制器904和显示装置以及输入/输出(I/O)装置905。输入/输出(I/O)装置905可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置905通过输入/输出(I/O)控制器906与系统相连。
其中,存储器902可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述事件单数据的处理方法的步骤。
综上所述,本发明实施例提供的事件单数据的处理方案,满足了相似事件单精确和模糊的查询需求,并提供案例维护、分类、反馈等功能,能够协助支持人员快速、准确解决事件单问题,本发明实施例主要具有如下效果与优点:
(1)可以解决精确搜索和模糊语义搜索共存的问题。
全文检索、图谱检索提供关键词之类的精确搜索,而语义检索解决模糊复杂、有侧重的语义、逻辑问题。用户可以看到多种搜索模块的独立效果,可以对问题得出较多维度的判断。而且经过缓存等优化,搜索在大数量案例库下达到亚秒级的查询要求。
(2)具有案例维护、分类、反馈等功能。
用户可以对案例增删改查,同时系统也会自动同步生产数据库。用户的点赞评论等行为会反馈给语义检索模块,会影响后续检索排名。分类功能可以用于事件单的分派,协助人工分派任务,并且系统不产生人工标注等额外成本。
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (18)
1.一种事件单数据的处理方法,其特征在于,所述方法包括:
获取当前事件单数据;
对所述当前事件单数据进行分词处理,得到多个检索词;
根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;
根据所述多个相似历史事件单数据处理所述当前事件单。
2.根据权利要求1所述的事件单数据的处理方法,其特征在于,所述方法还包括:
预先将历史事件单数据存储在数据库中,并根据所述历史事件单数据执行如下操作:
基于全文检索技术建立事件单索引;
基于图数据结构建立事件单图谱;
将每一个历史事件单数据进行分词处理,并基于预定词向量模型确定各词汇向量,以确定每个历史事件单数据的向量,其中,各词汇向量对应不同的权重。
3.根据权利要求2所述的事件单数据的处理方法,其特征在于,根据所述多个检索词进行全文检索操作包括:
根据所述多个检索词和所述事件单索引确定部分数量的相似历史事件单数据。
4.根据权利要求2所述的事件单数据的处理方法,其特征在于,根据所述多个检索词进行图谱检索操作包括:
根据所述多个检索词和所述事件单图谱确定部分数量的相似历史事件单数据。
5.根据权利要求2所述的事件单数据的处理方法,其特征在于,根据所述多个检索词进行语义检索操作包括:
根据所述多个检索词基于所述预定词向量模型确定所述当前事件单数据的向量;
根据所述当前事件单数据的向量和所述每个历史事件单数据的向量、以向量值堆排序确定部分数量的相似历史事件单数据。
6.根据权利要求1所述的事件单数据的处理方法,其特征在于,得到预定数量的多个相似历史事件单之后,所述方法还包括:
根据所述多个相似历史事件单数据的历史评论信息对该多个相似历史事件单数据进行排序。
7.根据权利要求2所述的事件单数据的处理方法,其特征在于,根据所述多个历史事件单数据处理所述当前事件单之后,所述方法还包括:
对所述多个相似历史事件单数据分别进行检索结果评价操作,以生成新的评论信息。
8.根据权利要求7所述的事件单数据的处理方法,其特征在于,根据所述多个历史事件单数据处理所述当前事件单之后,所述方法还包括:
根据所述当前事件单的处理方式更新所述事件单索引、所述事件单图谱、所述预定词向量模型;
根据更新后的预定词向量模型重新确定各词汇向量、以重新确定每个历史事件单数据的向量。
9.一种事件单数据的处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取当前事件单数据;
分词单元,用于对所述当前事件单数据进行分词处理,得到多个检索词;
检索单元,用于根据所述多个检索词以预定检索规则进行检索操作,从案例库得到预定数量的多个相似历史事件单数据,所述检索操作包括以下至少之一:全文检索、图谱检索、语义检索,所述历史事件单数据包括:历史事件单描述及其解决方式;
处理单元,用于根据所述多个相似历史事件单数据处理所述当前事件单。
10.根据权利要求9所述的事件单数据的处理装置,其特征在于,所述装置还包括:
存储单元,用于预先将历史事件单数据存储在数据库中;
索引建立单元,用于根据所述历史事件单数据、基于全文检索技术建立事件单索引;
图谱建立单元,用于根据所述历史事件单数据、基于图数据结构建立事件单图谱;
向量确定单元,用于将每一个历史事件单数据进行分词处理,并基于预定词向量模型确定各词汇向量,以确定每个历史事件单数据的向量,其中,各词汇向量对应不同的权重。
11.根据权利要求10所述的事件单数据的处理装置,其特征在于,所述检索单元包括:全文检索模块,
所述全文检索模块具体用于:根据所述多个检索词和所述事件单索引确定部分数量的相似历史事件单数据。
12.根据权利要求10所述的事件单数据的处理装置,其特征在于,所述检索单元包括:图谱检索模块,
所述图谱检索模块具体用于:根据所述多个检索词和所述事件单图谱确定部分数量的相似历史事件单数据。
13.根据权利要求10所述的事件单数据的处理装置,其特征在于,所述检索单元包括:语义检索模块,
所述语义检索模块包括:
当前事件单向量确定子模块,用于根据所述多个检索词基于所述预定词向量模型确定所述当前事件单数据的向量;
相似历史事件单数据确定子模块,用于根据所述当前事件单数据的向量和所述每个历史事件单数据的向量、以向量值堆排序确定部分数量的相似历史事件单数据。
14.根据权利要求9所述的事件单数据的处理装置,其特征在于,所述装置还包括:
排序单元,用于根据所述多个相似历史事件单数据的历史评论信息对该多个相似历史事件单数据进行排序。
15.根据权利要求10所述的事件单数据的处理装置,其特征在于,所述装置还包括:
评论生成单元,用于对所述多个相似历史事件单数据分别进行检索结果评价操作,以生成新的评论信息。
16.根据权利要求15所述的事件单数据的处理装置,其特征在于,所述装置还包括:
更新单元,用于根据所述当前事件单的处理方式更新所述事件单索引、所述事件单图谱、所述各词汇向量以及各词汇向量的权重;
所述向量确定单元还用于根据更新后的各词汇向量及其权重重新确定每个历史事件单数据的向量。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述事件单数据的处理方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述事件单数据的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911086959.0A CN110837544A (zh) | 2019-11-08 | 2019-11-08 | 事件单数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911086959.0A CN110837544A (zh) | 2019-11-08 | 2019-11-08 | 事件单数据的处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110837544A true CN110837544A (zh) | 2020-02-25 |
Family
ID=69574667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911086959.0A Pending CN110837544A (zh) | 2019-11-08 | 2019-11-08 | 事件单数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837544A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593142A (zh) * | 2021-07-26 | 2021-11-02 | 中国工商银行股份有限公司 | 一种自动柜员机巡查方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017169403A1 (ja) * | 2016-03-28 | 2017-10-05 | Necソリューションイノベータ株式会社 | 事例検索装置、事例検索方法、及びコンピュータ読み取り可能な記録媒体 |
-
2019
- 2019-11-08 CN CN201911086959.0A patent/CN110837544A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017169403A1 (ja) * | 2016-03-28 | 2017-10-05 | Necソリューションイノベータ株式会社 | 事例検索装置、事例検索方法、及びコンピュータ読み取り可能な記録媒体 |
Non-Patent Citations (2)
Title |
---|
沙勇忠等: "基于语义相似度的公共危机事件案例检索方法", 《情报资料工作》 * |
陈祥等: "基于案例推理的网络舆情辅助决策系统研究", 《计算机与现代化》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593142A (zh) * | 2021-07-26 | 2021-11-02 | 中国工商银行股份有限公司 | 一种自动柜员机巡查方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
US20220284014A1 (en) | Deriving metrics from queries | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
US9864741B2 (en) | Automated collective term and phrase index | |
US20140108304A1 (en) | Semantic Request Normalizer | |
CN106796578A (zh) | 知识自动化系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US11657076B2 (en) | System for uniform structured summarization of customer chats | |
US20150317390A1 (en) | Computer-implemented systems and methods for taxonomy development | |
US20150120379A1 (en) | Systems and Methods for Passage Selection for Language Proficiency Testing Using Automated Authentic Listening | |
CN110990529B (zh) | 企业的行业明细划分方法及系统 | |
CN106776695B (zh) | 实现文书档案价值自动鉴定的方法 | |
CN109947902A (zh) | 一种数据查询方法、装置和可读介质 | |
US9031886B2 (en) | Pluggable modules in a cascading learning system | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN111159381B (zh) | 数据搜索方法及装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
Wahyudi et al. | Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm | |
CN110020032A (zh) | 使用语法单元的文档搜索 | |
CN110837544A (zh) | 事件单数据的处理方法、装置、电子设备及存储介质 | |
US11238102B1 (en) | Providing an object-based response to a natural language query | |
US11922326B2 (en) | Data management suggestions from knowledge graph actions | |
US9223833B2 (en) | Method for in-loop human validation of disambiguated features | |
Korobkin et al. | The Formation of Metrics of Innovation Potential and Prospects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200225 |
|
RJ01 | Rejection of invention patent application after publication |