CN114791944A - 数据处理方法、装置、存储介质及处理器 - Google Patents

数据处理方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN114791944A
CN114791944A CN202210320807.8A CN202210320807A CN114791944A CN 114791944 A CN114791944 A CN 114791944A CN 202210320807 A CN202210320807 A CN 202210320807A CN 114791944 A CN114791944 A CN 114791944A
Authority
CN
China
Prior art keywords
data
word segmentation
determining
triple
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210320807.8A
Other languages
English (en)
Inventor
李香龙
陆斯悦
张禄
马龙飞
孙伟
徐蕙
严嘉慧
潘鸣宇
王伟贤
曾佳妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210320807.8A priority Critical patent/CN114791944A/zh
Publication of CN114791944A publication Critical patent/CN114791944A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、存储介质及处理器。其中,该方法包括:获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据。本发明解决了基于个人经验答复的效率较低的技术问题。

Description

数据处理方法、装置、存储介质及处理器
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置、存储介质及处理器。
背景技术
新形势下电力企业逐步走向了开放式,呈现出较为激烈的竞争局面,企业的营销和服务也要逐步向数字化、智能化过度,以提升服务能力,提高工作效率,增加企业效益。
现有电力报装需要电力销售人员根据自身的专业与客户沟通交流,回答客户问题,其专业程度受电力销售人员自身经验的影响,且工作效率较低。
针对上述基于个人经验答复的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置、存储介质及处理器,以至少解决基于个人经验答复的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取目标对象的问题数据;对所述问题数据分词,得到分词数据;在预定知识库中检索所述分词数据的检索结果,其中,所述预定知识库用于存储根据历史文档确定的知识图谱,所述知识图谱通过三元组数据表示所述历史文档记录的实体和实体关系,所述检索结果基于所述知识图谱确定;基于所述检索结果确定所述问题数据的答复数据。
可选地,对所述问题数据分词,得到分词数据包括:将所述问题数据划分为不同的分词组合;根据朴素贝叶斯模型计算每种所述分词组合的分词概率;确定所述分词概率最大的所述分词组合为所述分词数据。
可选地,根据朴素贝叶斯模型计算每种所述分词组合的分词概率包括:确定所述问题数据中的目标分词;基于所述目标分词,和所述问题数据中出现在所述目标分词之前的至少两个辅助分词确定所述分词组合;基于所述朴素贝叶斯模型计算所述分词组合的分词概率。
可选地,在所述预定知识库中检索所述分词数据的检索结果包括:在所述预定知识库中检索是否存在能够作为所述分词数据子集的三元组数据;在检索到所述三元组数据的情况下,根据所述三元组数据生成答复语句;将所述答复语句作为所述检索结果。
可选地,所述方法还包括:在未检索到所述分词数据子集的所述三元组数据的情况下,基于所述分词数据与所述三元组数据的相似度确定所述检索结果。
可选地,基于所述分词数据与所述三元组数据的相似度确定所述检索结果包括:确定所述分词数据在一份所述三元组数据中出现的第一频率;确定所述分词数据在所述预定知识库的全部所述三元组数据中出现的第二频率;基于所述第一频率和所述第二频率确定所述三元组数据的特征向量;基于所述分词数据与所述特征向量的相似度确定所述检索结果。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:获取单元,用于获取目标对象的问题数据;分词单元,用于对所述问题数据分词,得到分词数据;检索单元,用于在预定知识库中检索所述分词数据的检索结果,其中,所述预定知识库用于存储根据历史文档确定的知识图谱,所述知识图谱通过三元组数据表示所述历史文档记录的实体和实体关系,所述检索结果基于所述知识图谱确定;确定单元,用于基于所述检索结果确定所述问题数据的答复数据。
可选地,所述分词单元包括:分词模块,用于将所述问题数据划分为不同的分词组合;计算模块,用于根据朴素贝叶斯模型计算每种所述分词组合的分词概率;第一确定模块,用于确定分词概率最大的所述分词组合为所述分词数据。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述所述数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述数据处理方法。
在本发明实施例中,获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据,达到了基于目标对象的问题数据自动确定答复数据的目的,使工作人员可以根据答复数据回答目标对象提出的问题,从而实现了提高答复效率的技术效果,进而解决了基于个人经验答复的效率较低技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理方法的流程图;
图2基于知识图谱的业扩报装智能问答的示意图;
图3是根据本发明实施例的一种数据处理装置的示意图;
图4是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对象的问题数据;
步骤S104,对问题数据分词,得到分词数据;
步骤S106,在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;
步骤S108,基于检索结果确定问题数据的答复数据。
在本发明实施例中,获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据,达到了基于目标对象的问题数据自动确定答复数据的目的,使工作人员可以根据答复数据回答目标对象提出的问题,从而实现了提高答复效率的技术效果,进而解决了基于个人经验答复的效率较低技术问题。
在上述步骤S102中,可以获取目标对象的语音信息,通过语音识别的方式将目标对象的语音信息转换为文字信息形式的问题数据。
在上述步骤S104中,可以使用N-Gram算法对问题数据进行分词。
在上述步骤S106中,历史文档可以是用于日志等记录文本,用于记录实体和实体时间的关系,通过对历史文档进行指示抽取,即可从历史文件中提取其中记录的实体和实体关系并转换成三元组数据形式,进而建立知识图谱进行存储,得到预定知识库。
需要说明的是,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
可选地,实体是对客观个体的抽象;具有相同特点或属性的实体可以抽象为一个实体集合。
可选地,关系是实体与实体之间关系的抽象。
可选地,三元组是指示图谱的一种通用表示方式,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。
可选地,基于分词数据在预定指数库中进行检索的情况下,可以检索三元组数据的分词是否存在检索的分词数据,进而确定检索结果。
可选地,三元组数据可以是对历史文档中产生数据,经命名实体识别与关系抽取等预处理后确定的。
在步骤S108中,检索结果可以通过语音或图像的方式进行显示。
可选地,在答复目标对象的问题数据的情况下,可以基于检索结果生成语音信息作为问题数据的答复数据进行自动答复;还可以显示检索结果,由工作人员基于显示的检索结果确定问题数据的答复数据。
可选地,可以对检索结果进行修改,确定问题数据的答复数据。
作为一种可选的实施例,对问题数据分词,得到分词数据包括:将问题数据划分为不同的分词组合;根据朴素贝叶斯模型计算每种分词组合的分词概率;确定分词概率最大的分词组合为分词数据。
本发明上述实施例,在对问题数据进行分词的过程中,可以采用不同的分词方案对问题数据进行分词,得到不同的分词组合,再分别统计各分词组合的分词概率,确定分词概率最大的分词组合为分词数据。
需要说明的是,基于自然语序关系,某个分词的出现仅与它之前的若干个词有关,因此,在计算各分词组合的分词概率情况下,可以确定目标分词,以及目标分词之前出现的辅助分词共同确定该目标分词所在分词组合的分词概率。
作为一种可选的实施例,根据朴素贝叶斯模型计算每种分词组合的分词概率包括:确定问题数据中的目标分词;基于目标分词,和问题数据中出现在目标分词之前的至少两个辅助分词确定分词组合;基于朴素贝叶斯模型计算分词组合的分词概率。
本发明上述实施例,基于分词组合中目标分词,以及目标分词之前的至少两个付出分词计算分词组合的分词概率,可以解决实际应用中存在参数空间过大、数据稀疏严重的问题。
作为一种可选的实施例,在预定知识库中检索分词数据的检索结果包括:在预定知识库中检索是否存在能够作为分词数据子集的三元组数据;在检索到三元组数据的情况下,根据三元组数据生成答复语句;将答复语句作为检索结果。
本发明上述实施例,预定知识库中存有多个三元组数据,在目标对象提出的问题数据的分词结果是某个三元组数据的超集的情况下,其三元组数据已存在于预定知识库中,因此,可以直接在预定知识库中查询得到该分词数据的三元组数据,并将该三元组数据作为该分词数据的检索结果。
作为一种可选的实施例,方法还包括:在未检索到分词数据子集的三元组数据的情况下,基于分词数据与三元组数据的相似度确定检索结果。
本发明上述实施例,在目标对象提出的问题数据未在历史问答过程中已经出现过,则预定知识库中便不存在问题数据的直接结果,进而可以从预定知识库中存储的三元组数据中找出与该问题数据最为相似的三元组数据作为答复参考,因此,可以基于分词数据与三元组数据的相似度确定检索结果。
可选地,确定与分词数据的相似度最高的三元组数据,作为检索结果。
可选地,基于分词数据与三元组数据的相似度确定检索结果包括:确定三元组数据;计算分词数据与三元组数据的相似度;将分词数据与三元组数据的相似度作为分词数据与三元组数据的相似度。
作为一种可选的实施例,基于分词数据与三元组数据的相似度确定检索结果包括:确定所述分词数据在一份所述三元组数据中出现的第一频率;确定所述分词数据在所述预定知识库的全部所述三元组数据中出现的第二频率;基于所述第一频率和所述第二频率确定所述三元组数据的特征向量;基于所述分词数据与所述特征向量的相似度确定所述检索结果。
本发明上述实施例,在确定分词数据与三元组数据的相似度的过程中,可以提取三元组数据中的特征向量与分词数据进行相似度确定,其确定三元组数据中的特征向量的过程,可以根据分词数据在一份三元组数据中出现的第一频率,以及该分词数据在预定知识库中存储的全部三元组数据中出现的第二频率确定三元组数据的特征向量,确保提取的特征向量能够与预定数据库中存储的其他三元组数据进行明显区分。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于知识图谱的业扩报装智能问答系统。
为了更好地应对电力企业改革的挑战,本发明提供的技术方案,基于知识图谱的智能问答系统能够方便电力销售人员查询业扩报装专业知识,提高与客户沟通交流的效率与专业程度,缩短业扩报装从获客开始的流程周期。
本发明提供的技术方案,分别对业扩报装历史方案和用户的业扩需求申请单进行挖掘,生成知识图谱(即生成预定知识库);在此基础上,对输入的问题(即问题数据)和历史单据的数据(即历史文档)进行分词,特征提取,匹配知识图谱(即生成预定知识库)中的三元组数据输出答案。本智能问答系统以需求为导向,面向电力业扩报装专业领域,对电力业扩专业词汇有较好的匹配效果。本发明有助于销售人员成功获客,并有助于增加客户满意度,提高企业经济效益、彰显企业改革成果。
可选地,历史文档可以包括:供电方案答复单、客户信息表、电能表设备信息表、业扩报装情况、供电方案辅助编制、业扩申请信息等表单数据。
可选地,在生成预定知识库的过程中,可以通过OCR插件将历史文档读取成电子文档,提取其中的实体、属性与关系,生成知识图谱(即预定知识库)。
可选地,对输入的问题(即问题数据)用N-Gram分词,然后在预定知识库中检索是否存在三元组数据是问句分词结果(即分词数据)的子集。若存在三元组数据是输入问题的子集,则返回该三元组数据作为结果。否则用TF-IDF对输入问题进行特征提取,计算问题(即问题数据的分词数据)与三元组数据组成的句子的余弦相似度,最后返回最相似的三元组数据作为答案(即检索结果)。
图2基于知识图谱的业扩报装智能问答的示意图,如图2所示,包括步骤如下:
S1,获取问题数据;
S2,对问题数据进行N-Gram分词;
S3,在预定知识库中检索三元组数据;
S4,确定是否存在问题数据的子集;若是执行步骤S5;若否执行步骤S6;
S5,返回三元组数据;
S6,对问题数据与三元组数据进行TF-IDF特征提取。
S7,计算问题(即问题数据的分词数据)的特征向量与三元组数据(即三元组数据)的特征向量的余弦相似度。
S8,返回最相似的三元组数据。
作为一种可选的实施例,生成预定知识数据包括:用OCR插件将原始表单数据(即历史文档)读取成电子文档;将文档中需要的数据经预处理生成结构化的json文档;根据人工设定的实体、关系和属性(即三元组形式)将json数据转换为知识图谱,并采用Neo4j图数据库存储。
作为一种可选的实施例,用N-Gram算法对输入问题(即问题数据)进行分词。
可选地,将待分词的句子(即问题数据)分成不同的分词方案(即分词组合)。
可选地,根据朴素贝叶斯模型计算不同分词方案(即分词组合)的分词概率:p(S)=p(w1w2…wn)=p(w1)p(w2|w1)…p(wn|wn-1…w2w1
需要说明的是,为解决实际应用中存在参数空间过大、数据稀疏严重的问题,本方案利用马尔科夫假设(Markov Assumption):一个词(如目标分词)的出现仅与它之前的若干个词(即辅助分词)有关:
p(w1w2…wn)=Πp(wi|wi-1…w1)≈Πp(wi|wi-1…wi-N+1)。
可选地,本发明计算时选择一个词(如目标分词)的出现仅依赖于它前面出现的两个词(如辅助分词)的方法:
p(S)=p(w1w2…wn)=p(w1)p(w2|w1)p(w3|Πw2w1)…p(wn|wn-1wn-2);对不同分词方案(即分词组合)计算p(S)后,选取概率最大的方案作为分词结果(即分词数据)。
作为一种可选的实施例,在知识库(即预定知识库)中检索三元组数据,若存在三元组数据是输入问题分词结果(即问题数据的分词数据)的子集,则返回三元组数据作为答案。
作为一种可选的实施例,若预定知识库中不存在输入问题(即问题数据的分词数据)子集的三元组数据,则用TF-IDF对预定知识库中存储的三元组数据进行特征提取。
可选地,对某一词条w(即目标分词),TF值表示w在一份数据(即一个三元组数据)中出现的频率(即第一频率):
Figure BDA0003571625710000081
其中,IDF表示逆向文件频率(即第二频率),即词条w(即目标分词)在所有文件数据(即预定数据库的全部三元组数据)中出现的频率,频率越低说明该词条越有区分度:
Figure BDA0003571625710000082
需要说明的是,如果包含词条w(即目标分词)的文档越少,IDF越大,说明w(即目标分词)具有很好的类别区分能力。
可选地,某一词条w(即目标分词)的TF-IDF值最终表示为:
Figure BDA0003571625710000083
可选地,该文本数据的特征向量中,词条w(即目标分词)所在维度的特征值用TF-IDF的值表示。
作为一种可选的实施例,计算问题与三元组数据(即计算分词数据与历史问答式数据)的余弦相似度,其计算公式为:
Figure BDA0003571625710000084
其中,N(u)表示问题的词条的集合,N(v)表示某三元组数据的词条的集合。
本发明提供的技术方案,可以实现电力业扩报装领域自然语言的无监督分词方法与特征提取,减少了大量的数据标注工作;无需基于大规模通用领域数据进行预训练后再根据特征数据调优,且效果更好;通过在知识图谱(即预定知识库)中进行答案检索与匹配的方案无需问答对进行训练。
可选地,本发明基于业扩报装历史供电方案答复单、客户信息表、电能表设备信息表、业扩报装情况、供电方案辅助编制、业扩申请信息等表单数据(即历史文档),使用OCR插件提取其中的文字信息,由业扩报装专家审核确定知识图谱的实体、关系和属性(即确定三元组数据),再使用正则表达式截取供电方案答复单中的对应数据,经人工整理构建业扩报装知识图谱,存储于Neo4j图数据库(即生成预定知识库)。
可选地,对用户输入的问题(即问题数据)进行N-Gram分词。之后在预定知识库中检索三元组数据,若存在三元组数据是输入问题(即问题数据)的子集,则直接返回搜索到的三元组数据作为答案;反之则先用TF-IDF进行特征提取,计算问题与三元组数据所组成的句子的余弦相似度(即确定分词数据与三元组数据相似度),返回相似度最大的三元组数据作为答案。
本发明提供的技术方案,通过在知识图谱(即预定数据库)中进行答案检索与匹配的智能问答实现方案无需对问答进行训练,从而无需基于大规模通用领域数据进行预训练后再根据特征数据调优。
本发明实现了业扩报装专业词汇的智能问答,能够快速而方便地搜索业扩报装专业领域知识,提高电力销售人员工作效率,优化服务流程,提高业扩报装服务水平,促进电力企业的良好发展。
本发明中建立知识图谱的三元组数据主要从数据综控平台中的营销GIS/营销档案/营销分析与辅助决策等环境中采集。
可选地,知识图谱的原始数据来自客户信息表、用户表、电能表设备信息表、供电电源信息表、业扩报装预受理信息表、高压客户业扩报装平均接电时间表、业扩报装情况、各单位业扩新增申请完成情况、档案用户信息、档案业务信息、供电方案辅助编制、业扩申请信息、辅助供电方案信息等。
需要说明的是,业扩报装知识图谱中的实体、关系、属性(即三元组数据)由专家审核确定,提高了词库的质量。
可选地,智能问答对自然语言的处理采用N-Gram分词和TF-IDF特征提取,处理后的数据输入Neo4j数据库(即预定知识库)生成知识图谱,若预定知识库中存在三元组数据是问题的分词结果的子集,返回搜索到的三元组数据作为答案,否则计算问题与三元组数据的余弦相似度(即确定分词数据与三元组数据相似度),返回最相似的三元组数据作为答案。
本发明用7215份历史供电方案数据构建知识图谱,通过基于N-Gram、TF-IDF算法分析数据构建知识图谱,通过计算知识图谱中三元组数据与问题的相似度(即确定分词数据与三元组数据的相似度),输出最相似的三元组数据作为答案。
本发明提供的技术方案,用N-Gram算法和TF-IDF算法对电力业扩报装领域自然语言进行无监督分词与特征提取,无需进行大量数据标注工作;用知识图谱来实现智能问答的方案,从而无需大量的问答数据和基于数据对问答进行训练,简单易行。
需要说明的是,本发明采用的是基于N-Gram、TF-IDF算法模型,经过对不同类型问题的多次测试,能够给用户提供业扩报装专业领域的智能问答,解决由于对专业知识不了解而产生的业扩报装申请流程复杂、申请周期长的问题。
本发明提供的技术方案,从某供电公司营销系统中随机取出7215份供电方案各种表单数据,经过预处理将所需的数据提取出来,建立知识图谱。现场对73名客户的共计258个问题进行了测试,通过对问题基于N-Gram进行分词,对供电方案等数据基于TF-IDF算法提取特征,在预定知识库中对比找出最相似的三元组数据,最后输出答案。最终结果表明,该智能问答系统切实可行。
根据本发明实施例,还提供了一种数据处理装置实施例,需要说明的是,该数据处理装置可以用于执行本发明实施例中的数据处理方法,本发明实施例中的数据处理方法可以在该数据处理装置中执行。
图3是根据本发明实施例的一种数据处理装置的示意图,如图3所示,该装置可以包括:获取单元32,用于获取目标对象的问题数据;分词单元34,用于对问题数据分词,得到分词数据;检索单元36,用于在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;确定单元38,用于基于检索结果确定问题数据的答复数据。
需要说明的是,该实施例中的获取单元32可以用于执行本申请实施例中的步骤S102,该实施例中的分词单元34可以用于执行本申请实施例中的步骤S104,该实施例中的检索单元36可以用于执行本申请实施例中的步骤S106,该实施例中的确定单元38可以用于执行本申请实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
在本发明实施例中,获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据,达到了基于目标对象的问题数据自动确定答复数据的目的,使工作人员可以根据答复数据回答目标对象提出的问题,从而实现了提高答复效率的技术效果,进而解决了基于个人经验答复的效率较低技术问题。
作为一种可选的实施例,分词单元包括:分词模块,用于将问题数据划分为不同的分词组合;计算模块,用于根据朴素贝叶斯模型计算每种分词组合的分词概率;第一确定模块,用于确定分词概率最大的分词组合为分词数据。
作为一种可选的实施例,计算模块包括:第二确定模块,用于确定问题数据中的目标分词;第三确定模块,用于基于目标分词,和问题数据中出现在目标分词之前的至少两个辅助分词确定分词组合;计算子模块,用于基于朴素贝叶斯模型计算分词组合的分词概率。
作为一种可选的实施例,检索单元包括:检索模块,用于在预定知识库中检索是否存在能够作为分词数据子集的三元组数据;生成模块,用于在检索到三元组数据的情况下,根据三元组数据生成答复语句;第四确定模块,用于将答复语句作为检索结果。
作为一种可选的实施例,装置还包括:第五确定模块,用于在未检索到分词数据子集的三元组数据的情况下,基于分词数据与三元组数据的相似度确定检索结果。
作为一种可选的实施例,第五确定模块包括:第六确定模块,用于确定分词数据在一份三元组数据中出现的第一频率;第七确定模块,用于确定分词数据在预定知识库的全部三元组数据中出现的第二频率;第八确定模块,用于基于第一频率和第二频率确定三元组数据的特征向量;第九确定模块,用于基于分词数据与特征向量的相似度确定检索结果。
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的漏洞检测方法中以下步骤的程序代码:获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据。
可选地,图4是根据本发明实施例的一种计算机终端的结构框图。如图4所示,该计算机终端100至少包括:一个或多个(图中仅示出一个)处理器102和存储器104。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据。
可选的,上述处理器还可以执行如下步骤的程序代码:将问题数据划分为不同的分词组合;根据朴素贝叶斯模型计算每种分词组合的分词概率;确定分词概率最大的分词组合为分词数据。
可选的,上述处理器还可以执行如下步骤的程序代码:确定问题数据中的目标分词;基于目标分词,和问题数据中出现在目标分词之前的至少两个辅助分词确定分词组合;基于朴素贝叶斯模型计算分词组合的分词概率。
可选的,上述处理器还可以执行如下步骤的程序代码:在所述预定知识库中检索是否存在能够作为所述分词数据子集的三元组数据;在检索到所述三元组数据的情况下,根据所述三元组数据生成答复语句;将所述答复语句作为所述检索结果。
可选的,上述处理器还可以执行如下步骤的程序代码:在未检索到分词数据子集的三元组数据的情况下,基于分词数据与三元组数据的相似度确定检索结果。
可选的,上述处理器还可以执行如下步骤的程序代码:确定所述分词数据在一份所述三元组数据中出现的第一频率;确定所述分词数据在所述预定知识库的全部所述三元组数据中出现的第二频率;基于所述第一频率和所述第二频率确定所述三元组数据的特征向量;基于所述分词数据与所述特征向量的相似度确定所述检索结果。
采用本发明实施例,提供了一种数据处理方案。获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据,达到了基于目标对象的问题数据自动确定答复数据的目的,使工作人员可以根据答复数据回答目标对象提出的问题,从而实现了提高答复效率的技术效果,进而解决了基于个人经验答复的效率较低技术问题。
本领域普通技术人员可以理解,图4所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如,计算机终端100还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据。
在本发明实施例中,获取目标对象的问题数据;对问题数据分词,得到分词数据;在预定知识库中检索分词数据的检索结果,其中,预定知识库用于存储根据历史文档确定的知识图谱,知识图谱通过三元组数据表示历史文档记录的实体和实体关系,检索结果基于知识图谱确定;基于检索结果确定问题数据的答复数据,达到了基于目标对象的问题数据自动确定答复数据的目的,使工作人员可以根据答复数据回答目标对象提出的问题,从而实现了提高答复效率的技术效果,进而解决了基于个人经验答复的效率较低技术问题。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将问题数据划分为不同的分词组合;根据朴素贝叶斯模型计算每种分词组合的分词概率;确定分词概率最大的分词组合为分词数据。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定问题数据中的目标分词;基于目标分词,和问题数据中出现在目标分词之前的至少两个辅助分词确定分词组合;基于朴素贝叶斯模型计算分词组合的分词概率。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在预定知识库中检索是否存在能够作为分词数据子集的三元组数据;在检索到三元组数据的情况下,根据三元组数据生成答复语句;将答复语句作为检索结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在未检索到分词数据子集的三元组数据的情况下,基于分词数据与三元组数据的相似度确定检索结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定分词数据在一份三元组数据中出现的第一频率;确定分词数据在预定知识库的全部三元组数据中出现的第二频率;基于第一频率和第二频率确定三元组数据的特征向量;基于分词数据与特征向量的相似度确定检索结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标对象的问题数据;
对所述问题数据分词,得到分词数据;
在预定知识库中检索所述分词数据的检索结果,其中,所述预定知识库用于存储根据历史文档确定的知识图谱,所述知识图谱通过三元组数据表示所述历史文档记录的实体和实体关系,所述检索结果基于所述知识图谱确定;
基于所述检索结果确定所述问题数据的答复数据。
2.根据权利要求1所述的方法,其特征在于,对所述问题数据分词,得到分词数据包括:
将所述问题数据划分为不同的分词组合;
根据朴素贝叶斯模型计算每种所述分词组合的分词概率;
确定所述分词概率最大的所述分词组合为所述分词数据。
3.根据权利要求2所述的方法,其特征在于,根据朴素贝叶斯模型计算每种所述分词组合的分词概率包括:
确定所述问题数据中的目标分词;
基于所述目标分词,和所述问题数据中出现在所述目标分词之前的至少两个辅助分词确定所述分词组合;
基于所述朴素贝叶斯模型计算所述分词组合的分词概率。
4.根据权利要求1所述的方法,其特征在于,在所述预定知识库中检索所述分词数据的检索结果包括:
在所述预定知识库中检索是否存在能够作为所述分词数据子集的三元组数据;
在检索到所述三元组数据的情况下,根据所述三元组数据生成答复语句;
将所述答复语句作为所述检索结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在未检索到所述分词数据子集的所述三元组数据的情况下,基于所述分词数据与所述三元组数据的相似度确定所述检索结果。
6.根据权利要求5所述的方法,其特征在于,基于所述分词数据与所述三元组数据的相似度确定所述检索结果包括:
确定所述分词数据在一份所述三元组数据中出现的第一频率;
确定所述分词数据在所述预定知识库的全部所述三元组数据中出现的第二频率;
基于所述第一频率和所述第二频率确定所述三元组数据的特征向量;
基于所述分词数据与所述特征向量的相似度确定所述检索结果。
7.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标对象的问题数据;
分词单元,用于对所述问题数据分词,得到分词数据;
检索单元,用于在预定知识库中检索所述分词数据的检索结果,其中,所述预定知识库用于存储根据历史文档确定的知识图谱,所述知识图谱通过三元组数据表示所述历史文档记录的实体和实体关系,所述检索结果基于所述知识图谱确定;
确定单元,用于基于所述检索结果确定所述问题数据的答复数据。
8.根据权利要求7所述的装置,其特征在于,所述分词单元包括:
分词模块,用于将所述问题数据划分为不同的分词组合;
计算模块,用于根据朴素贝叶斯模型计算每种所述分词组合的分词概率;
第一确定模块,用于确定分词概率最大的所述分词组合为所述分词数据。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述数据处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述数据处理方法。
CN202210320807.8A 2022-03-29 2022-03-29 数据处理方法、装置、存储介质及处理器 Pending CN114791944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210320807.8A CN114791944A (zh) 2022-03-29 2022-03-29 数据处理方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210320807.8A CN114791944A (zh) 2022-03-29 2022-03-29 数据处理方法、装置、存储介质及处理器

Publications (1)

Publication Number Publication Date
CN114791944A true CN114791944A (zh) 2022-07-26

Family

ID=82461290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210320807.8A Pending CN114791944A (zh) 2022-03-29 2022-03-29 数据处理方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN114791944A (zh)

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
WO2019201098A1 (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US11461613B2 (en) Method and apparatus for multi-document question answering
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
CN113342958A (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
CN112487263A (zh) 一种信息处理方法、系统、设备及计算机可读存储介质
CN112579666A (zh) 智能问答系统和方法及相关设备
CN111881695A (zh) 一种审计知识的检索方法及装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN113065329A (zh) 数据的处理方法和装置
CN114791944A (zh) 数据处理方法、装置、存储介质及处理器
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN117648444B (zh) 基于图卷积属性聚合的专利聚类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination