CN112528040B - 基于知识图谱的引导教唆语料的检测方法及其相关设备 - Google Patents

基于知识图谱的引导教唆语料的检测方法及其相关设备 Download PDF

Info

Publication number
CN112528040B
CN112528040B CN202011491853.1A CN202011491853A CN112528040B CN 112528040 B CN112528040 B CN 112528040B CN 202011491853 A CN202011491853 A CN 202011491853A CN 112528040 B CN112528040 B CN 112528040B
Authority
CN
China
Prior art keywords
corpus
detected
entity
guide drive
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011491853.1A
Other languages
English (en)
Other versions
CN112528040A (zh
Inventor
汪淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011491853.1A priority Critical patent/CN112528040B/zh
Publication of CN112528040A publication Critical patent/CN112528040A/zh
Priority to PCT/CN2021/090164 priority patent/WO2022126962A1/zh
Application granted granted Critical
Publication of CN112528040B publication Critical patent/CN112528040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请实施例属于大数据领域,应用于智慧政务/教育领域中,涉及一种基于知识图谱的引导教唆语料的检测方法及其相关设备,包括接收标准语料数据集,对标准语料数据集进行特征提取,获得标准语料特征,标准语料数据集中不存在引导教唆信息;基于标准语料特征构建第一知识图谱;接收待检测语料,对待检测语料进行命名实体识别,获得待检测实体,在第一知识图谱中分别对每个待检测实体进行推演;当待检测实体推演失败时,将推演失败的待检测实体作为引导教唆实体,并将引导教唆实体对应的待检测语料作为引导教唆语料,输出引导教唆语料。其中,第一知识图谱可存储于区块链中。本申请能够快速识别出引导教唆语料,从而实现对引导教唆行为的检测。

Description

基于知识图谱的引导教唆语料的检测方法及其相关设备
技术领域
本申请涉及大数据技术领域,尤其涉及基于知识图谱的引导教唆语料的检测方法及其相关设备。
背景技术
随着计算机技术的不断革新和发展,计算机已经应用到各行各业中。在坐席与客户沟通的过程中,常常容易出现引导教唆客户的情况,故而,引导教唆是语音质检中的一个常见违规场景,该违规现象出现频率高,违规性质是较为严重的,是语音质检环节中一个重要的质检点。
传统质检算法多基于正则匹配规则,存在覆盖场景相对单一,泛化能力交叉的局限。同时随着坐席话术的不断优化,新兴科技的不断更新,坐席人员在引导客户方面会更加的具有创新性和时代性,导致语料数据不断的变化。若是采用完全基于规则的算法进行检测,需要耗费巨大的人力采集标注引导教唆的违规话术,以及编写冗长且复杂的规则逻辑,计算机无法随着时间的推移自学习式更新优化。
发明内容
本申请实施例的目的在于提出一种基于知识图谱的引导教唆语料的检测方法及其相关设备,快速确定出待检测语料是否属于引导教唆语料,有效实现对引导教唆行为的检测。
为了解决上述技术问题,本申请实施例提供一种基于知识图谱的引导教唆语料的检测方法,采用了如下所述的技术方案:
一种基于知识图谱的引导教唆语料的检测方法,包括下述步骤:
接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息;
基于所述标准语料特征构建第一知识图谱;
接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果;
当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料;
当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱。
进一步的,所述对所述标准语料数据集进行特征提取,获得标准语料特征的步骤包括:
提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征。
进一步的,所述提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征的步骤包括:
对所述标准语料数据集中的每条语料均进行分词操作,获得标准语料词语;
基于预设的实体识别工具对所述标准语料词语进行命名实体识别,获得命名实体集合;
确定命名实体集合中不同命名实体之间的连接关系,基于所述连接关系生成三元组数据;
基于预设的限定关系对所述三元组数据进行筛选,获得目标三元组数据,将所述目标三元组数据作为所述标准语料特征。
进一步的,当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的待检测语料作为引导教唆语料,输出所述引导教唆语料的步骤包括:
当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并基于所述引导教唆实体对应的待检测语料生成待检测知识图谱;
确定所述待检测知识图谱和所述第一知识图谱之间是否存在矛盾关系;
当所述待检测知识图谱和所述第一知识图谱之间存在矛盾关系时,将所述引导教唆实体对应的待检测语料作为引导教唆语料。
进一步的,当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱的步骤包括:
当所述推演结果为推演成功时,识别推演成功的待检测实体对应的待检测语料,作为初始合格语料;
当所述初始合格语料中所有的待检测实体均推演成功时,将所述初始合格语料作为目标合格语料;
基于所述目标合格语料更新所述第一知识图谱,获得第二知识图谱。
进一步的,在所述将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料的步骤之后,还包括:
验证所述引导教唆语料是否为真实引导教唆语料,在所述引导教唆语料为非真实引导教唆语料时,将所述引导教唆语料增加到所述第一知识图谱中,获得扩张知识图谱。
进一步的,所述验证所述引导教唆语料是否为真实引导教唆语料的步骤包括:
将所述引导教唆语料输出至用户终端的显示设备;
向所述用户终端输出请求确认教唆语料的信号;
当接收到所述用户终端发送的确认信号时,基于所述确认信号确定所述引导教唆语料是否为真实引导教唆语料,其中,所述确认信号与所述请求确认教唆语料的信号相对应。
为了解决上述技术问题,本申请实施例还提供一种基于知识图谱的引导教唆语料的检测装置,采用了如下所述的技术方案:
一种基于知识图谱的引导教唆语料的检测装置,包括:
接收模块,用于接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息;
构建模块,用于基于所述标准语料特征构建第一知识图谱;
识别模型,用于接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果;
输出模块,用于当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料;
更新模块,用于当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的基于知识图谱的引导教唆语料的检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的基于知识图谱的引导教唆语料的检测方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提出基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。有效实现对实际应用中坐席人员的引导教唆行为的检测。同时通过推演成功的待检测实体更新扩张的第一知识图谱,有利于模型随时代变迁不断更新学习,从而增强对于坐席人员的威慑性,进一步降低客户投诉率,有效的约束坐席人员的规范用语,从而提高客户满意度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于知识图谱的引导教唆语料的检测方法的一个实施例的流程图;
图3是根据本申请的基于知识图谱的引导教唆语料的检测装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、基于知识图谱的引导教唆语料的检测装置;301、接收模块;302、构建模块;303、识别模块;304、输出模块;305、更新模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于知识图谱的引导教唆语料的检测方法一般由服务器/终端设备执行,相应地,基于知识图谱的引导教唆语料的检测装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于知识图谱的引导教唆语料的检测方法的一个实施例的流程图。所述的基于知识图谱的引导教唆语料的检测方法,包括以下步骤:
S1:接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息。
在本实施例中,本申请中的标注语料数据集指不存在引导教唆信息的语料数据集,即属于合规语料。通过提取标准语料数据集中的标准语料特征,从而便于根据标准语料特征进行后续操作。
在本实施例中,基于知识图谱的引导教唆语料的检测方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收标注语料数据集。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。
具体的,所述对所述标准语料数据集进行提取,获得标准语料特征的步骤包括:
提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征。
在本实施例中,针对不存在引导教唆的标准语料数据集,抽取标准语料数据集中每条语料的SPO(Subject-Predicate-Object,主语-谓语-宾语)三元组数据,获得多个三元组数据,根据多个三元组数据生成三元组数据集合,作为标准语料特征。本申请将三元组数据作为标准语料特征,便于后续第一知识图谱的构建。
其中,所述提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征的步骤包括:
对所述标准语料数据集中的每条语料均进行分词操作,获得标准语料词语;
基于预设的实体识别工具对所述标准语料词语进行命名实体识别,获得命名实体集合;
确定命名实体集合中不同命名实体之间的连接关系,基于所述连接关系生成三元组数据;
基于预设的限定关系对所述三元组数据进行筛选,获得目标三元组数据,将所述目标三元组数据作为所述标准语料特征。
在本实施例中,本申请中的实体识别工具指jiagu(甲骨)。jiagu(甲骨)为深度学习自然语言处理工具,同时兼具中文分词、词性标注以及命名实体识别的功能。其中,Jiagu以BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆)模型为基础,使用大规模语料训练而成。通过jiagu对标准语料数据集进行分词操作,获得标准语料词语。再通过jiagu对所述标准语料词语进行命名实体识别,获得命名实体集合。分词操作举例如下:原本的语料为张先是个可爱的中国人,进行分词操作后,变为 ['张先', '是', '个','可爱', '的', '中国人']。通过命名实体识别后,获得命名实体集合[张先,中国人]。确定不同命名实体之间的连接关系,例如,命名实体“张先”和“中国人”之间的连接关键词是“是”,则连接关系属于从属关系,则三元组数据为张先-是-中国人。基于预设的限定关系,连接所述命名实体集合中符合所述限定关系的命名实体,获得三元组数据。本申请中的限定关系可以包括父母子女关系,从属关系等常识性的关系。三元组数据举例如下:西安电子科技大学-坐标-西安;西安电子科技大学-学校类型-985工程;张某某-学历-研究生。由于标准语料数据集中不存在引导教唆的数据,生成的标准语料特征属于非引导教唆的特征。
需要说明的是,本申请根据实际需要也可以选用jieba(结巴)分词工具,适用即可。
S2:基于所述标准语料特征构建第一知识图谱。
在本实施例中,基于标准语料特征构建第一知识图谱,第一知识图谱为合规话术的知识图谱。具体步骤包括:将不同的SPO三元组之间相同的主语和/或宾语进行重合。具体的重合方式可以为主语-主语之间的重合,主语-宾语之间的重合,宾语-宾语之间的重合。
具体的,所述基于所述标准语料特征构建第一知识图谱的步骤包括
基于预设的图数据库与所述标准语料特征构建所述第一知识图谱。
在本实施例中,本申请的图数据库为Neo4j库,Neo4j库创建的图是用顶点和边构建一个有向图。利用Neo4j库与上述标准语料特征(即抽取到三元组)构建第一知识图谱,该第一知识图谱即为不涉及引导教唆数据的知识图谱。通过Neo4j库建立的第一知识图谱可以便于后续的更新扩张,本申请生成可扩张的知识图谱,有利于计算机随时代变迁不断更新学习,
S3:接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果。
在本实施例中,预测阶段,接收待质检任务,待质检任务中包括待检测语料。利用jiagu库对所述待检测语料进行分词和命名实体识别,获得待检测实体集合,并通过所述第一知识图谱历遍所述待检测实体集合中的每个待检测实体,识别所述待检测实体是否能在所述知识图谱中进行推演。具体的推演过程为:寻找待检测实体在第一知识图谱中的路径。例如第一知识图谱中包含这样的一条路径“人物A -职位B – 公司C – 部门D – 地点E”,待检测实体为人物A。通过在第一知识图谱中的推演,从而获得人物A居住在地点E,输出推演结果为推演成功。当待检测实体为职位F时,通过在第一知识图谱中进行查找确定,无该实体。进而触发相似度算法,通过计算第一知识图谱中的各目标实体与待检测实体“物品”之间的语义相似度,确定出语义相似度超过预设的阈值的目标实体,作为替代实体,找到在第一知识图谱中替代实体的路径,从而确定推演结果为推演成功。若第一知识图谱中不存在与待检测实体“物品”之间的语义相似度超过预设的阈值的目标实体,则输出的推演结果为推演失败。
需要说明的是:本申请包括但不限于上述推演过程,在实际的应用过程中,可以根据实际需要选用任意一种推演方式,适用即可。
S4:当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料。
在本实施例中,通过推演失败的待检测实体确定出对应的待检测语料,从而确定出引导教唆语料。实现对引导教唆语料的快速识别。从而有效约束坐席人员的规范用语,降低客户投诉率,提高客户满意度。本申请同时可以将引导教唆语料对应的场景作为引导教唆场景。
具体的,当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的待检测语料作为引导教唆语料,输出所述引导教唆语料的步骤包括:
当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并基于所述引导教唆实体对应的待检测语料生成待检测知识图谱;
确定所述待检测知识图谱和所述第一知识图谱之间是否存在矛盾关系;
当所述待检测知识图谱和所述第一知识图谱之间存在矛盾关系时,将所述引导教唆实体对应的待检测语料作为引导教唆语料。
在本实施例中,提取待检测语料中的三元组数据,作为待检测三元组数据。基于待检测三元组数据构建待检测知识图谱。无法在第一知识图谱上推演的待检测实体为引导教唆实体,然后依据实体间空间位置关系判断待检测语料是否为引导教唆语料,具体为对比待检测知识图谱和第一知识图谱是否存在矛盾关系。若存在矛盾关系,则确定该待检测语料为引导教唆语料。该待检测语料所对应的场景为引导教唆场景。若不存在矛盾关系,则将该待检测语料作为待确认语料,保存到预设的数据库中。其中,推演可以正向推演,即从主语向宾语的方向推演,也可以反向推演,即从宾语向主语的方向推演。对于实体的主语和宾语的判断,计算机在通过jiagu库进行分词的过程中,已经确定每个词语的词性,并对每个词语进行词性标注,即标注每个词语是属于主语、宾语、谓语或者形容词性定语等。
本申请中的矛盾关系是指不同的知识图谱的相互之间的逻辑上的表达冲突关系,例如,在待检测知识图谱中存在“张先的学历-是-小学”的三元组数据,而在第一知识图谱中却存在“张先的学历-是-研究生”的三元组数据,则此时,不同知识图谱中的三元组数据是矛盾的,进而确定待检测知识图谱与第一知识图谱之间存在矛盾关系。
S5:当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱。
在本实施例中,通过推演成功的待检测实体更新扩充第一知识图谱,实现知识图谱的不断更新,进而实现计算机对引导教唆语料的自学习式的更新优化。
具体的,当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱的步骤包括:
当所述推演结果为推演成功时,识别推演成功的待检测实体对应的待检测语料,作为初始合格语料;
当所述初始合格语料中所有的待检测实体均推演成功时,将所述初始合格语料作为目标合格语料;
基于所述目标合格语料更新所述第一知识图谱,获得第二知识图谱。
在本实施例中,基于目标合格语料更新所述第一知识图谱,获得第二知识图谱的具体步骤包括:将目标合格语料转换为三元组数据,将该三元组数据增加到第一知识图谱中,获得第二知识图谱。通过任意一个推演成功的实体,快速确定出初始合格语料,通过判断初始合格语料中的实体是否全部推演成功,当初始合格语料中的全部实体均推演成功时,则可以直接将该初始合格语料作为目标合格语料,实现快速确定出目标合格语料。
在本实施例的一些可选的实现方式中,在步骤S4,即将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料之后,上述电子设备还可以执行以下步骤:
验证所述引导教唆语料是否为真实引导教唆语料,在所述引导教唆语料为非真实引导教唆语料时,将所述引导教唆语料增加到所述第一知识图谱中,获得扩张知识图谱。
在本实施例中,将验证之后,确定出的引导教唆语料不是真实的引导教唆语料时,则认为该引导教唆语料实际上是合规语料,将该语料添加至第一知识图谱中,实现第一知识图谱的扩张。即复核上述判断语料属于引导教唆语料的质检结果,对于不违规的场景,将该知识增加到第一知识图谱中。
具体的,所述验证所述引导教唆语料是否为真实引导教唆语料的步骤包括:
基于预先训练的教唆语料检测模型检测所述引导教唆语料是否为真实引导教唆语料。
在本实施例中,在知识图谱已经确定对应的语料为引导教唆语料的前提下,通过预先训练的教唆语料检测模型对所述引导教唆语料进行二次检测验证。若此时教唆语料检测模型输出的结果是所述引导教唆语料为真实引导教唆语料,则更加可以确定该语料属于引导教唆型的语料。进而更加可以确定该引导教唆型的语料所对应的场景,属于引导教唆型的场景。本申请的教唆语料检测模型为NLP(Natural Language Processing,自然语言处理)模型。
此外,作为本申请的另一实施例,所述验证所述引导教唆语料是否为真实引导教唆语料的步骤包括:
将所述引导教唆语料输出至用户终端的显示设备;
向所述用户终端输出请求确认教唆语料的信号;
当接收到所述用户终端发送的确认信号时,基于所述确认信号确定所述引导教唆语料是否为真实引导教唆语料,其中,所述确认信号与所述请求确认教唆语料的信号相对应。
在本实施例中,将所述引导教唆语料输出至用户终端的显示设备,以进行所述引导教唆语料的展示。当所述相关人员确认所述教唆语料为真实引导教唆语料时,确定所述引导教唆语料为真实引导教唆语料。
需要强调的是,为进一步保证上述第一知识图谱的私密和安全性,第一知识图谱还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可应用于智慧政务/教育领域领域中,具体可以应用于智慧政务/智慧教育的智慧监管中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于知识图谱的引导教唆语料的检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于知识图谱的引导教唆语料的检测装置300包括:接收模块301、构建模块302、识别模块303、输出模块304以及更新模块305。其中:接收模块301,用于接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息;构建模块302,用于基于所述标准语料特征构建第一知识图谱;识别模块303,用于接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果;输出模块304,用于当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料;更新模块305,用于当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱。
在本实施例中,本申请提出基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。有效实现对实际应用中坐席人员的引导教唆行为的检测。同时通过推演成功的待检测实体更新扩张的第一知识图谱,有利于模型随时代变迁不断更新学习,从而增强对于坐席人员的威慑性,进一步降低客户投诉率,有效的约束坐席人员的规范用语,从而提高客户满意度。
在本实施例的一些可选的实现方式中,上述接收模块301进一步用于:提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征。
接收模块301包括分词子模块、识别子模块、确定子模块和筛选子模块。其中,分词子模块用于对所述标准语料数据集中的每条语料均进行分词操作,获得标准语料词语;识别子模块用于基于预设的实体识别工具对所述标准语料词语进行命名实体识别,获得命名实体集合;确定子模块用于确定命名实体集合中不同命名实体之间的连接关系,基于所述连接关系生成三元组数据;筛选子模块用于基于预设的限定关系对所述三元组数据进行筛选,获得目标三元组数据,将所述目标三元组数据作为所述标准语料特征。
在本实施例的一些可选的实现方式中,上述构建模块302进一步用于:基于预设的图数据库与所述标准语料特征构建所述第一知识图谱。
输出模块304包括生成子模块、判断子模块和矛盾子模块。其中,生成子模块用于当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并基于所述引导教唆实体对应的待检测语料生成待检测知识图谱;判断子模块用于确定所述待检测知识图谱和所述第一知识图谱之间是否存在矛盾关系;矛盾子模块用于当所述待检测知识图谱和所述第一知识图谱之间存在矛盾关系时,将所述引导教唆实体对应的待检测语料作为引导教唆语料。
更新模块305包括初始合格子模块、目标合格子模块和更新子模块。其中,初始合格子模块用于当所述推演结果为推演成功时,识别推演成功的待检测实体对应的待检测语料,作为初始合格语料;目标合格子模块用于当所述初始合格语料中所有的待检测实体均推演成功时,将所述初始合格语料作为目标合格语料;更新子模块用于基于所述目标合格语料更新所述第一知识图谱,获得第二知识图谱。
在本实施例的一些可选的实现方式中,上述装置300还包括:验证模块,用于验证所述引导教唆语料是否为真实引导教唆语料,在所述引导教唆语料为非真实引导教唆语料时,将所述引导教唆语料增加到所述第一知识图谱中,获得扩张知识图谱。
在本实施例的一些可选的实现方式中,上述验证模块进一步用于:基于预先训练的教唆语料检测模型检测所述引导教唆语料是否为真实引导教唆语料。
在本实施例的一些可选的实现方式中,验证模块包括显示子模块、请求子模块和信号接收子模块。其中,显示子模块用于将所述引导教唆语料输出至用户终端的显示设备;请求子模块用于向所述用户终端输出请求确认教唆语料的信号;信号接收子模块用于当接收到所述用户终端发送的确认信号时,基于所述确认信号确定所述引导教唆语料是否为真实引导教唆语料,其中,所述确认信号与所述请求确认教唆语料的信号相对应。
本申请提出基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。有效实现对实际应用中坐席人员的引导教唆行为的检测。同时通过推演成功的待检测实体更新扩张的第一知识图谱,有利于模型随时代变迁不断更新学习,从而增强对于坐席人员的威慑性,进一步降低客户投诉率,有效的约束坐席人员的规范用语,从而提高客户满意度。
本申请提出基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。有效实现对实际应用中坐席人员的引导教唆行为的检测。同时通过推演成功的待检测实体更新扩张的第一知识图谱,有利于模型随时代变迁不断更新学习,从而增强对于坐席人员的威慑性,进一步降低客户投诉率,有效的约束坐席人员的规范用语,从而提高客户满意度。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于知识图谱的引导教唆语料的检测方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述基于知识图谱的引导教唆语料的检测方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
在本实施例中,本申请基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。从而有效实现对实际应用中坐席人员的引导教唆行为的检测。有效的约束坐席人员的规范用语,提高客户满意度。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于知识图谱的引导教唆语料的检测方法的步骤。
在本实施例中,本申请基于第一知识图谱对待检测语料进行检测,从而确定该待检测语料是否属于引导教唆语料。从而有效实现对实际应用中坐席人员的引导教唆行为的检测。有效的约束坐席人员的规范用语,提高客户满意度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (9)

1.一种基于知识图谱的引导教唆语料的检测方法,其特征在于,包括下述步骤:
接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息;
基于所述标准语料特征构建第一知识图谱;
接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果;
当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料;
当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱;
其中,所述在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果的步骤包括:
通过在第一知识图谱中进行查找确定,若无所述待检测实体,触发相似度算法,通过计算第一知识图谱中的各目标实体与待检测实体之间的语义相似度,确定出语义相似度超过预设的阈值的目标实体,作为替代实体,若找到在第一知识图谱中替代实体的路径,从而确定推演结果为推演成功,而若第一知识图谱中不存在与待检测实体之间的语义相似度超过预设的阈值的目标实体,则输出的推演结果为推演失败;
其中,当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的待检测语料作为引导教唆语料,输出所述引导教唆语料的步骤包括:
当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并基于所述引导教唆实体对应的待检测语料生成待检测知识图谱;
确定所述待检测知识图谱和所述第一知识图谱之间是否存在矛盾关系;
当所述待检测知识图谱和所述第一知识图谱之间存在矛盾关系时,将所述引导教唆实体对应的待检测语料作为引导教唆语料。
2.根据权利要求1所述的基于知识图谱的引导教唆语料的检测方法,其特征在于,所述对所述标准语料数据集进行特征提取,获得标准语料特征的步骤包括:
提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征。
3.根据权利要求2所述的基于知识图谱的引导教唆语料的检测方法,其特征在于,所述提取所述标准语料数据集中每条语料的三元组数据,作为所述标准语料特征的步骤包括:
对所述标准语料数据集中的每条语料均进行分词操作,获得标准语料词语;
基于预设的实体识别工具对所述标准语料词语进行命名实体识别,获得命名实体集合;
确定命名实体集合中不同命名实体之间的连接关系,基于所述连接关系生成三元组数据;
基于预设的限定关系对所述三元组数据进行筛选,获得目标三元组数据,将所述目标三元组数据作为所述标准语料特征。
4.根据权利要求1所述的基于知识图谱的引导教唆语料的检测方法,其特征在于,当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱的步骤包括:
当所述推演结果为推演成功时,识别推演成功的待检测实体对应的待检测语料,作为初始合格语料;
当所述初始合格语料中所有的待检测实体均推演成功时,将所述初始合格语料作为目标合格语料;
基于所述目标合格语料更新所述第一知识图谱,获得第二知识图谱。
5.根据权利要求1所述的基于知识图谱的引导教唆语料的检测方法,其特征在于,在所述将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料的步骤之后,还包括:
验证所述引导教唆语料是否为真实引导教唆语料,在所述引导教唆语料为非真实引导教唆语料时,将所述引导教唆语料增加到所述第一知识图谱中,获得扩张知识图谱。
6.根据权利要求5所述的基于知识图谱的引导教唆语料的检测方法,其特征在于,所述验证所述引导教唆语料是否为真实引导教唆语料的步骤包括:
将所述引导教唆语料输出至用户终端的显示设备;
向所述用户终端输出请求确认教唆语料的信号;
当接收到所述用户终端发送的确认信号时,基于所述确认信号确定所述引导教唆语料是否为真实引导教唆语料,其中,所述确认信号与所述请求确认教唆语料的信号相对应。
7.一种基于知识图谱的引导教唆语料的检测装置,运行时执行权利要求1至6中任一项的所述基于知识图谱的引导教唆语料的检测方法,其特征在于,包括:
接收模块,用于接收标准语料数据集,对所述标准语料数据集进行特征提取,获得标准语料特征,其中,所述标准语料数据集中不存在引导教唆信息;
构建模块,用于基于所述标准语料特征构建第一知识图谱;
识别模块,用于接收待检测语料,对所述待检测语料进行命名实体识别,获得待检测实体,并在所述第一知识图谱中分别对每个所述待检测实体进行推演,获得推演结果;
输出模块,用于当所述推演结果为推演失败时,将推演失败的待检测实体作为引导教唆实体,并将所述引导教唆实体对应的所述待检测语料作为引导教唆语料,输出所述引导教唆语料;
更新模块,用于当所述推演结果为推演成功时,基于推演成功的待检测实体更新所述第一知识图谱,获得第二知识图谱。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于知识图谱的引导教唆语料的检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于知识图谱的引导教唆语料的检测方法的步骤。
CN202011491853.1A 2020-12-16 2020-12-16 基于知识图谱的引导教唆语料的检测方法及其相关设备 Active CN112528040B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011491853.1A CN112528040B (zh) 2020-12-16 2020-12-16 基于知识图谱的引导教唆语料的检测方法及其相关设备
PCT/CN2021/090164 WO2022126962A1 (zh) 2020-12-16 2021-04-27 基于知识图谱的引导教唆语料的检测方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011491853.1A CN112528040B (zh) 2020-12-16 2020-12-16 基于知识图谱的引导教唆语料的检测方法及其相关设备

Publications (2)

Publication Number Publication Date
CN112528040A CN112528040A (zh) 2021-03-19
CN112528040B true CN112528040B (zh) 2024-03-19

Family

ID=75000902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011491853.1A Active CN112528040B (zh) 2020-12-16 2020-12-16 基于知识图谱的引导教唆语料的检测方法及其相关设备

Country Status (2)

Country Link
CN (1) CN112528040B (zh)
WO (1) WO2022126962A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528040B (zh) * 2020-12-16 2024-03-19 平安科技(深圳)有限公司 基于知识图谱的引导教唆语料的检测方法及其相关设备
CN117573809A (zh) * 2024-01-12 2024-02-20 中电科大数据研究院有限公司 一种基于事件图谱的舆情推演方法以及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法
EP3550464A1 (en) * 2018-04-05 2019-10-09 Accenture Global Solutions Limited Data security and protection system using distributed ledgers to store validated data in a knowledge graph
CN110941664A (zh) * 2019-12-11 2020-03-31 北京百度网讯科技有限公司 知识图谱的构建方法、检测方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
US10681061B2 (en) * 2017-06-14 2020-06-09 International Business Machines Corporation Feedback-based prioritized cognitive analysis
CN110688489B (zh) * 2019-09-09 2022-08-16 中国电子科技集团公司电子科学研究院 基于交互注意力的知识图谱推演方法、装置和存储介质
CN111061843B (zh) * 2019-12-26 2023-08-25 武汉大学 一种知识图谱引导的假新闻检测方法
CN111460167A (zh) * 2020-03-19 2020-07-28 平安国际智慧城市科技股份有限公司 基于知识图谱定位排污对象的方法及相关设备
CN112528040B (zh) * 2020-12-16 2024-03-19 平安科技(深圳)有限公司 基于知识图谱的引导教唆语料的检测方法及其相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3550464A1 (en) * 2018-04-05 2019-10-09 Accenture Global Solutions Limited Data security and protection system using distributed ledgers to store validated data in a knowledge graph
CN110290116A (zh) * 2019-06-04 2019-09-27 中山大学 一种基于知识图谱的恶意域名检测方法
CN110941664A (zh) * 2019-12-11 2020-03-31 北京百度网讯科技有限公司 知识图谱的构建方法、检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112528040A (zh) 2021-03-19
WO2022126962A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
US10489127B2 (en) Mapping of software code via user interface summarization
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN112417887B (zh) 敏感词句识别模型处理方法、及其相关设备
CN112395390B (zh) 意图识别模型的训练语料生成方法及其相关设备
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN112528040B (zh) 基于知识图谱的引导教唆语料的检测方法及其相关设备
CN112256886B (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112949317B (zh) 文本语义识别方法、装置、计算机设备及存储介质
CN117093715B (zh) 词库扩充方法、系统、计算机设备及存储介质
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质
CN115062136A (zh) 基于图神经网络的事件消歧方法及其相关设备
CN115879465A (zh) 搜索引擎分词模型构建方法及其相关设备
KR20230072600A (ko) 인공지능 기반 기업 고객 대상 자동 정보 알람 방법, 장치 및 시스템
CN116701488A (zh) 数据处理方法、装置、计算机设备及存储介质
CN116757192A (zh) 词语识别方法、装置、计算机设备及存储介质
CN117034114A (zh) 基于人工智能的数据预测方法、装置、设备及存储介质
CN116795707A (zh) 软件隐私合规性前置检测方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant