CN114186022A - 基于语音转录与知识图谱的调度指令质检方法及系统 - Google Patents

基于语音转录与知识图谱的调度指令质检方法及系统 Download PDF

Info

Publication number
CN114186022A
CN114186022A CN202111476776.7A CN202111476776A CN114186022A CN 114186022 A CN114186022 A CN 114186022A CN 202111476776 A CN202111476776 A CN 202111476776A CN 114186022 A CN114186022 A CN 114186022A
Authority
CN
China
Prior art keywords
scheduling
file
knowledge graph
text
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111476776.7A
Other languages
English (en)
Inventor
卞若晨
翟启
张延童
孙丽丽
翟洪婷
臧丽炜
田兵
李冬
张庆锐
杨坤
卜宪德
罗威
权玮虹
毛恒
张化代
张茜
李青
孟祥鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111476776.7A priority Critical patent/CN114186022A/zh
Publication of CN114186022A publication Critical patent/CN114186022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语音转录与知识图谱的调度指令质检方法及系统,包括:对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。本发明将调度录音语音转文字格式,通过与知识图谱进行匹配,形成修正后的文本格式文件;根据不同方言地区转录对应区域录音文件,同时结合调度场景,匹配调度指令知识图谱,提高转录准确率,有效提高电网调度故障回溯效率、准确度。

Description

基于语音转录与知识图谱的调度指令质检方法及系统
技术领域
本发明涉及调度指令质检技术领域,尤其涉及一种基于语音转录与知识图谱的调度指令质检方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
调度指令是电网调度之间进行事件汇报、沟通交流的命令。
现有技术中,对于电网调度系统的调度指令,往往存在如下技术问题:
(1)调度录音回溯查询困难。目前调度录音回溯查询方式主要依赖录音文件下载后,人工逐条试听,耗费大量人力物力,无法快速获取有效消息,不能满足电网调度指挥需求。
(2)电网调度由省调和地调组成,地调交流沟通时以当地方言为主,存在调度录音回溯时试听人员无法辨别问题,并且语音转文字也存在极大困难,制约电力调度交换网的智能化发展,降低了调度录音回溯查询效率。
(3)目前调度指令混乱,调度用语不规范,无法实现统一;各地调进行汇报时,多采用口语化表述,经常发生调度员对调度指令理解错误的情况,影响调度指令的准确下达与执行。
发明内容
为了解决上述问题,本发明提出了一种基于语音转录与知识图谱的调度指令质检方法及系统,通过适配各地方言的语音转录,实现调度录音回溯搜索查询,确保电网调度事故追溯高效便捷;通过标准化调度指令,形成调度指令知识图谱,确保调度指令下达、执行时准确无误,提高调度系统稳定性。
在一些实施方式中,采用如下技术方案:
一种基于语音转录与知识图谱的调度指令质检方法,包括:
对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
作为进一步地方案,构建调度系统知识图谱的过程包括:
通过检索相关文献梳理调度相关术语,生成调度系统共词矩阵,对文献信息进行聚类分析,降低共词矩阵维数;
将共词矩阵可视化为共词网络,基于蚁群算法将相似术语合并,简化共词网络;
以聚类模块值和轮廓值来评估图谱聚类效果,选择剪枝后聚类效果最佳的网络图谱,形成调度系统知识图谱。
作为进一步地方案,所述聚类模块值具体为:
Figure BDA0003393776670000021
其中,Eii为集群i内所有的边数占整个网络所有边数的比值;ai为经过集群i内所有节点的边数占整个网络的所有边数的比值;Q(i)值在0~1之间,其值越接近1,表示划分网络结构的强度越高。
作为进一步地方案,所述轮廓值具体为:
Figure BDA0003393776670000031
其中,a(i)为内聚度,即i到同簇其他样本的平均距离;b(i)为分离度,即i到其他类簇的所有样本的平均距离;S(i)接近1,则说明样本i聚类合理轮廓越明显。
作为进一步地方案,对于语音转录模型的训练过程包括:
获取不同地域的历史调度指令录音文件,将录音文件转换成文本格式的文件,形成总样本库;
将总样本库按照方言地区和普通话地区进行拆分,形成多个子样本库;
分别用子样本库训练语音转录模型,形成多个训练完毕的子语音转录模型;根据新产生的录音所在地域,用对应的训练完毕的子语音转录模型进行转录,形成文本格式的文件。
作为进一步地方案,将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,具体包括:
运用对数似然比算法,评估一个词与调度场景类别词的相关程度,提取出具有类别区分能力的标签词;
根据标签词,确定录音文件对应的调度场景;
根据调度场景,与对应场景的调度系统知识图谱匹配,根据知识图谱里面的调度命令对文本文件进行修正。
作为进一步地方案,运用对数似然比算法,评估一个词与调度场景类别词的相关程度,具体包括:
假设H1表示元素x1、x2之间是相互独立的;H2表示元素x1、x2之间具有相关性;分别求取H1和H2的似然值L(H1)、L(H2);其中,x1为某一词语,x2为调度场景类别词;
基于所述似然值确定x1和x2的关联程度,当关联程度大于阈值时,表明x1为具有类别区分能力的标签词。
作为进一步地方案,每当有新的录音产生,通过训练过后的语音转录模型转录成文本格式的文件,并经调度系统知识图谱修正后,形成最终的文本格式文件,将其与录音文件一起加入对应的子样本库,持续训练子语音转录模型。
在另一些实施方式中,采用如下技术方案:
一种基于语音转录与知识图谱的调度指令质检系统,包括:
知识图谱构建模块,用于对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
文件转化模块,用于确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
文本修正模块,用于将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的基于语音转录与知识图谱的调度指令质检方法。
与现有技术相比,本发明的有益效果是:
(1)本发明将调度录音语音转文字格式,通过与知识图谱进行匹配,进行寻错、纠错后,形成最终的文本格式文件;根据不同方言地区训练不同的语音转录循环神经网络,转录对应区域录音文件,同时结合调度场景,匹配调度指令知识图谱,提高转录准确率,有效提高电网调度故障回溯效率、准确度。
(2)本发明收集设定地域的方言,形成方言训练样本,对语音转录模型进行持续训练,兼容性高,普适所有调度应用场景。
(3)针对电力调度指挥场景,制定调度指令标准并形成调度指令知识图谱,能够提供调度指令查询、调度录音与调度指令一键匹配等特色功能。
(4)本发明调度指令质检系统填补了应用空白。在减少对现有业务、系统产生重大影响或改动的前提下,对调度录音业务的智能化应用、推广具有里程碑意义。
本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
图1为本发明实施例中的基于语音转录与知识图谱的调度指令质检方法流程图;
图2为本发明实施例中的知识图谱形成过程示意图;
图3为本发明实施例中的神经网络训练过程示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种基于语音转录与知识图谱的调度指令质检方法,参照图1,具体包括如下过程:
(1)对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
具体地,结合图2,构建调度系统知识图谱的过程如下:
1):检索期刊数据库、专利数据库等调度相关文献。
2):从海量文献信息中应用调度术语中的公共关键词或相同数字,列出矩阵,快速将调度场景分类,调度术语共词矩阵的排列,可以清晰看出调度术语之间的关联性与逻辑性,形成调度系统共词矩阵;
运用Log-Likelihood Ratio算法对海量文献信息进行聚类分析,降低矩阵维数。
3):利用可视化技术将共词矩阵可视化为共词网络。
具体地,对调度相关文档集合中关键词进行合并同义词、去除低频词后,按照关键词在每篇文章中的共现情况生成关键词共词网络。
4):通过蚁群算法计算两个关键词之间的最优路径,从而简化共词网络。
5):以聚类模块值和轮廓值来评估图谱聚类效果;
计算聚类模块值和轮廓值,并与事先设定的阈值做比较,评估图谱聚类效果;选择剪枝后聚类效果最佳的网络图谱,形成调度系统知识图谱。
本实施例中,聚类模块值是衡量网络结构强度的划分质量,其中模块值Q(i)为:
Figure BDA0003393776670000071
其中,Eii为集群i内所有的边数占整个网络所有边数的比值;ai为经过集群i内所有节点的边数(包含一点在集群i内一点在集群i外的边)占整个网络的所有边数的比值。Q(i)值在0~1之间,其值越接近1,表示划分网络结构的强度越高。
轮廓值(Silhouette)是评价聚类效果好坏的一种方式,它结合内聚度和分离度两种因素,轮廓值具体计算方法为:
Figure BDA0003393776670000072
其中,a(i)为内聚度,即i到同簇其他样本的平均距离;b(i)为分离度,即i到其他类簇的所有样本的平均距离。S(i)越接近1,则说明样本i聚类合理轮廓越明显。
根据形成的调度系统知识图谱,从时间切片进行图谱解读,掌握调度演进趋势,制定适合当下的调度指令标准。
(2)确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
本实施例中,结合图3,对于语音转录模型的训练过程具体如下:
1):收集设定地域的历史调度指令录音文件,并根据不同地区方言,翻译成文字形成总样本库。形成总样本库后,将样本库按照方言地区、普通话地区拆分,拆分后形成多个子样本库。
2):分别用子样本库训练语音转录模型,形成多个训练完毕的语音转录模型。
3):根据新产生的录音所在区域,用对应的训练完毕的子语音转录模型进行转录,形成文本文件。
本实施例中,语音转录模型可以通过循环神经网络构建。
(3)将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终形成最精确的录音转录文本文件,用于调度事件的回溯。
具体地,调度录音文本与调度系统知识图谱匹配的具体过程如下:
1):运用对数似然比算法,评估一个词与调度场景类别词的相关程度,提取出具有类别区分能力的标签词。
对数似然比算法是一种用于信息检索与勘探的加权聚类技术,用以评估一个词对调度场景的相关程度,从而提取出具有类别区分能力的标签词。
假设H1表示元素x1、x2之间是相互独立的;H2表示元素x1、x2之间具有相关性。H1和H2符合二项式分布,其似然值L(H1)、L(H2)分别为:
L(H1)=b(p12;p1;q1)b(p2-p12;N-p1;q1)
L(H2)=b(p12;p1;q2)b(p2-p12;N-p1;q12)
其中,N为所有元素出现的总次;p1、p2和p12分别为元素x1、x2和x12在调度系统知识图谱中出现的次数;q1、q2和q12分别为采用极大似然估计法计算元素x1、x2和x12出现的概率;b(·)为二项式分布。
H1和H2的关联程度表示为LLR,其中似然比λ数值是以2为底,具体公式为:
Figure BDA0003393776670000081
当LLR≥T时,x1为x2的特征词,表明x1为具有类别区分能力的标签词;T为设定的阈值。
2):根据标签词,确定录音文件对应调度场景;比如:出现设备维修、更换等即定义为调度检修场景。
3):根据调度场景,与对应场景的调度系统知识图谱匹配,根据知识图谱里面的调度命令等对文本文件寻错、纠错,当语音转录的文本与知识图谱里的调度命令不符时,更改为知识图谱里面的调度命令;进一步提高语音转录后文本文件的准确性。
将最终形成的文本文件与录音文件一起,放入对应的子样本库,持续训练语音转录模型;每当有新的调度指令录音文件,通过训练过后的语音转录模型转录成文本,并经调度系统知识图谱寻错、纠错后,形成的最终文本文件与录音文件一起加入对应的子样本库,持续训练子循环神经网络。
实施例二
在一个或多个实施方式中,公开了一种基于语音转录与知识图谱的调度指令质检系统,包括:
知识图谱构建模块,用于对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
文件转化模块,用于确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
文本修正模块,用于将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
需要说明的是,上述各模块的具体实现方式已经在实施例一中进行了说明,不再详述。
实施例三
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于语音转录与知识图谱的调度指令质检方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件集成逻辑电路或者软件形式的指令完成。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,包括:
对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
2.如权利要求1所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,构建调度系统知识图谱的过程包括:
通过检索相关文献梳理调度相关术语,生成调度系统共词矩阵,对文献信息进行聚类分析,降低共词矩阵维数;
将共词矩阵可视化为共词网络,基于蚁群算法将相似术语合并,简化共词网络;
以聚类模块值和轮廓值来评估图谱聚类效果,选择剪枝后聚类效果最佳的网络图谱,形成调度系统知识图谱。
3.如权利要求2所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,所述聚类模块值具体为:
Figure FDA0003393776660000011
其中,Eii为集群i内所有的边数占整个网络所有边数的比值;ai为经过集群i内所有节点的边数占整个网络的所有边数的比值;Q(i)值在0~1之间,其值越接近1,表示划分网络结构的强度越高。
4.如权利要求2所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,所述轮廓值具体为:
Figure FDA0003393776660000021
其中,a(i)为内聚度,即i到同簇其他样本的平均距离;b(i)为分离度,即i到其他类簇的所有样本的平均距离;S(i)接近1,则说明样本i聚类合理轮廓越明显。
5.如权利要求1所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,对于语音转录模型的训练过程包括:
获取不同地域的历史调度指令录音文件,将录音文件转换成文本格式的文件,形成总样本库;
将总样本库按照方言地区和普通话地区进行拆分,形成多个子样本库;
分别用子样本库训练语音转录模型,形成多个训练完毕的子语音转录模型;根据新产生的录音所在地域,用对应的训练完毕的子语音转录模型进行转录,形成文本格式的文件。
6.如权利要求1所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,具体包括:
运用对数似然比算法,评估一个词与调度场景类别词的相关程度,提取出具有类别区分能力的标签词;
根据标签词,确定录音文件对应的调度场景;
根据调度场景,与对应场景的调度系统知识图谱匹配,根据知识图谱里面的调度命令对文本文件进行修正。
7.如权利要求6所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,运用对数似然比算法,评估一个词与调度场景类别词的相关程度,具体包括:
假设H1表示元素x1、x2之间是相互独立的;H2表示元素x1、x2之间具有相关性;分别求取H1和H2的似然值L(H1)、L(H2);其中,x1为某一词语,x2为调度场景类别词;
基于所述似然值确定x1和x2的关联程度,当关联程度大于阈值时,表明x1为具有类别区分能力的标签词。
8.如权利要求1所述的一种基于语音转录与知识图谱的调度指令质检方法,其特征在于,每当有新的录音产生,通过训练过后的语音转录模型转录成文本格式的文件,并经调度系统知识图谱修正后,形成最终的文本格式文件,将其与录音文件一起加入对应的子样本库,持续训练子语音转录模型。
9.一种基于语音转录与知识图谱的调度指令质检系统,其特征在于,包括:
知识图谱构建模块,用于对电网调度系统产生的历史调度指令信息标准化,构建调度系统知识图谱;
文件转化模块,用于确定调度指令录音文件所属的方言类型,将调度指令录音文件输入至训练好的相应方言类型的语音转录模型,将录音文件转化为文本格式的文件;
文本修正模块,用于将文本格式的文件与调度系统知识图谱进行匹配,修正文本中的转录错误,最终得到修正后的语音转录文本。
10.一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-8任一项所述的基于语音转录与知识图谱的调度指令质检方法。
CN202111476776.7A 2021-12-02 2021-12-02 基于语音转录与知识图谱的调度指令质检方法及系统 Pending CN114186022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111476776.7A CN114186022A (zh) 2021-12-02 2021-12-02 基于语音转录与知识图谱的调度指令质检方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111476776.7A CN114186022A (zh) 2021-12-02 2021-12-02 基于语音转录与知识图谱的调度指令质检方法及系统

Publications (1)

Publication Number Publication Date
CN114186022A true CN114186022A (zh) 2022-03-15

Family

ID=80542405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111476776.7A Pending CN114186022A (zh) 2021-12-02 2021-12-02 基于语音转录与知识图谱的调度指令质检方法及系统

Country Status (1)

Country Link
CN (1) CN114186022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578667A (zh) * 2023-07-13 2023-08-11 湖南惠农科技有限公司 一种基于农业大数据管理的农业信息服务终端
CN117033667A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答系统
CN111755001A (zh) * 2020-05-07 2020-10-09 国网山东省电力公司信息通信公司 一种基于人工智能的电网快速调度指挥系统及方法
CN112528041A (zh) * 2020-12-17 2021-03-19 贵州电网有限责任公司 一种基于知识图谱的调度用语规范验证方法
CN113591457A (zh) * 2021-07-30 2021-11-02 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答系统
CN111755001A (zh) * 2020-05-07 2020-10-09 国网山东省电力公司信息通信公司 一种基于人工智能的电网快速调度指挥系统及方法
CN112528041A (zh) * 2020-12-17 2021-03-19 贵州电网有限责任公司 一种基于知识图谱的调度用语规范验证方法
CN113591457A (zh) * 2021-07-30 2021-11-02 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
奉国和;黄家兴;薛云;: "文本聚类研究知识图谱分析", 情报科学, no. 03, 5 March 2014 (2014-03-05), pages 23 - 27 *
杨娟等: "《面板数据聚类的复合方法与应用》", 31 August 2016, 对外经济贸易大学出版社, pages: 43 - 44 *
胡吉明: "《社会网络环境下基于用户关系的信息推荐服务研究》", 31 December 2015, 武汉大学出版社, pages: 123 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578667A (zh) * 2023-07-13 2023-08-11 湖南惠农科技有限公司 一种基于农业大数据管理的农业信息服务终端
CN117033667A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备
CN117033667B (zh) * 2023-10-07 2024-01-09 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN110298032A (zh) 文本分类语料标注训练系统
CN114186022A (zh) 基于语音转录与知识图谱的调度指令质检方法及系统
CN103678271B (zh) 一种文本校正方法及用户设备
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN109684447A (zh) 一种基于文本挖掘的电网调度运行日志故障信息分析方法
CN114969297A (zh) 一种电力客户诉求相关度分析方法
CN112967710B (zh) 一种低资源客家方言点识别方法
CN114722191A (zh) 一种基于语义理解处理的通话自动聚类方法及系统
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116628173A (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN115878778A (zh) 面向业务领域的自然语言理解方法
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统
CN115619117A (zh) 基于值班系统的电网智能调度方法
CN115481636A (zh) 一种面向技术文献的技术功效矩阵构建方法
CN114154829A (zh) 企业的产业链节点确定方法、装置、终端及存储介质
CN111274404B (zh) 一种基于人机协同的小样本实体多领域分类方法
CN112488593A (zh) 一种用于招标的辅助评标系统及方法
CN112133308A (zh) 一种用于语音识别文本多标签分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination