CN113687719A - 一种适用于语音信息的智能交互方法及装置 - Google Patents

一种适用于语音信息的智能交互方法及装置 Download PDF

Info

Publication number
CN113687719A
CN113687719A CN202110969031.8A CN202110969031A CN113687719A CN 113687719 A CN113687719 A CN 113687719A CN 202110969031 A CN202110969031 A CN 202110969031A CN 113687719 A CN113687719 A CN 113687719A
Authority
CN
China
Prior art keywords
voice
information
signal
training
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110969031.8A
Other languages
English (en)
Inventor
吴浩珊
黄达文
姜南
梁维铿
苏建华
陈诒钊
吴叶辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202110969031.8A priority Critical patent/CN113687719A/zh
Publication of CN113687719A publication Critical patent/CN113687719A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种适用于语音信息的智能交互方法及装置,通过对采集到的语音信息进行预处理,获得语音特征信息,并通过预先训练好的卷积神经网络对语音特征信息进行过滤,获得新语音特征信息,并通过智能语音识别模型将新语音特征转换为文本信息,在意图识别模型的解析下生成对应的业务操作信息,在符合校验库规则的前提下按照该业务操作信息即可执行对应的业务操作。本发明由于采用了智能语音识别模型可以对语音信息进行高效准确的识别,还通过意图识别模型自动根据文本信息生成对应的业务操作信息,使得效率得到了提升,还避免了采用自然语言的形式沟通业务信息,导致业务管理效率较低、自动化程度不高的问题。

Description

一种适用于语音信息的智能交互方法及装置
技术领域
本发明涉及语音信息处理技术领域,具体涉及一种适用于语音信息的智能交互方法及装置。
背景技术
在电力业务中,语音信息的正确交互是为了保证电网安全稳定运行、对外可靠供电、各类电力生产工作有序进行而采用的一种有效的管理手段。电力业务的具体工作内容是依据各类信息采集设备反馈回来的数据信息,或监控人员提供的信息,结合电网实际运行参数,如电压、电流、频率、负荷等,综合考虑各项生产工作开展情况,对电网安全、经济运行状态进行判断,通过电话或自动系统发布操作指令,指挥现场操作人员或自动控制系统进行调整,如调整发电机出力、调整负荷分布、投切电容器、电抗器等,从而确保电网持续安全稳定运行。近年来随着科技的不断发展,现代化监测、控制手段不断完善,电力业务的技术支持也日趋强大。
在电力业务自动化与信息化的建设中,利用智能虚拟业务操作员代替人工进行现场业务信息的接收、验证与发送等,有利于减少操作员的单一重复性工作量,提高配电业务管理的自动化程度和操作员的分析决策效率。由于配电网业务涉及到大量的电力设备以及相关的设备状态和操作信息,近年来已有不少研究采用知识图谱对配电业务信息进行更为有效的组织和分析。
但在实际电力业务工作中,现场人员通常都以自然语言的形式对业务信息进行复诵或汇报,在控制室的业务操作人员根据现场人员的指令,手动对电力电网进行业务管理,效率较低,自动化程度不高。
发明内容
有鉴于此,本发明旨在解决现有采用自然语言的形式沟通业务信息,导致业务管理效率较低、自动化程度不高的问题。
为了解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供了一种适用于语音信息的智能交互方法,包括如下步骤:
采集待识别的语音信息并进行预处理,获得语音特征信息;
将语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
利用智能语音识别模型将新语音特征转换成文本信息;
根据意图识别模型解析文本信息,生成业务操作信息,并将业务操作信息输入至规则库中进行校验;
基于校验后的业务操作信息执行对应的业务操作。
进一步的,采集待识别的语音信息并进行预处理,获得语音特征信息具体包括:
建立基于语音信号的二维分布数据;
从二维分布数据中随机选取一个空间点的信号,利用傅里叶变换计算空间点的信号的幅值和相位,得到空间点的信号的频谱;
对空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取增强语音信号的特征信息。
进一步的,智能语音识别模型包括热词训练模型,热词训练模型的表达式如下:
Figure BDA0003224944280000021
式中,S(z)表示热词粘联度,n表示迭代次数,c=2,P(zi)表示热词产生的概率,{z1,z2,z3,...,zi}为热词z的集合。
进一步的,利用智能语音识别模型将新语音特征转换成文本信息具体包括:
将新语音特征信息划分为训练集和测试集,利用训练集和测试集对热词训练模型进行训练;
计算热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练;
将待识别的语音特征信息输入到训练好的热词训练模型中,根据训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
进一步的,意图识别模型的表达式如下:
Figure BDA0003224944280000031
式中,score(p)表示得分概率,q表示生成的文本信息,vq表示出现次数,p表示数据库文本内容,μ(p,q)表示p、q之间的匹配次数。
第二方面,本发明提供了一种适用于语音信息的智能交互装置,包括:
语音信息采集模块,用于采集待识别的语音信息并进行预处理,获得语音特征信息;
语音特征提取模块,用于将语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
语音特征转换模块,用于利用智能语音识别模型将新语音特征转换成文本信息;
文本解析模块,用于根据意图识别模型解析文本信息,生成业务操作信息,并将业务操作信息输入至规则库中进行校验;
业务执行模块,用于基于校验后的业务操作信息执行对应的业务操作。
进一步的,语音信息采集模块具体包括:
信号采集模块,用于建立基于语音信号的二维分布数据;
第一转换模块,用于从二维分布数据中随机选取一个空间点的信号,利用傅里叶变换计算空间点的信号的幅值和相位,得到空间点的信号的频谱;
第二转换模块,用于对空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取增强语音信号的特征信息。
进一步的,语音特征转换模块具体包括:
模型训练模块,用于将新语音特征信息划分为训练集和测试集,利用训练集和测试集对热词训练模型进行训练;
精度检验模块,用于计算热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练;
文本生成模块,用于将待识别的语音特征信息输入到训练好的热词训练模型中,根据训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
第三方面,本发明提供了一种适用于语音信息的智能交互设备,设备包括处理器以及存储器:
存储器用于存储计算机程序,并将计算机程序的指令发送至处理器;
处理器根据计算机程序的指令执行如第一方面的一种适用于语音信息的智能交互方法。
第四方面,本发明提供了一种计算机存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如第一方面的一种适用于语音信息的智能交互方法。
与现有技术相比,本发明的有益效果是:
本发明提供了一种适用于语音信息的智能交互方法及装置,通过对采集到的语音信息进行预处理,获得语音特征信息,并通过预先训练好的卷积神经网络对语音特征信息进行过滤,获得新语音特征信息,并通过智能语音识别模型将新语音特征转换为文本信息,在意图识别模型的解析下生成对应的业务操作信息,在符合校验库规则的前提下按照该业务操作信息即可执行对应的业务操作。本发明由于采用了智能语音识别模型可以对语音信息进行高效准确的识别,还通过意图识别模型自动根据文本信息生成对应的业务操作信息,使得效率得到了提升,还避免了采用自然语言的形式沟通业务信息,导致业务管理效率较低、自动化程度不高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种适用于语音信息的智能交互方法的流程示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在电力业务中,语音信息的正确交互是为了保证电网安全稳定运行、对外可靠供电、各类电力生产工作有序进行而采用的一种有效的管理手段。电力业务的具体工作内容是依据各类信息采集设备反馈回来的数据信息,或监控人员提供的信息,结合电网实际运行参数,如电压、电流、频率、负荷等,综合考虑各项生产工作开展情况,对电网安全、经济运行状态进行判断,通过电话或自动系统发布操作指令,指挥现场操作人员或自动控制系统进行调整,如调整发电机出力、调整负荷分布、投切电容器、电抗器等,从而确保电网持续安全稳定运行。近年来随着科技的不断发展,现代化监测、控制手段不断完善,电力业务的技术支持也日趋强大。
在电力业务自动化与信息化的建设中,利用智能虚拟业务操作员代替人工进行现场业务信息的接收、验证与发送等,有利于减少操作员的单一重复性工作量,提高配电业务管理的自动化程度和操作员的分析决策效率。由于配电网业务涉及到大量的电力设备以及相关的设备状态和操作信息,近年来已有不少研究采用知识图谱对配电业务信息进行更为有效的组织和分析。
但在实际电力业务工作中,现场人员通常都以自然语言的形式对业务信息进行复诵或汇报,在控制室的业务操作人员根据现场人员的指令,手动对电力电网进行业务管理,效率较低,自动化程度不高。
以下对本发明的一种适用于语音信息的智能交互方法的一个实施例进行详细阐述。
请参阅图1,本实施例提供了一种适用于语音信息的智能交互方法,包括:
S101:采集待识别的语音信息并进行预处理,获得语音特征信息;
需要说明的是,对采集的待识别语音信息进行预处理具体包括:
建立基于语音信号的二维分布数据,即由语音信号生成的空间点特征,由这些空间点组成二维直角坐标系图;
从二维分布数据中随机选取一个空间点的信号,即从二维直角坐标系图中随机选取一个空间点,利用傅里叶变换计算空间点的信号的幅值和相位,得到空间点的信号的频谱;
对空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取增强语音信号的特征信息(即语音帧能量、语音频率及带宽、谱等相关特征)。
S102:将语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
需要说明的是,获取新语音特征的过程是将预处理后获得的语音特征信息输入到预设的神经网络模型的捐精神经网络中,这个卷积神经网络包括若干个卷积层;
通过卷积神经网络进行卷积操作,过滤提取新的语音特征信息。
S103:利用智能语音识别模型将新语音特征转换成文本信息;
需要说明的是,智能语音识别模型包括建立电力业务情景,而电力业务情景包括语音识别、自然语音理解和语音合成三个过程。
其中,语音识别包括建立热词训练模型,该模型的表达式如下:
Figure BDA0003224944280000061
式中,S(z)表示热词粘联度,n表示迭代次数,c=2,P(zi)表示热词产生的概率,{z1,z2,z3,...,zi}为热词z的集合。
将新语音特征信息输入到热词训练模型中进行训练的过程为:
将新语音特征信息按7:3的比例划分为训练集和测试集,利用训练集和测试集对热词训练模型进行训练;
计算热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练,具体的为计算测试集输出的热词粘联度
Figure BDA0003224944280000062
在0到预设精度标准之间时,则认为此时的模型精度到达要求,停止训练;
将待识别的语音特征信息输入到训练好的热词训练模型中,根据训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
S104:根据意图识别模型解析文本信息,生成业务操作信息,并将业务操作信息输入至规则库中进行校验;
需要说明的是,生成业务操作信息的具体过程是:
根据历史电力业务数据信息建立数据库;
基于深度神经网络建立意图识别模型,解析文本信息并与数据库中的内容进行对比以及信息合成,生成业务操作信息。
其中,意图识别模型的表达式如下:
Figure BDA0003224944280000071
式中,score(p)表示得分概率,q表示生成的文本信息,vq表示出现次数,p表示数据库文本内容,μ(p,q)表示p、q之间的匹配次数。
利用意图识别模型将文本信息与数据库中的数据进行一一比对,根据输出的最高得分概率得到文本信息排序的顺序。
进一步的,将业务操作信息输入至规则库进行校验的目的在于检验其是否符合电力行业对输出业务对应执行业务的准确性判断标准。
根据历史业务信息的语句逻辑及历史用户选择的最佳解析结果建立语意解析规则库,并根据最新信息进行数据的更新;
将业务信息输入到规则库中进行校验,若不符合规则库输出规则,则根据输出规则进行相应的调整,输出调整后的业务信息。
S105:基于校验后的业务操作信息执行对应的业务操作。
本实施例提供了一种适用于语音信息的智能交互方法及装置,通过对采集到的语音信息进行预处理,获得语音特征信息,并通过预先训练好的卷积神经网络对语音特征信息进行过滤,获得新语音特征信息,并通过智能语音识别模型将新语音特征转换为文本信息,在意图识别模型的解析下生成对应的业务操作信息,在符合校验库规则的前提下按照该业务操作信息即可执行对应的业务操作。本发明由于采用了智能语音识别模型可以对语音信息进行高效准确的识别,还通过意图识别模型自动根据文本信息生成对应的业务操作信息,使得效率得到了提升,还避免了采用自然语言的形式沟通业务信息,导致业务管理效率较低、自动化程度不高的问题。
以上是对本发明的一种适用于语音信息的智能交互方法的一个实施例进行的详细介绍,以下将对本发明的一种适用于语音信息的智能交互装置的一个实施例进行详细的介绍。
本实施例提供一种适用于语音信息的智能交互装置,包括:
语音信息采集模块,用于采集待识别的语音信息并进行预处理,获得语音特征信息;
语音特征提取模块,用于将语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
语音特征转换模块,用于利用智能语音识别模型将新语音特征转换成文本信息;
文本解析模块,用于根据意图识别模型解析文本信息,生成业务操作信息,并将业务操作信息输入至规则库中进行校验;
业务执行模块,用于基于校验后的业务操作信息执行对应的业务操作。
需要说明的是,语音信息采集模块具体包括:
信号采集模块,用于建立基于语音信号的二维分布数据;
第一转换模块,用于从二维分布数据中随机选取一个空间点的信号,利用傅里叶变换计算空间点的信号的幅值和相位,得到空间点的信号的频谱;
第二转换模块,用于对空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取增强语音信号的特征信息。
语音特征转换模块具体包括:
模型训练模块,用于将新语音特征信息划分为训练集和测试集,利用训练集和测试集对热词训练模型进行训练;
精度检验模块,用于计算热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练;
文本生成模块,用于将待识别的语音特征信息输入到训练好的热词训练模型中,根据训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
以上是对本发明的一种适用于语音信息的智能交互装置的一个实施例进行的详细介绍,以下将对本发明的一种适用于语音信息的智能交互设备的一个实施例进行详细的介绍。
本实施例提供了一种适用于语音信息的智能交互设备,设备包括处理器以及存储器:
存储器用于存储计算机程序,并将计算机程序的指令发送至处理器;
处理器根据计算机程序的指令执行如前述实施例的一种适用于语音信息的智能交互方法。
以上是对本发明的一种适用于语音信息的智能交互设备的一个实施例进行的详细介绍,以下将对本发明的一种计算机存储介质的一个实施例进行详细的介绍。
本实施例提供了一种计算机存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例的一种适用于语音信息的智能交互方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种适用于语音信息的智能交互方法,其特征在于,包括如下步骤:
采集待识别的语音信息并进行预处理,获得语音特征信息;
将所述语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
利用智能语音识别模型将所述新语音特征转换成文本信息;
根据意图识别模型解析文本信息,生成业务操作信息,并将所述业务操作信息输入至规则库中进行校验;
基于校验后的业务操作信息执行对应的业务操作。
2.根据权利要求1所述的一种适用于语音信息的智能交互方法,其特征在于,所述采集待识别的语音信息并进行预处理,获得语音特征信息具体包括:
建立基于语音信号的二维分布数据;
从所述二维分布数据中随机选取一个空间点的信号,利用傅里叶变换计算所述空间点的信号的幅值和相位,得到所述空间点的信号的频谱;
对所述空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取所述增强语音信号的特征信息。
3.根据权利要求1所述的一种适用于语音信息的智能交互方法,其特征在于,所述智能语音识别模型包括热词训练模型,所述热词训练模型的表达式如下:
Figure FDA0003224944270000011
式中,S(z)表示热词粘联度,n表示迭代次数,c=2,P(zi)表示热词产生的概率,{z1,z2,z3,...,zi}为热词z的集合。
4.根据权利要求3所述的一种适用于语音信息的智能交互方法,其特征在于,所述利用智能语音识别模型将所述新语音特征转换成文本信息具体包括:
将所述新语音特征信息划分为训练集和测试集,利用所述训练集和测试集对所述热词训练模型进行训练;
计算所述热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练;
将待识别的语音特征信息输入到训练好的热词训练模型中,根据所述训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
5.根据权利要求4所述的一种适用于语音信息的智能交互方法,其特征在于,所述意图识别模型的表达式如下:
Figure FDA0003224944270000021
式中,score(p)表示得分概率,q表示生成的文本信息,vq表示出现次数,p表示数据库文本内容,μ(p、q)表示p、q之间的匹配次数。
6.一种适用于语音信息的智能交互装置,其特征在于,包括:
语音信息采集模块,用于采集待识别的语音信息并进行预处理,获得语音特征信息;
语音特征提取模块,用于将所述语音特征信息输入到预先训练好的卷积神经网络中,得到新语音特征;
语音特征转换模块,用于利用智能语音识别模型将所述新语音特征转换成文本信息;
文本解析模块,用于根据意图识别模型解析文本信息,生成业务操作信息,并将所述业务操作信息输入至规则库中进行校验;
业务执行模块,用于基于校验后的业务操作信息执行对应的业务操作。
7.根据权利要求6所述的一种适用于语音信息的智能交互装置,其特征在于,所述语音信息采集模块具体包括:
信号采集模块,用于建立基于语音信号的二维分布数据;
第一转换模块,用于从所述二维分布数据中随机选取一个空间点的信号,利用傅里叶变换计算所述空间点的信号的幅值和相位,得到所述空间点的信号的频谱;
第二转换模块,用于对所述空间点的信号的频谱进行傅里叶变换的逆变换,得到增强语音信号,并提取所述增强语音信号的特征信息。
8.根据权利要求6所述的一种适用于语音信息的智能交互装置,其特征在于,所述语音特征转换模块具体包括:
模型训练模块,用于将所述新语音特征信息划分为训练集和测试集,利用所述训练集和测试集对所述热词训练模型进行训练;
精度检验模块,用于计算所述热词训练模型的输出精度是否达到预设精度标准,若是,则停止训练;
文本生成模块,用于将待识别的语音特征信息输入到训练好的热词训练模型中,根据所述训练好的热词训练模型输出的热词粘联度的大小进行排序,利用声学模型对排序后的语音特征信息进行文本输出,生成文本信息。
9.一种适用于语音信息的智能交互设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序的指令发送至处理器;
所述处理器根据所述计算机程序的指令执行权利要求1-5中任一项所述的一种适用于语音信息的智能交互方法。
10.一种计算机存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的一种适用于语音信息的智能交互方法。
CN202110969031.8A 2021-08-23 2021-08-23 一种适用于语音信息的智能交互方法及装置 Pending CN113687719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110969031.8A CN113687719A (zh) 2021-08-23 2021-08-23 一种适用于语音信息的智能交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110969031.8A CN113687719A (zh) 2021-08-23 2021-08-23 一种适用于语音信息的智能交互方法及装置

Publications (1)

Publication Number Publication Date
CN113687719A true CN113687719A (zh) 2021-11-23

Family

ID=78582004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110969031.8A Pending CN113687719A (zh) 2021-08-23 2021-08-23 一种适用于语音信息的智能交互方法及装置

Country Status (1)

Country Link
CN (1) CN113687719A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110896664A (zh) * 2018-06-25 2020-03-20 谷歌有限责任公司 热词感知语音合成
CN112599124A (zh) * 2020-11-20 2021-04-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种面向电网调度的语音调度方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN110896664A (zh) * 2018-06-25 2020-03-20 谷歌有限责任公司 热词感知语音合成
US20210104221A1 (en) * 2018-06-25 2021-04-08 Google Llc Hotword-Aware Speech Synthesis
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN112599124A (zh) * 2020-11-20 2021-04-02 内蒙古电力(集团)有限责任公司电力调度控制分公司 一种面向电网调度的语音调度方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105426300B (zh) 一种电力系统cim/e模型的标准符合性测试系统和方法
CN112509583B (zh) 一种基于调度操作票系统的辅助监督方法及系统
CN112383052A (zh) 基于电力物联网的电网故障修复方法和装置
CN107862103B (zh) 一种基于adpss的仿真模型生成方法及系统
CN101944776A (zh) 电力网络低频振荡监测系统
CN112069727B (zh) 具备高可信度的电力系统暂态稳定智能化评估系统及方法
CN112134310B (zh) 一种基于大数据的人工智能电网调控操作方法及系统
CN113129927B (zh) 语音情绪识别方法、装置、设备及存储介质
CN112632288A (zh) 一种基于知识图谱的电力调度系统及方法
CN111292020A (zh) 一种基于随机森林的电网实时运行风险评估方法及系统
CN110110095A (zh) 一种基于长短期记忆循环神经网络的电力指令文本匹配方法
CN113140219A (zh) 调控指令生成方法、装置、电子设备及存储介质
CN111308260A (zh) 一种基于小波神经网络的电能质量监测和电器故障分析系统及其工作方法
CN116467648A (zh) 一种基于物联表的非线性台区电力故障的早期监测方法
CN113687719A (zh) 一种适用于语音信息的智能交互方法及装置
CN112615428A (zh) 一种线损分析治理系统及方法
CN108538290A (zh) 一种基于音频信号检测的智能家居控制方法
CN111443248A (zh) 逆变器性能指标测试数据提取系统及方法
CN208284230U (zh) 一种语音识别装置、语音识别系统及智能设备
CN114004996A (zh) 异音检测方法、装置、电子设备及介质
CN111061800B (zh) 一种基于故障录波文件的动态无功补偿装置暂态响应分析系统及方法
CN116540015A (zh) 一种基于暂态波形信号的配电网故障预警方法及系统
CN115186935A (zh) 一种机电设备非线性故障预测方法及系统
CN111882284A (zh) 一种分布式电源并网的运行监控方法和系统
CN114710313A (zh) 一种电网的设备攻击检测方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination