CN112802460A

CN112802460A - 一种基于语音处理的空间环境预报系统

Info

Publication number: CN112802460A
Application number: CN202110397336.6A
Authority: CN
Inventors: 闫晓辉; 鲁国瑞; 蔡燕霞
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-05-14
Anticipated expiration: 2041-04-14
Also published as: CN112802460B

Abstract

本发明涉及语音识别和空间环境预报技术领域，具体地说，涉及一种基于语音处理的空间环境预报系统，所述系统包括：语音识别模块、语义处理模块和预报处理模块；其中，所述语音识别模块，用于接收预报员按照预设的语法格式发出的语音指令，转换为对应的文本并输入语义处理模块；所述语义处理模块，用于对文本经文本分词、关键词提取及关联处理，得到匹配的功能命令，进而得到对应的进程通信参数并输入预报处理模块；所述预报处理模块，用于对进程通信参数进行解析，匹配对应的功能命令，根据功能命令进行预报处理，得到语音指令对应的预报结果。本发明实现了语音识别技术在空间环境预报技术系统中的首次应用；有效提升了空间环境预报工作的效率。

Description

一种基于语音处理的空间环境预报系统

技术领域

本发明涉及语音识别技术领域、空间环境预报技术领域，具体地说，尤其涉及一种基于语音处理的空间环境预报系统。

背景技术

空间环境预报在太阳风暴的及时应对中发挥重要作用，空间环境预报员每日需要对未来空间环境进行固定参数指标预报及风险评估，空间环境预报技术系统是进行空间环境预报时使用的专业技术系统。空间环境预报过程中存在的不足主要有：1)传统的空间环境预报技术系统的使用主要通过专业预报员手动进行，即针对预报分析、产品制备等任务，预报员通过鼠标点击功能，键盘输入内容等手动程序化执行；2)预报工作按照固定的操作流程逐步进行、不可跨越，即针对具体的任务，预报工作拥有程序化的固定先后执行顺序。这两种现状下的空间环境预报人机交互效率较低，便捷性不足，不满足当今预报员的用户需求。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于语音处理的空间环境预报系统。

为了实现上述目的，本发明提出了基于语音处理的空间环境预报系统。所述系统包括：语音识别模块、语义处理模块和预报处理模块；其中，

所述语音识别模块，用于接收预报员按照预设的语法格式发出的语音指令，转换为对应的文本并输入语义处理模块；

所述语义处理模块，用于对文本经文本分词、关键词提取及关联处理，得到匹配的功能命令，进而得到对应的进程通信参数并输入预报处理模块；

所述预报处理模块，用于对进程通信参数进行解析，匹配对应的功能命令，根据功能命令进行预报处理，得到语音指令对应的预报结果。

作为上述系统的一种改进，所述语音识别模块包括语音接收单元、语音识别单元和文本纠错单元；其中，

所述语音接收单元，用于接收预报员按照预设的语法格式发出的语音指令；

所述语音识别单元，用于对语音指令进行预处理，得到观察序列矩阵，输入预先训练好的语音识别模型，得到文本集合，根据隐马尔科夫模型及Viterbi算法寻找全局最优路径，得到语音指令对应的文本；

所述文本纠错单元，用于将文本与预先建立的文本纠错列表进行比对，得到文本纠错列表中的正确指令文本；所述文本纠错列表为错误指令文本与正确指令文本的映射表。

作为上述系统的一种改进，所述语法格式包括第一语法格式和第二语法格式；其中，

所述第一语法格式为：语音指令的内容包括指令表述、时间表述和数据表述；其中，指令表述包括态势呈现和统计分析，时间表述为明确的开始时间和结束时间，或过去的某段时间；数据表述为由预报处理模块处理的目标数据，包括：地磁AP指数、地磁KP指数、太阳辐射指数、同步轨道高能电子通量和同步轨道高能质子通量；

所述第二语法格式为：语音指令的内容包括指令选择和场景表述；其中，指令选择包含跳转、缩放、视角切换、二维三维转换和图表控制；场景表述为预报处理模块的界面菜单名称或导航信息。

作为上述系统的一种改进，所述预处理具体为：获取语音指令的波形声音，通过移动窗函数对波形声音进行切段分帧得到不同的声音帧段，再通过提取梅尔频率倒谱系数特征，将不同的声音帧段转换为观察序列矩阵。

作为上述系统的一种改进，所述预先训练好的语音识别模型为深度循环网络，模型的输入为观察序列矩阵，输出为文本集合；所述文本集合为该矩阵对应的可能的文字组合。

作为上述系统的一种改进，所述语义处理模块包括：文本分词单元、关键词提取单元、关联分析单元和进程通信参数匹配输出单元；其中，

所述文本分词单元，用于基于前缀词典进行词图扫描，生成由文本中的文字基于所有可能成词情况所构成的有向无环图，通过动态规划查找最大概率路径，得到基于词频的最大切分组合；对于前缀词典中不包含的词语，采用基于文字成词能力的隐马尔科夫模型及Viterbi算法对词语进行预测，并在结巴分词算法基础上，结合预先建立的空间环境预报用户词典，对文本内容进行分词处理，根据最大切分组合，得到分词结果；

所述关键词提取单元，用于根据分词结果计算词语的词频-逆文档频率，将词频-逆文档频率与预先建立的不常出现词语的权重列表结合，提取权重占比大的词语，从而得到关键词，所述关键词包括指令表述关键词、时间表述关键词、数据表述关键词、指令选择关键词和场景表述关键词；

所述关联分析单元，用于对提取的关键词进行关键词匹配度计算，根据匹配度计算结果得到对应的功能命令；

所述进程通信参数匹配输出单元，用于根据功能命令通信参数映射表，由功能命令得到对应的进程通信参数并输入预报处理模块。

作为上述系统的一种改进，所述根据分词结果计算词语的词频-逆文档频率；具体为：

根据分词结果，计算文本中每个词语的出现次数，得到词频；

按照数值由大到小的顺序对词频排序，给对应的词语分配由小到大的权重；所述权重为逆文档频率；

计算词频与逆文档频率的乘积得到每个词语的词频-逆文档频率。

作为上述系统的一种改进，所述关联分析单元的具体处理过程为：

从关键词中选择指令表述关键词或指令选择关键词作为命令动作，根据命令动作的类别对命令动作赋值为dir，当类别为态势呈现，dir=1；当类别为统计分析，dir=2；当类别为场景控制，dir=3；

从关键词中选择时间表述关键词、数据表述关键词或/和场景表述关键词作为命令参数，判断命令参数是否存在，如果存在，则命令参数响应因子β=1，否则β =0；

如果β=1，则再判定命令参数的满足程度，赋值为cis，cis的取值范围为[0,1]，当dir为1或2时，判断时间表述关键词的格式以及数据表述关键词的内容是否正确，若都正确则cis=1，若只有一项正确则cis=1/2，否则为0；当dir=3时，判断场景表述关键词是否正确，若正确，cis=1，否则为0；

根据下式，计算匹配度计算结果Kd为：

Kd=dir+β·cis

由匹配度计算结果Kd得到关联分析结果，从而得到对应的功能命令：当Kd=2，关联分析结果为态势呈现命令，当Kd=3，关联分析结果为统计分析命令，当Kd=4，关联分析结果为场景控制命令，否则，关联分析结果为无对应命令。

与现有技术相比，本发明的优势在于：

1、本发明实现了语音识别技术在空间环境预报技术系统中的首次应用；

2、本发明有效提升了空间环境预报工作的效率，提升了空间环境预报技术系统的人机交互使用效率，且能够实现预报员目标任务的自动跳转与执行。

附图说明

图1是本发明的基于语音处理的空间环境预报系统结构图。

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明。

基于语音处理的空间环境预报系统所采取的技术手段有：语音识别、语义处理及进程通信三大技术，具体来说，如图1所示，本系统包括语音识别模块、语义处理模块和预报处理模块。

语音识别模块

接收预报员按照预设的语法格式发出的语音指令，转换为对应的文本并输入语义处理模块。具体包括：语音接收单元、语音识别单元和文本纠错单元。

语音接收单元，用于接收预报员按照预设的语法格式发出的语音指令。

规则分为两类：

①用户输入(SI)=指令表述(CD)+时间表述(TD)+数据表述(DD)

语法规则①主要应用于空间环境态势呈现和空间环境数据统计分析，其中指令分为两类，分别为：态势呈现类、统计分析类；“时间表述”分为两类，一类是明确的开始时间及结束时间，一类是过去的某段时间。当对明确的时间范围进行语音表述时，用户语音输入的格式为年月日的连续数字，即yyyymmdd；当对过去的某段时间进行语音表述时，用户语音输入的格式为“过去X天”、“过去X月”、“过去X年”等；“数据表述”为系统处理的目标数据，包括地磁AP指数、地磁KP指数、太阳辐射指数、同步轨道高能电子通量、同步轨道高能质子通量等。

②用户输入(SI)=指令选择(CS)+场景表述(SD)

语法规则②主要应用于场景控制，其中指令选择包含跳转、缩放、视角切换、二维三维转换、图表控制等功能，场景表述包含目标数据界面或各类不同菜单及导航。

语音识别单元，用于将预报员语音指令转化为文本指令。

语音识别单元的实现原理为：首先获得语音识别所需要的模型，即对预先获取的大量语音输入并预处理，提取语音的特征，在此基础上建立语音识别所需的模型(此为训练过程)，其次当计算机在新语音识别过程中，要根据语音识别的模型，将计算机中存放的语音模型与经处理得到的语音特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板，然后根据此模板的定义，就可以给出计算机的识别结果（此为识别过程）。语音的训练是对预先收集好的语音、语言进行信号处理和知识挖掘，得到语音识别所需要的“声学模型”和“语言模型”，此过程通常离线完成；识别过程是对用户实时的语音进行自动识别，此过程为在线完成。识别过程又分为“前端”和“后端”两个模块，“前端”功能为端点检测、降噪、特征提取等，“后端”功能为利用训练好的“声学模型”和“语言模型”对用户语音的特征向量进行统计模式识别（又称“解码”），得到语音包含的文字信息。

处理过程是：

首先获取用户语音输入的波形声音，并通过移动窗函数对声音进行切段分帧得到不同的声音帧段，其次通过提取梅尔频率倒谱系数（MFCC）特征，将波形转换为观察序列矩阵，输入预先训练好的语音识别模型，得到可能的文本集合，最后根据隐马尔科夫模型及Viterbi算法搭建状态网络并从中寻找全局最优路径，将矩阵转为最终的文本。

语音识别单元规定了用户语音输入的语法规则，该规则基于空间环境预报指令，在大量语音输入实验基础上得出，为识别结果与输入内容一致率最高的语音输入格式。

文本纠错单元，用于将语音识别得到的错误文本进行纠正，使得同一语音命令因说话环境或说话人不同而得到的不同错误结果最终都能转换为用户需要的唯一正确的文本，从而实现语音命令与预报函数的一一映射。文本纠错功能基于大量语音测试统计结果，将同一语音指令的不同识别结果整理集合，建立文本纠错列表，添加新的类别索引参数。当用户输入语音指令后，程序由索引自动扫描文本纠错列表，输出语音命令对应的正确的文本结果。

语音识别即识别用户语音，将用户语音内容转为文本内容。在本系统中，语音识别模块完成预报员语音指令与文本的转换，将预报员语音输入的预报指令转换为对应的文本。具体为，通过预报指令语法输入规则，预报员语音输入预报指令，模块对预报语音波形通过移动窗函数进行切段分帧，转换为一段一段的帧段，其次通过提取梅尔频率倒谱系数（MFCC）特征，模块将波形转换为观察序列矩阵并输入语音识别模型得到可能的文本集合，最后，模块根据隐马尔科夫模型及Viterbi算法匹配得到最优文本结果，实现将矩阵转为最终的文本。在得到文本内容后，模块自动扫描文本纠错列表，将结果列表中该文本对应的输出结果进行输出，若该文本正确，则输出仍为该文本，若该文本错误，则输出与该文本对应的正确的文本。

语义处理模块

对文本经文本分词、关键词提取及关联处理，得到匹配的功能命令，进而得到对应的进程通信参数并输入预报处理模块。具体包括：文本分词单元、关键词提取单元、关联分析单元和进程通信参数匹配输出单元。

文本分词单元，用于根据结巴分词算法原理：1.基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；2.通过动态规划查找最大概率路径，找出基于词频的最大切分组合；3.对于词典中不包含的词语，采用基于汉字成词能力的隐马尔科夫模型及Viterbi算法对词语进行预测，并在结巴分词算法基础上，添加自定义的空间环境预报用户词典，对文本内容进行分词处理，得到正确的预报指令分词结果。

所述关键词提取单元，用于计算关键词权重的TF/IDF（词频-逆文档频率乘积）并返回权重占比大的词语，该单元允许建立用户自定义权重列表，对不同词语的权重进行预先设置，使得空间环境领域专业词语的占比排在前列，保证结果的准确性；

关联分析单元，用于对提取的关键词进行关键词匹配度计算，根据匹配度计算结果得到对应的功能命令；具体处理过程为：

从关键词中选择指令表述关键词或指令选择关键词作为命令动作，根据命令动作的类别赋值为dir，dir的取值范围为{1,2,3}；

从关键词中选择时间表述、数据表述和或场景表述作为命令参数，判定满足程度，赋值为cis，cis的取值范围为[0,1]；判断命令参数是否存在，如果存在，则命令参数响应因子β=1，否则β =0；

根据下式，计算匹配度计算结果Kd为：

Kd=dir+β·cis

由匹配度计算结果Kd得到关联分析结果，即对应的功能命令。

当Kd=2，关联分析结果为态势呈现；

当Kd=3，关联分析结果为统计分析；

当Kd=4，关联分析结果为场景控制；

当Kd不等于2，3，4中任一个，关联分析结果为无对应命令；

Kd计算示例，如下表所示：

表1

根据匹配度计算结果进行关联分析结果匹配，得到不同的功能命令；所述功能命令包括：态势呈现类命令、统计分析类命令、场景控制类命令和无命令（除了三类预报指令其他皆为无命令）；

进程通信参数匹配输出单元，用于根据功能命令通信参数映射表，由功能命令得到对应的进程通信参数并输入预报处理模块。其中，当关联分析结果为态势呈现时，参数设为select；当关联分析结果为统计分析时，参数设为countP；当关联分析结果为场景控制时，参数设为数字1~6；当关联分析结果为无命令时，参数设为noCommand。

预报处理模块

进程通信即建立不同应用程序之间的联系。不同的应用程序运行在系统不同的内存中，若要进行数据的传输只能通过进程通信的方式。进程通信完成语义处理模块得到的通信参数在语音识别应用程序与空间环境预报技术系统程序之间的传输。进程通信采用WM_COPYDATA消息的形式，由语义处理模块调用SendMessage()函数，将通信过程中用于表示不同指令的COPYDATASTRUCT结构体中的参数lpData传输给预报处理模块。

预报处理模块在获取到用户语音指令所对应的进程通信参数后，自动解析并执行参数即用户语音所对应的命令，确定所对应的目标函数及结果显示的界面，自动执行函数功能，返回对应的结果，从而完成语音指令，输出预报结果。

预报员执行空间环境预报任务前，启动语音识别应用程序，通过麦克风语音输入预报指令。语音识别模块接收预报员语音输入的预报指令，预报指令经语音识别转为文本内容，因语音识别准确率不能达到百分之百且对于空间环境专业领域，语音识别仍有错误率，所以本系统的文本纠错功能对识别的文本进行纠错更正，最终得到正确的预报指令文本；语义处理模块对识别文本基于结巴分词原理及用户自定义分词词典进行分词，计算分词的TF-IDF及根据用户自定义权重列表对关键词中权重占比大的词语进行提取并对得到的关键词进行关联分析，其中关联分析功能基于对关键词计算Kd，根据Kd计算得到的不同关联分析结果，将进程通信过程中传递的自定义参数设置为不同的形式，具体示例如下表：

表2

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于语音处理的空间环境预报系统，其特征在于，所述系统包括：语音识别模块、语义处理模块和预报处理模块；其中，

2.根据权利要求1所述的基于语音处理的空间环境预报系统，其特征在于，所述语音识别模块包括语音接收单元、语音识别单元和文本纠错单元；其中，

3.根据权利要求2所述的基于语音处理的空间环境预报系统，其特征在于，所述语法格式包括第一语法格式和第二语法格式；其中，

4.根据权利要求3所述的基于语音处理的空间环境预报系统，其特征在于，所述预处理具体为：获取语音指令的波形声音，通过移动窗函数对波形声音进行切段分帧得到不同的声音帧段，再通过提取梅尔频率倒谱系数特征，将不同的声音帧段转换为观察序列矩阵。

5.根据权利要求4所述的基于语音处理的空间环境预报系统，其特征在于，所述预先训练好的语音识别模型为深度循环网络，模型的输入为观察序列矩阵，输出为文本集合；所述文本集合为该矩阵对应的可能的文字组合。

6.根据权利要求5所述的基于语音处理的空间环境预报系统，其特征在于，所述语义处理模块包括：文本分词单元、关键词提取单元、关联分析单元和进程通信参数匹配输出单元；其中，

7.根据权利要求6所述的基于语音处理的空间环境预报系统，其特征在于，所述根据分词结果计算词语的词频-逆文档频率；具体为：

8.根据权利要求7所述的基于语音处理的空间环境预报系统，其特征在于，所述关联分析单元的具体处理过程为：

如果β=1，则再判定命令参数的满足程度，赋值为cis，cis的取值范围为[0,1]，当dir为1或2时，判断时间表述关键词的格式以及数据表述关键词的内容是否正确，若都正确则cis =1，若只有一项正确则cis=1/2，否则为0；当dir=3时，判断场景表述关键词是否正确，若正确，cis=1，否则为0；

根据下式，计算匹配度计算结果Kd为：

Kd=dir+β·cis