CN111666381B - 一种面向智能管制的任务型问答交互系统 - Google Patents
一种面向智能管制的任务型问答交互系统 Download PDFInfo
- Publication number
- CN111666381B CN111666381B CN202010553666.5A CN202010553666A CN111666381B CN 111666381 B CN111666381 B CN 111666381B CN 202010553666 A CN202010553666 A CN 202010553666A CN 111666381 B CN111666381 B CN 111666381B
- Authority
- CN
- China
- Prior art keywords
- instruction
- module
- text
- word
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000033228 biological regulation Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种面向智能管制的任务型问答交互系统,旨在提供一种人机友好的语音对话交互方式来协助管制员完成日常管制工作。所述系统包括人脸识别模块、语音识别模块、文本预处理模块、意图判别模块、指令槽位填充模块、会话管理模块、语音合成模块和管制业务模块。本发明系统通过与日常管制工作内容相结合,简化并加速了管制员日常交接班过程,通过提供业务简报的形式让管制员更加方便、直观地了解管制区域和管制席位的基本情况。
Description
技术领域
本发明涉及空中交通管制自动化系统技术、智能问答系统领域,特别涉及一种面向智能管制的任务型问答交互系统。
背景技术
对用户而言,问答系统提供了一种非常便捷的人机交互方式,能够处理自然语言提问并返回自然语言回答,方便用户更好地描述个人信息需求,满足用户对精准化知识的需求。随着语音识别技术和自然语言处理技术的快速发展,问答系统逐渐变得更加友好和智能。面向限定域的口语问答系统是基于自然语言接口的数据库查询系统的一个重要分支。和开放域相比,限定领域的问答系统可以为该领域从业人员提供更专业、精准的服务。
传统任务型问答系统解决词槽填充的方法包括:基于字典填充词槽,在词库中寻找最优解;基于规则填充词槽,通过规则匹配各种命名实体。这两种方法的可拓展性较差,尤其是当需要添加新的词槽时,基于字典填充词槽的方法需要在字典中增加新的实体,而基于规则填充词槽的方法在拓展时,可能出现新规则与旧规则冲突的情形。
发明内容
本发明从减轻管制员工作负荷的角度出发,结合实际管制工作流程,提出一种人机交互友好、扩展性高的面向智能管制的任务型问答交互系统的实现方法。系统通过与管制员展开多次对话的方式,明确管制员意图,将一段管制语音转化为一条明确的任务指令,辅助管制员方便、快捷地完成具体的管制工作。
为实现上述目的,本发明提供如下技术方案:
一种面向智能管制的任务型问答交互系统,包括人脸识别模块、语音识别模块、文本预处理模块、意图判别模块、指令槽位填充模块、会话管理模块、语音合成模块和管制业务模块;
所述人脸识别模块包括摄像头,用于完成管制员身份的确认;
所述语音识别模块用于将管制员的语音指令识别为文本信息;
所述文本预处理模块用于对文本信息进一步处理;
所述意图判别模块用于抽取出管制指令意图,并明确语音指令对应的模板指令;
所述指令槽位填充模块用于,实现指令主体中槽位的填充;
所述会话管理模块通过空管语料集训练的神经网络进行命名实体识别、词性标注处理,实现指令主体中槽位的填充;
所述语音合成模块用于,对剩余待填充的槽位经由语音合成模块向管制员进行多轮问询,将询问收集的回答通过命名实体识别模型提取出有效实体,直至完成指令模板中的全部词槽的填充,进而生成机器能够阅读的任务指令,并将任务指令通过消息中间件传递至各个管制业务模块;
所述管制业务模块用于执行具体管制工作。
所述系统通过人脸识别模块完成管制员身份的确认,由语音识别模块将管制员的语音指令识别为文本信息,通过文本预处理模块对文本信息进一步处理,实现去空、去重以及分词、向量化处理,处理后的文本通过意图判别模块抽取出管制指令意图,并明确语音指令对应的模板指令,再经过指令槽位填充模块,通过空管语料集训练的神经网络进行命名实体识别、词性标注处理,实现指令主体中槽位的填充,剩余待填充的指令参数中的槽位经由语音合成模块向管制员进行多轮问询,将询问收集的回答通过命名实体识别模型提取出有效实体,直至完成指令模板中的全部词槽的填充,进而由会话管理模块生成机器能够阅读的任务指令,并将任务指令通过消息中间件传递至各个管制业务模块,由管制业务模块执行具体管制工作。
所述系统通过执行如下步骤完成与管制员的交互:
步骤1:管制员进入人脸识别模块的摄像头扫描范围,正视摄像头镜头,系统捕捉到人脸图像后,人脸识别模块将采集的人脸图像与人脸图像库中的管制员证件照进行匹配,完成管制员的身份认证;
步骤2:管制员通过外接麦克风说出语音指令,系统将麦克风采集的模拟音频信号传递至语音识别模块,由语音识别模块进行音频识别,得到一串中文文本信息,也即原始指令,并将原始指令发送至文本预处理模块;
步骤3:文本预处理模块收到原始指令后,对原始指令文本进行文本预处理处理,包括利用停用词表对中文文本信息包括的指令文本进行去空、去重处理,利用jieba分词库对处理后的中文文本信息进行中文分词,利用word2vec工具进行词向量化,将分词结果传递给意图判别模块;
步骤4:意图判别模块通过文本相似度计算模型量化中文文本与空管指令模板库中开放状态指令的匹配度,空管指令模板库由人工整理而成,根据业务模块提供的接口制定对应的空管指令,指令的开放关闭状态由该指令的主题的开放关闭状态控制,进入指令开放主题,通过退出指令关闭主题,并且所有的顶层主题默认是开放状态;
所述文本相似度计算模型采用基于Text Rank排序的最小移动距离算法(WMD,Word Mover’s Distance)实现,首先通过基于词向量、业务关键词的Text Rank算法对分词结果进行排序,将rank值作为权重,记作wi,然后通过如下公式计算语音指令C 与模板指令C’之间的WMD距离WMD(C,C’):
则语音指令C与模板指令C’之间的相似度Sim(C,C’)为:
将相似度值最高的模板指令作为相似模板发送至会话管理模块;
步骤5:会话管理模块接收到原始指令与相似模板后,通过命名实体识别模型从原始指令中抽取有效实体填充相似模板中的槽位,尚未填充的槽位通过语音合成模块向管制员进行多次问询,将问询收集的回答通过命名实体识别模型提取出有效实体,填充相似模板中的剩余词槽,直至相似模板中的全部功能词槽填充完毕,生成机器能够理解的任务指令,并将任务指令通过消息中间件传递至各管制业务模块;各管制业务模块包括登录认证模块,管制交接班模块,工作简报模块等(这些模块可以利用现有技术完成它们的功能,包括登录认证、管制交接、工作简报等);
步骤6:管制业务模块收到任务指令后执行指令内容,将指令执行的完成情况返回,通过语音合成模块将文本转换为音频返回给管制员,等待管制员下达下一条指令。
所述命名实体识别模型用到的数据集为空管专用语料集,通过人工手动采集的方式整理得到,满足文本的描述粒度,并涵盖空中交通管制中设计到的各专业术语的,同时对管制业务涉及的关键词进行标注。
所述指令模板为多层嵌套树状结构,树中的每一个节点对应一条指令,而一个具体的任务则指向一颗多轮对话树;每条指令都有其上下文指令语境,指令的父语境为其准入条件,只有在父语境被激活的情况下,才能够进入子语境;每条指令由指令文本、相似指令文本、取消指令文本、槽组、指令集合组成,其中,槽组由N个词槽组成,N取值为自然数,每个词槽包括词槽名称、词槽实体类型、词槽对应的补全问句,指令集合为指令文本对应的两条以上的指令。
所述空管指令模板库与管制业务深度耦合,需要针对不同的管制业务定制相应的指令模板,进入一主题时,管制员需要说出所述主题的主题唤醒指令。耦合度描述的是不同模块间的关联程度,深度耦合就是指空管指令模板库与管制业务关联度高,依赖性强。
所述词槽的结构按照具体管制业务划分为不同的主题,与实际管制工作关系密切,每个管制业务模块都拥有自己的定制化主题,通过进入指令、退出指令开放、关闭主题,每个主题按照具体子业务,结合业务模块提供的通信接口,进一步细分为不同的指令模板,囊括该子业务的全部空管指令,识别的原始指令在进行意图判别时,只能够遍历开放状态主题下的指令,并识别出的原始指令与该主题下的指令模板间的计算相似度,未开放的主题或是已关闭的主题下的指令不会参与相似度的计算;
每条指令模板中的槽组按照信息来源方式分为主题词槽和语义词槽,主题词槽为某一主题下所有指令所共享,具有槽记忆的特点,一般涉及该主题下的多条指令,在该主题关闭前,这类词槽的信息都由系统维护,当管制员跳出当前子业务,开启同一主题下的另一个子业务时,如果当前子业务的指令中含有这类主题词槽,则不需要系统再次通过问询的方式获得词槽的信息,避免了管制员重复填槽,也即系统能够利用历史对话信息自动填充此类词槽,不同主题间的主题词槽不参与共享,也即主题词槽的作用域范围限定在主题之下,如态势感知主题下的“扇区”词槽,通常情况下,一台席位负责一个扇区,当管制员在席位上确认过当前席位的扇区信息后,在具体的管制指令中,当前扇区的信息就会自动注入对应扇区的词槽,而如果实际扇区与扇区主题词槽中的信息不一致,可以在当前指令中指明新的扇区做出调整。
所述命名实体识别模型为Bi-LSTM双向长短时记忆网络和CRF条件随机场结构,由前向LSTM网络和后向LSTM网络组合而成,通过将话语中的词逐个读取的方式,一次形成两个以上的语义槽标签,利用网络隐藏层采集双向词序列输入,对输入序列信息进行编码,获得上下文包含的语义信息;
命名实体识别模型能够对待识别中文指令中的命名实体进行词性标注,词性标注的结果则用于提取业务关键词进行词槽填充。
所述文本预处理模块对文本信息进一步处理,需要构建停用词表,停用词表来源于“哈工大停用词词库”、“百度停用词表”和中科院的“计算所汉语词性标注集”,通过整合各词库去重后形成,利用停用词表对指令文本进行去空、去重处理,并按照管制用语规范设定的正则表达式,规格化指令文本,规格化的操作与指令的内容相关,通常需要按照业务模块的通信接口进行处理,如对管制指令中呼号、数字、单位的转换。
所述语音合成模块通过java Jacob语音动态库将文字转为音频信号并播放,实现文本转语音的功能。
所述管制业务模块包括登录认证模块,管制交接班模块,工作简报模块等。其中,登录认证模块通过识别登录指令开启人脸识别功能,完成身份角色认证;管制交接班模块通过标准交接班指令,明确席位信息与状态,完成交接班内容的核准,实现快速实现管制交接班,从而避免管制员填写大量文本信息;工作简报模块通过与业务模块进行数据通信,采集各类机场运行数据,按照工作简报模板生成计划简报、气象简报、流控简报、空域简报、设备简报等,帮助管制员快速了解值班日的工作环境、气象情况、设备运行状态。
作为优选,本方法通过深度学习工具word2vec获取词向量,实现词语知识表示的向量化。在传统的语言模型中,词的表示是原始的、面向字符串的,表达两个相近语义的词的字符串可能完全不同,无法通过公式直接计算词或句子的相似程度。word2vec 通过对基于隐马尔可夫分词器分词的结果进行训练,得到固定维数的词向量库,虽然词向量在各维度上的数值无明确的显式含义,但向量之间的差异却代表了词语的语义间隔。可以推断出,两个语义相似的词,其对应的向量也是相似的,具体反映在向量间夹角和向量间距离上。依据余弦定理可知,词向量的余弦距离可代表词的语义相似度,那么通过对词向量相似度进行加权计算就可以得到句子相似度。
作为优选,本方法中利用Bi-LSTM+CRF模型对识别文本进行命名实体识别,Bi-LSTM是Seq2Seq模型的一种变体。Seq2Seq模型串接两个RNN,一个作编码器用,把句子转换成隐含表示式,另一个作译码器用,将上一层的记忆与当前层的输入做一些处理后再输出,由于RNN的隐含层之间是有链接的,当前时刻隐含层的输入不仅包含输入层的输出还包含上一时刻隐含层的输出,因此RNN能够捕捉到较长距离信息间的依赖关系。又由于RNN对上下文信息的拟合较强,容易陷入过拟合的问题,加之梯度消失和梯度爆炸问题,因此本发明使用Bi-LSTM模型代替RNN结构的Seq2Seq模型。原因在于,Bi-LSTM模型采用RNN的变体LSTM单元代替Seq2Seq模型中的RNN 结构,LSTM在RNN的基础上加入了输入门(input gate)、输出门(output gate)和遗忘门 (forget gate)三个门开关,门开关经过激活函数和点乘运算可以控制文本信息的衰减程度,缓解梯度消失导致的训练困难的问题。
作为优选,本发明采用基于Text Rank排序的最小移动距离算法来计算指令相似度。算法按照单词对指令语义的贡献程度赋予不同的权值,使用业务关键词之间的相似度代替计算全部单词之间的相似度,保留能够直接区分语义的关键词,去除无用词的干扰,从而克服了余弦定理、TF-IDF等传统相似度算法对计算共现单词相似度计算的不足。
作为优选,本方法中设计的词槽结构按照具体管制业务划分为不同的主题,主题具有拓展性高的特点,并与实际管制工作关系密切。每个主题按照具体子业务进一步细分,对应不同的指令模板,每条指令模板由指令文本、相似指令文本、取消指令文本、槽组、指令集合组成,槽组按照信息来源方式分为主题词槽和语义词槽,主题词槽为该主题共享,具有槽记忆的特点,当管制员跳出某子业务后,又因为某些原因开启同主题下另一个子业务时,管制员不需要重复填槽,系统可以利用历史对话信息自动填充此类词槽。
本发明涉及的专业领域是空管领域,空管在空中交通运输中发挥巨大的作用,随着航班飞行量的不断攀升,管制员日常工作变得日益繁重,降低管制工作负荷对空中交通管理至关重要。本发明通过设计一套面向智能管制的任务型问答系统,提供实时、便捷的交互方式辅助管制员完成日常管制工作,能够有效缓解管制员疲劳程度,进而维护航空安全,提升航空运输效率。
与传统技术相比,本发明使用基于深度神经网络的方法,使用双向长短时记忆网络(Bi-LSTM,Bi-directional Long Short-Term Memory)进行命名实体提取与词性标注,通过将话语中的词逐个读取的方式,一次形成多个语义槽标签,利用网络隐藏层采集双向词序列输入,对绝大部分输入序列信息进行编码,获得上下文包含的语义信息。
有益效果:本发明方法充分考虑管制工作流程与内容,以减轻管制员工作负荷为出发点,结合实际管制业务,提供一种人机友好的面向智能空管的任务型问答系统实现方法,简化并加速了管制员日常交接班流程,通过提供各类业务简报的形式让管制员更加方便、直观地了解管制区域和管制席位的基本情况。本发明设计并采用词槽填充结合机器学习方法实现任务指令的生成,不仅能够在保证抽取结果准确性的基础上快速搭建模型满足用户需求,后续还可以通过扩大数据样本数量,进一步提升抽取结果的准确性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1为面向智能管制的问答系统工作流程图。
图2为空管指令模板词槽嵌套结构图。
图3为word2vec三层神经网络语言模型图。
图4为空管命名实体识别模型结构图。
图5为一个LSTM单元结构图。
具体实施方式
如图1所示,本发明实施例公开的一种面向智能管制的任务型问答交互系统,所述方法包括以下步骤:
步骤1:管制员进入摄像头扫描范围,并正视摄像头镜头,系统捕捉到人脸图像后,人脸识别模块将采集的人脸图像与人脸图像库中的管制员证件照进行匹配,完成管制员的身份认证;
步骤2:管制员通过外接麦克风说出语音指令,系统将麦克风采集的模拟音频信号传递至语音识别模块,由语音识别模块进行音频识别,得到一串中文文本信息,并将文本发送至文本预处理模块;
步骤3:文本预处理模块收到文本信息后,对中文文本进行数据处理,具体包括以下5个步骤:
步骤3.1:整合“哈工大停用词词库”、“百度停用词表”和中科院的“计算所汉语词性标注集”构建停用词表,并利用停用词表对指令文本进行去空、去重处理;
步骤3.2:通过规则格式化指令文本,比如通过人工制定的正则表达式,将指令文本中的航班号转换为标准三字码格式等;
步骤3.3:通过jieba分词库将指令文本进行分词处理;
步骤3.4:利用word2vec进行词向量化,word2vec语言模型如图3所示,为三层神经网络结构,由Input Layer(输入层)、Hidden Layer(隐藏层)、Output Layer(输出层)组成,在词汇量大小为V的词汇表中,输入的词以V维热独词方式表示,记为 (x1,x2,...,xk,...,xV),WV×N和WN×V是权重矩阵,输出层与输入层的维数相同,同样地,记作一个V维向量(y1,y2,...,yj,...,yV),隐藏层维数为N,记作(h1,...,hi,..., hN),隐藏层向量维数N通常远远小于V,通过语言模型编码后,采用输入层到隐含层的权重值代表输入x;
步骤3.5:将分词、词向量传递至意图判别模块;
步骤4:意图判别模块通过相似度计算模型,量化语音指令识别结果与空管指令模板库中指令的匹配值。相似度计算模型采用基于词向量、业务关键词的Text Rank-WMD 算法实现,计算步骤如下:
步骤4.1:通过基于词向量、业务关键词的Text Rank算法对分词结果进行排序,将rank值作为权重,记作wi;
步骤4.2:通过WMD算法计算语音指令和模板指令的权重系数,构建文本转移代价矩阵,计算语音指令C与模板指令C’之间的WMD距离:
则语音指令C与模板指令C’之间的相似度Sim(C,C’)为:
步骤4.3:选择相似度值最高的模板指令作为相似模板向外推送;
步骤5:会话管理模块与文本处理模块、文本预处理模块、管制业务模块通过接口进行数据传递,接收到意图识别模块发送的原始指令与模板指令后,处理步骤如下:
步骤5.1:人工收集整理空管业务相关语料,构建空管语料集,将语料分为训练集、开发集、测试集,训练Bi-LSTM+CRF命名实体识别模型;
步骤5.2:手动构建专用的空管指令集。空管指令集中指令为嵌套树状结构,如图2所示,树中的每一个节点对应一条指令,而一个具体的任务则指向一颗多轮对话树;每条指令都有其上下文指令语境,该指令的父语境为其准入条件,只有在父语境被激活的情况下,才可进入子语境;每条指令由指令文本、相似指令文本、取消指令文本、槽组、指令集合组成,其中,槽组由若干个词槽组成,每个词槽包括词槽名称、词槽实体类型、词槽对应的补全问句,指令集合为该指令文本对应的多条指令;
步骤5.3:将从文本处理模块接受的中文指令文本送入命名实体识别模型,从原始指令中抽取有效实体填充模板指令中的槽位,通过Bi-LSTM(双向长短时记忆模型) -CRF(条件随机场)预测指令文本与空管标签间的关系,命名实体识别模型结构如图 4所示,模型由Bi-LSTM和CRF层组成。在Bi-LSTM模型中,LSTM单位的结构如图5所示,Input Gate(输入门)、Output Gate(输出门)和三个门开关分别控制对信息的保留程度。遗忘门控制上一时刻的长期状态向量Ct-1对当前时刻的长期状态向量 Ct的保留程度,通过对[ht-1,xt]做σ(即sigmoid函数)运算,得到权值向量ft,再与长期状态向量Ct-1取内积得到遗忘结果向量;输入门控制当前时刻输入xt对当前长期状态向量Ct的保留程度,首先对[ht-1,xt]做σ运算得到权值向量it,同时通过tanh函数与[ht-1,xt]相乘得到然后it与点乘结果与遗忘门结果相加,得到新的长期状态向量Ct;输出门控制当前长期状态向量Ct对当前输出向量ht的保留程度,对[ht-1,xt] 做σ运算得到权值向量Ot,对长期状态向量Ct做tanh运算进行遗忘,遗忘后的结果与 Ot取内 积,得到当前单元的输出向量ht。模型通过Bi-LSTM将输入词向量转化为正向 /反向输出,并对输出结果进行拼接,拼接的双向结果向量通过CRF(条件随机场模型) 层的转移矩阵进行条件约束,预测空管标签之间的关系,修正Bi-LSTM预测的结果,输出最终命名实体标签;
步骤5.4:尚未填充的槽位通过语音合成模块向管制员进行多次问询,并将问询收集的回答通过命名实体识别模型提取出有效信息,填充指令模板中的剩余词槽,直至模板指令中全部功能词槽填充完毕;
步骤5.5:按照步骤5.2中的指令模板补充指令集合信息,生成若干条机器可理解的任务指令,将机器指令发送至各业务模块;
步骤6:管制业务模块收到机器指令后执行指令内容,将指令执行的完成情况返回,并通过语音合成模块将文本转换为音频返回给管制员,等待管制员下达下一条指令。语音合成模块通过java Jacob语音动态库实现文本转语音的功能,转换过程中根据管制员使用习惯设置音频的输出格式类型、音量大小、播放速率等参数。
本发明提供了一种面向智能管制的任务型问答交互系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (7)
1.一种面向智能管制的任务型问答交互系统,其特征在于,包括人脸识别模块、语音识别模块、文本预处理模块、意图判别模块、指令槽位填充模块、会话管理模块、语音合成模块和管制业务模块;
所述人脸识别模块包括摄像头,用于完成管制员身份的确认;
所述语音识别模块用于将管制员的语音指令识别为文本信息;
所述文本预处理模块用于对文本信息进一步处理;
所述意图判别模块用于抽取出管制指令意图,并明确语音指令对应的模板指令;
所述指令槽位填充模块用于,实现指令主体中槽位的填充;
所述会话管理模块通过空管语料集训练的神经网络进行命名实体识别、词性标注处理,实现指令主体中槽位的填充;
所述语音合成模块用于,对剩余待填充的槽位经由语音合成模块向管制员进行多轮问询,将询问收集的回答通过命名实体识别模型提取出有效实体,直至完成指令模板中的全部词槽的填充,进而生成机器能够阅读的任务指令,并将任务指令通过消息中间件传递至各个管制业务模块;
所述管制业务模块用于执行具体管制工作;
所述系统通过人脸识别模块完成管制员身份的确认,由语音识别模块将管制员的语音指令识别为文本信息,通过文本预处理模块对文本信息进一步处理,实现去空、去重以及分词、向量化处理,处理后的文本通过意图判别模块抽取出管制指令意图,并明确语音指令对应的模板指令,再经过指令槽位填充模块,通过空管语料集训练的神经网络进行命名实体识别、词性标注处理,实现指令主体中槽位的填充,剩余待填充的指令参数中的槽位经由语音合成模块向管制员进行多轮问询,将询问收集的回答通过命名实体识别模型提取出有效实体,直至完成指令模板中的全部词槽的填充,进而由会话管理模块生成机器能够阅读的任务指令,并将任务指令通过消息中间件传递至各个管制业务模块,由管制业务模块执行具体管制工作;
所述系统通过执行如下步骤完成与管制员的交互:
步骤1:管制员进入人脸识别模块的摄像头扫描范围,正视摄像头镜头,系统捕捉到人脸图像后,人脸识别模块将采集的人脸图像与人脸图像库中的管制员证件照进行匹配,完成管制员的身份认证;
步骤2:管制员通过外接麦克风说出语音指令,系统将麦克风采集的模拟音频信号传递至语音识别模块,由语音识别模块进行音频识别,得到一串中文文本信息,也即原始指令,并将原始指令发送至文本预处理模块;
步骤3:文本预处理模块收到原始指令后,对原始指令文本进行文本预处理,利用停用词表对中文文本信息包括的指令文本进行去空、去重处理,利用jieba分词库对处理后的中文文本信息进行中文分词,利用word2vec工具进行词向量化,将分词结果传递给意图判别模块;
步骤4:意图判别模块通过文本相似度计算模型量化中文文本与空管指令模板库中开放状态指令的匹配度,所述文本相似度计算模型采用基于Text Rank排序的最小移动距离算法WMD实现,首先通过基于词向量、业务关键词的Text Rank算法对分词结果进行排序,将rank值作为权重,记作wi,然后通过如下公式计算语音指令C与模板指令C之间的WMD距离WMD(C,C’):
其中,语音指令C与模板指令C’之间的相似度Sim(C,C’)为:
将相似度值最高的模板指令作为相似模板发送至会话管理模块;
步骤5:会话管理模块接收到原始指令与相似模板后,通过命名实体识别模型从原始指令中抽取有效实体填充相似模板中的槽位,尚未填充的槽位通过语音合成模块向管制员进行多次问询,将问询收集的回答通过命名实体识别模型提取出有效实体,填充相似模板中的剩余词槽,直至相似模板中的全部功能词槽填充完毕,生成机器能够理解的任务指令,并将任务指令通过消息中间件传递至各管制业务模块;
步骤6:管制业务模块收到任务指令后执行指令内容,将指令执行的完成情况返回,通过语音合成模块将文本转换为音频返回给管制员,等待管制员下达下一条指令。
2.根据权利要求1所述的系统,其特征在于,所述指令模板为多层嵌套树状结构,树中的每一个节点对应一条指令,而一个具体的任务则指向一颗多轮对话树;每条指令都有其上下文指令语境,指令的父语境为其准入条件,只有在父语境被激活的情况下,才能够进入子语境;每条指令由指令文本、相似指令文本、取消指令文本、槽组、指令集合组成,其中,槽组由N个词槽组成,N取值为自然数,每个词槽包括词槽名称、词槽实体类型、词槽对应的补全问句,指令集合为指令文本对应的两条以上的指令。
3.根据权利要求2所述的系统,其特征在于,所述空管指令模板库与管制业务深度耦合,需要针对不同的管制业务定制相应的指令模板,进入一主题时,管制员需要说出所述主题的主题唤醒指令。
4.根据权利要求3所述的系统,其特征在于,所述词槽的结构按照具体管制业务划分为不同的主题,与实际管制工作关系密切,每个管制业务模块都拥有自己的定制化主题,通过进入指令、退出指令开放、关闭主题,每个主题按照具体子业务,结合业务模块提供的通信接口,进一步细分为不同的指令模板,囊括该子业务的全部空管指令,识别的原始指令在进行意图判别时,只能够遍历开放状态主题下的指令,并识别出的原始指令与该主题下的指令模板间的计算相似度,未开放的主题或是已关闭的主题下的指令不会参与相似度的计算;
每条指令模板中的槽组按照信息来源方式分为主题词槽和语义词槽,主题词槽为一主题下所有指令所共享,具有槽记忆的特点,当管制员跳出当前子业务,开启同一主题下的另一个子业务时,如果当前子业务的指令中含有这类主题词槽,则不需要系统再次通过问询的方式获得词槽的信息,即系统能够利用历史对话信息自动填充此类词槽,不同主题间的主题词槽不参与共享。
5.根据权利要求4所述的系统,其特征在于,所述命名实体识别模型为Bi-LSTM双向长短时记忆网络和CRF条件随机场结构,由前向LSTM网络和后向LSTM网络组合而成,通过将话语中的词逐个读取的方式,一次形成两个以上的语义槽标签,利用网络隐藏层采集双向词序列输入,对输入序列信息进行编码,获得上下文包含的语义信息;
命名实体识别模型能够对待识别中文指令中的命名实体进行词性标注,词性标注的结果则用于提取业务关键词进行词槽填充。
6.根据权利要求5所述的系统,其特征在于,所述文本预处理模块对文本信息进一步处理,需要构建停用词表,利用停用词表对指令文本进行去空、去重处理,并按照管制用语规范设定的正则表达式,规格化指令文本。
7.根据权利要求6所述的系统,其特征在于,所述语音合成模块通过java Jacob语音动态库将文字转为音频信号并播放,实现文本转语音的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553666.5A CN111666381B (zh) | 2020-06-17 | 2020-06-17 | 一种面向智能管制的任务型问答交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553666.5A CN111666381B (zh) | 2020-06-17 | 2020-06-17 | 一种面向智能管制的任务型问答交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666381A CN111666381A (zh) | 2020-09-15 |
CN111666381B true CN111666381B (zh) | 2022-11-18 |
Family
ID=72388213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010553666.5A Active CN111666381B (zh) | 2020-06-17 | 2020-06-17 | 一种面向智能管制的任务型问答交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666381B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257411B (zh) * | 2020-10-20 | 2024-05-14 | 云南电网有限责任公司迪庆供电局 | 配电网调度交接班的方法及装置 |
CN112559689A (zh) * | 2020-12-21 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种基于车载问答的数据处理方法和装置 |
CN112597288B (zh) * | 2020-12-23 | 2023-07-25 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备及存储介质 |
CN113139816A (zh) * | 2021-04-26 | 2021-07-20 | 北京沃东天骏信息技术有限公司 | 信息处理方法、装置、电子设备和存储介质 |
CN113553405A (zh) * | 2021-06-11 | 2021-10-26 | 中国农业银行股份有限公司浙江省分行 | 基于中文bert模型智能机器人的实现方法和系统 |
CN113326367B (zh) * | 2021-06-30 | 2023-06-16 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113515616B (zh) * | 2021-07-12 | 2024-05-14 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言的任务驱动系统 |
CN113689851B (zh) * | 2021-07-27 | 2024-02-02 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN113923144B (zh) * | 2021-09-18 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 业务的测试系统、方法、电子设备和存储介质 |
CN116092495B (zh) * | 2023-04-07 | 2023-08-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008128423A1 (fr) * | 2007-04-19 | 2008-10-30 | Shenzhen Institute Of Advanced Technology | Système de dialogue intelligent et son procédé de réalisation |
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110457447A (zh) * | 2019-05-15 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 一种电网任务型对话系统 |
-
2020
- 2020-06-17 CN CN202010553666.5A patent/CN111666381B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008128423A1 (fr) * | 2007-04-19 | 2008-10-30 | Shenzhen Institute Of Advanced Technology | Système de dialogue intelligent et son procédé de réalisation |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN110457447A (zh) * | 2019-05-15 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 一种电网任务型对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111666381A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666381B (zh) | 一种面向智能管制的任务型问答交互系统 | |
CN108874972B (zh) | 一种基于深度学习的多轮情感对话方法 | |
CN110209791B (zh) | 一种多轮对话智能语音交互系统及装置 | |
Bharathi et al. | Findings of the shared task on Speech Recognition for Vulnerable Individuals in Tamil | |
WO2022057712A1 (zh) | 电子设备及其语义解析方法、介质和人机对话系统 | |
CN202736475U (zh) | 一种聊天机器人 | |
CN111353029B (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
WO2021147041A1 (zh) | 语义分析方法、装置、设备及存储介质 | |
CN112562669B (zh) | 一种智能数字报自动摘要与语音交互聊新闻方法及系统 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN115392264A (zh) | 一种基于rasa的任务型智能多轮对话方法及相关设备 | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN114238605B (zh) | 一种智能语音客服机器人自动对话方法及装置 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN112150103B (zh) | 一种日程设置方法、装置和存储介质 | |
Tasnia et al. | An overview of bengali speech recognition: Methods, challenges, and future direction | |
CN113158062A (zh) | 一种基于异构图神经网络的用户意图识别方法及装置 | |
CN113822506A (zh) | 一种用于电力调控的多轮次语音交互智能检索系统及方法 | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210000 No.1, Lingshan South Road, Qixia District, Nanjing City, Jiangsu Province Applicant after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp. Address before: 210007 No. 1 East Street, alfalfa garden, Jiangsu, Nanjing Applicant before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |