CN114462407A - 车载环境下语音交互意图识别及过程管理方法 - Google Patents

车载环境下语音交互意图识别及过程管理方法 Download PDF

Info

Publication number
CN114462407A
CN114462407A CN202210371357.5A CN202210371357A CN114462407A CN 114462407 A CN114462407 A CN 114462407A CN 202210371357 A CN202210371357 A CN 202210371357A CN 114462407 A CN114462407 A CN 114462407A
Authority
CN
China
Prior art keywords
vehicle
neural network
intention
voice interaction
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210371357.5A
Other languages
English (en)
Inventor
苏生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202210371357.5A priority Critical patent/CN114462407A/zh
Publication of CN114462407A publication Critical patent/CN114462407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及车载环境下语音智能交互技术领域,具体地说,涉及一种车载环境下语音交互意图识别及过程管理方法,包括以下步骤:一、车载环境下的语音交互用户意图分类;二、结合车载环境语音交互意图类型的训练数据准备;三、基于BIO格式的训练数据词性标注;四、构建关键信息标注的双向长短期记忆神经网络级联条件随机场模型;五、基于标注结果,利用文本卷积神经网络模型进行单句意图识别;六、动作执行器执行操作;七、进行对话管理。本发明能较佳地对车载环境下整个语音交互过程进行管理。

Description

车载环境下语音交互意图识别及过程管理方法
技术领域
本发明涉及车载环境下语音智能交互技术领域,具体地说,涉及一种车载环境下语音交互意图识别及过程管理方法。
背景技术
车载语音交互和语音控制是人工智能与汽车结合最典型的体现,通过语音,而不是手去操作与控制车以及多媒体,很好地解放了双手,能极大提高驾车安全性。
现有车载语音交互的主要意图识别方法有以下几种:1、关键词匹配法;2、正则表达式匹配法;3、循环神经网络模型;4、长短期记忆神经网络模型。
但现有研究存在一些缺点:
1、没有针对车载环境对用户的意图进行分类以及约束限制,以提高用户意图识别的准确性;
2、现有车载环境用户意图识别智能模型与算法准确性有待提高,特别是利用深度神经网络模型的现有研究还较少。
发明内容
本发明的内容是提供一种车载环境下语音交互意图识别及过程管理方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的车载环境下语音交互意图识别及过程管理方法,其包括以下步骤:
一、车载环境下的语音交互用户意图分类:
二、结合车载环境语音交互意图类型的训练数据准备:
使用人工采集结合程序半自动生成的方式准备神经网络的训练数据;
三、基于BIO格式的训练数据词性标注:
基于BIO格式的数据集,在数据集中将每一个字或词标注为“B-A”、“I-A”或者“O”;
四、构建关键信息标注的双向长短期记忆神经网络级联条件随机场模型:
利用条件随机场模型与长短期记忆神经网络进行级联,形成双向长短期记忆神经网络级联条件随机场模型,对基于BIO格式的数据集进行标签化标注;
五、基于标注结果,利用文本卷积神经网络模型进行单句意图识别:
文本卷积神经网络模型将CNN应用到文本分类任务中,利用多个不同大小的卷积核来提取句子中的关键信息,实现单句意图识别;
六、动作执行器执行操作:
根据用户意图执行在系统中预设定的操作;
七、进行对话管理:
系统在与用户交互的过程中不断根据历史交互信息与当前输入短句决定下一步应该执行的最优动作。
作为优选,步骤一中,将车载环境下的语音交互用户意图分为五大类和多个小类,五大类包括播放音频、导航、打电话、回答、控制。
作为优选,步骤三中,针对数据集做如下预处理:
(1)从数据集中按行获取数据,分别得到短句和其对应的标签,构造句子序列和标签序列,这两个序列长度保持一致;
(2)将短句序列中的空白符、换行符以及标点符号等特殊字符删除;
(3)根据词典得到词对应的整数索引,根据索引可以查询到每个词对应的词向量,神经网络的输入内容即为词向量序列。
作为优选,步骤五中,文本卷积神经网络模型的输入层接收一个固定长度的文本序列;然后后面的卷积层使用多个尺寸不同的卷积核对输入序列进行滑动卷积操作,这些卷积核将相邻的字或词转化成一个数值;接着后面的池化层从多个卷积核返回的卷积后的值中选取最大值输入到全连接层,最终通过softmax进行分类。
5、根据权利要求4所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤五中,卷积操作的具体计算方法为:
Figure 278359DEST_PATH_IMAGE001
式中C i 为卷积后的值,W为参数矩阵,x i 表示输入文本的第i个词,b表示偏置,h表示一维卷积核大小,f表示卷积函数。
6、根据权利要求1所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤七中,对话管理如下式所示:
Figure 984147DEST_PATH_IMAGE002
式中t表示当前时刻,S t 为当前时刻系统所处状态,I t 为当前时刻用户输入短句,f表示状态转移函数。
本发明在分析车载环境中驾驶员语音意图类型的基础上,采用深度神经网络进行用户的意图识别,并对整个语音交互过程进行了管理。本发明针对驾车环境,研究语音交互中驾驶员的意图识别技术以及语音交互管理方法,为通过语音进行导航、打电话、点播歌曲和音频、查询天气、控制车等行为提供准确、可靠和安全的语音支持。
图1为实施例1中一种车载环境下语音交互意图识别及过程管理方法的流程图;
图2为实施例1中条件随机场示意图;
图3为实施例1中TEXTCNN(文本卷积神经网路)网络模型结构示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种车载环境下语音交互意图识别及过程管理方法,其包括以下步骤:
一、车载环境下的语音交互用户意图分类:
二、结合车载环境语音交互意图类型的训练数据准备:
使用人工采集结合程序半自动生成的方式准备神经网络的训练数据;
三、基于BIO格式的训练数据词性标注:
基于BIO格式的数据集,在数据集中将每一个字或词标注为“B-A”、“I-A”或者“O”;
四、构建关键信息标注的双向长短期记忆神经网络级联条件随机场模型:
利用条件随机场模型与长短期记忆神经网络进行级联,形成双向长短期记忆神经网络级联条件随机场模型,对基于BIO格式的数据集进行标签化标注;
五、基于标注结果,利用文本卷积神经网络模型进行单句意图识别:
文本卷积神经网络模型将CNN应用到文本分类任务中,利用多个不同大小的卷积核来提取句子中的关键信息,实现单句意图识别;
六、动作执行器执行操作:
根据用户意图执行在系统中预设定的操作;
七、进行对话管理:
系统在与用户交互的过程中不断根据历史交互信息与当前输入短句决定下一步应该执行的最优动作。
车载环境下的语音交互用户意图分类
意图识别是自然语言理解中的重要一环,目的为根据用户输入的短句判断出用户当前意图,意图识别可当作一个分类任务处理,在语音交互系统中,理解用户的输入至关重要,当系统获取到了用户输入的内容之后,系统需要通过多种渠道综合判断用户意图才可有选择性地执行下一步动作,例如在车载环境中,用户意图可分为五大类和多个小类,如表1所示。
表1意图分类表
Figure 129433DEST_PATH_IMAGE003
由于口语具有不确定性,在实际应用场景中,在上述单短句意图识别的基础之上,系统需要拥有多轮交互的能力以获取用户具体意图以及相关信息,例如针对导航领域,假设用户当前所在位置为“武侯祠”,用户第一轮次输入短句为“导航”,系统根据用户输入短句判断出用户当前存在显式意图“导航”,但还要进一步交互以确定导航的目的地。
结合车载环境语音交互意图类型的训练数据准备
由于用于特定领域下的意图分类任务的公开数据集不是很完善,所以本发明使用人工采集结合程序半自动生成的方式准备神经网络的训练数据,数据集第一行为标签,不作为有效数据,第二行开始为有效数据,标签和分词后的文本之间使用“\t”分隔,文本数据分词使用空格分隔,部分数据如表2所示,由于数据量较大,所以表2仅针每一个标签列举一条数据。
表2数据举例
Figure 717409DEST_PATH_IMAGE004
实验过程中,借助人工预先定义的模板进行实验数据的半自动化生成,根据所总结的意图(音频播放、播放控制、收藏控制、导航、电话控制、查询当前音频信息以及对天气和时间相关问题的提问),对它们从0到7依次编号,编写的部分模板如表3所示,按照模板生成数据后,针对生成的部分数据随机添加噪声,即在一些关键位置随机添加一些中文字符,模板中的“[random]”表示随机添加噪声的位置。
表3数据生成模板举例
Figure 812536DEST_PATH_IMAGE005
3、基于BIO格式的训练数据词性标注
基于BIO格式的数据集,在数据集中将每一个字或词标注为“B-A”、“I-A”或者“O”,其中“B-A”表示该字或词属于“A”类型并且位于开头,“I-A”表示该字或词属于“A”类型并且位于非开头位置,它与“B-A”标注的字或词共同构成一个词或短语,“O”表示不属于任何类型,以短句“播放周杰伦的音乐”做词性标注为例,其BIO格式描述如表4所示:
表4 BIO格式表
Figure 169568DEST_PATH_IMAGE006
表4的第一行表示构成输入句子的每一个字,在实际应用过程中可以以词为单位进行输入,第二行表示每一个字或词的标注结果,每个标注结果都以B开头,之后的字或词以I开头,O开头表示不属于任何标注结果,在表中未出现这种情况,第三行表示最终标注结果,在本节的实验中表示为内容抽取结果,“I-N”标签合并到前一个“I- N”或者前一个“B-N”标签内,最终所有“B- N”标签标注的内容即为最终的内容标注结果。
神经网络的训练是一个监督学习过程,在神经网络模型的训练过程中,需要准备三个数据集,分别为训练集、验证集以及测试集,训练集是用来训练神经网络模型参数的数据集,在训练的过程中神经网络模型直接根据训练集中的数据调整自身模型参数以达到降低全局误差进而获取更好分类效果的目的,验证集用于在训练过程中检验网络模型的状态以及收敛情况,可利用人工的方式根据当前网络模型在验证集数据上的性能表现对模型参数进行调整,也可根据不同的模型参数在同一个验证集上的具体性能表现决定使用哪组模型参数配置可使得神经网络拥有最好的性能,测试集用来计算神经网络模型的各项评估指标并检验训练出的神经网络模型的泛化能力。
由于互联网上优质且开源的车载环境下人机交互数据集较少,所以本发明的实验使用了程序机械化生成并结合人工调整、补充以及标注的小样本数据集,训练集、验证集和测试集按照6:2:2比例随机划分,训练数据文件第一行为标签,不作为真实数据,第二行开始为有效数据,文本和标签以“\t”符号分隔,以字为单位进行人工打标。
实验过程中,针对数据集做了如下预处理:
(1)从数据集中按行获取数据,分别得到短句和其对应的标签,构造句子序列和标签序列,这两个序列长度保持一致。
(2)将短句序列中的空白符、换行符以及标点符号等特殊字符删除。
(3)根据词典得到词对应的整数索引,根据索引可以查询到每个词对应的词向量,神经网络的输入内容即为词向量序列。
关键信息标注的双向长短期记忆神经网络级联条件随机场模型
长短期记忆神经网络模型在神经元的层次上进行改进,它缓解了梯度消失问题,但是它的标注结果序列没有考虑到标签之间的顺序关系即忽略了标签之间的依赖性。在BIO格式定义中,预测出的序列标签不应该出现“B-X”与“I-Y”或者“B-X”连续出现的情况,即“B-X”后面应该紧跟“O”、“I-X”或者“B-Y”,一旦出现了这种情况就无法解析预测标签,本实施例利用条件随机场模型与长短期记忆神经网络进行级联,在一定程度上解决此问题。
此模型基于图结构,属于概率模型,是概率图模型中的无向图模型,如图2所示,此图描述了一个经典的链式条件随机场模型,图中顶部节点是输入节点,底部节点是输出节点,输入节点与输出节点之间存在的连接线表示输入节点与对应的输出节点之间的相关性,相邻的输出节点之间也存在连接线,它们用来表示相邻输出节点之间的相关性,该算法模型在预测某时刻的输出值时,同时考虑到了相邻输出结果之间依赖性,由于训练数据的标签均严格按照BIO格式进行标注,所以在训练过程中模型会学习到“B-X”标签与“I-Y”相邻的概率较低这一知识,进而在一定程度上避免了输出结果没有严格遵循BIO格式这一现象的发生。
本实施例将条件随机场模型与长短期记忆神经网络进行级联,长短期记忆神经网络的输出数据作为条件随机场模型的输入数据,位于最上层的条件随机场模型的输出内容作为模型的最终预测结果,将这两种网络模型进行联合训练,既解决了因输入短句过长导致的梯度消失问题又缓解了预测结果没有严格遵循BIO格式的问题。
基于文本卷积神经网络模型的单句意图识别
基于标注结果,下面进行单句意图识别。文本卷积神经网络模型(TEXTCNN)的基本思想与卷积神经网络模型(CNN)类似,在CNN模型的基础之上针对文本分类任务做了一定程度的改进,该模型将CNN应用到文本分类任务中,利用多个不同大小的卷积核来提取句子中的关键信息,类似于词向量模型中具有多个窗口大小的n-gram模型,从而能够更好地捕捉文本中的局部相关性,它的网络结构如图3所示,TEXTCNN在文本分类问题上具有比较优秀的表现,此模型对文本浅层特征的抽取能力很强,在短文本领域的分类效果较好,该模型主要依靠过滤窗口抽取特征,在长距离建模方面能力受限,且对语序不敏感。
该模型的输入层接收一个固定长度的文本序列,文本序列的长度L属于超参数,需要人为指定,当输入短句的长度小于L时使用字符“-”对其进行填充直至长度等于L为止,当输入短句的长度大于L时对其做截断操作以使其长度为L,文本序列中的每一个字或词均使用词向量表示,输入层后面是卷积层,卷积层使用多个尺寸不同的卷积核对输入序列进行滑动卷积操作,这些卷积核将相邻的字或词转化成一个数值,卷积层后面是池化层,池化层一般采用最大值策略,该池化策略从多个卷积核返回的C i 中选取最大值输入到全连接层,最终通过softmax进行分类。
下式描述了卷积操作的具体计算方法:
Figure 754264DEST_PATH_IMAGE007
式中C i 为卷积后的值,W为参数矩阵,x i 表示输入文本的第i个词,b表示偏置,h表示一维卷积核大小,f表示卷积函数。
TEXTCNN借鉴了CNN的思想,其卷积层与池化层的核心作用就是针对用户输入短句进行特征提取,首先根据输入的定长文本词向量序列,利用相邻词向量之间的局部信息提取初级的特征,然后逐步将初级的特征转化为高级特征。该模型通过卷积与池化操作,无需按照传统机器学习方法中那样预先进行特征工程,一定程度上简化了模型的复杂程度,但是在其卷积与池化操作过程中丢失掉了词与词之间的顺序关系,不适合捕获用户输入短句中的“否定”或者“反义”等语义信息。
动作执行器
动作执行器根据用户意图执行在系统中预设定的操作,它在一个完整的决策流程之后被调用,是对用户输入短句的响应。由于具体执行的动作与会话上下文中的意图紧密相关,每种意图对应的动作均不同,故本发明将动作直接与意图绑定,每个意图均由意图类型属性标识该意图应执行什么样的动作,意图类型属性集合如表5所示。
表5意图大类型属性表
Figure 501640DEST_PATH_IMAGE008
大量意图的类型为“queryUrl”和“command”,其中“queryUrl”类型的意图对应的动作是通过URL查询数据,这里使用URL的方式查询数据是因为它的参数非常灵活,能够实现动态变更参数,非常适合此类场景,例如当前轮次会话上下文为“intent:音频播放,singer:周杰伦”,动作执行器根据意图得知应执行查询数据操作,查询的具体URL为“${targetUrl }intent=音频播放&singer=周杰伦”,若当前轮次会话上下文为“intent:音频播放,song:稻香”则查询的具体URL为“${ targetUrl }intent=音频播放&song=稻香”。类型为“command”的意图无需执行查询操作,动作执行器处理此类的意图的方式是直接以原始数据的形式将其输出。
意图仅分为上述两类是不足以指导动作执行器执行具体动作的,针对这种情况,直接将意图分类细致到动作类型这一级别上,例如“音频控制”意图被拆分成command_audio_next、command_audio_prev、command_audio_pause、command_audio_resume等,最终由意图类型和动作类型共同决定动作执行器执行的具体动作。
在多轮交互流程中,当会话上下文中存在没有确定的信息时,动作执行器根据当前会话上下文信息执行反问逻辑,由系统发起的反问语句称为澄清话语。
对话管理
任务驱动的对话管理的核心是一个决策过程,系统在与用户交互的过程中不断根据历史交互信息与当前输入短句决定下一步应该执行的最优动作,如下式6-2所示:
Figure 118566DEST_PATH_IMAGE009
上式描述了对话管理子系统的状态更新模型,式中t表示当前时刻,S t 为当前时刻系统所处状态,I t 为当前时刻用户输入短句,f表示状态转移函数,意图更新操作的本质是一个状态转移过程。
对话管理子系统构建在单短句意图识别模块与意图管理模块基础之上,在功能上是对其两者的封装。
关键信息抽取效果评估
1、评估指标
针对每条序列样本的预测结果,模型将整个句子的最终标注结果作为最小单位进行评估,一个短句中的所有标签全部标注正确即被认定为该短句标注正确,实验中采用的评估指标有三种,它们均是对执行分类任务的神经网络模型进行评价的常用指标,分别是精确率(precision)、召回率(recall)与F1值(F1-Score),精确率又叫查准率,它表示模型全部预测数据中预测正确的数据所占的比例,其表示分类结果有多少是准确的,召回率又叫查全率,是模型对数据集覆盖程度的一种度量方式,表示数据集所有标签为正例的数据中被模型分类到正例的数据所占的比例, F1值表示为精确率和召回率的调和平均值,它综合计算了精确率和召回率,F1值较高时代表模型性能较好。
Figure 18520DEST_PATH_IMAGE010
上述分类指标中涉及到了几个概念,分别是TP、FP、FN以及TN,它们的表示方式如表6所示,若一条数据属于正例同时被预测成为正例,则该数据使用TP表示,若一条数据属于负例同时被预测成为负例,则该数据使用TN表示,若一条数据属于负例但是被预测成为正例,则该数据属于FP类别,若一条数据属于正例但是被预测成为负例,则该数据属于FN。
表6评价指标
Figure 554544DEST_PATH_IMAGE011
2、实验结果
共进两组对比实验,每组中实验分别针对ElmanRNN、JordanRNN、LSTM、CRF、Bi-LSTM-CRF五种模型使用相同的数据集进行,共计进行十次实验,两组实验的区别是数据集不同,第一组实验使用较优质的数据集,数据是从互联网采集到的、经过人工标注后的地址信息,第二组实验使用程序针对车载环境模拟出的数据,这些数据均经过人工进行标注。
第一组实验旨在使用第一组数据集对比多种常用于序列标注任务的神经网络模型的性能,实验针对同一组数据集,分别使用循环神经网络模型、长短期记忆神经网络模型以及级联神经网络模型做对比试验,在该组实验中,变量为网络模型结构。
神经网络模型中的词嵌入层的维度设置为128维,迭代训练200次,RNN模型隐藏层的维度为200,LSTM模型隐藏层的维度为256,表7描述各神经网络模型的实验结果,第一列为模型名称、第二列表示精确率、第三列为召回率、第四列表示F1值,它们的数值均在[0,1]区间内,数值越接近1代表性能越高。
表7实验一结果对比表
Figure 726899DEST_PATH_IMAGE012
观察表7发现,在两种基础循环神经网络中,Jordan类型的循环神经网络的F1值比Elman类型的网络高,Jordan类型的循环神经网络综合性能比Elman类型的网络略高,两者在网络结构上略有区别,它们的不同之处在于Jordan类型的网络模型将上一时刻输出层的输出内容与下一时刻的输入数据共同作为输入数据传递到下一时刻的隐藏层中,Elman类型的网络模型将上一时刻隐藏层输出的内容与下一时刻的输入数据共同作为输入数据传递到下一时刻的隐藏层中,因为此实验采用的数据集使用BIO格式进行打标,BIO格式定义中I标签前面不应出现O标签即标签序列存在一定的依赖关系,而Jordan型网络的结构决定了它可以将更多的信息传递到下一时刻的隐藏层中,这些信息也包含了比较关键的预测序列,那么Jordan型网络模型就可以将BIO格式的定义作为知识进行学习,这在一定程度上降低了输出数据不符合BIO格式定义的概率,即当前时刻的标签是O时,下一时刻标签大概率不是标签I,因此从该角度来看,Jordan类型的循环神经网络的性能比Elman类型的循环神经网络的性能稍高。
从实验结果中发现,LSTM模型性能表现比RNN要好很多,LSTM的三个指标均比两种类型的RNN高,本实施例认为原因是LSTM解决了RNN模型存在的梯度消失问题,它更适合处理长期依赖问题,在数据集当中不乏长度较大的数据,实验是基于字级别做打标,与基于词级别的打标对比,这种方式在一定程度上使序列长度更长,RNN在这种环境下处于劣势,由于生产环境中的真实数据不总是长度很短的句子,因此在综合考虑的情况下,LSTM模型的性能比RNN模型高。
实验结果显示,对比的几种模型中,双向LSTM级联一层CRF构成的网络模型表现最优,F1值达到了0.9175,这是由于实际情况中标签序列之间存在相互依赖关系,LSTM模型可以学习到序列中每个字所属的标签但是没有较好地学习到标签之间的关系, CRF在一定程度上增加了预测的结果序列满足BIO格式的概率,例如对于LSTM模型输出的结果序列“BIOOIIOBIII”,因为结果序列中从“O”转移到“I”的概率很小甚至可以是负数,那么这个结果序列的综合得分不会很高,很大概率不会选择其作为最终输出,因此在实验中发现,在双向LSTM模型之上级联一层CRF后,综合表现最好。
第二组实验旨在使用第二组数据集对比多种常用于序列标注任务的神经网络模型的性能,实验同样针对同一组数据集,分别使用循环神经网络模型、长短期记忆神经网络模型以及级联神经网络模型做对比试验,变量为网络模型结构,实验二与实验一的区别在于实验二所用的数据集是通过程序生成的车载领域数据,与数据集一相比,其规则更加明显。
实验二共设定了9个标签,标签如表8所示,减号前的A到E依次代表“播放”及其同义词,“音乐”及其同义词,歌曲名,歌手名以及音频类型名。
表8 实验二标签表
Figure 488794DEST_PATH_IMAGE013
表9描述了第二轮实验的结果,通过实验结果可看出,CRF模型在第二轮实验中的五种神经网络中表现略差但是与它在第一轮数据集中的性能相差不大,其它四种模型在第二轮实验中均在性能上有极大的提升,经分析可能原因是因为第二轮实验使用的是模拟出来的、很规整的数据集,这就导致神经网络可以比较容易地得到较优的模型参数。
表9实验二结果对比表
Figure 430205DEST_PATH_IMAGE014
通过两组实验结果发现,第二组实验中RNN模型性能提升很大,分析两组实验数据集,可能是因为第一组实验使用的短句较长,最长的句子包含48个字,第二组实验使用的短句较短,最长的句子只包含16个字,第二组实验由于短句长度均较短,故在一定程度上规避了RNN存在的梯度消失问题,因为LSTM主要解决的是RNN存在的梯度消失问题,这也可以解释在第二组实验中LSTM模型的性能表现与RNN相差不多这一现象。从第二组实验结果中可观察到Bi-LSTM-CRF依然是本组内性能较好的模型,对它的具体分析与实验一相同,不再赘述。在两组实验中,CRF性能表现没有很大差异,表现出该模型的稳定性,可以适应不同质量的数据集,同时,其余四种神经网络模型可能存在过拟合问题,在实验二的实验过程中发现,它们在训练集上的F1值比在测试集上的F1值普遍高出0.5,这可能是因为实验二使用的很规整且规模很小的数据集导致的,因为数据集质量不是很高,所以较难使得神经网络模型拥有很好的泛化能力。
表10针对性地列出了三种模型的部分标注结果,通过观察可以发现,在实验二中,这几种神经网络模型的标注效果均尚可,但是仔细对比发现对于短句“播放光良的童话”,几种模型均将“童话”识别为“音乐”同义词而不是音频名称,对于无结构的短句,例如“梦醒时分”,它属于一个音频名称,但是RNN将其识别成了歌手名,在Bi-LSTM-CRF模型出现了将音频名称错误识别称为播放同义词的情况,在可能发生过拟合的情况下网络模型依然出现了较严重的误打标现象。
表10 实验二标注结果举例
Figure 340392DEST_PATH_IMAGE015
意图识别效果评估
在关键信息标注的基础上,进行基于文本卷积神经网络模型的单句意图识别,实验数据使用上述数据,并基于百度提供的AIStudio平台进行网络模型搭建与训练,得到的网络模型在验证集上的精确率为0.8494,在训练集上的准确率为0.9995。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.车载环境下语音交互意图识别及过程管理方法,其特征在于:包括以下步骤:
一、车载环境下的语音交互用户意图分类:
二、结合车载环境语音交互意图类型的训练数据准备:
使用人工采集结合程序半自动生成的方式准备神经网络的训练数据;
三、基于BIO格式的训练数据词性标注:
基于BIO格式的数据集,在数据集中将每一个字或词标注为“B-A”、“I-A”或者“O”;
四、构建关键信息标注的双向长短期记忆神经网络级联条件随机场模型:
利用条件随机场模型与长短期记忆神经网络进行级联,形成双向长短期记忆神经网络级联条件随机场模型,对基于BIO格式的数据集进行标签化标注;
五、基于标注结果,利用文本卷积神经网络模型进行单句意图识别:
文本卷积神经网络模型将CNN应用到文本分类任务中,利用多个不同大小的卷积核来提取句子中的关键信息,实现单句意图识别;
六、动作执行器执行操作:
根据用户意图执行在系统中预设定的操作;
七、进行对话管理:
系统在与用户交互的过程中不断根据历史交互信息与当前输入短句决定下一步应该执行的最优动作。
2.根据权利要求1所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤一中,将车载环境下的语音交互用户意图分为五大类和多个小类,五大类包括播放音频、导航、打电话、回答、控制。
3.根据权利要求1所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤三中,针对数据集做如下预处理:
(1)从数据集中按行获取数据,分别得到短句和其对应的标签,构造句子序列和标签序列,这两个序列长度保持一致;
(2)将短句序列中的空白符、换行符以及标点符号等特殊字符删除;
(3)根据词典得到词对应的整数索引,根据索引可以查询到每个词对应的词向量,神经网络的输入内容即为词向量序列。
4.根据权利要求1所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤五中,文本卷积神经网络模型的输入层接收一个固定长度的文本序列;然后后面的卷积层使用多个尺寸不同的卷积核对输入序列进行滑动卷积操作,这些卷积核将相邻的字或词转化成一个数值;接着后面的池化层从多个卷积核返回的卷积后的值中选取最大值输入到全连接层,最终通过softmax进行分类。
5.根据权利要求4所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤五中,卷积操作的具体计算方法为:
Figure 701626DEST_PATH_IMAGE001
式中C i 为卷积后的值,W为参数矩阵,x i 表示输入文本的第i个词,b表示偏置,h表示一维卷积核大小,f表示卷积函数。
6.根据权利要求1所述的车载环境下语音交互意图识别及过程管理方法,其特征在于:步骤七中,对话管理如下式所示:
Figure 415504DEST_PATH_IMAGE002
式中t表示当前时刻,S t 为当前时刻系统所处状态,I t 为当前时刻用户输入短句,f表示状态转移函数。
CN202210371357.5A 2022-04-11 2022-04-11 车载环境下语音交互意图识别及过程管理方法 Pending CN114462407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371357.5A CN114462407A (zh) 2022-04-11 2022-04-11 车载环境下语音交互意图识别及过程管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371357.5A CN114462407A (zh) 2022-04-11 2022-04-11 车载环境下语音交互意图识别及过程管理方法

Publications (1)

Publication Number Publication Date
CN114462407A true CN114462407A (zh) 2022-05-10

Family

ID=81417417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371357.5A Pending CN114462407A (zh) 2022-04-11 2022-04-11 车载环境下语音交互意图识别及过程管理方法

Country Status (1)

Country Link
CN (1) CN114462407A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
CN112613308A (zh) * 2020-12-17 2021-04-06 中国平安人寿保险股份有限公司 用户意图识别方法、装置、终端设备及存储介质
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
CN112613308A (zh) * 2020-12-17 2021-04-06 中国平安人寿保险股份有限公司 用户意图识别方法、装置、终端设备及存储介质
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN112417877B (zh) 一种基于改进bert的文本蕴含关系识别方法
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111933127B (zh) 一种具备自学习能力的意图识别方法及意图识别系统
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN108268442A (zh) 一种语句意图预测方法及系统
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN118152547B (zh) 一种根据提问者理解能力的机器人回答方法、介质及系统
CN112434142A (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN117113094A (zh) 一种基于语义递进融合的长文本相似度计算方法及装置
CN114239565B (zh) 一种基于深度学习的情绪原因识别方法及系统
CN114462407A (zh) 车载环境下语音交互意图识别及过程管理方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN114461779A (zh) 一种案件笔录要素抽取方法
CN115169363A (zh) 一种融合知识的增量编码的对话情感识别方法
CN114742073A (zh) 一种基于深度学习的对话情绪自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220510