CN111477216A - 一种用于对话机器人的音意理解模型的训练方法及系统 - Google Patents
一种用于对话机器人的音意理解模型的训练方法及系统 Download PDFInfo
- Publication number
- CN111477216A CN111477216A CN202010276709.XA CN202010276709A CN111477216A CN 111477216 A CN111477216 A CN 111477216A CN 202010276709 A CN202010276709 A CN 202010276709A CN 111477216 A CN111477216 A CN 111477216A
- Authority
- CN
- China
- Prior art keywords
- training
- words
- sentences
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000501764 Astronotus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及音意理解领域,公开了一种用于对话机器人的音意理解模型的训练方法及系统,解决了目前音意理解模型训练时语音标注数据不足、模型泛化性能不好的问题,其技术方案要点是根据指定意图编写出训练词句;对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;使用所述训练语音数据训练基于深度神经网络的音意理解模型,达到了减少人工标注语音数据的工作量,提高意图识别准确率和泛化性能的效果。
Description
技术领域
本发明涉及音意理解领域,更具体地说,它涉及一种用于对话机器人的音意理解模型的训练方法及系统。
背景技术
随着人工智能技术在学术界的快速发展以及在生活中的广泛使用,语音交互成为人与机器之间沟通交流的重要桥梁。机器人系统要与用户对话并完成特定任务,其中一个核心技术是语音意图识别技术,即让机器人系统在接收到用户语音后,能够通过语音判定用户的意图。
语音意图识别技术,是指对输入的语音识别出相应的意图或特征(这里的意图包括单意图、多意图、槽值、情感等多类问题),为后端特定的服务目标提供有效的支撑。高性能的语音意图识别技术,能够最大限度地保证人机对话系统正确理解用户的意图,采取相应的应答策略,使得机器人系统与用户之间的对话过程正确且流畅地进行。
目前传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段,在第一阶段通过语音识别技术(Automatic Speech Recognition,ASR)将语音转化成文字,第二阶段通过自然语言处理技术(Natural Language Processing,NLP)从文字中抽取文本内的语义信息,识别出用户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。
现在大多数语音意图识别的应用,都是在通过语音识别获取文本之后,使用文本信息进行后续的语义加工和处理。当语音转文本信息正确率较高时,意图识别的准确率就高;当文本信息识别率较低时,大量的有用信息在识别过程中被语音识别丢弃,导致文本信息传递的用户意图也随之丢失。
所以为了避免这种严重依赖于语音识别技术的准确率的弊端,现有的技术中又提出了使用训练好的深度神经网络从输入的语音识别出相应的意图的音意理解技术;高性能的音意理解技术,能够最大限度地保证人机对话系统正确理解用户的意图,采取相应的交互策略,使得机器人系统与用户之间的对话过程正确且流畅地进行。
但是训练深度神经网络需要大量标注了意图的语音数据来训练模型,而人工对语音数据进行标注的人力成本和时间成本是十分昂贵的,这是音意理解模型落地的一个很大的门槛。在语音意图理解中,同一个类别中需要很多数据进行训练,而当积累的语音和文本数据还不够多时,通过人工编写,可能会缓解数据的压力,但耗费太多的人力,而且数据覆盖的范围可能并不全。在标注数据不足的情况下,模型对意图识别的准确率和泛化就受到很大限制。数据覆盖不全面,导致在实际对话过程中,同一个意思用户换一种不同的表达方式,模型就无法识别了;模型只能识别训练数据集覆盖的句子类型,这就是模型的泛化问题。除了数据不足问题,训练音意理解模型常遇到的另一个问题是数据不均衡,即有的意图类别数据特别多,有的意图类别数据特别少,这种数据不均衡问题也会很大程度上影响模型训练的效果。
发明内容
本发明的目的是提供一种用于对话机器人的音意理解模型的训练方法及系统,达到减少人工标注语音数据的工作量,提高意图识别准确率和泛化性能的效果。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于对话机器人的音意理解模型的训练方法,包括以下步骤:
S1、根据指定意图编写出训练词句;
S2、对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;
S3、对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;
S4、使用所述训练语音数据训练基于深度神经网络的音意理解模型。
作为本发明的一个优选技术方案,S2中对所述训练词句的文本进行数据增强的方法包括:
W1、对所述训练词句中的字词进行同义词替换;
W2、对所述训练词句中的字词进行随机插入和/或随机删除;
W3、对所述训练词句中的字词顺序进行随机打乱;
W4、将所述训练词句翻译成另一种语言,再翻译回所述训练词句的原语言;
W5、使用预训练模型根据所述训练词句批量生成若干相似词句。
作为本发明的一个优选技术方案,W1中进行同义词替换的步骤如下:
W1.1、加载预先训练好的BERT语言模型;
W1.2、对每个所述训练词句中的字词用BERT模型获取相应词向量;
W1.3、根据词向量计算所述训练词句中的字词与词汇表中所有字词的词向量的余弦相似度;
W1.4、余弦相似度大于设定阈值的字词当作同义词返回;
W1.5、用所述同义词替换所述训练词句中对应位置的字词,生成若干个同义词句文本。
作为本发明的一个优选技术方案,W5中使用预训练模型根据所述训练词句批量生成若干相似词句的步骤如下:
W5.1、使用预先准备的大规模相似词句文本语料进行预训练,形成预训练模型;
W5.2、针对初始数据集的句子,调用上述预训练模型,批量生成相似词句。
作为本发明的一个优选技术方案,S3中对所述同义词句文本数据进行语音合成,得到相应的训练语音数据的步骤中包括以下子步骤:
S3.1、把所述同义词句文本数据转为带音调的拼音音节;
S3.2、把所述同义词句文本数据包含的每个词转换表示为一个整数;
S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵;
S3.4、将所述词嵌入矩阵输入训练好的双向LSTM Seq2seq模型生成中间表示;
S3.5、通过训练好的声码器把所述中间表示转换成所述训练语音数据。
作为本发明的一个优选技术方案,S4中的音意理解模型的训练包括以下子步骤:
S4.1、接收包含意图标签的训练语音数据;
S4.2、使用卷积神经网络提取所述训练语音数据的语音特征;
S4.3、使用循环神经网络提取所述训练语音数据的音素、字素特征;
S4.4、将提取到的语音特征和音素、字素特征导入循环神经网络中进行音意理解模型训练;
S4.5、针对输入的所述训练语音数据进行模型参数的调整,完成对音意理解模型的训练。
一种用于对话机器人的音意理解模型的训练系统,包括:
意图确认和词句编写模块:根据实际应用确定好待识别的意图;针对所有指定意图编写训练词句,将所有所述训练词句形成初始数据集;
文本数据增强模块:对初始数据集中的所有训练词句的文本进行数据增强,生成若干同义词句文本数据;
组合筛选模块:对文本数据增强模块生成的所有同义词句文本数据进行组合筛选;
语音合成模块:对经过组合筛选模块处理的所有同义词句文本数据进行语音合成,得到训练语音数据;
模型训练模块:使用所述训练语音数据训练所述音意理解模型。
综上所述,本发明具有以下有益效果:通过文本数据增加和语音合成技术,大大减少了人工标注语音数据的工作量,降低了人力和时间成本;
通过对大量训练语音数据的训练,提高了音译理解模型理解用户意图的准确率和泛化性能。
附图说明
图1是本发明的方法流程图;
图2是本发明的系统框图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种用于对话机器人的音意理解模型的训练方法,包括以下步骤:
S1、根据指定意图编写出训练词句,具体在实际中要根据对话机器人的实际使用需要来指定要识别的意图;
比如“想看电影”这个意图,对应的句子可能包括:“我想看最新的国产片”,“去电影院吧”,“最新有什么好看的大片,一起去看可以么”等等;
S2、对训练词句的文本进行数据增强,生成若干种与训练词句意图相同的同义词句文本数据,使得和训练词句意图相同的数据进行扩增,强化文本数据;
比如“我想看最新的电影”这句话,文本增强的结果可能是:“我想看最新的美国大片”,“一起去看奥斯卡最新影片”之类;
S3、对同义词句文本数据进行语音合成,得到相应的训练语音数据,在同义词句文本数据经过增强的基础上,对其进行语音合成,得到数据足够多的训练语音数据;
S4、使用训练语音数据训练基于深度神经网络的音意理解模型,在训练语音数据中数据足够大的情况下,也能够更好的训练基于深度神经网络的音意理解模型,从而使得音意理解模型理解语音意图的能力足够强。
如图2所示,本发明还提供了一种适用于上述方法的用于对话机器人的音意理解模型的训练系统,包括:
意图确认和词句编写模块:对应上述方法的S1;根据实际应用确定好待识别的意图;针对所有指定意图编写训练词句,将所有训练词句形成初始数据集;
文本数据增强模块:对应上述方法的S2;对初始数据集中的所有训练词句的文本进行数据增强,生成若干同义词句文本数据;
组合筛选模块:对应上述方法的S2;对文本数据增强模块生成的所有同义词句文本数据进行组合筛选;
语音合成模块:对应上述方法的S3;对经过组合筛选模块处理的所有同义词句文本数据进行语音合成,得到训练语音数据;
模型训练模块:对应上述方法的S4,使用训练语音数据训练音意理解模型。
上述系统中的各个模块分别能够对应到上述方法的步骤中去,从而支持上述方法的进行。
具体的,S2中对训练词句的文本进行数据增强的方法包括:
W1、对训练词句中的字词进行同义词替换;例如,我们将句子“我非常喜欢这部电影”改为“我非常喜欢这个影片”,这样句子仍具有相同的含义,具有相同的意图标签;
W2、对训练词句中的字词进行随机插入和/或随机删除;比如“我想看最新的美国大片”,可能扩展为“我好想看2019年8月最新的美国大片”,“我真的想看视频最新的美国大片西瓜甜不甜”,“我最新美国大骗烫烫烫”等等。随机扩展生成的句子有可能出现不符合语法和常识、或不可理解的乱码文字。但是,只要它们不影响句子整体的意思,对模型训练就是有用的,因为它们可以模拟嘈杂环境下对语音识别不准确有噪声的情况,提高模型的健壮性;
W3、对训练词句中的字词顺序进行随机打乱;比如“今天天气不错。我们去爬山吧。”改成“我们去爬山吧。今天天气不错。”;
W4、将训练词句翻译成另一种语言,再翻译回训练词句的原语言;例如,如果我们把“I like this movie very much”翻译成俄语,就会得到“Мнеоченьнравитсяэтотфильм”,当我们再译回英语就会得到“I really like this movie”。回译的方法不仅有类似同义词替换的能力,它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力;
W5、使用预训练模型根据训练词句批量生成若干相似词句;例如:初始句子为“你是骗子吧?”这句话,由预训练模型生成的句可能是包括:“你是骗子吧?”,“你是个骗子吧?”,“你们是骗子吧?”,“你是一个骗子吧?”,“你是黑名单上的骗子吧?”等等,显然,生成的句意和原始句意基本是相同的,只是有个别字词或标点符号的差别,这可以大大增强训练出的音意理解模型的健壮性和泛化性能。
通过上述的这几种方法,都是能对原始的训练词句进行数据上的扩充的,从而能够得到数据足够多的同义词句文本数据,可以得到一个较大规模的、带有明确意图标签的语音数据集,该语音数据集覆盖了所需意图的各种说法。用该语音数据集作训练集训练可以得到一个识别准确率较高、泛化性能较好的音意识别模型。在和用户进行对话时,用户说的话直接送入音意理解系统,就可以理解要表达的意思,而不需要先调用ASR系统转成文字再理解,可以更好的服务于语音对话机器人系统。
具体的,上述系统中的文本数据增强模块包含了对应上述W1、W2、W3、 W4以及W5的同义词替换子模块、随机插入和删除子模块、字词顺序随机打乱子模块、回译子模块、预训练模型生成相似句子模块;
同义词替换子模块:执行W1,在训练词句中随机选择一些词并用它们的同义词来替换这些词,每次替换生成一个新的同义词句文本;
随机插入和删除子模块:执行W2,随机地往句子中插入若干新词,或者删除某几个词,每次插入或删除生成一个新的同义词句文本;
字词顺序随机打乱子模块:执行W3,把训练词句中字词顺序随机调换顺序,生成一个新的同义词句文本;
回译子模块:执行W4,用翻译模型把训练词句翻译成另外一种语言,再翻译回来,得到一个新的同义词句文本;
预训练模型生成相似句子模块:执行W5,用预先训练好的语言模型,对初始数据集中的每个训练词句进行变换,得到一个新的同义词句文本;
以上5个子模块分别调用后得到若干子数据集,再经由组合筛选模块处理后,得到最终生成的数据集。
进一步的,W1中进行同义词替换的步骤如下:
W1.1、加载预先训练好的BERT语言模型;
W1.2、对每个训练词句中的字词用BERT模型获取相应词向量;
W1.3、根据词向量计算训练词句中的字词与词汇表中所有字词的词向量的余弦相似度;
W1.4、余弦相似度大于设定阈值的字词当作同义词返回;
W1.5、用同义词替换训练词句中对应位置的字词,生成若干个同义词句文本。
更进一步的,W5中使用预训练模型根据训练词句批量生成若干相似词句的步骤如下:
W5.1、使用预先准备的大规模相似词句文本语料进行预训练,形成预训练模型;
W5.2、针对初始数据集的句子,调用上述预训练模型,批量生成相似词句。
具体的,S3中对同义词句文本数据进行语音合成,得到相应的训练语音数据的步骤中包括以下子步骤:
S3.1、把同义词句文本数据转为带音调的拼音音节;
S3.2、把同义词句文本数据包含的每个词转换表示为一个整数;
S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵;
S3.4、将词嵌入矩阵输入训练好的双向LSTM Seq2seq模型生成中间表示;
S3.5、通过训练好的声码器把中间表示转换成训练语音数据。
上述词向量模型可以使用word2vec模型或者BERT模型;双向LSTM Seq2seq模型可以使用基于tacotron的模型结构;声码器(vocoder)可以使用基于LPCNet的声码器。
具体的,S4中的音意理解模型的训练包括以下子步骤:
S4.1、接收包含意图标签的训练语音数据;
S4.2、使用卷积神经网络提取训练语音数据的语音特征;
S4.3、使用循环神经网络提取训练语音数据的音素、字素特征;
S4.4、将提取到的语音特征和音素、字素特征导入循环神经网络中进行音意理解模型训练;
S4.5、针对输入的训练语音数据进行模型参数的调整,完成对音意理解模型的训练。
一般的,进行音意理解的对话机器人,包括通讯模块(比如电话系统)、音频预处理模块、音意理解模块以及对话策略调度模块,当训练好的音意理解模型加载在对话机器人上后,就能够对用户说的话进行意图理解,指导对话机器人和用户进行语音交互;
具体的,通讯模块负责接收用户说话的音频,传送给音频预处理模块;后者把音频进行预处理(如降噪、提取特征等)后,送到音意理解模块,该模块调用所述训练好的音意理解模型,对输入的音频特征进行识别,输出用户的意图;对话策略调度模块根据用户意图和预先定义好的调度策略,决定机器人回答的内容,包括文本和音频;最后再通过通讯模块把文字或声音反馈给用户。
一个具体实施例的,经训练好的音意理解模型用于对话机器人对用户说话理解的步骤包括:启动HTTP服务;加载训练好的音意理解模型;输入用户说话的音频;运行模型,输出各意图的概率分布;选择概率最大的若干个意图输出。
当音意理解模型在使用中,能够直接用训练好的深度神经网络,从输入的语音识别出相应的意图(包括单意图、多意图)或槽值、情感等特征,为后端特定的服务目标提供有效的支撑。高性能的音意理解技术,能够最大限度地保证人机对话系统正确理解用户的意图,采取相应的交互策略,使得机器人系统与用户之间的对话过程正确且流畅地进行。
需要注意的是:本文中所提到的模型泛化性能是指模型在预测训练数据集未出现或差异较大的句子时准确率。
本文中所提到的双向LSTM Seq2seq模型是指LSTM即长短期记忆模型 (long-short term memory),是一种特殊的RNN模型,常用于自然语言理解和音频识别及合成等序列化的任务。Seq2seq即序列到序列模型,是一种神经网络架构,一般由编码器模块、注意力模块和解码器模块组成,它通过编码器把输入的序列数据转换为中间表示,再通过解码器生成输出序列。
本文中所提到的声码器,即vocoder,是用于把音频参数和特征数据转换为语音信号的模块。实际合成时一般使用基于卷积神经网络和递归神经网络的LPCNet来实现。
本文中所提到的BERT语言模型:BERT是Bidirectional EncoderRepresentations from Transformers的缩写,意为来自Transformers的双向编码器表示,是谷歌公司基于Transformer模型提出的一种神经网络语言模型,可用于预测和生成自然语言句子,以及各种自然语言处理和理解任务。
本文中所提到的Transformer模型:是谷歌公司提出的一种神经网络模型架构。
本文中所提到的随机分布包括:均匀分布、正态分布(高斯分布)、二项分布、泊松分布等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种用于对话机器人的音意理解模型的训练方法,其特征是:包括以下步骤:
S1、根据指定意图编写出训练词句;
S2、对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;
S3、对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;
S4、使用所述训练语音数据训练基于深度神经网络的音意理解模型。
2.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法,其特征是:S2中对所述训练词句的文本进行数据增强的方法包括:
W1、对所述训练词句中的字词进行同义词替换;
W2、对所述训练词句中的字词进行随机插入和/或随机删除;
W3、对所述训练词句中的字词顺序进行随机打乱;
W4、将所述训练词句翻译成另一种语言,再翻译回所述训练词句的原语言;
W5、使用预训练模型根据所述训练词句批量生成若干相似词句。
3.根据权利要求2所述的一种用于对话机器人的音意理解模型的训练方法,其特征是:W1中进行同义词替换的步骤如下:
W1.1、加载预先训练好的BERT语言模型;
W1.2、对每个所述训练词句中的字词用BERT模型获取相应词向量;
W1.3、根据词向量计算所述训练词句中的字词与词汇表中所有字词的词向量的余弦相似度;
W1.4、余弦相似度大于设定阈值的字词当作同义词返回;
W1.5、用同义词替换所述训练词句中对应位置的字词,生成若干个同义词句文本。
4.根据权利要求2所述的一种用于对话机器人的音意理解模型的训练方法,其特征是:W5中使用预训练模型根据所述训练词句批量生成若干相似词句的步骤如下:
W5.1、使用预先准备的大规模相似词句文本语料进行预训练,形成预训练模型;
W5.2、针对初始数据集的句子,调用上述预训练模型,批量生成相似词句。
5.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法,其特征是:S3中对所述同义词句文本数据进行语音合成,得到相应的训练语音数据的步骤中包括以下子步骤:
S3.1、把所述同义词句文本数据转为带音调的拼音音节;
S3.2、把所述同义词句文本数据包含的每个词转换表示为一个整数;
S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵;
S3.4、将所述词嵌入矩阵输入训练好的双向LSTM Seq2seq模型生成中间表示;
S3.5、通过训练好的声码器把所述中间表示转换成所述训练语音数据。
6.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法,其特征是:S4中的音意理解模型的训练包括以下子步骤:
S4.1、接收包含意图标签的训练语音数据;
S4.2、使用卷积神经网络提取所述训练语音数据的语音特征;
S4.3、使用循环神经网络提取所述训练语音数据的音素、字素特征;
S4.4、将提取到的语音特征和音素、字素特征导入循环神经网络中进行音意理解模型训练;
S4.5、针对输入的所述训练语音数据进行模型参数的调整,完成对音意理解模型的训练。
7.一种适用于权利要求1所述方法的用于对话机器人的音意理解模型的训练系统,其特征在于,包括:
意图确认和词句编写模块:根据实际应用确定好待识别的意图;针对所有指定意图编写训练词句,将所有所述训练词句形成初始数据集;
文本数据增强模块:对初始数据集中的所有训练词句的文本进行数据增强,生成若干同义词句文本数据;
组合筛选模块:对所述文本数据增强模块生成的所有同义词句文本数据进行组合筛选;
语音合成模块:对经过所述组合筛选模块处理的所有同义词句文本数据进行语音合成,得到训练语音数据;
模型训练模块:使用所述训练语音数据训练所述音意理解模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276709.XA CN111477216B (zh) | 2020-04-09 | 2020-04-09 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276709.XA CN111477216B (zh) | 2020-04-09 | 2020-04-09 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111477216A true CN111477216A (zh) | 2020-07-31 |
CN111477216B CN111477216B (zh) | 2024-02-23 |
Family
ID=71751454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010276709.XA Active CN111477216B (zh) | 2020-04-09 | 2020-04-09 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111477216B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035652A (zh) * | 2020-10-30 | 2020-12-04 | 杭州云嘉云计算有限公司 | 一种基于机器阅读理解的智能问答交互方法及系统 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112131384A (zh) * | 2020-08-27 | 2020-12-25 | 科航(苏州)信息科技有限公司 | 新闻分类方法、计算机可读存储介质 |
CN112417116A (zh) * | 2020-11-18 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于少样本语料的问句理解模型训练方法和系统 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112488164A (zh) * | 2020-11-18 | 2021-03-12 | 广东电力信息科技有限公司 | 一种任务型对话文本增强系统 |
CN113257237A (zh) * | 2021-06-25 | 2021-08-13 | 北京沃丰时代数据科技有限公司 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
CN113393832A (zh) * | 2021-06-03 | 2021-09-14 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113535549A (zh) * | 2021-06-22 | 2021-10-22 | 科大讯飞股份有限公司 | 测试数据的扩充方法、装置、设备及计算机可读存储介质 |
CN113643703A (zh) * | 2021-08-06 | 2021-11-12 | 西北工业大学 | 一种语音驱动虚拟人的口令理解方法 |
CN115455981A (zh) * | 2022-11-11 | 2022-12-09 | 合肥智能语音创新发展有限公司 | 一种多语种语句的语义理解方法、装置、设备及存储介质 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
JP2014106523A (ja) * | 2012-11-30 | 2014-06-09 | Aisin Aw Co Ltd | 音声入力対応装置及び音声入力対応プログラム |
EP3226239A1 (en) * | 2016-03-30 | 2017-10-04 | Panasonic Automotive & Industrial Systems Europe GmbH | Voice command system |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN110263160A (zh) * | 2019-05-29 | 2019-09-20 | 中国电子科技集团公司第二十八研究所 | 一种计算机问答系统中的问句分类方法 |
CN110516253A (zh) * | 2019-08-30 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 中文口语语义理解方法及系统 |
CN110892400A (zh) * | 2019-09-23 | 2020-03-17 | 香港应用科技研究院有限公司 | 使用句子提取来概括文本的方法 |
CN110888968A (zh) * | 2019-10-15 | 2020-03-17 | 浙江省北大信息技术高等研究院 | 客服对话意图分类方法及装置、电子设备及介质 |
-
2020
- 2020-04-09 CN CN202010276709.XA patent/CN111477216B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
JP2014106523A (ja) * | 2012-11-30 | 2014-06-09 | Aisin Aw Co Ltd | 音声入力対応装置及び音声入力対応プログラム |
EP3226239A1 (en) * | 2016-03-30 | 2017-10-04 | Panasonic Automotive & Industrial Systems Europe GmbH | Voice command system |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN110263160A (zh) * | 2019-05-29 | 2019-09-20 | 中国电子科技集团公司第二十八研究所 | 一种计算机问答系统中的问句分类方法 |
CN110516253A (zh) * | 2019-08-30 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 中文口语语义理解方法及系统 |
CN110892400A (zh) * | 2019-09-23 | 2020-03-17 | 香港应用科技研究院有限公司 | 使用句子提取来概括文本的方法 |
CN110888968A (zh) * | 2019-10-15 | 2020-03-17 | 浙江省北大信息技术高等研究院 | 客服对话意图分类方法及装置、电子设备及介质 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131384A (zh) * | 2020-08-27 | 2020-12-25 | 科航(苏州)信息科技有限公司 | 新闻分类方法、计算机可读存储介质 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112035652A (zh) * | 2020-10-30 | 2020-12-04 | 杭州云嘉云计算有限公司 | 一种基于机器阅读理解的智能问答交互方法及系统 |
CN112417116A (zh) * | 2020-11-18 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于少样本语料的问句理解模型训练方法和系统 |
CN112488164A (zh) * | 2020-11-18 | 2021-03-12 | 广东电力信息科技有限公司 | 一种任务型对话文本增强系统 |
CN112466298B (zh) * | 2020-11-24 | 2023-08-11 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN113393832B (zh) * | 2021-06-03 | 2023-10-10 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113393832A (zh) * | 2021-06-03 | 2021-09-14 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113535549A (zh) * | 2021-06-22 | 2021-10-22 | 科大讯飞股份有限公司 | 测试数据的扩充方法、装置、设备及计算机可读存储介质 |
CN113257237B (zh) * | 2021-06-25 | 2021-10-22 | 北京沃丰时代数据科技有限公司 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
CN113257237A (zh) * | 2021-06-25 | 2021-08-13 | 北京沃丰时代数据科技有限公司 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
CN113643703A (zh) * | 2021-08-06 | 2021-11-12 | 西北工业大学 | 一种语音驱动虚拟人的口令理解方法 |
CN113643703B (zh) * | 2021-08-06 | 2024-02-27 | 西北工业大学 | 一种语音驱动虚拟人的口令理解方法 |
CN115455981A (zh) * | 2022-11-11 | 2022-12-09 | 合肥智能语音创新发展有限公司 | 一种多语种语句的语义理解方法、装置、设备及存储介质 |
CN115455981B (zh) * | 2022-11-11 | 2024-03-19 | 合肥智能语音创新发展有限公司 | 一种多语种语句的语义理解方法、装置、设备及存储介质 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
CN115795040B (zh) * | 2023-02-10 | 2023-05-05 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111477216B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477216B (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN113439301B (zh) | 用于机器学习的方法和系统 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
KR20200119410A (ko) | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 | |
JP2024502946A (ja) | 音声認識トランスクリプトの句読点付け及び大文字化 | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN111489754A (zh) | 一种基于智能语音技术的话务数据分析方法 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN110852075A (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN110808028B (zh) | 嵌入式语音合成方法、装置以及控制器和介质 | |
EP1800292B1 (en) | Improving the fidelity of a dialog system | |
CN113488026B (zh) | 基于语用信息的语音理解模型生成方法和智能语音交互方法 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN109859746B (zh) | 一种基于tts的语音识别语料库生成方法及系统 | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN113362803B (zh) | 一种arm侧离线语音合成的方法、装置及存储介质 | |
CN116229994B (zh) | 一种阿拉伯语方言的标符预测模型的构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |