CN111177324B - 基于语音识别结果进行意图分类的方法和装置 - Google Patents
基于语音识别结果进行意图分类的方法和装置 Download PDFInfo
- Publication number
- CN111177324B CN111177324B CN201911421937.5A CN201911421937A CN111177324B CN 111177324 B CN111177324 B CN 111177324B CN 201911421937 A CN201911421937 A CN 201911421937A CN 111177324 B CN111177324 B CN 111177324B
- Authority
- CN
- China
- Prior art keywords
- text
- training
- target
- pinyin
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 155
- 239000000470 constituent Substances 0.000 claims description 57
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供一种基于语音识别结果进行意图分类的方法和装置,方法包括:获取针对目标语音进行自动语音识别后得到的目标文本;从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音;基于所述各汉字分别对应的拼音,形成目标拼音序列;将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;根据所述目标编码向量,对所述目标语音进行意图分类。能够降低意图分类的错误率。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于语音识别结果进行意图分类的方法和装置。
背景技术
在语音交互场景中,常常会采用自动语音识别(automated speech recognition,ASR)将语音转为文本。而自动语音识别经常会出现识别错误的情况,并且识别错误出现几率是比较高的,目前通用的语音识别的字级别准确率在85%左右。
现有技术中,基于语音识别结果进行意图分类时,由于语音识别结果存在错误的几率较高,相应地,基于语音识别结果进行意图分类的错误率也较高。
因此,希望能有改进的方案,在基于语音识别结果进行意图分类时,能够降低意图分类的错误率。
发明内容
本说明书一个或多个实施例描述了一种基于语音识别结果进行意图分类的方法和装置,能够降低意图分类的错误率。
第一方面,提供了一种基于语音识别结果进行意图分类的方法,方法包括:
获取针对目标语音进行自动语音识别后得到的目标文本;
从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,形成目标拼音序列;
将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;
根据所述目标编码向量,对所述目标语音进行意图分类。
在一种可能的实施方式中,所述基于所述各汉字分别对应的拼音,形成目标拼音序列,包括:
基于所述各汉字分别对应的拼音,按照英文单词的切分方式将拼音切分为若干组成单元,以得到各组成单元构成的所述目标拼音序列。
在一种可能的实施方式中,所述基于所述各汉字分别对应的拼音,形成目标拼音序列,包括:
基于所述各汉字分别对应的拼音,将拼音作为一个组成单元,以得到各组成单元构成的所述目标拼音序列。
在一种可能的实施方式中,所述文本编码模型通过如下方式预先训练:
获取训练文本和训练拼音序列组成的训练文本语音对;其中,所述训练文本的组成单元为汉字;所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成;
将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入;
将所述第一文本输入作为所述文本编码模型的输入,通过所述文本编码模型对应于所述若干位置中各个位置的输出,预测该位置预设字符替换前的组成单元,基于预测的正确性对所述文本编码模型进行训练。
进一步地,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对中的训练文本中,选取若干位置的第一预设比例的汉字分别用预设字符替换;
确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元,将确定的各组成单元分别用所述预设字符替换,得到第一文本输入。
进一步地,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对包括的各组成单元中,选取若干位置的第二预设比例的组成单元分别用预设字符替换,得到第一文本输入。
在一种可能的实施方式中,所述文本编码模型通过如下方式预先训练:
获取训练样本,所述训练样本包括两个训练文本语音对和样本标签,所述训练文本语音对包括训练文本和训练拼音序列,所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话;
将所述训练样本作为所述文本编码模型的输入,通过所述文本编码模型输出的所述训练样本的训练语义向量,预测所述训练样本包括的两个训练文本语音对是否属于连续对话,基于预测的正确性对所述文本编码模型进行训练。
在一种可能的实施方式中,所述文本编码模型包括:基于转换器的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型。
第二方面,提供了一种基于语音识别结果进行意图分类的装置,装置包括:
获取单元,用于获取针对目标语音进行自动语音识别后得到的目标文本;
映射单元,用于从预先建立的汉字到拼音的映射表中,查找所述获取单元获取的目标文本包含的各汉字分别对应的拼音;
形成单元,用于基于所述映射单元得到的各汉字分别对应的拼音,形成目标拼音序列;
编码单元,用于将所述获取单元获取的目标文本和所述形成单元形成的目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;
分类单元,用于根据所述编码单元得到的目标编码向量,对所述目标语音进行意图分类。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取针对目标语音进行自动语音识别后得到的目标文本;然后从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音;接着基于所述各汉字分别对应的拼音,形成目标拼音序列;再将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;最后根据所述目标编码向量,对所述目标语音进行意图分类。由上可见,本说明书实施例,不仅将自动语音识别后得到的汉字组成的文本作为文本编码模型的输入,而且将文本对应的拼音也同时作为文本编码模型的输入,充分利用了文本中的信息,使得文本编码模型输出的编码向量更能贴近原始语音的意图,相应地提升用户意图识别的效果,能够降低意图分类的错误率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的基于语音识别结果进行意图分类的方法流程图;
图3示出本说明书实施例提供的一种拼音序列的构成示意图;
图4示出本说明书实施例提供的另一种拼音序列的构成示意图;
图5示出本说明书实施例提供的一种模型训练原理图;
图6示出本说明书实施例提供的一种遮蔽方法示意图;
图7示出本说明书实施例提供的另一种遮蔽方法示意图;
图8示出本说明书实施例提供的另一种模型训练原理图;
图9示出根据一个实施例的基于语音识别结果进行意图分类的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于语音识别结果进行意图分类。参照图1,在语音交互场景中,用户通过语音表达某种意图,该语音经过自动语音识别转为文本,再基于该文本进行意图分类,以确定用户的意图类别,后续可以基于该意图类别与该用户进行交互。自动语音识别经常会出现识别错误的情况,主要包括汉语中常见的同音字错误、近音字错误、方言识别错误,比如用户说“花呗还款失败”,语音识别结果为“华北还款失败”。本说明书实施例,针对这种自动语音识别时,同音字、近音字识别错误较多的情况,在基于语音识别结果进行意图分类时进行了改进,以期兼容自动语音识别后的文本中的同音字、近音字等识别错误,从而能够降低意图分类的错误率。
图2示出根据一个实施例的基于语音识别结果进行意图分类的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中基于语音识别结果进行意图分类的方法包括以下步骤:步骤21,获取针对目标语音进行自动语音识别后得到的目标文本;步骤22,从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音;步骤23,基于所述各汉字分别对应的拼音,形成目标拼音序列;步骤24,将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;步骤25,根据所述目标编码向量,对所述目标语音进行意图分类。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取针对目标语音进行自动语音识别后得到的目标文本。可以理解的是,该目标语音可以为用户发出的语音,可能存在方言或吐字不清晰的情况,该目标文本即自动语音识别后的语音识别结果,该语音识别结果可能出现识别错误。
表一示出一组正确的语音识别结果与错误的语音识别结果的对照示例。
表一
正确的语音识别结果 | 错误的语音识别结果 |
花呗逾期 | 华北逾期 |
参照表一,用户发出的语音本来想表达的为“花呗逾期”,可是自动语音识别后得到的文本为“华北逾期”,这就是一种典型的识别错误的情况,其中,“花呗”为一种消费信贷产品,而“华北”为一个地理区域范围,“花呗逾期”和“华北逾期”二者表达的意图有明显差别。
然后在步骤22,从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音。可以理解的是,不同的汉字可以对应相同的拼音,例如,汉字“花”和“华”都对应拼音“hua”,汉字“呗”和“北”都对应拼音“bei”。
本说明书实施例,通过查找目标文本包含的各汉字分别对应的拼音,可以补充目标文本涵盖的信息。
接着在步骤23,基于所述各汉字分别对应的拼音,形成目标拼音序列。本说明书实施例中,目标拼音序列包括多个组成单元,其中,一个汉字对应的拼音可以作为一个组成单元,或者,一个汉字对应的拼音可以拆分为若干个组成单元。
在一个示例中,基于所述各汉字分别对应的拼音,按照英文单词的切分方式将拼音切分为若干组成单元,以得到各组成单元构成的所述目标拼音序列。可以理解的是,拼音的字母与英文字母相同,因此可以按照英文单词的切分方式将拼音切分为若干组成单元。
图3示出本说明书实施例提供的一种拼音序列的构成示意图。拼音使用wordpieces进行切分,wordpieces是一种根据预先建立的词表,将单词转换成双字节编码的方案。如图3所示,将拼音作为英文单词来进行切分,一个拼音有可能被拆成多部分。比如图3中,“北”字的拼音“bei”,被拆分成“b##”和“##ei”两部分,这样做的优点是没有增加前述词表的大小,因此后续基于该拼音序列训练模型时,模型不会变得更大。
在另一个示例中,基于所述各汉字分别对应的拼音,将拼音作为一个组成单元,以得到各组成单元构成的所述目标拼音序列。可以理解的是,汉字对应的拼音与英文单词不同,通常并不存在于前述词表中。
图4示出本说明书实施例提供的另一种拼音序列的构成示意图。拼音作为新词加入到前述词表中。如图4所示,直接将拼音作为新词加到词表中,例如,将“北”字的拼音“bei”加到词表中,这种做法的优点是不会受到原始模型的英文语料的影响,后续基于该拼音序列训练模型时,模型输出的拼音语料向量完全代表字的语音特征。
再在步骤24,将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量。可以理解的是,在训练文本编码模型时也是基于文本和拼音序列组成的文本语音对,训练文本编码模型,使得文本编码模型更适合于特定的业务场景,即语音识别结果可能出现识别错误的特定业务场景。
在一个示例中,所述文本编码模型包括:基于转换器的双向编码器表示(bidirectional encoder representation from transformers,BERT)模型。在理解本说明书各实施例时,均可结合BERT模型的已有处理方式来进行理解。
当文本编码模型为BERT模型时,可以理解的是,BERT模型通常有两个预训练任务,其中,一个预训练任务是遮蔽语言模型(masked language model,MLM)任务,即将句子中的部分词替换为[mask]字符,再通过上下文预测该位置真实字符的任务;另一个预训练任务是下一句预测(next sentence prediction,NSP)任务,即判断两个句子是否为连续的任务。
在一个示例中,所述文本编码模型通过如下方式预先训练:
获取训练文本和训练拼音序列组成的训练文本语音对;其中,所述训练文本的组成单元为汉字;所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成;
将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入;
将所述第一文本输入作为所述文本编码模型的输入,通过所述文本编码模型对应于所述若干位置中各个位置的输出,预测该位置预设字符替换前的组成单元,基于预测的正确性对所述文本编码模型进行训练。
该示例可以对应于BERT模型的MLM任务。
图5示出本说明书实施例提供的一种模型训练原理图,对应于BERT模型的MLM任务。如图5所示,从人工对话语音转文本日志中,抽取用户单轮话术,查找每个汉字对应的拼音,以空格连接,再拼接到汉字文本末尾。具体步骤如下:从使用汉字到拼音的映射表中查找出每个汉字的拼音;对拼音进行预处理得到各组成单元,将完整拼音作为组成单元,或者使用wordpieces进行切分后得到各组成单元;将预处理后的各组成单元使用空格连接,添加到汉字文本的后方,以BERT模型中的[sep]标记符连接;随机选取预设比例(例如15%)的字符进行遮蔽(mask)操作;将经过遮蔽操作后得到的文本输入作为BERT模型的输入,经过多层转换器(transformer)计算后得出每个位置的上下文语义向量,将被遮蔽的词对应的向量通过全连接层映射到词表大小的维度,计算softmax,和该遮蔽位置实际的词的词表序号,计算交叉熵损失函数,再进行反向传播、对BERT模型进行梯度更新。
进一步地,一种遮蔽方案为采用汉字-拼音对应位置遮蔽的方案,包括:
在所述训练文本语音对中的训练文本中,选取若干位置的第一预设比例的汉字分别用预设字符替换;
确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元,将确定的各组成单元分别用所述预设字符替换,得到第一文本输入。
图6示出本说明书实施例提供的一种遮蔽方法示意图,该方法采用汉字-拼音对应位置遮蔽的方案。如图6所示,先对汉字句子中的字选取预设比例(例如15%)的字进行遮蔽(即替换为预设字符),再将后面对应的拼音也遮蔽掉,例如,先将“北”字替换为[mask]字符,再将”b##”和”##ei”也替换为[mask]字符。该方案的优点是防止了汉字和拼音没有同时MASK的场景下,可以互相作为提示信息,降低模型训练难度。
进一步地,另一种遮蔽方案为采用汉字-拼音随机遮蔽的方案,包括:
在所述训练文本语音对包括的各组成单元中,选取若干位置的第二预设比例的组成单元分别用预设字符替换,得到第一文本输入。
图7示出本说明书实施例提供的另一种遮蔽方法示意图,该方法采用汉字-拼音随机遮蔽的方案。如图7所示,对汉字和拼音拼接后的字符串随机选取预设比例(例如15%)的字符进行遮蔽,例如,完全随机地将“北”和”b##”和”yu”替换为[mask]字符。该方案的优点是保证了文本中预设比例的字符被遮蔽掉。
在另一个示例中,所述文本编码模型通过如下方式预先训练:
获取训练样本,所述训练样本包括两个训练文本语音对和样本标签,所述训练文本语音对包括训练文本和训练拼音序列,所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话;
将所述训练样本作为所述文本编码模型的输入,通过所述文本编码模型输出的所述训练样本的训练语义向量,预测所述训练样本包括的两个训练文本语音对是否属于连续对话,基于预测的正确性对所述文本编码模型进行训练。
该示例可以对应于BERT模型的NSP任务。
图8示出本说明书实施例提供的另一种模型训练原理图,对应于BERT模型的NSP任务。如图8所示,判断两句话是否为真实对话中前后连续的两个对话角色说的话,比如催收员和用户的连续对话。模型结构为将两句话分别处理得到文本语音对后,再将各自对应的文本语音对拼接在一起,输入进BERT模型,经过转换器(transformer)计算后,取[cls]位置向量进行二分类。具体步骤如下:话术预处理,从人工对话语音转文本日志中抽取出整通对话,对每一轮的单条话术进行预先处理得到对应的文本语音对;正样本选取,将同一个对话(session)内,连续的不同对话角色的两条话术拼接在一起,使用[sep]相连,作为NSP任务的正样本;负样本选取,随机选取来自不同对话的两个句子,将其拼接在一起,使用[sep]相连作为负样本;可选地,正负样本的比例保持50:50;将样本输入进BERT模型,经过多层转换器(transformer)计算之后,取最后一层[cls]位置的上下文语义向量,映射到维度为2的向量,计算softmax,和正负样本的标签(0,1)计算交叉熵损失,再进行反向传播,对BERT模型更新梯度。
最后在步骤25,根据所述目标编码向量,对所述目标语音进行意图分类。可以理解的是,意图分类即确定用户的意图类别,例如,意图类别用于确定用户是否可以在预设时间段内还款,或者,意图类别用于在多个预设时间段中确定用户能够还款的目标时间段。
本说明书实施例提供的方法,不仅将自动语音识别后得到的汉字组成的文本作为文本编码模型的输入,而且将文本对应的拼音也同时作为文本编码模型的输入,充分利用了文本中的信息,使得文本编码模型输出的编码向量更能贴近原始语音的意图,相应地提升用户意图识别的效果,能够降低意图分类的错误率。
此外,在原始的文本编码模型基础之上继续进行语言模型预训练,充分将原始的文本编码模型在大训练语料上学习到的语言建模能力,迁移到了特定的业务场景中,效果更好。
根据另一方面的实施例,还提供一种基于语音识别结果进行意图分类的装置,该装置用于执行本说明书实施例提供的基于语音识别结果进行意图分类的方法。图9示出根据一个实施例的基于语音识别结果进行意图分类的装置的示意性框图。如图9所示,该装置900包括:
获取单元91,用于获取针对目标语音进行自动语音识别后得到的目标文本;
映射单元92,用于从预先建立的汉字到拼音的映射表中,查找所述获取单元91获取的目标文本包含的各汉字分别对应的拼音;
形成单元93,用于基于所述映射单元92得到的各汉字分别对应的拼音,形成目标拼音序列;
编码单元94,用于将所述获取单元91获取的目标文本和所述形成单元93形成的目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;
分类单元95,用于根据所述编码单元94得到的目标编码向量,对所述目标语音进行意图分类。
可选地,作为一个实施例,所述形成单元93,具体用于基于所述各汉字分别对应的拼音,按照英文单词的切分方式将拼音切分为若干组成单元,以得到各组成单元构成的所述目标拼音序列。
可选地,作为一个实施例,所述形成单元93,具体用于基于所述各汉字分别对应的拼音,将拼音作为一个组成单元,以得到各组成单元构成的所述目标拼音序列。
可选地,作为一个实施例,所述文本编码模型通过如下方式预先训练:
获取训练文本和训练拼音序列组成的训练文本语音对;其中,所述训练文本的组成单元为汉字;所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成;
将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入;
将所述第一文本输入作为所述文本编码模型的输入,通过所述文本编码模型对应于所述若干位置中各个位置的输出,预测该位置预设字符替换前的组成单元,基于预测的正确性对所述文本编码模型进行训练。
进一步地,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对中的训练文本中,选取若干位置的第一预设比例的汉字分别用预设字符替换;
确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元,将确定的各组成单元分别用所述预设字符替换,得到第一文本输入。
进一步地,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对包括的各组成单元中,选取若干位置的第二预设比例的组成单元分别用预设字符替换,得到第一文本输入。
可选地,作为一个实施例,所述文本编码模型通过如下方式预先训练:
获取训练样本,所述训练样本包括两个训练文本语音对和样本标签,所述训练文本语音对包括训练文本和训练拼音序列,所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话;
将所述训练样本作为所述文本编码模型的输入,通过所述文本编码模型输出的所述训练样本的训练语义向量,预测所述训练样本包括的两个训练文本语音对是否属于连续对话,基于预测的正确性对所述文本编码模型进行训练。
可选地,作为一个实施例,所述文本编码模型包括:基于转换器的双向编码器表示BERT模型。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (16)
1.一种基于语音识别结果进行意图分类的方法,所述方法包括:
获取针对目标语音进行自动语音识别后得到的目标文本;
从预先建立的汉字到拼音的映射表中,查找所述目标文本包含的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,形成目标拼音序列;
将所述目标文本和所述目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;
根据所述目标编码向量,对所述目标语音进行意图分类;
其中,所述文本编码模型通过如下方式预先训练:
获取训练样本,所述训练样本包括两个训练文本语音对和样本标签,所述训练文本语音对包括训练文本和训练拼音序列,所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话;
将所述训练样本作为所述文本编码模型的输入,通过所述文本编码模型输出的所述训练样本的训练语义向量,预测所述训练样本包括的两个训练文本语音对是否属于连续对话,基于预测的正确性对所述文本编码模型进行训练。
2.如权利要求1所述的方法,其中,所述基于所述各汉字分别对应的拼音,形成目标拼音序列,包括:
基于所述各汉字分别对应的拼音,按照英文单词的切分方式将拼音切分为若干组成单元,以得到各组成单元构成的所述目标拼音序列。
3.如权利要求1所述的方法,其中,所述基于所述各汉字分别对应的拼音,形成目标拼音序列,包括:
基于所述各汉字分别对应的拼音,将拼音作为一个组成单元,以得到各组成单元构成的所述目标拼音序列。
4.如权利要求1所述的方法,其中,所述文本编码模型通过如下方式预先训练:
获取训练文本和训练拼音序列组成的训练文本语音对;其中,所述训练文本的组成单元为汉字;所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成;
将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入;
将所述第一文本输入作为所述文本编码模型的输入,通过所述文本编码模型对应于所述若干位置中各个位置的输出,预测该位置预设字符替换前的组成单元,基于预测的正确性对所述文本编码模型进行训练。
5.如权利要求4所述的方法,其中,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对中的训练文本中,选取若干位置的第一预设比例的汉字分别用预设字符替换;
确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元,将确定的各组成单元分别用所述预设字符替换,得到第一文本输入。
6.如权利要求4所述的方法,其中,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对包括的各组成单元中,选取若干位置的第二预设比例的组成单元分别用预设字符替换,得到第一文本输入。
7.如权利要求1所述的方法,其中,所述文本编码模型包括:基于转换器的双向编码器表示BERT模型。
8.一种基于语音识别结果进行意图分类的装置,所述装置包括:
获取单元,用于获取针对目标语音进行自动语音识别后得到的目标文本;
映射单元,用于从预先建立的汉字到拼音的映射表中,查找所述获取单元获取的目标文本包含的各汉字分别对应的拼音;
形成单元,用于基于所述映射单元得到的各汉字分别对应的拼音,形成目标拼音序列;
编码单元,用于将所述获取单元获取的目标文本和所述形成单元形成的目标拼音序列作为目标文本语音对,将所述目标文本语音对输入预先训练的文本编码模型,通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量;
分类单元,用于根据所述编码单元得到的目标编码向量,对所述目标语音进行意图分类;
其中,所述文本编码模型通过如下方式预先训练:
获取训练样本,所述训练样本包括两个训练文本语音对和样本标签,所述训练文本语音对包括训练文本和训练拼音序列,所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话;
将所述训练样本作为所述文本编码模型的输入,通过所述文本编码模型输出的所述训练样本的训练语义向量,预测所述训练样本包括的两个训练文本语音对是否属于连续对话,基于预测的正确性对所述文本编码模型进行训练。
9.如权利要求8所述的装置,其中,所述形成单元,具体用于基于所述各汉字分别对应的拼音,按照英文单词的切分方式将拼音切分为若干组成单元,以得到各组成单元构成的所述目标拼音序列。
10.如权利要求8所述的装置,其中,所述形成单元,具体用于基于所述各汉字分别对应的拼音,将拼音作为一个组成单元,以得到各组成单元构成的所述目标拼音序列。
11.如权利要求8所述的装置,其中,所述文本编码模型通过如下方式预先训练:
获取训练文本和训练拼音序列组成的训练文本语音对;其中,所述训练文本的组成单元为汉字;所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成;
将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入;
将所述第一文本输入作为所述文本编码模型的输入,通过所述文本编码模型对应于所述若干位置中各个位置的输出,预测该位置预设字符替换前的组成单元,基于预测的正确性对所述文本编码模型进行训练。
12.如权利要求11所述的装置,其中,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对中的训练文本中,选取若干位置的第一预设比例的汉字分别用预设字符替换;
确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元,将确定的各组成单元分别用所述预设字符替换,得到第一文本输入。
13.如权利要求11所述的装置,其中,所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换,得到第一文本输入,包括:
在所述训练文本语音对包括的各组成单元中,选取若干位置的第二预设比例的组成单元分别用预设字符替换,得到第一文本输入。
14.如权利要求8所述的装置,其中,所述文本编码模型包括:基于转换器的双向编码器表示BERT模型。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421937.5A CN111177324B (zh) | 2019-12-31 | 2019-12-31 | 基于语音识别结果进行意图分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421937.5A CN111177324B (zh) | 2019-12-31 | 2019-12-31 | 基于语音识别结果进行意图分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177324A CN111177324A (zh) | 2020-05-19 |
CN111177324B true CN111177324B (zh) | 2023-08-11 |
Family
ID=70655974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911421937.5A Active CN111177324B (zh) | 2019-12-31 | 2019-12-31 | 基于语音识别结果进行意图分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177324B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862977B (zh) | 2020-07-27 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 一种语音对话处理方法和系统 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112434157B (zh) * | 2020-11-05 | 2024-05-17 | 平安直通咨询有限公司上海分公司 | 文书多标签分类方法、装置、电子设备及存储介质 |
CN115039169A (zh) * | 2021-01-06 | 2022-09-09 | 京东方科技集团股份有限公司 | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 |
CN113095040B (zh) * | 2021-04-16 | 2024-07-16 | 支付宝(杭州)信息技术有限公司 | 一种编码网络的训练方法、文本编码方法和系统 |
CN113177588A (zh) * | 2021-04-28 | 2021-07-27 | 平安科技(深圳)有限公司 | 用户分群方法、装置、设备及存储介质 |
CN113343639B (zh) * | 2021-05-19 | 2023-10-03 | 网易(杭州)网络有限公司 | 产品标识码图生成、基于产品标识码图的信息查询方法 |
CN113284499B (zh) * | 2021-05-24 | 2024-07-12 | 亿咖通(湖北)技术有限公司 | 一种语音指令识别方法及电子设备 |
CN114023306B (zh) * | 2022-01-04 | 2022-04-12 | 阿里云计算有限公司 | 用于预训练语言模型的处理方法和口语语言理解系统 |
CN114818738B (zh) * | 2022-03-01 | 2024-08-02 | 达观数据有限公司 | 一种客服热线用户意图轨迹识别的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
CN109739370A (zh) * | 2019-01-10 | 2019-05-10 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110544470A (zh) * | 2019-09-11 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 语音识别方法、装置、可读存储介质和电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107678561A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音输入纠错方法及装置 |
-
2019
- 2019-12-31 CN CN201911421937.5A patent/CN111177324B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
CN109739370A (zh) * | 2019-01-10 | 2019-05-10 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN110162789A (zh) * | 2019-05-13 | 2019-08-23 | 北京一览群智数据科技有限责任公司 | 一种基于汉语拼音的词表征方法及装置 |
CN110544470A (zh) * | 2019-09-11 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 语音识别方法、装置、可读存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
利用拼音特征的深度学习文本分类模型;赵博轩;房宁;赵群飞;张朋柱;;高技术通讯(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111177324A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
CN113168828B (zh) | 基于合成数据训练的会话代理管线 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
CN111339278B (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
CN112364658A (zh) | 翻译以及语音识别方法、装置、设备 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
CN111414745A (zh) | 文本标点确定方法与装置、存储介质、电子设备 | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
CN112101032A (zh) | 一种基于自蒸馏的命名实体识别与纠错方法 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
CN108304389B (zh) | 交互式语音翻译方法及装置 | |
CN113793599A (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN116229947A (zh) | 一种语音识别方法及语音识别装置 | |
CN112131343B (zh) | 一种中文小说对话人物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40029393 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |