CN113221580B - 语义拒识方法、语义拒识装置、交通工具及介质 - Google Patents

语义拒识方法、语义拒识装置、交通工具及介质 Download PDF

Info

Publication number
CN113221580B
CN113221580B CN202110769934.1A CN202110769934A CN113221580B CN 113221580 B CN113221580 B CN 113221580B CN 202110769934 A CN202110769934 A CN 202110769934A CN 113221580 B CN113221580 B CN 113221580B
Authority
CN
China
Prior art keywords
confidence
text
word
training
rejection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110769934.1A
Other languages
English (en)
Other versions
CN113221580A (zh
Inventor
韩传宇
易晖
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110769934.1A priority Critical patent/CN113221580B/zh
Publication of CN113221580A publication Critical patent/CN113221580A/zh
Application granted granted Critical
Publication of CN113221580B publication Critical patent/CN113221580B/zh
Priority to EP21204719.5A priority patent/EP4086894A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语义拒识方法、语义拒识装置、交通工具和存储介质,语义拒识方法包括:获取语音请求的文本以及文本对应的出词置信度,根据文本以及对应的出词置信度生成置信度特征,置信度特征包括文本和文本对应的分字置信度,将上下文的置信度特征合并生成目标置信度特征,利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,语义拒识模型根据预设多模态模型训练得到。本申请的语义拒识方法通过将文本以及文本对应的出词置信度生成置信度特征并根据以上下文的置信度特征进行预测得到据识结果,提升了语义拒识准确率。

Description

语义拒识方法、语义拒识装置、交通工具及介质
技术领域
本申请涉及交通领域,特别涉及一种语义拒识方法、语义拒识装置、交通工具及计算机可读存储介质。
背景技术
随着交通工具的智能化,交通工具的应用程序与用户的交互越来越频繁。目前,在车载语音助手持续倾听的场景,由于实际交互环境时复杂多变,在语音交互过程中经常会存在噪声语音的输入,引起车辆语音助手的误响应,相关技术中,车辆语音助手可通过语义拒识模型根据输入语音的语义对某些语音进行拒识,以提高车载语音助手的识别率。因此,语义拒识模型的错误率直接影响最终指令是否正确理解和执行,如何提高语音拒识率成了亟待解决的问题。
发明内容
有鉴于此,本申请实施方式提供了一种语义拒识方法、语义拒识装置、交通工具及计算机可读存储介质。
本申请提供了一种语义拒识方法,包括:
获取语音请求的文本以及所述文本对应的出词置信度;
根据所述文本以及对应的所述出词置信度生成置信度特征,所述置信度特征包括所述文本和所述文本对应的分字置信度;
将上下文的所述置信度特征合并生成目标置信度特征;
利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果,所述语义拒识模型根据预设多模态模型训练得到。
在某些实施方式中,所述根据所述文本以及对应的所述出词置信度构造生成置信度特征包括:
根据所述文本对应的出词置信度确定所述文本的分字置信度;
对所述分字置信度进行归一化处理以确定构建置信度词表;
根据所述文本和所述置信度词表生成所述置信度特征。
在某些实施方式中,所述将上下文的所述置信度特征合并生成目标置信度特征包括:
根据所述语音请求的设备标识和语音采集时间对对应的所述置信度进行排序;
将所述设备标识相同且处于预设倾听时长内的相邻所述置信度特征合并生成所述目标置信度特征。
在某些实施方式中,所述利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果包括:
根据所述目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量;
根据所述分字特征向量、所述分句特征向量、所述位置特征向量提取文本编码信息;
根据所述置信度特征向量提取置信度编码信息;
拼接所述文本编码信息和所述置信度编码信息以做自注意力特征融合;
利用激活函数对所述自注意力特征融合的结果进行处理以得到所述拒识结果。
在某些实施方式中,所述根据所述目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量包括:
确定所述目标置信度特征的起止位;
设置所述目标置信度特征的超参数;
根据所述起止位和所述超参数对所述目标置信度特征进行补齐操作;
根据补齐后的所述目标置信度特征确定所述分字特征向量、所述分句特征向量、所述位置特征向量和所述置信度特征向量。
在某些实施方式中,所述根据所述分字特征向量、所述分句特征向量、所述位置特征向量提取文本编码信息包括:
通过bert-encoder模型对所述分字特征向量、所述分句特征向量、所述位置特征向量进行特征提取以得到所述文本编码信息,所述bert-encoder模型包括多个muti-head-attention层, dense层和layer_norm层;
所述根据所述置信度特征向量提取置信度编码信息,包括:
对所述置信度特征向量做单层双向的lstm特征提取以得到所述置信度编码信息。
在某些实施方式中,所述语义拒识方法包括:
获取训练语音请求的训练文本以及所述训练文本对应的训练出词置信度;
根据所述训练文本以及对应的所述训练出词置信度生成训练置信度特征,所述训练置信度特征包括所述训练文本和所述训练文本对应的训练分字置信度;
将上下文的所述训练置信度特征合并生成目标训练置信度特征;
确定所述目标训练置信度特征的训练识别结果;
利用所述目标训练置信度特征和所述训练识别结果对预设多模态模型进行训练以得到训练好的所述语义拒识模型。
本申请还提供了一种语义拒识装置,包括:
获取模块,用于获取语音请求的文本以及所述文本对应的出词置信度;
生成模块,用于根据所述文本以及对应的所述出词置信度生成置信度特征,所述置信度特征包括所述文本和所述文本对应的分字置信度;
合并模块,用于将上下文的所述置信度特征合并生成目标置信度特征;
处理模块,用于利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果,所述语义拒识模型根据预设多模态模型训练得到。
本申请还提供了一种交通工具,所述交通工具包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述任一项所述的语义拒识方法。
本申请还提供一种非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现上述任一项实施例中所述的语义拒识方法。
本申请通过将语音请求生成的文本以及对应的出词置信度生成置信度特征,并根据上下文的置信度特征合并生成目标置信度特征,从而建立了置信度以及上下文,以及再利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,如此,提高了语义拒识准确率。
本申请实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语义拒识方法的流程示意图;
图2是本申请某些实施方式的语义拒识装置的模块示意图;
图3是本申请某些实施方式的语义拒识方法的流程示例图;
图4是本申请某些实施方式的语义拒识方法的流程示意图;
图5是本申请某些实施方式的语义拒识方法的流程示意图;
图6是本申请某些实施方式的语义拒识方法的场景示意图;
图7是本申请某些实施方式的语义拒识方法的流程示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
请参阅图1,本申请提供了一种语义拒识方法,包括:
01:获取语音请求的文本以及文本对应的出词置信度;
02:根据文本以及对应的出词置信度生成置信度特征,置信度特征包括文本和文本对应的分字置信度;
03:将上下文的置信度特征合并生成目标置信度特征;
04:利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,语义拒识模型根据预设多模态模型训练得到。
相应地,请参阅图2,本申请实施方式还提供了一种语义拒识装置100,本申请实施方式的语义拒识方法可以由语义拒识装置100实现。
语义拒识装置100包括获取模块110、生成模块120、合并模块130和处理模块140。步骤01可以由获取模块110实现,步骤02可以由生成模块120实现,步骤03可以由合并模块130实现,步骤04可以由处理模块140实现。或者说,获取模块110用于预获取语音请求的文本以及文本对应的出词置信度。生成模块120用于根据文本以及对应的出词置信度生成置信度特征,置信度特征包括文本和文本对应的分字置信度。合并模块130用于将上下文的置信度特征合并生成目标置信度特征。处理模块140用于利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,语义拒识模型根据预设多模态模型训练得到。
本申请实施方式还提供了一种交通工具。交通工具包括存储器和处理器。存储器中存储有计算机程序,处理器用于获取语音请求的文本以及文本对应的出词置信度,根据文本以及对应的出词置信度生成置信度特征,置信度特征包括文本和文本对应的分字置信度,将上下文的置信度特征合并生成目标置信度特征,以及利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,语义拒识模型根据预设多模态模型训练得到。
交通工具可以为但不限于车辆、飞行汽车、高速列车等交通工具,交通工具可包括进行语音交互的语音识别设备。以车辆为例,车辆包括语音识别设备,语音识别设备可以包括麦克风、音箱和处理器等。
以下为便于描述,以车辆为例进行实施例展开。
具体地,在步骤01中,语音请求的文本和文本对应的出词置信度为用户与语音识别设备交互过程中,对用户输入的语音请求进行语义理解后而生成的文字以及文字所对应的出词置信度。其中,文本对应的出词置信度是指语音请求进行语义理解后生成的文字的准确程度。语音识别设备根据语音请求进行语义理解生成的文本格式为:[{"conf":出词置信度,"end":截止时间,"pinyin":"词语拼音","start":起始时间,"word":"文本"}]。置信度的范围为0-1之间,置信度可以最多用三位有效数字表示,例如,0.375,置信度越大,说明生成的文字与语音请求越对应。
例如,用户输入的语音请求为:“bo fang”,则语音识别设备可根据语音请求生成“[{"conf":0.355,"end":900,"pinyin":"bo fang","start":700,"word":"播放”],其中,“播放”为生成文本,0.355为文本“播放”的出词置信度,700为起始时间,900为截止时间。也即是,语音识别设备根据用户语音请求“bo fang”生成的文本为“播放”,而“播放”的出词置信度为0.355。因此,根据语音请求生成的文本以及出词置信度为:播放/0.355。
在步骤02中,置信度特征可包括多条,多条置信度特征可以由预定时间段内的生成的文本和文本对应的出词置信度生成。例如,将语音请求生成的文本和文本对应的出词置信度根据生成的时间分割成多个部分,每部分中的文本和文本对应的出词置信度生成一条置信度特征。
分字置信度是指文本中每个字对应的置信度。可理解,在语音识别设备进行对语义请求进行语义理解时,通常是对一段时长内的语音请求以词为单位进行语义理解,例如,语音请求为“打开窗户”,则根据“打开窗户”的语义而生成“打开”和“窗户”两个词以及“打开”和“窗户”对应的出词置信度。而词是由字组成,因此,可根据出词置信度来得到分字置信度。
具体地,在语音请求的文本和文本对应的出词置信度后,根据每个出词置信度得到每个词中每个字对应的分字置信度,再根据文本以及文本对应的分字置信度进行处理生成置信度特征。也即是,置信度特征可以由文本和文本对应的置信度构成。
进一步地,在步骤03中,可根据置信度特征的中文本的语义来合并上下文置信度特征,从而生成目标置信度特征。例如,上下文置信度特征的文本分别包括“打开窗户”、“空调”和“23度”,因此,可根据上下文置信度特征的文本将文本“空调”和“23度”对应的置信度特征合并生成目标置信度特征。
在步骤04中,语义拒识模型可以为BERT(Bidirectional EncoderRepresentation from Transformers)模型中的预测模型,预设多模态模型为BERT模型中的训练模型。BERT模型是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。
本申请的语义拒识方法、语义拒识装置100和交通工具通过将语音请求生成的文本以及对应的出词置信度生成置信度特征,并根据上下文的置信度特征合并生成目标置信度特征,从而使得目标置信度特征包含了上下文的文本数据以及文本对应的置信度,如此,再利用训练好的语义拒识模型对目标置信度特征进行预测得到拒识结果,能够提高语义拒识准确率。
优选地,请参阅图3,在某些实施方式中,步骤02包括:
021:根据文本对应的出词置信度确定文本的分字置信度;
022:对分字置信度进行归一化处理以构建置信度词表;
023:根据文本和置信度词表生成置信度特征。
请进一步参阅图2,在某些实施方式中,步骤021-023可以由生成模块120来实现。或者说,生成模块120用于根据文本对应的出词置信度确定文本的分字置信度,对分字置信度进行归一化处理以确定构建置信度词表,以及根据文本和置信度词表生成目标置信度特征。
在某些实施方式中,处理器用于根据文本对应的出词置信度确定文本的分字置信度,对分字置信度进行归一化处理以确定构建置信度词表,以及根据文本和置信度词表生成目标置信度特征。
具体地,获取每个词对应的出词置信度,并出词置信度为依据,将每个出词置信度生成两个相等的分字置信度,每个分字字置信度对应一个字。在一个例子中,由出词置信度生成的分字置信度与出词置信度相同。
例如,语音请求设备根据用户输入语音进行语义理解而生成:[{"conf":0.99,"end":900,"pinyin":"da kai","start":750,"word":"打开"}{"conf":0.4, "end":1300,"pinyin":"chuang hu","start":1050,"word":"窗户"},{"conf":0.739,"end":1550, "pinyin":"feng su","start":1350,"word":"风速"},{"conf":1,"end":1700,"pinyin":"liang", "start":1650,"word":"两"},{"conf":1,"end":1850,"pinyin":"dang","start":1800,"word":"档"}]。
则文本和文本对应分字置信度为:打开窗户风速两档\t0.99,0.99,0.400,0.400,0.739,0.739,1.000,1.000。
进一步地,将每个分字置信度进行归一化处理得到目标分字置信度,每个目标分字置信度的数值范围在0-1000之间,例如,文本对打开窗户风速两档对应的分字置信度为t0.99,0.99,0.400,0.400,0.739,0.739,1.000,1.000,则进行归一化处理得到的目标分字置信度为t990,990,400,400,739,739,1000,1000。进而,再根据目标分字置信度构建文本对应的置信度词表。构建的置信度词表包括分隔符和目标分字置信度。置信度词表中每个数值大小可以为0-1002,其中,0-1000共1001个,用于表示目标分字置信度大小,1002用在2轮上下文的置信度特征中以起分隔作用。
最后再将上下文的置信度特征中的文本以及文本对应的置信度词表合并生成目标置信度特征。
例如:文本和文本对应分字置信度为打开窗户风速两档\t0.99,0.99,0.400,0.400,0.739,0.739,1.000,1.000,则得到的置信度特征为:打开窗户风速两档\t990,990,400,400,739,739,1000,1000。
如此,通过将文本和置信度词表生成置信度特征,建立了文本与置信度之间的联系,从而可根据置信度提高语义拒识准确率。
优选地,请参阅图4,在某些实施方式中,步骤03包括:
031:根据语音请求的设备标识和语音采集时间对对应的置信度特征进行排序;
032:将设备标识相同且处于预设倾听时长内的相邻置信度特征合并生成目标置信度特征。
在某些实施方式中,步骤031和032可以由合并模块130来实现。或者说,合并模块130用于根据语音请求的设备标识和语音采集时间对对应的置信度特征进行排序,并将设备标识相同且处于预设倾听时长内的相邻置信度特征合并生成目标置信度特征。
在某些实施方式中,处理器用于根据语音请求的设备标识和语音采集时间对对应的置信度特征进行排序,并将设备标识相同且处于预设倾听时长内的相邻置信度特征合并生成目标置信度特征。
设备标识可以为车辆身份标识、语音识别设备对应的标识等,可以理解地,在语音请求中,并非所有语音请求都为同一设备获取的,而只有在同一设备获取的语音请求生成的置信度特征才能合并,因此,在得到置信度特征后,可根据语音请求的设备标识对对应的置信度特征进行分类,将由同一设备获取的语音请求所生成的置信度特征归成一组,
进一步地,再对组内根据语音请求的语音采集时间从而对对应的置信度特征以进行排序,得到上下文的置信度特征,其中,语音采集时间可以为两轮倾听时长。最后合并生成目标置信度特征。
例如,多个置信度特征的文本分别为“打开车窗”“二十三度”“空调”,其中,“二十三度”和“空调”为车辆序号2的语音识别设备生成,“打开车窗”为车辆序号3的语音识别设备生成,并且,“打开车窗”“二十三度”“空调”的生成依次为:16:27:00、16:28:00和16:27:55,分则可将文本“二十三度”“空调”对应的置信度特征合并生成目标置信度特征,目标置信度特征为:空调[SEP]二十三度 1000,1000,1002,1000,1000,1000,1000。其中,1000为目标分字置信度,1002为分隔符。
如此,通过将上下文的置信度特征进行合并建立了关联关系,从而可根据目标置信度特征提高语义拒识准确率。
优选地,请参阅图5,在某些实施方式中,步骤04包括:
041:根据目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量;
042:根据分字特征向量、分句特征向量、位置特征向量提取文本编码信息;
043:根据置信度特征向量提取置信度编码信息;
044:拼接文本编码信息和置信度编码信息以做自注意力特征融合;
045:利用激活函数对自注意力特征融合的结果进行处理以得到拒识结果。
在某些实施方式中,步骤041-045可以处理模块140来实现。或者说,处理模块140用于根据目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量,根据分字特征向量、分句特征向量、位置特征向量提取文本编码信息,根据置信度特征向量提取置信度编码信息,拼接文本编码信息和置信度编码信息以做自注意力特征融合,并利用激活函数对自注意力特征融合的结果进行处理以得到拒识结果。
在某些实施方式中,处理器用于根据目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量,根据分字特征向量、分句特征向量、位置特征向量提取文本编码信息,根据置信度特征向量提取置信度编码信息,拼接文本编码信息和置信度编码信息以做自注意力特征融合,并利用激活函数对自注意力特征融合的结果进行处理以得到拒识结果。
Bert模型包括有Bert-Embedding模型、bert-encoder模型和bilstm-encoder模型,步骤041可通过Bert-Embedding模型实现。步骤042可以通过bert-encoder模型实现,步骤043可以通过bilstm-encoder模型实现。embedding本质上是建立一个从one-hot编码到m维的稠密向量的映射 word embedding。Bert-Embedding模型包括模型参数“asrconf_vocab_size”,用于表示分字置信度词表大小。bert-encoder模型是标准的bert-encoder模型,可使用12层muti-head-attention, 再加1个dense层和1个layer_norm层。
具体地,在步骤041中,确定目标置信度特征的起止位,其中,起止位是表征目标置信度特征的起始位置和终止位置。进而,设置目标置信度特征的超参数,目标置信度特征的超参数表征目标置信度特征的字符长度,超参数可以根据位置特征向量和置信度设置,目标置信度特征的超参数最大可以设置为33。进而根据起止位和超参数的大小对目标置信度特征进行补齐操作。最后再根据补齐后的目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和置信度特征向量。
需要说明的是,分字特征向量、分句特征向量、位置特征向量由补齐后的目标置信度特征中的文本生成,置信度特征向量由目标置信度特征中的目标分字置信度生成。其中,分字特征向量、分句特征向量、位置特征向量分别对应BERT模型的输入token_embedding、segment_embedding和position_embedding。
例如,目标置信度特征为:打开窗户风速两档[SEP]二十三度 \t 990,990,400,400,739,739,1000,1000,1002,990,990,990,1000。则根据目标置信度特征进行补齐后得到的目标置信度特征为:[CLS]打开窗户风速两档[SEP]二十三度000000000000000000[CLS]\t 1002,990,990,400,400,739,739,1000,1000,1002,990,990,990,1000,1002,1002, 1002..... 1002。
其中,[CLS]表征起止符,[SEP]表征分隔符,并且一个[CLS]、[SEP]代表一个字符,1002代表置信度填充符,0表征文本填充符。
进一步地,请结合图6,在步骤42中,可通过bert-encoder模型对分字特征向量、分句特征向量、位置特征向量进行特征提取以得到文本编码信息。文本编码信息为:[batch_size, max_seq_length, hidden_size] 其中,hidden_size为隐层大小,length为长度,batch_size为批量大小。
在步骤43中,通过bilstm-encoder模型对置信度特征向量做单层双向的lstm特征提取以得到置信度编码信息。置信度编码信息为:[batch_size, max_seq_length,hidden_size]其中,hidden_size为隐层大小,length为字数的个数。batch_size为批量大小。
最后,将拼接文本编码信息和置信度编码信息以做自注意力特征融合得到注意力特征融合结果,注意力特征融合结果为[batch_size, max_seq_length, 2*hidden_size],再利用激活函数softmax对自注意力特征融合的结果进行处理以得到拒识结果。
优选地,请参阅图7,在某些实施方式中,语义拒识方法还包括:
001:获取训练语音请求的训练文本以及训练文本对应的训练出词置信度;
002:根据训练文本以及对应的训练出词置信度生成训练置信度特征,训练置信度特征包括训练文本和训练文本对应的训练分字置信度;
003:将上下文的训练置信度特征合并生成目标训练置信度特征;
004:确定目标训练置信度特征的训练识别结果;
005:利用目标训练置信度特征和训练识别结果对预设多模态模型进行训练以得到训练好的语义拒识模型。
在某些实施方式中,语义拒识装置还包括训练模块150。步骤001可以由获取模块110实现,步骤002可以由生成模块120实现,步骤003可以由合并模块130实现,步骤007可以由处理模块140实现,步骤005可以由训练模块150实现。或者说,获取模块110用于获取训练语音请求的训练文本以及训练文本对应的训练出词置信度。生成模块120用于根据训练文本以及对应的训练出词置信度生成训练置信度特征,训练置信度特征包括训练文本和训练文本对应的训练分字置信度。合并模块130用于将上下文的训练置信度特征合并生成目标训练置信度特征。处理模块140用于确定目标训练置信度特征的训练识别结果。训练模块150用于利用目标训练置信度特征和训练识别结果对预设多模态模型进行训练以得到训练好的语义拒识模型。
在某些实施方式中,处理器用于获取训练语音请求的训练文本以及训练文本对应的训练出词置信度,根据训练文本以及对应的训练出词置信度生成训练置信度特征,训练置信度特征包括训练文本和训练文本对应的训练分字置信度,将上下文的训练置信度特征合并生成目标训练置信度特征,确定目标训练置信度特征的训练识别结果,以及利用目标训练置信度特征和训练识别结果对预设多模态模型进行训练以得到训练好的语义拒识模型。
其中,利用目标训练置信度特征和训练识别结果对预设多模态模型进行训练以得到训练好的语义拒识模型。如此,可以利用目标训练置信度特征和训练识别结果对预设多模态模型进行训练以得到训练好的语义拒识模型,从而根据语义拒识模型得到拒识结果。
训练语音请求的训练文本以及训练文本对应的训练出词置信度为采集好并识别的结果。
训练识别结果可以由用户定义或根据历史识别并正确执行指令对应的识别结果。
本申请实施方式还提供了一个或多个存储有计算机程序的非易失性计算机可读存储介质,当计算机程序被一个或多个处理器执行时,实现上述任一实施方式的自动构建方法。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。同时,参考术语“第一”、“第二”等的描述意在将同类或相似操作区别开来,“第一”与“第二”之间在某些实施方式中具有前后逻辑关系,在某些实施方式中并不一定具有逻辑或前后关系,需要根据实际实施例进行判定,不应该仅通过字面意思进行判定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (8)

1.一种语义拒识方法,其特征在于,所述语义拒识方法包括:
获取语音请求的文本以及所述文本对应的出词置信度;
根据所述文本以及对应的所述出词置信度生成置信度特征,所述置信度特征包括所述文本和所述文本对应的分字置信度;
将上下文的所述置信度特征合并生成目标置信度特征;
利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果,所述语义拒识模型根据预设多模态模型训练得到;
其中,所述利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果包括:
确定所述目标置信度特征的起止位;
设置所述目标置信度特征的超参数;
根据所述起止位和所述超参数对所述目标置信度特征进行补齐操作;
根据补齐后的所述目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和所述置信度特征向量;
根据所述分字特征向量、所述分句特征向量、所述位置特征向量提取文本编码信息;
根据所述置信度特征向量提取置信度编码信息;
拼接所述文本编码信息和所述置信度编码信息以做自注意力特征融合;
利用激活函数对所述自注意力特征融合的结果进行处理以得到所述拒识结果。
2.根据权利要求1所述语义拒识方法,其特征在于,所述根据所述文本以及对应的所述出词置信度构造生成置信度特征包括:
根据所述文本对应的出词置信度确定所述文本的分字置信度;
对所述分字置信度进行归一化处理以构建置信度词表;
根据所述文本和所述置信度词表生成所述置信度特征。
3.根据权利要求1所述语义拒识方法,其特征在于,所述将上下文的所述置信度特征合并生成目标置信度特征包括:
根据所述语音请求的设备标识和语音采集时间对对应的所述置信度特征进行排序;
将所述设备标识相同且处于预设倾听时长内的相邻所述置信度特征合并生成所述目标置信度特征。
4.根据权利要求1所述语义拒识方法,其特征在于,所述根据所述分字特征向量、所述分句特征向量、所述位置特征向量提取文本编码信息包括:
通过bert-encoder模型对所述分字特征向量、所述分句特征向量、所述位置特征向量进行特征提取以得到所述文本编码信息,所述bert-encoder模型包括多个muti-head-attention层、dense层和layer_norm层;
所述根据所述置信度特征向量提取置信度编码信息,包括:
对所述置信度特征向量做单层双向的lstm特征提取以得到所述置信度编码信息。
5.根据权利要求1所述语义拒识方法,其特征在于,所述语义拒识方法还包括:
获取训练语音请求的训练文本以及所述训练文本对应的训练出词置信度;
根据所述训练文本以及对应的所述训练出词置信度生成训练置信度特征,所述训练置信度特征包括所述训练文本和所述训练文本对应的训练分字置信度;
将上下文的所述训练置信度特征合并生成目标训练置信度特征;
确定所述目标训练置信度特征的训练识别结果;
利用所述目标训练置信度特征和所述训练识别结果对预设多模态模型进行训练以得到训练好的所述语义拒识模型。
6.一种语义拒识装置,其特征在于,包括:
获取模块,用于获取语音请求的文本以及所述文本对应的出词置信度;
生成模块,用于根据所述文本以及对应的所述出词置信度生成置信度特征,所述置信度特征包括所述文本和所述文本对应的分字置信度;
合并模块,用于将上下文的所述置信度特征合并生成目标置信度特征;
处理模块,用于利用训练好的语义拒识模型对所述目标置信度特征进行预测得到拒识结果,所述语义拒识模型根据预设多模态模型训练得到;
所述处理模块具体用于确定所述目标置信度特征的起止位;
设置所述目标置信度特征的超参数;
根据所述起止位和所述超参数对所述目标置信度特征进行补齐操作;
根据补齐后的所述目标置信度特征确定分字特征向量、分句特征向量、位置特征向量和所述置信度特征向量;
根据所述分字特征向量、所述分句特征向量、所述位置特征向量提取文本编码信息;
根据所述置信度特征向量提取置信度编码信息;
拼接所述文本编码信息和所述置信度编码信息以做自注意力特征融合;
利用激活函数对所述自注意力特征融合的结果进行处理以得到所述拒识结果。
7.一种交通工具,其特征在于,所述交通工具包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-5任一项所述的语义拒识方法。
8.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-5任一项所述的语义拒识方法。
CN202110769934.1A 2021-07-08 2021-07-08 语义拒识方法、语义拒识装置、交通工具及介质 Active CN113221580B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110769934.1A CN113221580B (zh) 2021-07-08 2021-07-08 语义拒识方法、语义拒识装置、交通工具及介质
EP21204719.5A EP4086894A1 (en) 2021-07-08 2021-10-26 Semantic recognition rejection method, semantic recognition rejection apparatus, transportation means, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110769934.1A CN113221580B (zh) 2021-07-08 2021-07-08 语义拒识方法、语义拒识装置、交通工具及介质

Publications (2)

Publication Number Publication Date
CN113221580A CN113221580A (zh) 2021-08-06
CN113221580B true CN113221580B (zh) 2021-10-12

Family

ID=77081187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110769934.1A Active CN113221580B (zh) 2021-07-08 2021-07-08 语义拒识方法、语义拒识装置、交通工具及介质

Country Status (2)

Country Link
EP (1) EP4086894A1 (zh)
CN (1) CN113221580B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质
CN113822020B (zh) * 2021-11-22 2022-07-08 亿咖通(湖北)技术有限公司 文本处理方法、设备、存储介质
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质
CN115457945B (zh) * 2022-11-10 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN117033637B (zh) * 2023-08-22 2024-03-22 镁佳(北京)科技有限公司 无效对话拒识模型训练方法、无效对话拒识方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN109147793A (zh) * 2018-08-17 2019-01-04 南京星邺汇捷网络科技有限公司 语音数据的处理方法、装置及系统
US10448115B1 (en) * 2016-09-28 2019-10-15 Amazon Technologies, Inc. Speech recognition for localized content
US10599774B1 (en) * 2018-02-26 2020-03-24 Facebook, Inc. Evaluating content items based upon semantic similarity of text
CN110956959A (zh) * 2019-11-25 2020-04-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质
CN111583919A (zh) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN112309384A (zh) * 2019-08-28 2021-02-02 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004079720A1 (en) * 2003-03-01 2004-09-16 Robert E Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US10860637B2 (en) * 2017-03-23 2020-12-08 International Business Machines Corporation System and method for rapid annotation of media artifacts with relationship-level semantic content
CN107910005B (zh) * 2017-11-16 2021-06-01 海信集团有限公司 交互文本的目标业务定位方法及装置
CN109871528A (zh) * 2017-12-04 2019-06-11 上海智臻智能网络科技股份有限公司 语音数据的语义识别方法及装置、存储介质、计算机设备
CN109359211B (zh) * 2018-11-13 2024-05-07 平安科技(深圳)有限公司 语音交互的数据更新方法、装置、计算机设备和存储介质
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
CN110992944B (zh) * 2019-12-17 2022-05-10 广州小鹏汽车科技有限公司 语音导航的纠错方法、语音导航装置、车辆和存储介质
CN112000787B (zh) * 2020-08-17 2021-05-14 上海小鹏汽车科技有限公司 语音交互方法、服务器和语音交互系统
CN112667076A (zh) * 2020-12-23 2021-04-16 广州橙行智动汽车科技有限公司 一种语音交互的数据处理方法和装置
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
US10448115B1 (en) * 2016-09-28 2019-10-15 Amazon Technologies, Inc. Speech recognition for localized content
US10599774B1 (en) * 2018-02-26 2020-03-24 Facebook, Inc. Evaluating content items based upon semantic similarity of text
CN109147793A (zh) * 2018-08-17 2019-01-04 南京星邺汇捷网络科技有限公司 语音数据的处理方法、装置及系统
CN112309384A (zh) * 2019-08-28 2021-02-02 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及介质
CN110956959A (zh) * 2019-11-25 2020-04-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质
CN111583919A (zh) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 信息处理方法、装置及存储介质

Also Published As

Publication number Publication date
EP4086894A1 (en) 2022-11-09
CN113221580A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221580B (zh) 语义拒识方法、语义拒识装置、交通工具及介质
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
US8548806B2 (en) Voice recognition device, voice recognition method, and voice recognition program
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
JP2008268340A (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
JP2008233678A (ja) 音声対話装置、音声対話方法、及び音声対話用プログラム
US11069351B1 (en) Vehicle voice user interface
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN110120221A (zh) 用于车机系统的用户个性化离线语音识别方法及其系统
CN113239178A (zh) 意图生成方法、服务器、语音控制系统和可读存储介质
CN105609105A (zh) 语音识别系统和语音识别方法
US11682400B1 (en) Speech processing
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
US11961524B2 (en) System and method for extracting and displaying speaker information in an ATC transcription
CN111737990A (zh) 一种词槽填充方法、装置、设备及存储介质
CN113128284A (zh) 一种多模态情感识别方法和装置
CN114758653A (zh) 对话系统、具有对话系统的车辆以及控制对话系统的方法
CN116450799B (zh) 一种应用于交通管理服务的智能对话方法及设备
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈系统
CN116189657A (zh) 一种多模态语音识别纠错方法和系统
CN115985317A (zh) 信息处理方法、装置、车辆及存储介质
CN112687296A (zh) 音频不流利的识别方法、装置、设备及可读存储介质
CN112241467A (zh) 一种音频查重的方法和装置
CN115410561B (zh) 基于车载多模交互的语音识别方法及装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant