CN114694643A - 一种基于融合相似度计算的语音指令映射方法及系统 - Google Patents

一种基于融合相似度计算的语音指令映射方法及系统 Download PDF

Info

Publication number
CN114694643A
CN114694643A CN202210278882.2A CN202210278882A CN114694643A CN 114694643 A CN114694643 A CN 114694643A CN 202210278882 A CN202210278882 A CN 202210278882A CN 114694643 A CN114694643 A CN 114694643A
Authority
CN
China
Prior art keywords
similarity
instruction
text
voice
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210278882.2A
Other languages
English (en)
Inventor
赵崟江
姜卫平
李国华
郭忠武
殷松迁
张家斌
韩煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bohui Data Technology Co ltd
Original Assignee
Beijing Bohui Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bohui Data Technology Co ltd filed Critical Beijing Bohui Data Technology Co ltd
Priority to CN202210278882.2A priority Critical patent/CN114694643A/zh
Publication of CN114694643A publication Critical patent/CN114694643A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于融合相似度计算的语音指令映射方法及系统,通过语音识别、拼音校检、关键词提取、融合相似度计算等手段,大大提升了语音指令映射准确率,用户表达更灵活,且支持以高性能部署端侧设备,具有较好的应用优越性。将用户的口语化表达,精准地映射到标准指令,使用户不拘泥于标准指令表达,控制设备更加智能与人性化。同时该算法具有较高的效率,在端侧设备上能够以较低延迟匹配最佳指令。此外,该算法通用性较强,智能交互语音产品中均可使用。

Description

一种基于融合相似度计算的语音指令映射方法及系统
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于融合相似度计算的语音指令映射方法及系统。
背景技术
语音指令识别就是通过语音识别引擎将用户指令语音转化成文字,进一步映射为标准指令,继而控制目标设备执行相关指令,其应用场景如语音助手、智能音箱等。目前市面上大部分语音指令识别产品会支持一个标准的指令集,指令较为简单,并且它们要求用户准确无误地表达标准指令,才能被引擎正确识别,否则就会造成识别失败或误识别。由此可见,智能设备执行指令必须满足两个条件:(1)用户准确表达标准指令;(2)语音识别准确率较高。
为提升用户体验,支持口语化表达及降低对语音识别引擎的要求,需要将语音识别结果文字与标准指令进行映射,即文本相似度匹配,也就是将语音识别出的文字和标准指令集中的指令逐个比较,选择相似度最高的指令作为结果指令,通用做法一般有:(1)传统方法:通过统计词频、句法分析等手段得到文本的向量化表示,然后计算相似度,得到相似度最高的文本;(2)深度学习方法:通过神经网络模型将文本转化成向量(如Word2vec和Bert),然后通过计算向量距离,得到相似度最高的文本。这两种方法虽然能够部分解决指令映射问题,但是映射结果往往不尽人意,口语表达和标准指令容易出现映射错误,用户体验较差。传统方法往往只考虑词频等特征,语义过于稀疏;而深度学习方法虽然能够表达丰富语义,但也受限于语音识别引擎结果,如果识别成同音字,也会影响文本相似度匹配结果,且语音指令往往比较简短,甚至有时不包含主语,给文本相似度匹配带来困难。
发明内容
为此,本发明提供一种基于融合相似度计算的语音指令映射方法及系统,以解决现有语音指令映射方法存在的映射准确率低、用户体验不佳的问题。
为了实现上述目的,本发明提供如下技术方案:
根据本发明实施例的第一方面,提出了一种基于融合相似度计算的语音指令映射方法,所述方法包括:
获取用户输入的语音指令信息并通过语音识别转换为文本信息;
对所述文本信息进行去助词和拼音校验处理;
对处理后的文本信息进行关键词提取并计算权重;
将文本信息和标准指令集中的每个标准指令进行文本相似度计算,所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度;
将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
进一步地,去助词处理,具体包括:
通过依存句法分析将识别结果中对指令映射过程无用的助词去掉。
进一步地,拼音校验处理,具体包括:
将标准指令集的所有标准指令生成拼音指令集;
将去助词处理后的文本句子转换成拼音表示;
基于所述拼音指令集对得到的拼音表示的文本句子进行校验,将文本中被识别为标准指令中某个字的同音字校验为正确结果,并将文本中缺失的字进行补全处理。
进一步地,对处理后的文本信息进行关键词提取并计算权重,具体包括:
对TF-IDF算法进行改进,计算文本中词汇的词频-逆文档频率,计算公式为:
TF-IDFw’=[log10(1+TFw)]1/θ*(IDFw)2
其中,TF-IDFw’为词频-逆文档频率,TFw为词频,IDFw为逆文档频率,参数θ结合短文本实验进行确定。
进一步地,融合相似度的计算,具体包括:
Fsim=αEDsim+(1-α)BERTsim
其中,Fsim为融合相似度,EDsim为基于最小编辑距离的相似度,BERTsim为基于语义向量距离的相似度,α为加权系数。
进一步地,基于最小编辑距离的相似度计算,具体包括:
Figure BDA0003557059730000031
其中,S1,S2为两个待比较的字符串文本,EDsim(S1,S2)为两个文本的相似度,d[s1,s2]为整数形式的两个文本的最小编辑距离,Lmax为两个句子的最长文本长度。
进一步地,基于语义向量距离的相似度计算,具体包括:
基于BERT预训练模型将提取到的关键词语转化成词向量,然后将每个词向量与计算得到的权重TF-IDFw’进行加权求和得到文本信息的句向量,最后使用余弦相似度方法进行相似度计算:
Figure BDA0003557059730000032
其中θ为两个句向量的夹角,xi,yi分别表示n维的文本信息的句向量和标准指令的句向量在某一个维度i的分量数值。
根据本发明实施例的第二方面,提出了一种基于融合相似度计算的语音指令映射系统,所述系统包括:
语音识别模块,用于获取用户输入的语音指令信息并通过语音识别转换为文本信息;
文本处理模块,用于对所述文本信息进行去助词和拼音校验处理;
关键词提取模块,用于对处理后的文本信息进行关键词提取并计算权重;
融合相似度计算模块,用于将文本信息和标准指令集中的每个标准指令进行文本相似度计算,所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度;
阈值判断模块,用于将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
本发明具有如下优点:
本发明提出了一种基于融合相似度计算的语音指令映射方法及系统,通过语音识别、拼音校检、关键词提取、融合相似度计算等手段,大大提升了语音指令映射准确率,用户表达更灵活,且支持以高性能部署端侧设备,具有较好的应用优越性。将用户的口语化表达,精准地映射到标准指令,使用户不拘泥于标准指令表达,控制设备更加智能与人性化。同时该算法具有较高的效率,在端侧设备上能够以较低延迟匹配最佳指令。此外,该算法通用性较强,智能交互语音产品中均可使用。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种基于融合相似度计算的语音指令映射方法的流程示意图;
图2为本发明实施例1提供的一种基于融合相似度计算的语音指令映射方法的执行流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1和图2所示,本实施例提出了一种基于融合相似度计算的语音指令映射方法,该方法包括:
S100、获取用户输入的语音指令信息并通过语音识别转换为文本信息。
一、语音输入:
通过麦克风等音频设备,用户表达自己的口语指令,如“请帮我把空调打开”。
二、语音识别:
将用户语音通过语音识别引擎转换成文字,若识别引擎识别效果较好,会精准识别出语音中的每一个字(如“请帮我把空调打开”),如果识别引擎识别效果欠佳,可能会产生如下错误:
识别结果出现同音字,如“请帮我把空调大开”。
识别结果会出现缺字情况,如“请帮我把空调开”。
这两种情况出现概率较高,尤其是第一种情况。
语音识别结果不准确会影响相似度计算的准确率,因此需要进行去助词和拼音校检。
S200、对文本信息进行去助词和拼音校验处理。
三、去助词:
通过依存句法分析将识别结果中对指令映射过程无用的助词去掉,如“请、把”等助词。
四、拼音校检:
首先,将标准指令集的所有指令生成一个拼音指令集,如“打开空调”—>“dakaikongtiao”;然后,将去除助词以后的句子进行拼音表示,如:
①帮我空调打开—>“bang wo kong tiao dakai”
②帮我空调大开—>“bang wo kong tiao dakai”
③帮我空调开—>“bang wo kong tiao kai”
通过以上操作可以看到:
语音识别结果可能把标准指令中的某些字识别成同音字。通过拼音进行校检,可以把同音字校检成正确的结果,如②中“大开”便可以纠正成“打开”。
语音识别结果可能会发生缺字情况。如③中,语音识别结果将“打开”识别成了“开”、或者“打”字。因为标准指令集中,指令较为固定、简单,这里我们制定相关规则,如果出现缺字情况,就进行相应的补全,即“开”或者“打”补全为“打开”。
S300、对处理后的文本信息进行关键词提取并计算权重。
五、关键词提取(改进TF-IDF):
在拼音校检的基础上使用TF-IDF(Term Frequency–Inverse DocumentFrequency)进行关键词提取,即寻找一句中最重要的词汇,并计算相应的权重。TF-IDF称为词频-逆文档频率。
TFw:词频,表示该词在文本中出现的频率。
Figure BDA0003557059730000061
IDFw:逆文档频率,一般定义为由总文章数目除以包含该词文章的数目,然后取对数得到。若句子中词没有重复的,则权重相同。
Figure BDA0003557059730000062
本实施例中,包含该词语w的文章总数为用户输入的短句数,若用户输入的句子为单句,则包含该词语w的文章总数为1,语料库中的文章总数为每个字或词语在句子中出现的频次。
最后,
TF-IDFw=TFw*IDFw 公式(3)
在TF-IDF的计算中,字词的重要性随着它在特定文章中出现的次数成正比增加,但同时会随着它在语料库不同文章中出现的频率成反比下降。通过TF-IDF计算,可以得到每个字或词在句中的权重,算法倾向于过滤掉常见词语,保留重要词语。
本发明所涉及的语音指令一般为短文本。由于短文本的数据稀疏性,导致TF-IDF对权重的区分度严重不足,因此本发明提出了TF-IDF的改进算法。
(1)针对原算法中的TFw计算公式,修改如下:
TFw′=[log10(1+TFw)]1/θ 公式(4)
与原TFw相比,本发明针对短文本字数少、词频低,难以从词频信息判断词的重要性的特点,对原TFw进行log10对数及1/θ幂次方处理,降低TFw的权重。式中参数θ,可结合短文本实验确定,针对空调指令映射场景,θ=3效果最佳。
(2)针对原算法中的IDFw计算公式,修改如下:
IDFw′=(IDFw)2 公式(5)
与原IDFw相比,对原IDFw进行平方处理,加大IDFw的权重,其目的在于降低高频且无意义词汇对结果的影响。
综上,改进后的权重计算公式为:
TF-IDFw’=TFw’*IDFw’=[log10(1+TFw)]1/θ*(IDFw)2 公式(6)
S400、将文本信息和标准指令集中的每个标准指令进行文本相似度计算,相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度。
六、最小编辑距离计算:
最小编辑距离(EditDistance)是文本相似度计算的一种算法,主要用于比较两个文本的相似度,其核心思想为一个文本通过插入、删除、替换等单个字符操作转变成另一个文本所需要的最小操作数量。而指令具有句子简短的特点,相似文本之间会有较多的共有词,因此适合通过编辑距离计算相似度。最小编辑距离最终结果为整数的形式,为了便于比较,本发明采用比值的形式对结果进行改进变换,如:
Figure BDA0003557059730000081
其中,S1,S2为两个待比较的字符串文本,EDsim(S1,S2)为两个文本的相似度,d[s1,s2]为两个文本的最小编辑距离(整数形式),Lmax为两个句子的最长文本长度。
七、语义向量距离计算:
语义向量化是从深度学习的语义特征角度考虑,通过事先训练好的模型将文本转换成向量,用于文本相似度计算。
本发明基于BERT(全称Bidirectional-Encoder-Representation-from-Transformers)预训练模型将词语转化成词向量,然后将每个词向量与改进的TF-IDF权重进行加权求和得到输入文本的句向量,最后使用余弦相似度的方法进行相似度计算,即
Figure BDA0003557059730000082
其中xi,yi分别表示输入文本的句向量和标准指令的句向量在某一个维度i的分量数值。
八、融合相似度匹配
最小编辑距离方法基于短文本、词量少以及共有词的角度出发,计算文本相似度;语义向量距离方法基于深层次语义特征层面,将文本向量化,进而计算相似度。本发明综合上述两种方法,采用线性加权融合方式计算文本相似度,可有效提升计算准确度。具体公式如下:
Fsim=αEDsim+(1-α)BERTsim 公式(9)
实践中,可通过实验调节α因子,来使Fsim相似度结果最佳。针对指令识别场景,由于文本较短、且容易出现共有词,所以应该削弱EDsim对最终结果的影响。如:对于空调指令映射场景,α取值0.32,效果最佳。
S500、将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
九、阈值判断:
根据计算出的最佳相似度分数Fsim与系统预先设定的阈值(0.8)作比较,如果最佳匹配分数小于阈值,认为系统没有找到对应的标准指令,需要重新输入语音指令;否则,将相似度最高的标准指令作为目标设备执行指令。
本发明基于语义相似度的语音指令识别算法,通过语音识别、拼音校检、关键词提取、融合相似度计算等手段,将用户的口语化表达,精准地映射到标准指令,使用户不拘泥于标准指令表达,控制设备更加智能与人性化。同时该算法具有较高的效率,在端侧设备上能够以较低延迟匹配最佳指令。此外,该算法通用性较强,智能交互语音产品中均可使用。
通过在安卓智能中控语音助手产品中得到成功应用。用户通过语音说出想让设备执行的指令,产品对用户语音进行识别,并映射成标准指令,驱动设备执行。该产品中,语音识别可靠、指令映射准确、用户响应及时,取得了很好的实施效果和用户认可度。
本发明与现有同类技术的比较:
Figure BDA0003557059730000091
实施例2
与上述实施例1相对应的,本实施例提出了一种基于融合相似度计算的语音指令映射系统,所述系统包括:
语音识别模块,用于获取用户输入的语音指令信息并通过语音识别转换为文本信息;
文本处理模块,用于对所述文本信息进行去助词和拼音校验处理;
关键词提取模块,用于对处理后的文本信息进行关键词提取并计算权重;
融合相似度计算模块,用于将文本信息和标准指令集中的每个标准指令进行文本相似度计算,所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度;
阈值判断模块,用于将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
本发明实施例提供的一种基于融合相似度计算的语音指令映射系统中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种基于融合相似度计算的语音指令映射方法,其特征在于,所述方法包括:
获取用户输入的语音指令信息并通过语音识别转换为文本信息;
对所述文本信息进行去助词和拼音校验处理;
对处理后的文本信息进行关键词提取并计算权重;
将文本信息和标准指令集中的每个标准指令进行文本相似度计算,所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度;
将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
2.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,去助词处理,具体包括:
通过依存句法分析将识别结果中对指令映射过程无用的助词去掉。
3.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,拼音校验处理,具体包括:
将标准指令集的所有标准指令生成拼音指令集;
将去助词处理后的文本句子转换成拼音表示;
基于所述拼音指令集对得到的拼音表示的文本句子进行校验,将文本中被识别为标准指令中某个字的同音字校验为正确结果,并将文本中缺失的字进行补全处理。
4.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,对处理后的文本信息进行关键词提取并计算权重,具体包括:
对TF-IDF算法进行改进,计算文本中词汇的词频-逆文档频率,计算公式为:
TF-IDFw’=[log10(1+TFw)]1/θ*(IDFw)2
其中,TF-IDFw’为词频-逆文档频率,TFw为词频,IDFw为逆文档频率,参数θ结合短文本实验进行确定。
5.根据权利要求1所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,融合相似度的计算,具体包括:
Fsim=αEDsim+(1-α)BERTsim
其中,Fsim为融合相似度,EDsim为基于最小编辑距离的相似度,BERTsim为基于语义向量距离的相似度,α为加权系数。
6.根据权利要求5所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,基于最小编辑距离的相似度计算,具体包括:
Figure FDA0003557059720000021
其中,S1,S2为两个待比较的字符串文本,EDsim(S1,S2)为两个文本的相似度,d[s1,s2]为整数形式的两个文本的最小编辑距离,Lmax为两个句子的最长文本长度。
7.根据权利要求5所述的一种基于融合相似度计算的语音指令映射方法,其特征在于,基于语义向量距离的相似度计算,具体包括:
基于BERT预训练模型将提取到的关键词语转化成词向量,然后将每个词向量与计算得到的权重TF-IDFw’进行加权求和得到文本信息的句向量,最后使用余弦相似度方法进行相似度计算:
Figure FDA0003557059720000022
其中θ为两个句向量的夹角,xi,yi分别表示n维的文本信息的句向量和标准指令的句向量在某一个维度i的分量数值。
8.一种基于融合相似度计算的语音指令映射系统,其特征在于,所述系统包括:
语音识别模块,用于获取用户输入的语音指令信息并通过语音识别转换为文本信息;
文本处理模块,用于对所述文本信息进行去助词和拼音校验处理;
关键词提取模块,用于对处理后的文本信息进行关键词提取并计算权重;
融合相似度计算模块,用于将文本信息和标准指令集中的每个标准指令进行文本相似度计算,所述相似度采用最小编辑距离和语义向量距离的线性加权融合计算得到的融合相似度;
阈值判断模块,用于将得到的最高相似度值与预设阈值进行比较,若超过预设阈值,则将最高相似度对应的标准指令作为目标设备执行指令。
CN202210278882.2A 2022-03-21 2022-03-21 一种基于融合相似度计算的语音指令映射方法及系统 Pending CN114694643A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210278882.2A CN114694643A (zh) 2022-03-21 2022-03-21 一种基于融合相似度计算的语音指令映射方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210278882.2A CN114694643A (zh) 2022-03-21 2022-03-21 一种基于融合相似度计算的语音指令映射方法及系统

Publications (1)

Publication Number Publication Date
CN114694643A true CN114694643A (zh) 2022-07-01

Family

ID=82139044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210278882.2A Pending CN114694643A (zh) 2022-03-21 2022-03-21 一种基于融合相似度计算的语音指令映射方法及系统

Country Status (1)

Country Link
CN (1) CN114694643A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547313A (zh) * 2022-09-20 2022-12-30 海南大学 一种基于驾驶员语音控制行驶车辆急停的方法
CN117289992A (zh) * 2023-09-04 2023-12-26 九科信息技术(深圳)有限公司 Rpa指令执行方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547313A (zh) * 2022-09-20 2022-12-30 海南大学 一种基于驾驶员语音控制行驶车辆急停的方法
CN117289992A (zh) * 2023-09-04 2023-12-26 九科信息技术(深圳)有限公司 Rpa指令执行方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108564940B (zh) 语音识别方法、服务器及计算机可读存储介质
US9336769B2 (en) Relative semantic confidence measure for error detection in ASR
Bellegarda Latent semantic mapping: Principles and applications
US7251600B2 (en) Disambiguation language model
CN114694643A (zh) 一种基于融合相似度计算的语音指令映射方法及系统
WO2021139266A1 (zh) 融合外部知识的bert模型的微调方法、装置及计算机设备
US20110224982A1 (en) Automatic speech recognition based upon information retrieval methods
CN1979638A (zh) 一种语音识别结果纠错方法
US20120095766A1 (en) Speech recognition apparatus and method
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN112767925B (zh) 语音信息识别方法及装置
CN112489655B (zh) 一种特定领域的语音识别文本纠错方法、系统和存储介质
CN107093422A (zh) 一种语音识别方法和语音识别系统
CN101334998A (zh) 基于异类模型区分性融合的汉语语音识别系统
CN102999533A (zh) 一种火星文识别方法和系统
CN112434513A (zh) 一种基于依存语义注意力机制的词对上下位关系训练方法
CN116955559A (zh) 问答匹配方法、装置、电子设备及存储介质
Wang et al. L2 mispronunciation verification based on acoustic phone embedding and Siamese networks
CN103548015A (zh) 索引用于文件检索的文件的方法、装置及计算机可读媒介
CN115525749A (zh) 语音问答方法、装置、电子设备和存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
Lee et al. Grammatical error detection for corrective feedback provision in oral conversations
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN110827807B (zh) 一种语音识别的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination