CN113223497A - 智能语音识别处理方法及系统 - Google Patents

智能语音识别处理方法及系统 Download PDF

Info

Publication number
CN113223497A
CN113223497A CN202011435627.1A CN202011435627A CN113223497A CN 113223497 A CN113223497 A CN 113223497A CN 202011435627 A CN202011435627 A CN 202011435627A CN 113223497 A CN113223497 A CN 113223497A
Authority
CN
China
Prior art keywords
voice
characteristic information
voice characteristic
target
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011435627.1A
Other languages
English (en)
Inventor
王俊锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Leiangyun Intelligent Technology Co ltd
Original Assignee
Shanghai Leiangyun Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Leiangyun Intelligent Technology Co ltd filed Critical Shanghai Leiangyun Intelligent Technology Co ltd
Priority to CN202011435627.1A priority Critical patent/CN113223497A/zh
Publication of CN113223497A publication Critical patent/CN113223497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开一种智能语音识别处理方法及系统,旨在提升智能设备人机交互语音识别的准确率。该方法包括:采集多人发出的混合语音指令,从中提取出多个语音特征信息;将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。该系统包括上述技术方案所提的智能语音识别处理方法。

Description

智能语音识别处理方法及系统
技术领域
本发明涉及语音识别技术领域,尤其涉及一种智能语音识别处理方法及系统。
背景技术
随着互联网技术的发展,使用语音进行人机交互的智能设备越来越多,现有的语音交互系统有Siri、小蜜、Cortana、小冰、度秘等,语音人机交互相比较于传统的手动输入人机交互而言具备便捷高效的特点,具有广泛的应用场景,如何提升智能设备人机交互语音识别的准确率,成为当下需要急需解决的技术问题。
发明内容
本发明的目的在于提供一种智能语音识别处理方法及系统,能够提升智能设备人机交互语音识别的准确率。
为了实现上述目的,本发明的一方面提供一种智能语音识别处理方法,包括:
采集多人发出的混合语音指令,从中提取出多个语音特征信息;
将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;
基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。
优选地,从中提取出多个语音特征信息的方法包括:
对所述混合语音指令进行特征提取;
根据提取的所述特征进行语音分离,得到所述多个语音特征信息。
较佳地,将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息的方法包括:
计算全部所述语音特征信息的差异化均值;
分别基于每个所述语音特征信息以及所述差异化均值,计算出各所述语音特征信息对应的差异值;
筛选出最大差异值对应的所述语音特征信息,定义为目标语音特征信息。
优选地,在基于所述目标语音特征信息识别出用户意图,并执行与所述用户意图一致的操控指令之前还包括:
训练语音语料知识库,所述语音语料知识库包括多个语音特征信息和与语音特征信息对应的意图类别;
分别对每个语音特征信息进行向量化计算,得到每个语音特征信息的向量;
对每个语音特征信息的向量及对应的意图类别进行分类模型训练,获取意图分类模型;
从所述语音语料知识库中获取关键词,对所述关键词进行训练构建词向量模型。
优选地,基于所述目标语音特征信息识别出用户意图的方法包括:
将所述目标语音特征信息进行预处理和文本处理提取多个关键词;
计算各所述关键词的TF-IDF值,得所述目标语音特征信息向量;
使用所述词向量模型搜寻所述目标语音特征信息向量中的0项词,以及匹配所述词向量模型中与所述0项词词义最接近的相似词;
将所述相似词乘以Cosine相似度替换所述0项词,所述0项词为在所述目标语音特征信息中出现而未在所述词向量模型中出现的关键词;
计算替换后的所述目标语音特征信息向量,将其输入所述意图分类模型得到所述目标语音特征信息向量的用户意图。
较佳地,执行对应的操控指令之前还包括:
根据识别出的用户意图,结合获取的用户动作指令,生成对应的操控指令。
与现有技术相比,本发明提供的智能语音识别处理方法具有以下有益效果:
本发明提供的智能语音识别处理方法中,通过麦克采集由多人发出的混合语音指令,从混合语音指令中提取出多个语音特征信息,然后对多个语音指令的语音特征信息进行差异化对比,并根据差异化对比的结果确定其中的目标语音特征信息,最终基于目标语音特征信息识别出用户意图,执行与用户意图对应的操作。可见,本发明可以有效解决在多人说话场景下语言识别效果差导致难以准确执行用户下的效果。
本发明的第二方面提供一种智能语音识别处理系统,包括:
语音采集单元,用于采集多人发出的混合语音指令,从中提取出多个语音特征信息;
语音筛选单元,用于将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;
意图识别单元,用于基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。
优选地,所述语音采集单元包括:
特征提取模块,用于对所述混合语音指令进行特征提取;
语音分离模块,用于根据提取的所述特征进行语音分离,得到所述多个语音特征信息。
优选地,所述语音筛选单元包括:
第一计算模块,用于计算全部所述语音特征信息的差异化均值;
第二计算模块,用于分别每个所述语音特征信息以及所述差异化均值,计算出各所述语音特征信息对应的差异值;
筛选模块,用于筛选出最大差异值对应的所述语音特征信息,定义为目标语音特征信息。
与现有技术相比,本发明提供的智能语音识别处理系统的有益效果与上述技术方案提供的智能语音识别处理方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述智能语音识别处理方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的智能语音识别处理方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一中智能语音识别处理方法的流程示意图;
图2为本发明实施例二中智能语音识别处理系统的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种智能语音识别处理方法,包括:
采集多人发出的混合语音指令,从中提取出多个语音特征信息;将多个语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;基于目标语音特征信息识别出用户意图,执行对应的操控指令。
本实施例提供的智能语音识别处理方法中,通过麦克采集由多人发出的混合语音指令,然后从混合语音指令中提取出多个语音特征信息,然后对多个语音指令的语音特征信息进行差异化对比,并根据差异化对比的结果确定其中的目标语音特征信息,最终基于目标语音特征信息识别出用户意图,执行与用户意图对应的操作。可见,本实施例可以有效解决在多人说话场景下语言识别效果差导致难以准确执行用户下的效果。
上述实施例中,从中提取出多个语音特征信息的方法包括:
对混合语音指令进行特征提取;根据提取的特征进行语音分离,得到多个语音特征信息。具体实施时,可以使用多人语音分离算法将混合语音指令中各个用户的语音特征信息分离。
上述实施例中,将多个语音特征信息做差异化比对,筛选出其中一个目标语音特征信息的方法包括:
计算全部语音特征信息的差异化均值;分别每个语音特征信息以及差异化均值,计算出各语音特征信息对应的差异值;筛选出最大差异值对应的语音特征信息,定义为目标语音特征信息。
具体实施时,可以预先配置语音特征的权重,语音特征包括语速、音色、音调和响度。假设语速为A、音色为B、音调为C、响度为D,混合语音指令中识别出语音特征信息1,语音特征信息2和语音特征信息3,语音特征信息1的语音特征为A1、B1、C1、D1,语音特征信息2的语音特征为A2、B2、C2、D2,语音特征信息3的语音特征为A3、B3、C3、D3,若事先设置的语速A的权重系数为K1、音色B的权重系数为K2,音调C的权重系数为K3,响度D的权重系数为K4,全部所述语音特征信息的差异化均值为A=(A1+A2+A3)/3,B=(B1+B2+B3)/3,C=(C1+C2+C3)/3,D=(D1+D2+D3)/3,然后计算语音特征信息1的差异值X1=K1(A1-A)+K2(B1-B)+K3(C1-C)+K4(D1-D),计算语音特征信息2的差异值X2=K1(A2-A)+K2(B2-B)+K3(C2-C)+K4(D2-D),计算语音特征信息3的差异值X3=K1(A3-A)+K2(B3-B)+K3(C3-C)+K4(D3-D),然后比较X1、X2和X3的绝对值大小,挑选出绝对值最大的定义为目标语音特征信息。
上述实施例中,在基于目标语音特征信息识别出用户意图,并执行与用户意图一致的操控指令之前还包括:
训练语音语料知识库,语音语料知识库包括多个语音特征信息和与语音特征信息对应的意图类别;分别对每个语音特征信息进行向量化计算,得到每个语音特征信息的向量;对每个语音特征信息的向量及对应的意图类别进行分类模型训练,获取意图分类模型;从语音语料知识库中获取关键词,对关键词进行训练构建词向量模型。
具体实施时,通过人工整理语音语料,得到针对智能设备操控的各种语音语料,然后对应的在每个语音语料上标注意图类别,建立包括语音特征信息和用户意图的语音语料知识库;接着将语音语料知识库中的各语音语料向量化计算并利用SVM训练模型对其进行分类模型训练,得到意图分类模型,通过意图分类模型匹配用户当前语音语料向量与语音语料知识库中的语音语料向量,得到用户当前意图,但是,在实际操作中由于人工整理的语音语料以及标注的意图类别数据量有限,而用户的语音语料形式又多种多样,这样就会导致用户换句不换意时,意图分类模型就会因匹配不成功而输出两种截然不同的用户意图,从而降低了对用户意图识别的准确性,因此,为了避免上述情况的发生,本实施例通过构建词向量模型,将匹配不成功的当前语音语料向量中的0项词替换成与词向量模型中最相似的词,进而利用上述意图分类模型根据替换后的问句向量得到当前问句的用户意图。
具体地,对目标语音特征信息进行预处理和文本处理以提取问句中的多个关键词;计算各关键词的TF-IDF值,生成问句向量。
其中,计算关键词TF-IDF值的方法包括:计算关键词在目标语音特征知识库中出现的频率,得到词频TF;将语音特征知识库中包含关键词目标语音特征信息的数量除以语音特征知识库中语音特征信息的总数量,得到的商取对数得到逆向文件频率IDF;词频TF乘以逆向文件频率IDF得到关键词的TF-IDF值。
文本处理是指在预处理后,对目标语音特征信息进行敏感词过滤,去停用词、文本纠错、分词处理中的一种或多种,得到目标语音特征信息中的多个关键词,对于文本处理可采用viterbi方法、HMM方法和CRF方法中的一种或多种。
本实施中从语音特征知识库中获取关键词,并对关键词进行训练得到词向量模型的方法为:提取语音特征知识库各语音特征信息中的关键词,得到关键词集合;使用Word2Vec对关键词集合进行训练得到词向量模型。
本实施例中对目标语音特征信息进行向量化计算得到目标语音特征信息向量,利用词向量模型将语音特征信息向量中的0项词替换成与词向量模型中最相似的词的方法包括:
1、获取用户目标语音特征信息,对目标语音特征信息进行预处理和文本处理提取多个关键词;
2、计算各关键词的TF-IDF值,得到目标语音特征信息向量;
3、使用词向量模型搜寻目标语音特征信息向量中的0项词,以及匹配词向量模型中与0项词词义最接近的相似词;
4、将相似词乘以Cosine相似度替换0项词,所述0项词为在目标语音特征信息中出现而未在词向量模型中出现的关键词。
上述实施例中,执行对应的操控指令之前还包括:根据识别出的用户意图,结合获取的用户动作指令,生成对应的操控指令。例如,智能设备可通过用户意图获取一部分操作指令,通过用户动作指令获取另一部分操作指令,让后将这两部分操作指令整合成最终的针对智能设备的操控指令。例如,用户通过目标语音特征信息发出“播放音乐”,然后通过肢体动作“手指指向智能音箱”,最终得到的操控指令为“播放智能音箱中的音乐”。再例如,在相机开启之后,先接收到用户触发的动作“手摆出‘V’的姿势”,对其进行识别,得到识别结果;之后再接收到用户发送的语音指令“拍照”,经用户意图的识别检测,确认需要进行拍照处理,从而实现了快速“拍照”操作。
实施例二
请参阅图2,本实施例提供一种智能语音识别处理系统,包括:
语音采集单元,用于采集多人发出的混合语音指令,从中提取出多个语音特征信息;
语音筛选单元,用于将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;
意图识别单元,用于基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。
优选地,所述语音采集单元包括:
特征提取模块,用于对所述混合语音指令进行特征提取;
语音分离模块,用于根据提取的所述特征进行语音分离,得到所述多个语音特征信息。
优选地,所述语音筛选单元包括:
第一计算模块,用于计算全部所述语音特征信息的差异化均值;
第二计算模块,用于分别每个所述语音特征信息以及所述差异化均值,计算出各所述语音特征信息对应的差异值;
筛选模块,用于筛选出最大差异值对应的所述语音特征信息,定义为目标语音特征信息。
与现有技术相比,本发明实施例提供的智能语音识别处理系统的有益效果与上述实施例一提供的智能语音识别处理方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述智能语音识别处理优化方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的智能语音识别处理方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种智能语音识别处理方法,其特征在于,包括:
采集多人发出的混合语音指令,从中提取出多个语音特征信息;
将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;
基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。
2.根据权利要求1所述的方法,其特征在于,从中提取出多个语音特征信息的方法包括:
对所述混合语音指令进行特征提取;
根据提取的所述特征进行语音分离,得到所述多个语音特征信息。
3.根据权利要求2所述的方法,其特征在于,将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息的方法包括:
计算全部所述语音特征信息的差异化均值;
分别基于每个所述语音特征信息以及所述差异化均值,计算出各所述语音特征信息对应的差异值;
筛选出最大差异值对应的所述语音特征信息,定义为目标语音特征信息。
4.根据权利要求1所述的方法,其特征在于,在基于所述目标语音特征信息识别出用户意图,并执行与所述用户意图一致的操控指令之前还包括:
训练语音语料知识库,所述语音语料知识库包括多个语音特征信息和与语音特征信息对应的意图类别;
分别对每个语音特征信息进行向量化计算,得到每个语音特征信息的向量;
对每个语音特征信息的向量及对应的意图类别进行分类模型训练,获取意图分类模型;
从所述语音语料知识库中获取关键词,对所述关键词进行训练构建词向量模型。
5.根据权利要求4所述的方法,其特征在于,基于所述目标语音特征信息识别出用户意图的方法包括:
将所述目标语音特征信息进行预处理和文本处理提取多个关键词;
计算各所述关键词的TF-IDF值,得所述目标语音特征信息向量;
使用所述词向量模型搜寻所述目标语音特征信息向量中的0项词,以及匹配所述词向量模型中与所述0项词词义最接近的相似词;
将所述相似词乘以Cosine相似度替换所述0项词,所述0项词为在所述目标语音特征信息中出现而未在所述词向量模型中出现的关键词;
计算替换后的所述目标语音特征信息向量,将其输入所述意图分类模型得到所述目标语音特征信息向量的用户意图。
6.根据权利要求5所述的方法,其特征在于,执行对应的操控指令之前还包括:
根据识别出的用户意图,结合获取的用户动作指令,生成对应的操控指令。
7.一种智能语音识别处理系统,其特征在于,包括:
语音采集单元,用于采集多人发出的混合语音指令,从中提取出多个语音特征信息;
语音筛选单元,用于将多个所述语音特征信息做差异化比对,筛选出其中一个目标语音特征信息;
意图识别单元,用于基于所述目标语音特征信息识别出用户意图,执行对应的操控指令。
8.根据权利要求7所述的系统,其特征在于,所述语音采集单元包括:
特征提取模块,用于对所述混合语音指令进行特征提取;
语音分离模块,用于根据提取的所述特征进行语音分离,得到所述多个语音特征信息。
9.根据权利要求7所述的系统,其特征在于,所述语音筛选单元包括:
第一计算模块,用于计算全部所述语音特征信息的差异化均值;
第二计算模块,用于分别每个所述语音特征信息以及所述差异化均值,计算出各所述语音特征信息对应的差异值;
筛选模块,用于筛选出最大差异值对应的所述语音特征信息,定义为目标语音特征信息。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至6任一项所述方法的步骤。
CN202011435627.1A 2020-12-10 2020-12-10 智能语音识别处理方法及系统 Pending CN113223497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435627.1A CN113223497A (zh) 2020-12-10 2020-12-10 智能语音识别处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435627.1A CN113223497A (zh) 2020-12-10 2020-12-10 智能语音识别处理方法及系统

Publications (1)

Publication Number Publication Date
CN113223497A true CN113223497A (zh) 2021-08-06

Family

ID=77085792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435627.1A Pending CN113223497A (zh) 2020-12-10 2020-12-10 智能语音识别处理方法及系统

Country Status (1)

Country Link
CN (1) CN113223497A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN108469772A (zh) * 2018-05-18 2018-08-31 阿里巴巴集团控股有限公司 一种智能设备的控制方法和装置
CN109065051A (zh) * 2018-09-30 2018-12-21 珠海格力电器股份有限公司 一种语音识别处理方法及装置
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN110544488A (zh) * 2018-08-09 2019-12-06 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN111816180A (zh) * 2020-07-08 2020-10-23 北京声智科技有限公司 基于语音控制电梯的方法、装置、设备、系统及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN108469772A (zh) * 2018-05-18 2018-08-31 阿里巴巴集团控股有限公司 一种智能设备的控制方法和装置
CN110544488A (zh) * 2018-08-09 2019-12-06 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109065051A (zh) * 2018-09-30 2018-12-21 珠海格力电器股份有限公司 一种语音识别处理方法及装置
CN111816180A (zh) * 2020-07-08 2020-10-23 北京声智科技有限公司 基于语音控制电梯的方法、装置、设备、系统及介质

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
Xie et al. Speech emotion classification using attention-based LSTM
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN106485984B (zh) 一种钢琴的智能教学方法和装置
CN107369439B (zh) 一种语音唤醒方法和装置
CN110163181B (zh) 手语识别方法及装置
CN103092329A (zh) 一种基于唇读技术的唇语输入方法
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN103236261A (zh) 一种特定人语音识别的方法
CN108520752A (zh) 一种声纹识别方法和装置
CN116306317B (zh) 一种基于人工智能的aigc自动建模系统
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116010874A (zh) 基于深度学习多模态深尺度情感特征融合的情感识别方法
CN109933202B (zh) 一种基于骨传导的智能输入方法和系统
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN111930885B (zh) 文本话题的抽取方法、装置及计算机设备
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
CN113223497A (zh) 智能语音识别处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination