CN110931018A - 智能语音交互的方法、装置及计算机可读存储介质 - Google Patents
智能语音交互的方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110931018A CN110931018A CN201911219749.4A CN201911219749A CN110931018A CN 110931018 A CN110931018 A CN 110931018A CN 201911219749 A CN201911219749 A CN 201911219749A CN 110931018 A CN110931018 A CN 110931018A
- Authority
- CN
- China
- Prior art keywords
- semantic text
- voice signal
- voice
- user
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010183 spectrum analysis Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种智能语音交互的方法。所述智能语音交互的方法包括:获取待识别的语音信号;利用识别模型识别所述语音信号并输出第一语义文本;将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。本发明结合预设的用户语料库和识别模型分别输出的第一语义文本、第二语义文本,并在此基础上进一步确定所述语音信号的目标语义文本,保证了语音控制的准确性,给用户带来更好的控制体验。
Description
技术领域
本发明涉及语音交互技术领域,具体而言,涉及一种智能语音交互的方法、装置及计算机可读存储介质。
背景技术
随着人工智能技术的日益成熟,人们的生活开始走向智能化,各种智能设备逐渐进入人们的日常生活中。语音交互作为智能设备应用中主流的交互方式之一,其交互的方式通常只考虑机器的对语音的翻译识别结果,并未考虑到用户语料库,即用户表达的多样化,对于用户的交互语音可能会做出错误的理解,从而导致智能交互设备做出错误的响应,带来较差的用户体验。
因此,业内亟需一种能解决上述问题的技术方案。
发明内容
本发明提供了一种智能语音交互的方法,以提高语音交互控制的准确性,给用户带来更好的控制体验。
对应地,本发明提供了一种智能语音交互的装置及一种计算机可读存储介质。
本发明具体采用如下技术方案:
第一方面,本发明提供了一种智能语音交互的方法。
所述智能语音交互的方法包括:
获取待识别的语音信号;
利用识别模型识别所述语音信号并输出第一语义文本;
将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
具体地,所述利用识别模型识别所述语音信号并输出第一语义文本的步骤之前,还包括:
对所述语音信号预处理去噪。
具体地,所述对所述语音信号预处理去噪的步骤中,具体包括:
对所述语音信号进行频谱分析;
将所述频谱分析后的语音信号按照预设的规则过滤去噪。
具体地,所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,根据所述声纹特征匹配所述语音信号对应的用户语料库。
进一步地,所述用户语料库具有多个,一个所述用户语料库对应一个所述声纹特征。
具体地,所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中,具体包括:
确定所述第一语义文本和所述第二语义文本所对应的概率系数,分别对所述第一语义文本和所述第二语义文本根据所述概率系数加权计算,得到计算后的目标语义文本。
进一步地,还包括:
根据所述目标语义文本更新所述用户语料库。
具体地,所述用户语料库包括通用的用户语料库和特定的用户语料库;所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,通过声纹模型进行匹配;
若匹配成功,则调用特定的用户语料库;若否,则选择调用通用的用户语料库。
第二方面,本发明提供一种智能语音交互的装置。
所述智能语音交互的装置包括:
获取模块,用于获取待识别的语音信号;
识别模块,用于利用识别模型识别所述语音信号并输出第一语义文本;
匹配模块,用于将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
确定模块,用于根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的智能语音交互的方法的步骤。
相比于现有技术,本发明的方案具有以下优点:
本发明中,利用了当前的识别模型识别翻译所述待识别的语音信号为第一语义文本,在此基础上,结合预设的用户语料库输出的第二语义文本,结合所述第一语义文本和第二语义文本输出目标语义文本,综合了机器的语音识别功能及考虑特定用户的差异化,提高了语音控制的准确性,给用户带来更好的控制体验。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种智能语音交互的方法的一种实施例的方法流程图;
图2为本发明中一种智能语音交互的方法的另一种实施例的方法流程图;
图3为本发明中一种智能语音交互的装置的一种实施例的结构图;
图4为本发明中一种智能语音交互的装置的另一种实施例的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
第一方面,本发明提供了一种智能语音交互的方法。
如图1,示出了本发明的一种智能语音交互的方法的一种实施例的流程。
所述智能语音交互的方法包括步骤S101、步骤S102、步骤S103和步骤S104。其中:
步骤S101.获取待识别的语音信号;
当前,绝大部分的智能设备均能实现语音交互的功能,如电视机、手机、智能手表、智能空调等。本发明中,执行主体为具有语音交互功能的智能设备。
智能设备通过麦克风阵列进行语音信号的获取,并对所获取的语音信号进行识别。
步骤S102.利用识别模型识别所述语音信号并输出第一语义文本;
本发明中,利用当前智能设备的惯用的识别模型对所述语音信号进行识别,以输出第一语义文本,所述第一语义文本为识别模型对获取到的待识别的有效的语音信号进行语义理解处理得到的语义理解结果。在现有技术中,智能设备可以根据所述第一语义文本确定人有效的所述语音信号所对应的语音指令,以完成人与智能设备之间的语音交互。本发明实施例中,智能设备是根据第一语义文本和第二语义文本确定所述语音信号所对应的语音指令,以完成人与智能设备之间的语音交互。
步骤S103.将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
所述用户语料库用于存储用户的语音信息及所述语音信息对应的第二语义文本等数据。
在本发明的一种具体的实施例中,所述用户语料库包括通用的用户语料库和特定的用户语料库。特定的用户语料库是专属某个用户的用户语料库,其用于记录和更新该专属用户的语音信号及语音信号对应的语义文本等。通用的用户语料库,为新用户先前未在系统或设备上有相关语音记录时,初次触发所匹配的。当然,当所获取的语音信号无法与所述特定的用户语料库相匹配时,其亦会匹配通用的用户语料库。初次匹配完后,为该新用户创建一个专属于该新用户的特定的用户语料库。
本发明中,建立用户语料库时,用户发出语音信息,提取所述语音特征并保存,精确定位用户,有针对性的搭建用户语料库。一个用户对应一个语音特征,一个语音特征对应一个用户语料库。所述语音特征用于区别不同的用户。其中,语音特征可以为声纹特征。例如,获取甲的语音信息,提取所述语音特征,建立一个甲的用户语料库;获取乙的语音信息,提取所述语音特征,建立一个乙的用户语料库。
由于不同的人,说话的习惯跟风格不一,建立用户语料库,匹配所获取的语音信号,输出该语音信号所对应的第二语义文本,有助于语音信号识别的个性化,快速实现语音信号的识别跟提高语音信号识别的准确性。
本发明实施例中,所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,通过声纹模型进行匹配;
若匹配成功,则调用特定的用户语料库;若否,则选择调用通用的用户语料库。
步骤S104.根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
本发明中,利用了当前的识别模型识别翻译所述待识别的语音信号为第一语义文本,在此基础上,结合预设的用户语料库输出的第二语义文本,结合所述第一语义文本和第二语义文本输出目标语义文本,从而根据所述目标语义文本对应的控制指令实现与智能设备的语音交互。本发明综合了机器的识别模型的语音识别功能及考虑特定用户的差异化,提高了语音控制的准确性,给用户带来更好的控制体验。
如图2,示出了本发明中一种智能语音交互的方法的另一种实施例的方法流程。
本实施例中,所述步骤S102之前,还包括步骤S1010。其中,
步骤S1010.对所述语音信号预处理去噪。
在获取语音信号后,为减少误识别率,有必要对所述语音信号做预处理,从而将一些带噪语音信号在前端处理后,获得有效的语音信号。
在本发明的一种具体的实施例中,所述对所述语音信号预处理去噪的步骤中,具体包括:
对所述语音信号进行频谱分析;
将所述频谱分析后的语音信号按照预设的规则过滤去噪。
本实施例中,对语音信号进行频谱分析后,根据实际的应用情形指定相应的过滤规则,过滤掉与噪音相关的波形,达到去噪的效果,得到有效的语音信号。
一种具体的实施例中,所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,根据所述声纹特征匹配所述语音信号对应的用户语料库。
本实施例中,预先存储用户的语音信号,提取所存储的语音信号的声纹特征,为用户创建用户语料库并在所述用户语料库存储所存储的语音信号对应的语义文本。因此,当获取到智能设备上麦克风阵列等接收到的与交互相关的语音信号,提取该语音信号的声纹特征,可以根据该接收到的语音信号的声纹特征与预先存储的声纹特征所匹配,从而确定该接收到的语音信号的用户语料库。通过用户语料库,可以有效地识别该接收到的语音信号所对应地第二语义文本。
例如,当前系统上存储的用户语料库包括1个通用的用户语料库和3个特定的用户语料库。其中,3个特定的用户语料库分别对应甲、乙、丙这3个用户。当智能设备获取到甲的语音信号进行识别时,若该语音信号有效,则智能设备会将甲的语音信号与甲的特定的用户语料库相匹配,并根据甲的特定的用户语料库对甲的语音信号进行识别,输出第二语义文本。
如上所述,在本发明实施例,所述用户语料库可以具有多个,一个所述用户语料库对应一个所述声纹特征。
在另一种具体的实施例中,所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中,具体包括:
确定所述第一语义文本和所述第二语义文本所对应的概率系数,分别对所述第一语义文本和所述第二语义文本根据所述概率系数加权计算,得到计算后的目标语义文本。
本实施例中,通过将基于存储的用户语料库的第二语义文本和识别模型输出的第一语义文本作对比,将第二语义文本和第一语义文本替换,从而获得第一语义文本和第二语义文本的概率,并将各概率加权计算得到目标语义文本。从而根据目标语义文本得到步骤S101中待识别的语音信号所对应的控制指令,以完成人与智能设备之间的语音交互。
进一步地,还包括:
根据所述目标语义文本更新所述用户语料库。
由于最终输出的目标语义文本与所述用户语料库当中的第二语义文本有区别,因此以最终输出的目标语义文本为准,将一语音信号所对应的目标语义文本替换该语音信号中用户语料库中的第二语义文本,并将所述目标语义文本存储于用户语料库中。
第二方面,本发明提供了一种智能语音交互的装置。
如图3,示出了本发明的一种智能语音交互的装置的一种实施例的结构。
所述智能语音交互的方法包括获取模块101、识别模块102、匹配模块103和确定模块104。其中:
获取模块101,用于获取待识别的语音信号;
当前,绝大部分的智能设备均能实现语音交互的功能,如电视机、手机、智能手表、智能空调等。本发明中,执行主体为具有语音交互功能的智能设备。
智能设备通过麦克风阵列进行语音信号的获取,并对所获取的语音信号进行识别。
识别模块102,用于利用识别模型识别所述语音信号并输出第一语义文本;
本发明中,利用当前智能设备的惯用的识别模型对所述语音信号进行识别,以输出第一语义文本,所述第一语义文本为识别模型对获取到的待识别的有效的语音信号进行语义理解处理得到的语义理解结果。在现有技术中,智能设备可以根据所述第一语义文本确定人有效的所述语音信号所对应的语音指令,以完成人与智能设备之间的语音交互。本发明实施例中,智能设备是根据第一语义文本和第二语义文本确定所述语音信号所对应的语音指令,以完成人与智能设备之间的语音交互。
匹配模块103,用于将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
所述用户语料库用于存储用户的语音信息及所述语音信息对应的第二语义文本等数据。
在本发明的一种具体的实施例中,所述用户语料库包括通用的用户语料库和特定的用户语料库。特定的用户语料库是专属某个用户的用户语料库,其用于记录和更新该专属用户的语音信号及语音信号对应的语义文本等。通用的用户语料库,为新用户先前未在系统或设备上有相关语音记录时,初次触发所匹配的。当然,当所获取的语音信号无法与所述特定的用户语料库相匹配时,其亦会匹配通用的用户语料库。初次匹配完后,为该新用户创建一个专属于该新用户的特定的用户语料库。
本发明中,建立用户语料库时,用户发出语音信息,提取所述语音特征并保存,精确定位用户,有针对性的搭建用户语料库。一个用户对应一个语音特征,一个语音特征对应一个用户语料库。所述语音特征用于区别不同的用户。其中,语音特征可以为声纹特征。例如,获取甲的语音信息,提取所述语音特征,建立一个甲的用户语料库;获取乙的语音信息,提取所述语音特征,建立一个乙的用户语料库。
由于不同的人,说话的习惯跟风格不一,建立用户语料库,匹配所获取的语音信号,输出该语音信号所对应的第二语义文本,有助于语音信号识别的个性化,快速实现语音信号的识别跟提高语音信号识别的准确性。
本发明实施例中,所述匹配模块103中,具体包括:
提取单元,用于提取所述语音信号的声纹特征,通过声纹模型进行匹配;
调用单元,用于若匹配成功,则调用特定的用户语料库;若否,则选择调用通用的用户语料库。
确定模块104,用于根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
本发明中,利用了当前的识别模型识别翻译所述待识别的语音信号为第一语义文本,在此基础上,结合预设的用户语料库输出的第二语义文本,结合所述第一语义文本和第二语义文本输出目标语义文本,从而根据所述目标语义文本对应的控制指令实现与智能设备的语音交互。本发明综合了机器的识别模型的语音识别功能及考虑特定用户的差异化,提高了语音控制的准确性,给用户带来更好的控制体验。
如图4,示出了本发明中一种智能语音交互的装置的另一种实施例的结构。
本实施例中,还包括去噪模块1010。其中,
去噪模块1010,用于对所述语音信号预处理去噪。
在获取语音信号后,为减少误识别率,有必要对所述语音信号做预处理,从而将一些带噪语音信号在前端处理后,获得有效的语音信号。
在本发明的一种具体的实施例中,所述去噪模块1010中,具体包括:
分析单元,用于对所述语音信号进行频谱分析;
过滤单元,用于将所述频谱分析后的语音信号按照预设的规则过滤去噪。
本实施例中,对语音信号进行频谱分析后,根据实际的应用情形指定相应的过滤规则,过滤掉与噪音相关的波形,达到去噪的效果,得到有效的语音信号。
一种具体的实施例中,所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,根据所述声纹特征匹配所述语音信号对应的用户语料库。
本实施例中,预先存储用户的语音信号,提取所存储的语音信号的声纹特征,为用户创建用户语料库并在所述用户语料库存储所存储的语音信号对应的语义文本。因此,当获取到智能设备上麦克风阵列等接收到的与交互相关的语音信号,提取该语音信号的声纹特征,可以根据该接收到的语音信号的声纹特征与预先存储的声纹特征所匹配,从而确定该接收到的语音信号的用户语料库。通过用户语料库,可以有效地识别该接收到的语音信号所对应地第二语义文本。
例如,当前系统上存储的用户语料库包括1个通用的用户语料库和3个特定的用户语料库。其中,3个特定的用户语料库分别对应甲、乙、丙这3个用户。当智能设备获取到甲的语音信号进行识别时,若该语音信号有效,则智能设备会将甲的语音信号与甲的特定的用户语料库相匹配,并根据甲的特定的用户语料库对甲的语音信号进行识别,输出第二语义文本。
如上所述,在本发明实施例,所述用户语料库可以具有多个,一个所述用户语料库对应一个所述声纹特征。
在另一种具体的实施例中,所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中,具体包括:
确定所述第一语义文本和所述第二语义文本所对应的概率系数,分别对所述第一语义文本和所述第二语义文本根据所述概率系数加权计算,得到计算后的目标语义文本。
本实施例中,通过将基于存储的用户语料库的第二语义文本和识别模型输出的第一语义文本作对比,将第二语义文本和第一语义文本替换,从而获得第一语义文本和第二语义文本的概率,并将各概率加权计算得到目标语义文本。从而根据目标语义文本得到获取模块101中待识别的语音信号所对应的控制指令,以完成人与智能设备之间的语音交互。
进一步地,还包括更新模块。其中,更新模块:用于根据所述目标语义文本更新所述用户语料库。
由于最终输出的目标语义文本与所述用户语料库当中的第二语义文本有区别,因此以最终输出的目标语义文本为准,将一语音信号所对应的目标语义文本替换该语音信号中用户语料库中的第二语义文本,并将所述目标语义文本存储于用户语料库中。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的智能语音交互的方法的步骤。
以上对本发明所提供的技术方案的实施例进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种智能语音交互的方法,其特征在于,包括:
获取待识别的语音信号;
利用识别模型识别所述语音信号并输出第一语义文本;
将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
2.根据权利要求1所述的智能语音交互的方法,其特征在于,所述利用识别模型识别所述语音信号并输出第一语义文本的步骤之前,还包括:
对所述语音信号预处理去噪。
3.根据权利要求2所述的智能语音交互的方法,其特征在于,所述对所述语音信号预处理去噪的步骤中,具体包括:
对所述语音信号进行频谱分析;
将所述频谱分析后的语音信号按照预设的规则过滤去噪。
4.根据权利要求1所述的智能语音交互的方法,其特征在于,所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,根据所述声纹特征匹配所述语音信号对应的用户语料库。
5.根据权利要求4所述的智能语音交互的方法,其特征在于,所述用户语料库具有多个,一个所述用户语料库对应一个所述声纹特征。
6.根据权利要求5所述的智能语音交互的方法,其特征在于,所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中,具体包括:
确定所述第一语义文本和所述第二语义文本所对应的概率系数,分别对所述第一语义文本和所述第二语义文本根据所述概率系数加权计算,得到计算后的目标语义文本。
7.根据权利要求6所述的智能语音交互的方法,其特征在于,还包括:
根据所述目标语义文本更新所述用户语料库。
8.根据权利要求1所述的智能语音交互的方法,其特征在于,所述用户语料库包括通用的用户语料库和特定的用户语料库;所述将所述语音信号与预设的用户语料库进行匹配的步骤中,具体包括:
提取所述语音信号的声纹特征,通过声纹模型进行匹配;
若匹配成功,则调用特定的用户语料库;若否,则选择调用通用的用户语料库。
9.一种智能语音交互的装置,其特征在于,包括:
获取模块,用于获取待识别的语音信号;
识别模块,用于利用识别模型识别所述语音信号并输出第一语义文本;
匹配模块,用于将所述语音信号与预设的用户语料库进行匹配,确定所述语音信号对应的用户语料库并输出第二语义文本;
确定模块,用于根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至8所述的智能语音交互的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911219749.4A CN110931018A (zh) | 2019-12-03 | 2019-12-03 | 智能语音交互的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911219749.4A CN110931018A (zh) | 2019-12-03 | 2019-12-03 | 智能语音交互的方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110931018A true CN110931018A (zh) | 2020-03-27 |
Family
ID=69848478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911219749.4A Pending CN110931018A (zh) | 2019-12-03 | 2019-12-03 | 智能语音交互的方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931018A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933107A (zh) * | 2020-09-04 | 2020-11-13 | 珠海格力电器股份有限公司 | 语音识别方法、装置、存储介质和处理器 |
CN113380241A (zh) * | 2021-05-21 | 2021-09-10 | 珠海格力电器股份有限公司 | 语义交互的调整方法、装置、语音设备及存储介质 |
CN113539261A (zh) * | 2021-06-30 | 2021-10-22 | 大众问问(北京)信息科技有限公司 | 人机语音交互方法、装置、计算机设备和存储介质 |
WO2022007823A1 (zh) * | 2020-07-10 | 2022-01-13 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
CN104078045A (zh) * | 2013-03-26 | 2014-10-01 | 联想(北京)有限公司 | 一种识别的方法及电子设备 |
CN104778946A (zh) * | 2014-01-10 | 2015-07-15 | 中国电信股份有限公司 | 语音控制方法和系统 |
CN107146622A (zh) * | 2017-06-16 | 2017-09-08 | 合肥美的智能科技有限公司 | 冰箱、语音交互系统、方法、计算机设备、可读存储介质 |
CN107240398A (zh) * | 2017-07-04 | 2017-10-10 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN108242235A (zh) * | 2016-12-23 | 2018-07-03 | 三星电子株式会社 | 电子设备及其语音识别方法 |
CN109215638A (zh) * | 2018-10-19 | 2019-01-15 | 珠海格力电器股份有限公司 | 一种语音学习方法、装置、语音设备及存储介质 |
CN109360563A (zh) * | 2018-12-10 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
-
2019
- 2019-12-03 CN CN201911219749.4A patent/CN110931018A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
CN104078045A (zh) * | 2013-03-26 | 2014-10-01 | 联想(北京)有限公司 | 一种识别的方法及电子设备 |
CN104778946A (zh) * | 2014-01-10 | 2015-07-15 | 中国电信股份有限公司 | 语音控制方法和系统 |
CN108242235A (zh) * | 2016-12-23 | 2018-07-03 | 三星电子株式会社 | 电子设备及其语音识别方法 |
CN107146622A (zh) * | 2017-06-16 | 2017-09-08 | 合肥美的智能科技有限公司 | 冰箱、语音交互系统、方法、计算机设备、可读存储介质 |
CN107240398A (zh) * | 2017-07-04 | 2017-10-10 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
CN109215638A (zh) * | 2018-10-19 | 2019-01-15 | 珠海格力电器股份有限公司 | 一种语音学习方法、装置、语音设备及存储介质 |
CN109360563A (zh) * | 2018-12-10 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022007823A1 (zh) * | 2020-07-10 | 2022-01-13 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
CN111933107A (zh) * | 2020-09-04 | 2020-11-13 | 珠海格力电器股份有限公司 | 语音识别方法、装置、存储介质和处理器 |
CN113380241A (zh) * | 2021-05-21 | 2021-09-10 | 珠海格力电器股份有限公司 | 语义交互的调整方法、装置、语音设备及存储介质 |
CN113380241B (zh) * | 2021-05-21 | 2024-03-08 | 珠海格力电器股份有限公司 | 语义交互的调整方法、装置、语音设备及存储介质 |
CN113539261A (zh) * | 2021-06-30 | 2021-10-22 | 大众问问(北京)信息科技有限公司 | 人机语音交互方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN110970018B (zh) | 语音识别方法和装置 | |
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN107945792B (zh) | 语音处理方法和装置 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
US20170270922A1 (en) | Smart home control method based on emotion recognition and the system thereof | |
CN108766446A (zh) | 声纹识别方法、装置、存储介质及音箱 | |
CN109036395A (zh) | 个性化的音箱控制方法、系统、智能音箱及存储介质 | |
WO2017217046A1 (ja) | 情報処理装置及び情報処理方法 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
WO2014018004A1 (en) | Feature normalization inputs to front end processing for automatic speech recognition | |
WO2023184942A1 (zh) | 语音交互方法、装置及电器 | |
CN111179903A (zh) | 一种语音识别方法、装置、存储介质及电器 | |
CN110211609A (zh) | 一种提升语音识别准确率的方法 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN115410572A (zh) | 语音交互方法、装置、终端、存储介质及程序产品 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的系统 | |
CN113160821A (zh) | 一种基于语音识别的控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200413 Address after: 519000 Guangdong city of Zhuhai Province Qianshan Applicant after: GREE ELECTRIC APPLIANCES,Inc.OF ZHUHAI Applicant after: GREE GREEN REFRIGERATION TECHNOLOGY CENTER Co.,Ltd. OF ZHUHAI Address before: 519000 Guangdong city of Zhuhai Province Qianshan Applicant before: GREE ELECTRIC APPLIANCES,Inc.OF ZHUHAI |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |