CN116564293A - 语音意图识别方法、装置、电子设备及存储介质 - Google Patents
语音意图识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116564293A CN116564293A CN202310578177.9A CN202310578177A CN116564293A CN 116564293 A CN116564293 A CN 116564293A CN 202310578177 A CN202310578177 A CN 202310578177A CN 116564293 A CN116564293 A CN 116564293A
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- alternative
- voice
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000001514 detection method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种语音意图识别方法、装置、电子设备及存储介质,该方法包括:通过获取目标文本数据,根据目标文本数据匹配出多个第一备选标签,从而得到第一备选语义数据,根据第一备选语义数据确定出优选语义数据,并通过将优选语义数据与目标文本数据进行相似度计算,从而判断出优选语义数据对应的优选语义意图是否符合用户实际意图。因此,本发明在确定优选语义数据后,还要判断优选语义数据与目标文本数据的相似度才能确定出用户真实意图,即通过多重比对方式确定用户的实际意图,提高了用户意图的判断准确性,提高用户体验。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音意图识别方法、装置、电子设备及存储介质。
背景技术
随着信息技术和人工智能的发展,语音识别技术得到了广泛的应用。例如,一些企业会用智能语音技术代替客服人员来协助用户办理业务或提供服务,而为了提高服务效率,通常还可对用户说的话进行意图识别,根据识别出的用户意图选择相应的回应或操作。
相关技术在基于用户的语音信息对用户进行意图识别时,往往是将用户的语音信息和该语音信息转换成的文本,作为识别用户意图的模型的输入,并根据该识别用户意图的模型的输出,确定出一个该用户的意图。但是,单一的输出结果,只能对一些用户意图较为简单的语音进行意图识别,而当用户处于复杂的语境和环境下,用户的意图则较为复杂,若只根据用户的语音信息和对应文本难以准确确定出用户实际意图。例如在与用户交互时,用户使用了容易被识别成同音字词或者谐音字词的字或词汇,导致在将该用户的语音转换成文本后,文本被错误识别成对应的同音字词或者谐音字词,导致文本含义改变。因此,在相关技术中,仅根据用户的语音信息和对应文本难以识别出这些情况下用户的真正意图,这就导致用户意图识别不准确,甚至出错。
发明内容
本发明提供语音意图识别方法、装置、电子设备及存储介质,以解决上述语音意图识别不准确的技术问题。
本发明实施例提供的一种语音意图识别方法,所述语音意图识别方法包括:获取待识别语音数据,对所述待识别语音数据进行识别,得到初始文本数据;根据所述初始文本数据和预设的修正文本数据生成目标文本数据;根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据;根据多个所述第一备选语义数据确定优选语义数据;将所述优选语音数据与目标文本数据进行相似度计算,以根据计算结果完成语音意图识别。
于本发明的一实施例中,根据所述初始文本数据和预设的修文本数据生成目标文本数据,所述修正文本数据包括位置环境文本数据和习惯文本数据,包括以下至少之一:将所述位置环境文本数据对所述初始文本数据进行修正,生成目标文本数据;将所述习惯文本数据对所述初始文本数据进行修正,生成目标文本数据。
于本发明的一实施例中,分别将多个所述第一备选语义数据与所述初始文本数据进行相似度计算,得到多个第一相似度,将大于第一预设相似度阈值的第一相似度对应的第一备选语义数据,确定为优选语义数据;将多个所述第一备选标签进行拟合,得到第二备选标签,根据所述第二备选标签在预先设立的第二备选标签-第二备选语义数据对应关系中匹配出第二备选语义数据,将所述第二备选语义数据确定为优选语义数据。将所述第一备选语义数据对应的备选语音意图进行拟合,得到第三备选标签,根据所述第三备选标签在预先设立的第三备选标签-第三备选语义数据对应关系中匹配出第三备选语义数据,将所述第三备选语义数据确定为优选语义数据。
于本发明的一实施例中,将所述优选语音数据与目标文本数据进行相似度计算,以根据计算结果完成语音意图识别,包括:将所述优选语义数据与所述目标文本数据的进行相似度计算,得到第二相似度;若所述第二相似度大于预设的第二相似度阈值,则判定所述优选语义数据对应的优选语义意图符合用户意图。
于本发明的一实施例中,在根据多个第一备选语义数据获得优选语义数据之后,还包括:获取历史移动轨迹数据中的历史位置数据;将所述历史位置数据与所述优选语义数据的地点进行匹配;若匹配成功,则判定所述优选语义数据对应的优选语义意图符合用户意图。
于本发明的一实施例中,获取待识别语音数据,对所述待识别语音数据进行识别,得到初始文本数据,还包括:对所述待识别语音数据的最后一个字/词进行单独声源识别,识别出语音音调;根据所述语音音调判定所述初始文本数据的词句类型。
于本发明的一实施例中,在根据所述初始文本数据和修正文本数据生成目标文本数据之前,还包括:对所述待识别语音数据进行缺失检测,得到检测结果;若检测结果为存在缺失,则根据所述初始文本数据在预设的初始文本数据-目标样本语料文本数据的对应关系中匹配出目标样本预料数据;根据所述目标样本语料文本数据对所述初始文本数据进行补全。
于本发明的一实施例中,提供一种语音意图识别装置,包括:获取模块,获取多个待识别语音数据,对所述待识别语音数据进行识别,获得多个初始文本数据;生成模块,根据所述初始文本数据和预设的修正文本数据生成目标文本数据;匹配模块,根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据;确定模块,根据多个所述第一备选语义数据确定优选语义数据;计算模块,将所述优选语音数据与目标文本数据进行相似度计算,以根据计算结果完成语音意图识别。
本发明的有益效果:通过获取目标文本数据,根据目标文本数据匹配出多个第一备选标签,从而得到第一备选语义数据,根据第一备选语义数据确定出优选语义数据,并通过将优选语义数据与目标文本数据进行相似度计算,从而判断出优选语义数据对应的优选语义意图是否符合用户实际意图。因此,本发明在确定优选语义数据后,还要判断优选语义数据与目标文本数据的相似度才能确定出用户真实意图,即通过多重比对方式确定用户的实际意图,提高了用户意图的判断准确性,提高用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明的一示例性实施例示出的语音意图识别方法架构的示意图;
图2是本发明的一示例性实施例示出的语音意图识别方法的具体流程图;
图3是本发明的一示例性实施例示出的向量语义空间展示图;
图4是本发明的一示例性实施例示出的利用第一备选语义数据获取优选语义数据展示图;
图5是本发明的一示例性实施例示出的利用第一备选语义数据对应的第一备选意图获取优选语义数据展示图;
图6是本发明的一示例性实施例示出的语音意图识别装置的具体示意图;
图7是用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
向量语义即将文本的符号表示转换为语义空间中的向量表示。在类似的环境中不同事物产生出相似的特征,这一现象称为分布假设。而在语言中,处于相同语境中的不同词语也会出现类似的意义。根据词语所处语境,通过无监督方式学习到该词语的语义表示。向量语义即分布假设的实例化。
向量空间模型(Vector Space Model,VSM),即把对文本数据的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文本数据被表示为向量空间的向量,就可以通过计算向量之间的相似性来度量文本数据间的相似性。
语音识别通常称为自动语音识别(Automatic Speech Recognition,ASR),主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。
如图1所示,图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。如图1所示,系统架构可以包括语音获取装置110和电子设备120,语音获取装置获取待识别语音数据,将待识别语音数据发送给电子设备120,电子设备120对待识别语音数据进行识别得到初始文本数据。语音获取装置可以为麦克风,电子设备可以为手机、电脑或车机终端等。
请参阅图2,图2示出了根据本申请的一个实施例的语音意图识别方法的流程示意图。如图2所示,该语音意图识别方法至少包括步骤S210至步骤S250,详细介绍如下:
步骤S210,获取待识别语音数据,对待识别语音数据进行识别,得到初始文本数据。
在本申请的一个实施例中,对待识别语音数据进行识别,语音识别方法至少包括基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。
在本申请的一个实施例中,在对待识别语音数据进行识别之前,还包括:对待识别语音数据中的噪音进行滤除,以获取清晰的待识别语音数据,从而提高识别结果的准确性。
步骤S220,根据初始文本数据和预设的修正数据生成目标文本数据。
在本申请的一个实施例中,通过对目标文本数据和修正文本数据进行融合可以得到融合文本数据,然后对融合文本数据进行特征提取即可得到目标文本数据。
在本申请的一个实施例中,修正文本数据为交叉文本数据。若处于多人谈话的场景,根据用户的声纹特征确定出目标用户,对目标用户对应的待识别语音数据进行识别,得到初始文本数据。由于谈话的语音信息之间存在交叉性,因此可提取出交叉文本数据,在该实施例中,利用交叉文本数据对初始文本数据进行修正,得到目标文本数据。
在本申请的一个实施例中,修正文本数据为用户的闹钟数据,例如,初始文本数据为“起床吃饭”,用户的闹钟数据为“12:00”,则将闹钟数据和初始文本数据进行融合处理,得到的目标文本数据为“吃中午饭”。
步骤S230,根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据。
在本申请的一个实施例中,构建文本数据库,对文本数据可进行特征训练,以得到向量语义空间。请参阅图3,图3为向量语义空间的示意图。如图3所示,在向量语义空间中对语义数据进行标签标定,即确定语义数据的位置,目标文本数据对应多个标签,标签与语义数据为一一映射的关系。基于上述多人谈话的场景,根据初始文本数据和交叉文本数据得到目标文本数据,在向量语义空间中匹配出与目标文本数据对应的第一备选标签。由于多个用户交谈时,谈话内容一般是相关的,因此在多用户交谈的情况下,通过将多用户的语音数据的交叉文本数据对初始文本数据进行修正,从而能够更准确地判断出用户的真实意图,从而提高用户体验。
步骤S240,根据多个第一备选语义数据确定优选语义数据。
步骤S250,将优选语音数据与目标文本数据进行相似度计算,以根据计算结果完成语音意图识别。
由于在识别用户语音数据的时候,很可能识别成谐音或同音字,因此在确定出优选语义数据后,通过将优选语义数据与初始文本数据进行相似度计算,从而能够提高用户意图判断的准确性。
在图2所示实施例的技术方案中,通过获取目标文本数据,根据目标文本数据在匹配出多个第一备选标签,从而得到第一备选语义数据,根据第一备选语义数据确定出优选语义数据,并通过将优选语义数据与目标文本数据进行相似度计算,从而判断出优选语义数据对应的优选语义意图是否符合用户实际意图。这样,本发明在确定优选语义数据后,还要判断优选语义数据与目标文本数据的相似度才能确定出用户真实意图,即通过多重比对方式确定用户的实际意图,提高了用户意图的判断准确性,进而提高了用户体验。
在本申请的一个实施例中,在根据初始文本数据和预设的修正文本数据生成目标文本数据之前,还包括:对待识别语音数据进行缺失检测,得到检测结果;若检测结果为存在缺失,则根据初始文本数据在预设的初始文本数据-目标样本语料文本数据的对应关系中匹配出目标样本预料数据;根据目标样本语料文本数据对初始文本数据进行补全。在该实施例中,构建用户历史语音数据库,以获取用户历史语音信息文本,记作历史语料文本库,历史语料文本库中存储有初始文本数据-目标样本语料文本数据的对应关系。在该实施例中,初始文本数据为“关灯”,判断出缺失检测结果为存在缺失,则根据初始文本数据在预设的历史语料文本库中匹配出与初始文本数据对应的目标样本语料文本数据为“关灯睡觉”。根据目标样本语料文本数据“关灯睡觉”对初始文本数据“关灯”进行补全,得到补全后的初始文本数据为“关灯睡觉”。由于用户的语言习惯有所差异,对于说话习惯简短的用户,通过对待识别语音数据进行缺失检测,能够更加准确地确定出用户的真实意图。
在本申请的一个实施例中,根据初始文本数据和预设的修正文本数据生成目标文本数据,修正文本数据包括位置环境文本数据和习惯文本数据,包括:将位置环境文本数据对初始文本数据进行修正,生成目标文本数据。过地理位置和自然环境数据对初始文本数据进行修正,得到目标文本数据,能够提高语音意图判断的准确性,提高用户体验。
在本申请的一个实施例中,位置环境文本数据为用户的地理位置和自然环境数据,将地理位置和自然环境数据与初始文本数据修正,生成目标文本数据。在该实施例中,地理位置数据为“A大学B区”,自然环境参数据为天气数据。识别出的初始文本数据为“去室外打球”。获取“A大学B区”的天气数据为“雷暴”,地理位置和自然环境参数与初始文本数据融合生成目标文本数据“在室内打球”。根据目标文本数据在向量语义空间中匹配得到第一备选语义数据为“不想去室外打球”,“去室内篮球场打球”,“雨停后去室外打球”。通过地理位置和自然环境数据对初始文本数据进行修正,得到目标文本数据,能够提高语音意图判断的准确性,提高用户体验。
在本申请的一个实施例中,根据初始文本数据和预设的修正文本数据生成目标文本数据,修正文本数据还包括习惯文本数据,包括:将习惯文本数据对初始文本数据进行修正,生成目标文本数据。通过习惯文本数据对初始文本数据进行修正,得到目标文本数据,能够提高语音意图判断的准确性,提高用户体验。
在本申请的一个实施例中,习惯文本数据为闹钟时间,初始文本数据为“起床吃饭”,闹钟时间为“12:00”。结合初始文本数据和习惯文本数据得到目标文本数据为“吃午饭”。通过习惯文本数据对初始文本数据进行修正,得到目标文本数据,能够提高语音意图判断的准确性,提高用户体验。
在本申请的一个实施例中,根据多个第一备选语义数据确定优选语义数据,包括:分别将多个第一备选语义数据与初始文本数据进行相似度计算,得到多个第一相似度,将大于第一预设相似度阈值的第一相似度对应的第一备选语义数据,确定为优选语义数据;
在本申请的一个实施例中,根据多个第一备选语义数据确定优选语义数据,包括:将多个第一备选标签进行拟合,得到第二备选标签,根据第二备选标签在预先设立的第二备选标签-第二备选语义数据对应关系中匹配出第二备选语义数据,将第二备选语义数据确定为优选语义数据。由于第二备选标签是通过相关标签进行拟合而成,因此在数据维度,第二备选语义数据比第一备选语义数据更优质,因此,通过将相关标签进行拟合后,将拟合后的标签对应的语义数据确定为优选语义数据,而不是仅凭单一标签对应的语义数据确定优选语义数据,从而能够更加准确地判断语音意图,提高用户体验。
在本申请的一个实施例,请参阅图4,图4为第二备选标签获取优选语音数据展示图。第一备选语义数据对应的第一备选标签为标签1、标签5和标签3,标签1、标签5和标签3为相关标签,将标签1、标签5和标签3进行拟合得到第二备选标签,将第二备选标签对应的第二备选语义数据确定为优选语义数据。由于第二备选标签是通过相关标签进行拟合而成,因此在数据维度,第二备选语义数据比第一备选语义数据更优质,因此,通过将相关标签进行拟合后,将拟合后的标签对应的语义数据确定为优选语义数据,而不是仅凭单一标签对应的语义数据确定优选语义数据,从而能够更加准确地判断语音意图,提高用户体验。
在本申请的一个实施例中,根据多个第一备选语义数据确定优选语义数据,包括:将第一备选语义数据对应的备选语音意图进行拟合,得到第三备选标签,根据第三备选标签在预先设立的第三备选标签-第三备选语义数据对应关系中匹配出第三备选语义数据,将第三备选语义数据确定为优选语义数据。由于第三备选标签是通过相关语音意图进行拟合而成,因此在数据维度,第三备选标签对应的第三备选语义数据比第一备选语义数据更优质。这样,通过将多个语音意图进行拟合确定优选语义数据,而不是通过单一的语音意图确定语义数据,能够提高判断语音意图的准确性,从而提高用户体验。
在本申请的一个实施例,请参阅图5,图5为第三备选标签获取优选语音数据展示图。第三备选标签为语义意图节点标签,如图所示,将第一备选语义数据对应的备选语音意图转换成语音意图图文列表,语音意图图文列表中包括语音意图1、语音意图2...语音意图n,将语音意图图文列表中的所有语音意图进行拟合,形成第三备选标签语义意图节点标签,在向量语义空间中匹配出与第三备选标签对应的第三备选语义数据,从而得到优选语义数据。由于第三备选标签是通过相关语音意图进行拟合而成,因此在数据维度,第三备选标签对应的第三备选语义数据比第一备选语义数据更优质。这样,通过将多个语音意图进行拟合确定优选语义数据,而不是通过单一的语音意图确定语义数据,能够提高判断语音意图的准确性,从而提高用户体验。
在本申请的一个实施例中,将优选语音数据与目标文本数据进行相似度计算,以根据计算结果完成语音意图识别,包括:将优选语义数据与目标文本数据的进行相似度计算,得到第二相似度;若第二相似度大于预设的第二相似度阈值,则判定优选语义数据对应的优选语义意图符合用户意图。
在本申请的一个实施例中,将优选语义数据与目标文本数据的进行相似度计算,包括:通过余弦公式计算优选语义数据和目标文本数据的相似度。以判断优选语义数据对应的优选语义意图是否符合用户的真实意图。在该实施例中,通过以下公式计算相似度:
其中,和/>分别表示优选语义数据与初始文本数据的向量,计算两向量的夹角余弦值来进行相似度大小的匹配。余弦相似度,其测量的是向量间的夹角余弦,余弦基于点积,而点积可以作为相似度的测量指标,如果两个向量在同一个维度都有较大的值,点积结果就大。反之,向量在不同维度的值为零,点积结果也将为零,表示差异巨大。因而,其实质就是求向量夹角的余弦值,两个向量更相似时,余弦值较大,两向量的夹角越小。设置第二相似度阈值,若计算得出的余弦值大于第二相似度阈值,则确定优选语义数据与目标文本数据相似,即优选语音意图符合用户真实意图,若计算得出的余弦值小于或等于第二相似度阈值,则确定优选语义数据与目标文本数据不相似,即优选语音意图不符合用户真实意图。这样,通过多重比对的方式确定出最佳语音意图,提高了确定语音意图的准确性,提高了用户的体验。
在本申请的一个实施例中,根据多个第一备选语义数据获得优选语音意图之后,还包括:获取历史移动轨迹数据中的历史位置数据;将历史位置数据与优选语义数据的地点进行匹配;若匹配成功,则判定优选语义数据对应的优选语义意图符合用户意图。
在本申请的一个实施例中,目标用户的目标文本数据为“黄山的风景很美”,根据目标文本数据获得的优选语义数据包括:“从朋友或他人出听说的,只是传达或转述该事实情况”;“自己去过,根据自己的经历做出的主观评价”;“基于第三方的评价,想去”。获取目标用户的历史位置数据,在该实施例中,历史位置数据为“黄山”。将历史位置数据为“黄山”与优选语义数据中的地点“黄山”进行匹配,匹配成功,则确定优选语义数据“自己去过,根据自己的经历做出的主观评价”符合用户意图。在该实施例中,若处于多用户交谈的场景,根据声纹特征识别出目标用户的目标文本数据为“黄山的风景很美”,目标用户的历史位置数据没有黄山,如果识别到其他用户的初始文本数据中,识别到地点“黄山”,则确定优选语音数据“从朋友或他人出听说的,只是传达或转述该事实情况”和“基于第三方的评价,想去”符合用户意图。
在本申请的一个实施例中,获取待识别语音数据,对待识别语音数据进行识别,得到初始文本数据,还包括:对待识别语音数据的最后一个字/词进行单独声源识别,识别出语音音调,用以判断初始文本数据词句类型。
在本申请的一个实施例中,待识别语音数据为:“去室外打球”,结合“球”的声源的单独识别,根据初始文本数据确定出初始文本数据的类型为疑问句。由于语言文本需要存在标点符号,并且标点符号对应的音调的不同,对语义的识别存在较大差异,进而对用户意图产生较大影响,通过识别待识别语音数据最后一个字/词的语音音调,判断生成的初始文本数据的每一词/句的类型,从而能够缩小不同对语义的识别存在的差异,进而提高识别用户意图的准确性。
综上,通过获取目标文本数据,根据目标文本数据在匹配出多个第一备选标签,从而得到第一备选语义数据,根据第一备选语义数据确定出优选语义数据,并通过将优选语义数据与目标文本数据进行相似度计算,从而判断出优选语义数据对应的优选语义意图是否符合用户实际意图。因此,本发明在确定优选语义数据后,还要判断优选语义数据与目标文本数据的相似度才能确定出用户真实意图,即通过多重比对方式确定用户的实际意图,提高了用户意图的判断准确性,提高用户体验。
图6示意性示出了根据本发明的一示例性实施例的语音意图识别装置的框图。
参考图6所示,根据本发明的一个实施例的语音意图识别装置600,包括:获取模块610、生成模块620、匹配模块630、确定模块640、计算模块650。
其中,获取模块610,获取待识别语音数据,对待识别语音数据进行识别,得到初始文本数据;生成模块620,根据初始文本数据和预设的修正文本数据生成目标文本数据;匹配模块630,根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据;确定模块640,根据多个第一备选语义数据确定优选语义数据;计算模块650,将优选语音数据与初始文本数据进行相似度计算,以根据计算结果完成语音意图识别。
在本发明的一示例性实施例中,语音意图识别装置还包括缺失检测模块660,用于对待识别语音数据进行缺失检测;对待识别语音数据进行缺失检测,得到检测结果;若检测结果为存在缺失,则根据初始文本数据在预设的初始文本数据-目标样本语料文本数据的对应关系中匹配出目标样本预料数据;根据目标样本语料文本数据对初始文本数据进行补全。
在本发明的一示例性实施例中,生成模块620用于获取目标用户的位置环境文本数据,将位置环境文本数据与初始文本数据进行修正,生成目标文本数据;获取习惯文本数据,将习惯文本数据与初始文本数据进行修正,生成目标文本数据。
在本发明的一示例性实施例中,确定模块640用于分别将多个第一备选语义数据与初始文本数据进行相似度计算,得到多个第一相似度,将大于第一预设相似度阈值的第一相似度对应的第一备选语义数据,确定为优选语义数据;将多个第一备选标签进行拟合,得到第二备选标签,根据第二备选标签在预先设立的第二备选标签-第二备选语义数据对应关系中匹配出第二备选语义数据,将第二备选语义数据确定为优选语义数据。将第一备选语义数据对应的第一备选语音意图进行拟合,得到第三备选标签,根据第三备选标签在预先设立的第三备选标签-第三备选语义数据对应关系中匹配出第三备选语义数据,将第三备选语义数据确定为优选语义数据。
在本发明的一示例性实施例中,确定模块640用于根据根据多个第一备选语义数据获得优选语义数据之后,还包括:获取历史移动轨迹数据中的历史位置数据;将历史位置数据与优选语义数据的地点进行匹配,若匹配成功,则判定优选语义数据对应的优选语义意图符合用户意图。
在本发明的一示例性实施例中,计算模块650用于将优选语义数据与目标文本数据的进行相似度计算,得到第二相似度;若第二相似度大于预设的第二相似度阈值,则判定优选语义数据符合用户意图。
在本发明的一示例性实施例中,获取模块610还用于获取待识别语音数据,对待识别语音数据进行识别,得到初始文本数据,还包括:对待识别语音数据的最后一个字/词进行单独声源识别,识别出语音音调;根据语音音调判定初始文本数据的词句类型。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(Central Processing Unit,CPU)701,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的储存部分708;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前所述的语音意图识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的语音意图识别方法。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种语音意图识别方法,其特征在于,所述语音意图识别方法包括:
获取待识别语音数据,对所述待识别语音数据进行识别,得到初始文本数据;
根据所述初始文本数据和预设的修正文本数据生成目标文本数据;
根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据;
根据多个所述第一备选语义数据确定优选语义数据;
将所述优选语音数据与所述目标文本数据进行相似度计算,以根据计算结果完成语音意图识别。
2.根据权利要求1所述的语音意图识别方法,其特征在于,根据所述初始文本数据和预设的修正文本数据生成目标文本数据,所述修正文本数据包括位置环境文本数据和习惯文本数据,包括以下至少之一:
将所述位置环境文本数据对所述初始文本数据进行修正,生成目标文本数据;
将所述习惯文本数据对所述初始文本数据进行修正,生成目标文本数据。
3.根据权利要求1所述的语音意图识别方法,其特征在于,根据多个所述第一备选语义数据确定优选语义数据,包括以下至少之一:
分别将多个所述第一备选语义数据与所述初始文本数据进行相似度计算,得到多个第一相似度,将大于第一预设相似度阈值的第一相似度对应的第一备选语义数据,确定为优选语义数据;
将多个所述第一备选标签进行拟合,得到第二备选标签,根据所述第二备选标签在预先设立的第二备选标签-第二备选语义数据对应关系中匹配出第二备选语义数据,将所述第二备选语义数据确定为优选语义数据;
将所述第一备选语义数据对应的备选语音意图进行拟合,得到第三备选标签,根据所述第三备选标签在预先设立的第三备选标签-第三备选语义数据对应关系中匹配出第三备选语义数据,将所述第三备选语义数据确定为优选语义数据。
4.根据权利要求1至3任一项所述的语音意图识别方法,其特征在于,将所述优选语音数据与所述目标文本数据进行相似度计算,以根据计算结果完成语音意图识别,包括:
将所述优选语义数据与所述目标文本数据的进行相似度计算,得到第二相似度;
若所述第二相似度大于预设的第二相似度阈值,则判定所述优选语义数据对应的优选语义意图符合用户意图。
5.根据权利要求1所述的语音意图识别方法,其特征在于,根据多个第一备选语义数据获得优选语义数据之后,还包括:
获取历史移动轨迹数据中的历史位置数据;
将所述历史位置数据与所述优选语义数据的地点进行匹配,若匹配成功,则判定所述优选语义数据对应的优选语义意图符合用户意图。
6.根据权利要求1所述的语音意图识别方法,其特征在于,获取待识别语音数据,对所述待识别语音数据进行识别,得到初始文本数据,还包括:
对所述待识别语音数据的最后一个字/词进行单独声源识别,识别出语音音调;
根据所述语音音调判定所述初始文本数据的词句类型。
7.根据权利要求1所述的语音意图识别方法,其特征在于,在根据所述初始文本数据和修正文本数据生成目标文本数据之前,还包括:
对所述待识别语音数据进行缺失检测,得到检测结果;
若检测结果为存在缺失,则根据所述初始文本数据在预设的初始文本数据-目标样本语料文本数据的对应关系中匹配出目标样本预料数据;
根据所述目标样本语料文本数据对所述初始文本数据进行补全。
8.一种语音意图识别装置,其特征在于,所述语音意图识别装置包括:
获取模块,获取多个待识别语音数据,对所述待识别语音数据进行识别,获得多个初始文本数据;
生成模块,根据所述初始文本数据和预设的修正文本数据生成目标文本数据;
匹配模块,根据目标文本数据在预先设立的目标文本数据-第一备选标签对应关系中匹配出第一备选标签,根据第一备选标签在预先设立的第一备选标签-第一备选语义数据对应关系中匹配出第一备选语义数据;
确定模块,根据多个所述第一备选语义数据确定优选语义数据;
计算模块,将所述优选语音数据与所述目标文本数据进行相似度计算,以根据计算结果完成语音意图识别。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的语音意图识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的语音意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578177.9A CN116564293A (zh) | 2023-05-22 | 2023-05-22 | 语音意图识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578177.9A CN116564293A (zh) | 2023-05-22 | 2023-05-22 | 语音意图识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564293A true CN116564293A (zh) | 2023-08-08 |
Family
ID=87499897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310578177.9A Pending CN116564293A (zh) | 2023-05-22 | 2023-05-22 | 语音意图识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564293A (zh) |
-
2023
- 2023-05-22 CN CN202310578177.9A patent/CN116564293A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11503155B2 (en) | Interactive voice-control method and apparatus, device and medium | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN107492379B (zh) | 一种声纹创建与注册方法及装置 | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
CN111159385B (zh) | 一种基于动态知识图谱的无模板通用智能问答方法 | |
US11580299B2 (en) | Corpus cleaning method and corpus entry system | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN110795945A (zh) | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 | |
CN110310619A (zh) | 多音字预测方法、装置、设备及计算机可读存储介质 | |
US20220092276A1 (en) | Multimodal translation method, apparatus, electronic device and computer-readable storage medium | |
CN110807333A (zh) | 一种语义理解模型的语义处理方法、装置及存储介质 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN110827799B (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN111090769A (zh) | 一种歌曲推荐的方法、装置、设备和计算机存储介质 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN116564293A (zh) | 语音意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |