CN115019788A - 语音交互方法、系统、终端设备及存储介质 - Google Patents
语音交互方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN115019788A CN115019788A CN202210404699.2A CN202210404699A CN115019788A CN 115019788 A CN115019788 A CN 115019788A CN 202210404699 A CN202210404699 A CN 202210404699A CN 115019788 A CN115019788 A CN 115019788A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- response
- attribute
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims abstract description 130
- 230000008451 emotion Effects 0.000 claims abstract description 79
- 238000009877 rendering Methods 0.000 claims abstract description 16
- 230000007613 environmental effect Effects 0.000 claims description 34
- 210000001747 pupil Anatomy 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008909 emotion recognition Effects 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种语音交互方法、系统、终端设备及存储介质,该方法包括:对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合;根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。本发明通过将应答属性信息对应答语音进行语音渲染,使得针对不同年龄、性别和/或情绪的用户,能对应进行不同语音状态的应答,提高了语音交互的多样性,进而提高了用户的交互体验。
Description
技术领域
本发明涉语音交互技术领域,尤其涉及一种语音交互方法、系统、终端设备及存储介质。
背景技术
随着语音技术的发展,语音识别技术和语音合成技术应用越来越广泛,为了简化用户的手动操作,通常利用该语音识别技术和语音合成技术来实现人机语音交互。在语音交互过程中,利用语音识别技术,可以对用户发出的语音指令进行识别,确定所需执行的操作,可以利用语音合成技术,将需要响应的文本内容转换为语音响应,以语音的形式进行响应。
现有的语音交互过程中,针对不同的都是均是基于单个语音包的方式进行语音的输出,导致语音交互过程中输出语音的风格单一,降低了用户的交互体验。
发明内容
本发明实施例的目的在于提供一种语音交互方法、系统、终端设备及存储介质,旨在解决现有的语音交互风格单一的问题。
本发明实施例是这样实现的,一种语音交互方法,所述方法包括:
对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合;
根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;
根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。
更进一步的,所述对所述待交互语音进行属性分析,得到语音属性信息,包括:
获取模型训练样本,并对所述模型训练样本分别进行年龄、性别和情绪的标注,得到年龄标注信息、性别标注信息和情绪标注信息;
根据所述年龄标注信息对年龄段识别模型进行模型训练,直至所述年龄段识别模型收敛;
根据所述性别标注信息对性别识别模型进行模型训练,直至所述性别识别模型收敛;
根据所述情绪标注信息对情绪识别模型进行模型训练,直至所述情绪识别模型收敛;
根据收敛后的所述年龄段识别模型、所述性别识别模型和所述情绪识别模型分别对所述待交互语音进行分析,得到用户年龄、用户性别和用户情绪;
其中,所述语音属性信息包括所述用户年龄、所述用户性别和所述用户情绪。
更进一步的,所述根据所述语音属性信息确定应答属性信息,包括:
将所述用户年龄、所述用户性别和所述用户情绪分别与预存储的属性查询表进行匹配,得到应答年龄、应答性别和应答情绪;
其中,所述应答属性信息包括所述应答年龄、所述应答性别和所述应答情绪,所述属性查询表中存储有不同用户年龄与对应应答年龄之间的对应关系,存储有不同性别与对应应答性别之间的对应关系,存储有不同用户情绪与对应应答情绪之间的对应关系。
更进一步的,所述对所述待交互语音进行属性分析,得到语音属性信息之后,还包括:
分别将所述用户年龄、所述用户性别和所述用户情绪进行组合,得到属性组集合;
若所述属性组集合中任一属性组是预设属性组合,则将所述预设属性组合对应的情景应答属性设置为所述应答属性信息。
更进一步的,所述对所述待交互语音进行属性分析,得到语音属性信息之前,还包括:
对所述用户的当前所处环境进行信息采集,得到环境信息,并提取所述环境信息的特征,得到当前环境特征,所述环境信息包括环境图像、环境语音、环境坐标中一种或多种的组合;
将所述用户情绪和所述当前环境特征与预设环境特征进行匹配;
若所述用户情绪和所述当前环境特征与所述预设环境特征的匹配合格,则将所述预设环境特征对应的环境应答属性设置为所述应答属性信息。
更进一步的,所述方法还包括:
对所述待交互语音进行实体分析,得到语音实体,并将所述语音实体与预存储的隐私词汇表进行匹配,所述隐私词汇表中存储有所述用户预设置的隐私词汇;
若所述语音实体与所述隐私词汇表匹配成功,则对所述用户的当前所处环境进行信息采集,得到环境信息,并对所述环境信息进行隐私检测,所述隐私检测用户判断所述用户当前所处环境是否为安全环境;
若检测到所述用户未处于所述安全环境,则查询所述隐私词汇对应的虚假信息,所述虚假信息包括虚假应答语音和/或虚假属性信息;
根据所述虚假信息生成所述输出语音,并根据所述输出语音对所述用户进行语音交互。
更进一步的,所述对所述环境信息进行隐私检测,包括:
对所述环境图像进行人脸识别,以判断所述环境图像中是否存在隐患人员;
若检测到所述环境图像中存在所述隐患人员,则对所述隐患人员的瞳孔进行定位,并根据所述隐患人员瞳孔的定位结果确定所述隐患人员的瞳孔视线;
若所述隐患人员的瞳孔视线满足隐患条件,则判定所述环境信息的隐私检测不合格,所述用户未处于所述安全环境,所述隐患条件用于检测所述隐患人员的瞳孔视线是否是看向所述用户;
若所述隐患人员的瞳孔视线看向所述用户,则判定所述隐患人员的瞳孔视线满足所述隐患条件。
本发明实施例的另一目的在于提供一种语音交互系统,所述系统包括:
属性分析单元,用于对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合;
应答分析单元,用于根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;
语音交互单元,用于根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。
本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例,通过对待交互语音进行属性分析,能有效地获取到待交互语音中包含的语音属性信息,基于语音属性信息能有效地确定到对应的应答属性信息,通过将应答属性信息对应答语音进行语音渲染,使得针对不同年龄、性别和/或情绪的用户,能对应进行不同语音状态的应答,提高了语音交互的多样性,进而提高了用户的交互体验。
附图说明
图1是本发明第一实施例提供的语音交互方法的流程图;
图2是本发明第二实施例提供的语音交互方法的流程图;
图3是本发明第三实施例提供的语音交互方法的流程图;
图4是本发明第四实施例提供的语音交互系统的结构示意图;
图5是本发明第五实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音交互方法的流程图,该语音交互方法可以应用于任一终端设备或系统,该语音交互方法包括步骤:
步骤S10,对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息;
其中,语音属性信息包括年龄、性别、情绪和性格中一种或多种的组合,该步骤中,通过分别对待交互语音进行年龄识别、性别识别、情绪识别和性格识别,以得到该语音属性信息;
可选的,该步骤中,所述对所述待交互语音进行属性分析,得到语音属性信息,包括:
获取模型训练样本,并对所述模型训练样本分别进行年龄、性别和情绪的标注,得到年龄标注信息、性别标注信息和情绪标注信息;
其中,该年龄标注信息包括青年、中年和老年等,该性别标注信息男性和女性,该情绪标注信息包括悲伤、快乐和正常等,可选的,该步骤中,还可以对模型训练样本进行性格标注,得到性格标注信息,该性格标注信息包括内向性格和外向性格等;
根据所述年龄标注信息对年龄段识别模型进行模型训练,直至所述年龄段识别模型收敛;其中,通过年龄标注信息对年龄段识别模型进行模型训练,直至年龄段识别模型收敛,使得收敛后的年龄段识别模型能有效地对用户的年龄进行识别;
根据所述性别标注信息对性别识别模型进行模型训练,直至所述性别识别模型收敛;其中,通过性别标注信息对性别识别模型进行模型训练,直至性别识别模型收敛,使得收敛后的性别识别模型能有效地对用户的性别进行识别;
根据所述情绪标注信息对情绪识别模型进行模型训练,直至所述情绪识别模型收敛;其中,通过情绪标注信息对情绪识别模型进行模型训练,直至情绪识别模型收敛,使得收敛后的情绪识别模型能有效地对用户的情绪进行识别;
根据收敛后的所述年龄段识别模型、所述性别识别模型和所述情绪识别模型分别对所述待交互语音进行分析,得到用户年龄、用户性别和用户情绪;
其中,上述模型均可以采用二分类或多分类模型,收集不同年龄段、不同情绪、不同性别的语音作为数据集,分别按照年龄、性别、情绪进行标注,然后进行模型训练,获得三个模型,分别用于实现对性别、年龄、情绪的识别。
步骤S20,根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;
其中,通过语音属性信息,能有效地确定到当前状态下用户对应的应答属性信息,使得不同状态下的用户均可以对应不同的应答属性信息,提高了语音交互的多样性,该步骤中,可以通过将待交互语音属于预训练后的问答语音进行应答分析,得到该待交互语音对应的应答语音;
可选的,该步骤中,所述根据所述语音属性信息确定应答属性信息,包括:
将所述用户年龄、所述用户性别和所述用户情绪分别与预存储的属性查询表进行匹配,得到应答年龄、应答性别和应答情绪;
其中,应答属性信息包括应答年龄、应答性别和所述应答情绪,属性查询表中存储有不同属性规则,该属于规则用于表征不同用户年龄与对应应答年龄之间的对应关系,存储有不同性别与对应应答性别之间的对应关系,存储有不同用户情绪与对应应答情绪之间的对应关系,例如,当语音属性信息为[性别:男;年龄段:青少年;情绪:低落],则确定到的应答属性信息可以为[性别:女;年龄段:青少年;情绪:舒缓]。
进一步地,该步骤中,所述对所述待交互语音进行应答分析,得到应答语音,包括:
对所述待交互语音进行特征提取,得到声学特征,并对所述声学特征进行解码,得到音节阵列;
将所述音节阵列与预存储的词表进行匹配,得到词阵列,并对所述词阵列进行解码,得到所述应答语音,所述词表中存储不同音节阵列与对应词阵列之间的对应关系,可选的,该步骤中,还有基于梅尔频率倒谱(mel-frequency cepstrum,MFC)和分类算法的方式进行应答分析,得到该应答语音。
步骤S30,根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互;
其中,可以采用生成模型进行该应答语音的语音渲染,通过将应答属性信息对应答语音进行语音渲染,得到输出语音,并根据输出语音对所述用户进行语音交互,使得针对不同年龄、性别和/或情绪的用户,能对应进行不同语音状态的应答,提高了语音交互的多样性;
可选的,该步骤中,所述根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音之后,还包括:
对所述待交互语音进行口音分析,得到口音属性,并根据所述口音属于对所述输出语音进行口音渲染,其中,通过对待交互语音进行口音分析,能有效地提取到用户的口音属性,通过提取到的口音属于对输出语音进行口音渲染,使得输出语音可以采用与用户相同口音的方式进行交互,进一步提高了用户的语音交互体验。
本实施例,通过对待交互语音进行属性分析,能有效地获取到待交互语音中包含的语音属性信息,基于语音属性信息能有效地确定到对应的应答属性信息,通过将应答属性信息对应答语音进行语音渲染,使得针对不同年龄、性别和/或情绪的用户,能对应进行不同语音状态的应答,提高了语音交互的多样性,进而提高了用户的交互体验,本实施例中,通过分类模型对待交互语音的属性判断,根据个性化规则,通过生成模型对应答语音进行语音渲染,自动实现带有属性的应答语音反馈。
实施例二
请参阅图2,是本发明第二实施例提供的语音交互方法的流程图,该实施例用于对步骤S10的步骤作进一步细化,包括步骤:
步骤S40,分别将所述用户年龄、所述用户性别和所述用户情绪进行组合,得到属性组集合;
其中,将用户年龄、用户性别和用户情绪进行两两组合和三个组合,属性组集合,该属性组集合包括属性组a1(用户年龄-用户性别)、属性组a2(用户年龄-用户情绪)、属性组a3(用户情绪-用户性别)和属性组a4(用户年龄-用户性别-用户情绪),可选的,在各属性组中还可以包括用户性格等信息;
步骤S50,若所述属性组集合中任一属性组是预设属性组合,则将所述预设属性组合对应的情景应答属性设置为所述应答属性信息;
其中,该预设属性组合可以根据需求进行设置,例如,该预设属性组合可以设置为(中年-悲伤)或设置为(老年-悲伤)等组合,该步骤中,分别将各属性组与预设属性组合进行匹配,若任一属性组是预设属性组合,通过将预设属性组合对应的情景应答属性设置为应答属性信息,提高了答属性信息确定的准确性;
本实施例中,通过分别将用户年龄、所述用户性别和用户情绪进行组合,能有效地得到用户对应的属性组,通过分别将各属性组与预设属性组合进行匹配,以判断用户对应的属性组是否为预设的情景,若任一属性组是预设属性组合,通过将预设属性组合对应的情景应答属性设置为应答属性信息,提高了答属性信息确定的准确性。
实施例三
请参阅图3,是本发明第三实施例提供的语音交互方法的流程图,该实施例用于对步骤S10的步骤作进一步细化,包括步骤:
步骤S60,对所述用户的当前所处环境进行信息采集,得到环境信息,并提取所述环境信息的特征,得到当前环境特征;
其中,该环境信息包括环境图像、环境语音、环境坐标中一种或多种的组合,通过对用户当前所处环境进行图像采集,得到该环境图像,通过对用户当前所处环境进行语音采集,得到环境语音,通过获取用户当前所处环境的坐标,得到该环境坐标;
步骤S70,将所述用户情绪和所述当前环境特征与预设环境特征进行匹配;
其中,通过将用户情绪和当前环境特征与预设环境特征进行匹配,以判断用户是否处于预设环境特征对应的预设场景,该预设环境特征包括不同用户情绪与对应环境特征之间的对应关系;
步骤S80,若所述用户情绪和所述当前环境特征与所述预设环境特征的匹配合格,则将所述预设环境特征对应的环境应答属性设置为所述应答属性信息;
其中,若用户情绪和当前环境特征与预设环境特征的匹配合格,则判定用户当前处于预设场景,则将该预设场景对应的环境应答属性设置为应答属性信息,提高了答属性信息确定的准确性。
可选的,本实施例还包括:
对待交互语音进行实体分析,得到语音实体,并将该语音实体与预存储的隐私词汇表进行匹配,该隐私词汇表中存储有用户预设置的隐私词汇;
若语音实体与隐私词汇表匹配成功,则对该环境信息进行隐私检测,其中,该隐私检测用户判断用户当前所处环境是否为安全环境;
可选的,该步骤中,所述对该环境信息进行隐私检测,包括:
对环境图像进行人脸识别,以判断环境图像中是否存在隐患人员,该隐患人员为除用户之外的人员;
若检测到环境图像中存在隐患人员,则对隐患人员的瞳孔进行定位,并基于隐患人员瞳孔的定位结果确定隐患人员的瞳孔视线;
若隐患人员的瞳孔视线满足隐患条件,则判定环境信息的隐私检测不合格,即,用户当前所处环境不是安全环境,该隐患条件用于检测隐患人员的瞳孔视线是否是看向用户,若隐患人员的瞳孔视线是看向用户,则判定隐患人员的瞳孔视线满足隐患条件;
对环境坐标进行坐标检测,以判断用户当前所处环境的坐标是否处于用户预设的安全坐标范围内;
若环境坐标未在安全坐标范围内,则判定环境信息的隐私检测不合格,即,用户当前所处环境不是安全环境;
该步骤中,若检测到用户当前所处环境不是安全环境,则查询该隐私词汇对应的虚假信息,该虚假信息包括虚假应答语音和/或虚假属性信息;
根据该虚假信息生成输出语音,并根据输出语音对所述用户进行语音交互;
其中,若检测到用户当前所处环境不是安全环境,通过查询该隐私词汇对应的虚假信息,并根据该虚假信息生成输出语音,保障了用户未处于安全环境下语音交互的安全性,防止了用户信息的泄露,提高了语音交互的准确性。
本实施例中,通过对用户的当前所处环境进行信息采集,得到环境信息,基于采集到的环境信息,能有效地得到当前环境特征,通过将用户情绪和当前环境特征与预设环境特征进行匹配,以判断用户是否处于预设环境特征对应的预设场景,若用户情绪和当前环境特征与预设环境特征的匹配合格,则判定用户当前处于预设场景,则将该预设场景对应的环境应答属性设置为应答属性信息,提高了答属性信息确定的准确性。
实施例四
请参阅图4,是本发明第四实施例提供的语音交互系统100的结构示意图,包括:属性分析单元10、应答分析单元11和语音交互单元12,其中:
属性分析单元10,用于对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合。
可选的,属性分析单元10还用于:获取模型训练样本,并对所述模型训练样本分别进行年龄、性别和情绪的标注,得到年龄标注信息、性别标注信息和情绪标注信息;
根据所述年龄标注信息对年龄段识别模型进行模型训练,直至所述年龄段识别模型收敛;
根据所述性别标注信息对性别识别模型进行模型训练,直至所述性别识别模型收敛;
根据所述情绪标注信息对情绪识别模型进行模型训练,直至所述情绪识别模型收敛;
根据收敛后的所述年龄段识别模型、所述性别识别模型和所述情绪识别模型分别对所述待交互语音进行分析,得到用户年龄、用户性别和用户情绪;
其中,所述语音属性信息包括所述用户年龄、所述用户性别和所述用户情绪。
应答分析单元11,用于根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音。
可选的,应答分析单元11还用于:将所述用户年龄、所述用户性别和所述用户情绪分别与预存储的属性查询表进行匹配,得到应答年龄、应答性别和应答情绪;
其中,所述应答属性信息包括所述应答年龄、所述应答性别和所述应答情绪,所述属性查询表中存储有不同用户年龄与对应应答年龄之间的对应关系,存储有不同性别与对应应答性别之间的对应关系,存储有不同用户情绪与对应应答情绪之间的对应关系。
进一步地,应答分析单元11还用于:分别将所述用户年龄、所述用户性别和所述用户情绪进行组合,得到属性组集合;
若所述属性组集合中任一属性组是预设属性组合,则将所述预设属性组合对应的情景应答属性设置为所述应答属性信息。
更进一步的,应答分析单元11还用于:对所述用户的当前所处环境进行信息采集,得到环境信息,并提取所述环境信息的特征,得到当前环境特征,所述环境信息包括环境图像、环境语音、环境坐标中一种或多种的组合;
将所述用户情绪和所述当前环境特征与预设环境特征进行匹配;
若所述用户情绪和所述当前环境特征与所述预设环境特征的匹配合格,则将所述预设环境特征对应的环境应答属性设置为所述应答属性信息。
语音交互单元12,用于根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。
可选的,语音交互单元12还用于:对所述待交互语音进行实体分析,得到语音实体,并将所述语音实体与预存储的隐私词汇表进行匹配,所述隐私词汇表中存储有所述用户预设置的隐私词汇;
若所述语音实体与所述隐私词汇表匹配成功,则对所述用户的当前所处环境进行信息采集,得到环境信息,并对所述环境信息进行隐私检测,所述隐私检测用户判断所述用户当前所处环境是否为安全环境;
若检测到所述用户未处于所述安全环境,则查询所述隐私词汇对应的虚假信息,所述虚假信息包括虚假应答语音和/或虚假属性信息;
根据所述虚假信息生成所述输出语音,并根据所述输出语音对所述用户进行语音交互。
更进一步的,语音交互单元12还用于:对所述环境图像进行人脸识别,以判断所述环境图像中是否存在隐患人员;
若检测到所述环境图像中存在所述隐患人员,则对所述隐患人员的瞳孔进行定位,并根据所述隐患人员瞳孔的定位结果确定所述隐患人员的瞳孔视线;
若所述隐患人员的瞳孔视线满足隐患条件,则判定所述环境信息的隐私检测不合格,所述用户未处于所述安全环境,所述隐患条件用于检测所述隐患人员的瞳孔视线是否是看向所述用户;
若所述隐患人员的瞳孔视线看向所述用户,则判定所述隐患人员的瞳孔视线满足所述隐患条件。
本实施例,通过对待交互语音进行属性分析,能有效地获取到待交互语音中包含的语音属性信息,基于语音属性信息能有效地确定到对应的应答属性信息,通过将应答属性信息对应答语音进行语音渲染,使得针对不同年龄、性别和/或情绪的用户,能对应进行不同语音状态的应答,提高了语音交互的多样性,进而提高了用户的交互体验。
实施例五
图5是本申请第五实施例提供的一种终端设备2的结构框图。如图5所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如语音交互方法的程序。处理器20执行所述计算机程序22时实现上述各个语音交互方法各实施例中的步骤,例如图1所示的S10至S30,或者图2所示的S40至S50,或者图3所示的S60至S80。或者,所述处理器20执行所述计算机程序22时实现上述图4对应的实施例中各单元的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成属性分析单元10、应答分析单元11和语音交互单元12,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图4仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音交互方法,其特征在于,所述方法包括:
对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合;
根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;
根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。
2.如权利要求1所述的语音交互方法,其特征在于,所述对所述待交互语音进行属性分析,得到语音属性信息,包括:
获取模型训练样本,并对所述模型训练样本分别进行年龄、性别和情绪的标注,得到年龄标注信息、性别标注信息和情绪标注信息;
根据所述年龄标注信息对年龄段识别模型进行模型训练,直至所述年龄段识别模型收敛;
根据所述性别标注信息对性别识别模型进行模型训练,直至所述性别识别模型收敛;
根据所述情绪标注信息对情绪识别模型进行模型训练,直至所述情绪识别模型收敛;
根据收敛后的所述年龄段识别模型、所述性别识别模型和所述情绪识别模型分别对所述待交互语音进行分析,得到用户年龄、用户性别和用户情绪;
其中,所述语音属性信息包括所述用户年龄、所述用户性别和所述用户情绪。
3.如权利要求1所述的语音交互方法,其特征在于,所述根据所述语音属性信息确定应答属性信息,包括:
将所述用户年龄、所述用户性别和所述用户情绪分别与预存储的属性查询表进行匹配,得到应答年龄、应答性别和应答情绪;
其中,所述应答属性信息包括所述应答年龄、所述应答性别和所述应答情绪,所述属性查询表中存储有不同用户年龄与对应应答年龄之间的对应关系,存储有不同性别与对应应答性别之间的对应关系,存储有不同用户情绪与对应应答情绪之间的对应关系。
4.如权利要求2所述的语音交互方法,其特征在于,所述对所述待交互语音进行属性分析,得到语音属性信息之后,还包括:
分别将所述用户年龄、所述用户性别和所述用户情绪进行组合,得到属性组集合;
若所述属性组集合中任一属性组是预设属性组合,则将所述预设属性组合对应的情景应答属性设置为所述应答属性信息。
5.如权利要求2所述的语音交互方法,其特征在于,所述对所述待交互语音进行属性分析,得到语音属性信息之前,还包括:
对所述用户的当前所处环境进行信息采集,得到环境信息,并提取所述环境信息的特征,得到当前环境特征,所述环境信息包括环境图像、环境语音、环境坐标中一种或多种的组合;
将所述用户情绪和所述当前环境特征与预设环境特征进行匹配;
若所述用户情绪和所述当前环境特征与所述预设环境特征的匹配合格,则将所述预设环境特征对应的环境应答属性设置为所述应答属性信息。
6.如权利要求1所述的语音交互方法,其特征在于,所述方法还包括:
对所述待交互语音进行实体分析,得到语音实体,并将所述语音实体与预存储的隐私词汇表进行匹配,所述隐私词汇表中存储有所述用户预设置的隐私词汇;
若所述语音实体与所述隐私词汇表匹配成功,则对所述用户的当前所处环境进行信息采集,得到环境信息,并对所述环境信息进行隐私检测,所述隐私检测用户判断所述用户当前所处环境是否为安全环境;
若检测到所述用户未处于所述安全环境,则查询所述隐私词汇对应的虚假信息,所述虚假信息包括虚假应答语音和/或虚假属性信息;
根据所述虚假信息生成所述输出语音,并根据所述输出语音对所述用户进行语音交互。
7.如权利要求6所述的语音交互方法,其特征在于,所述对所述环境信息进行隐私检测,包括:
对所述环境图像进行人脸识别,以判断所述环境图像中是否存在隐患人员;
若检测到所述环境图像中存在所述隐患人员,则对所述隐患人员的瞳孔进行定位,并根据所述隐患人员瞳孔的定位结果确定所述隐患人员的瞳孔视线;
若所述隐患人员的瞳孔视线满足隐患条件,则判定所述环境信息的隐私检测不合格,所述用户未处于所述安全环境,所述隐患条件用于检测所述隐患人员的瞳孔视线是否是看向所述用户;
若所述隐患人员的瞳孔视线看向所述用户,则判定所述隐患人员的瞳孔视线满足所述隐患条件。
8.一种语音交互系统,其特征在于,所述系统包括:
属性分析单元,用于对用户进行语音采集,得到待交互语音,并对所述待交互语音进行属性分析,得到语音属性信息,所述语音属性信息包括年龄、性别和情绪中一种或多种的组合;
应答分析单元,用于根据所述语音属性信息确定应答属性信息,并对所述待交互语音进行应答分析,得到应答语音;
语音交互单元,用于根据所述应答属性信息对所述应答语音进行语音渲染,得到输出语音,并根据所述输出语音对所述用户进行语音交互。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404699.2A CN115019788A (zh) | 2022-04-18 | 2022-04-18 | 语音交互方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404699.2A CN115019788A (zh) | 2022-04-18 | 2022-04-18 | 语音交互方法、系统、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019788A true CN115019788A (zh) | 2022-09-06 |
Family
ID=83067574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404699.2A Pending CN115019788A (zh) | 2022-04-18 | 2022-04-18 | 语音交互方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019788A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117219058A (zh) * | 2023-11-09 | 2023-12-12 | 广州云趣信息科技有限公司 | 一种提高语音识别准确率的方法、系统和介质 |
-
2022
- 2022-04-18 CN CN202210404699.2A patent/CN115019788A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117219058A (zh) * | 2023-11-09 | 2023-12-12 | 广州云趣信息科技有限公司 | 一种提高语音识别准确率的方法、系统和介质 |
CN117219058B (zh) * | 2023-11-09 | 2024-02-06 | 广州云趣信息科技有限公司 | 一种提高语音识别准确率的方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046133B (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN108509416B (zh) | 句意识别方法及装置、设备和存储介质 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN111063355A (zh) | 会议记录的生成方法及记录终端 | |
CN112509561A (zh) | 情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111768781A (zh) | 语音打断的处理方法和装置 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN115019788A (zh) | 语音交互方法、系统、终端设备及存储介质 | |
CN113535925A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN110263346B (zh) | 基于小样本学习的语意分析方法、电子设备及存储介质 | |
CN112597889A (zh) | 一种基于人工智能的情绪处理方法和装置 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 | |
CN115062131A (zh) | 一种基于多模态的人机交互方法及装置 | |
CN114528851A (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |