CN112927721A - 人车互动方法、系统以及车辆和计算机可读存储介质 - Google Patents

人车互动方法、系统以及车辆和计算机可读存储介质 Download PDF

Info

Publication number
CN112927721A
CN112927721A CN201911243603.3A CN201911243603A CN112927721A CN 112927721 A CN112927721 A CN 112927721A CN 201911243603 A CN201911243603 A CN 201911243603A CN 112927721 A CN112927721 A CN 112927721A
Authority
CN
China
Prior art keywords
information
emotion
emotion information
vehicle
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911243603.3A
Other languages
English (en)
Inventor
蔡汉嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qoros Automotive Co Ltd
Original Assignee
Qoros Automotive Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qoros Automotive Co Ltd filed Critical Qoros Automotive Co Ltd
Priority to CN201911243603.3A priority Critical patent/CN112927721A/zh
Publication of CN112927721A publication Critical patent/CN112927721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种人车互动方法、系统以及车辆和计算机可读存储介质,其中,人车互动方法包括:通过设置在车内的麦克风接收用户的语音信息,并通过设置在车内的摄像头采集人脸图像;对语音信息进行识别,得到第一情绪信息,以及对人脸图像进行识别,得到第二情绪信息;根据第一情绪信息和第二情绪信息确定最终识别结果,得到第三情绪信息;根据第三情绪信息调整车载显示屏显示的虚拟人物的情绪。由此,该方法能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。

Description

人车互动方法、系统以及车辆和计算机可读存储介质
技术领域
本发明涉及车辆技术领域,尤其涉及一种人车互动方法、系统以及车辆和计算机可读存储介质。
背景技术
目前,车载虚拟人物虽然已经应用到全息投影技术,但其仍存在不够拟人化的问题,例如通过语义理解无法完美进行表情诠释、模拟,通过拍摄人脸不一定能虚拟出反应用户真实状态的人物等。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种人车互动方法,以结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种人车互动系统。
本发明的第四个目的在于提出一种车辆。
为达上述目的,本发明第一方面实施例提出了一种人车互动方法,包括:通过设置在车内的麦克风接收用户的语音信息,并通过设置在车内的摄像头采集人脸图像;对所述语音信息进行识别,得到第一情绪信息,以及对所述人脸图像进行识别,得到第二情绪信息;根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息;根据所述第三情绪信息调整车载显示屏显示的虚拟人物的情绪。
根据本发明实施例的人车互动方法,首先,通过车内的麦克风接收用户的语音信息,并通过车内的摄像头采集人脸图像;然后,对语音信息进行识别,进而得到第一情绪信息,以及对人脸图像进行识别,进而得到第二情绪信息;再然后,根据第一情绪信息和第二情绪信息确定最终识别结果,以得到第三情绪信息;最后,根据第三情绪信息调整车载显示屏显示的虚拟人的情绪。由此,该方法能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
另外,根据本发明上述实施例的人车互动方法还可以具有如下附加的技术特征:
根据本发明的一个实施例,所述对所述语音信息进行识别,包括:通过设置在车辆上的本地语音识别模块对所述语音信息进行识别;如果所述本地语音识别模块不能从所述语音信息中提取到情绪特征,则将所述语音信息发送至云端,以通过云端语音识别模块对所述语音信息进行识别。
根据本发明的一个实施例,所述对所述语音信息进行识别,还包括:将所述语音信息转换为文字信息;对所述文字信息进行分词和语义解析,并判断从所述文字信息中是否能够提取到情绪特征;如果从所述文字信息中能够提取到情绪特征,则将所述情绪特征作为所述第一情绪信息;如果从所述文字信息中不能够提取到情绪特征,则判定所述语音信息无语义,并将无语义特征作为所述第一情绪信息。
根据本发明的一个实施例,所述第二情绪信息为表征情绪程度的信息或无法判断信息。
根据本发明的一个实施例,所述根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息,包括:判断所述第一情绪信息与所述第二情绪信息是否存在冲突;如果所述第一情绪信息与所述第二情绪信息不存在冲突,则将所述第二情绪信息作为所述第三情绪信息;如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息不为所述无语义特征,所述第二情绪信息不为所述无法判断信息,则将所述第一情绪信息与所述第二情绪信息中的情绪程度进行组合,得到所述第三情绪信息;如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息为所述无语义特征,则将不改变情绪信息作为所述第三情绪信息;如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息不为所述无语义特征,所述第二情绪信息为所述无法判断信息,则获取所述第一情绪信息包含的情绪可能程度,将所述第一情绪信息和所述情绪可能程度进行组合,得到所述第三情绪信息。
根据本发明的一个实施例,所述第三情绪信息包括多种情绪时,所述根据所述第三情绪信息调整车载显示屏显示的虚拟人物的情绪,包括:控制所述车载显示屏显示的虚拟人物情绪在所述多种情绪之间进行轮流切换。
为达上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明第一方面实施例提出的人车互动方法。
该计算机可读存储介质,在其上存储的计算机程序被处理器执行时,能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
为达上述目的,本发明第三方面实施例提出了一种人车互动系统,包括:麦克风,所述麦克风设置在车内,用于接收用户的语音信息;摄像头,所述摄像头设置在车内,用于采集人脸图像;车载显示屏,用于显示虚拟人物;第一识别模块,用于对所述语音信息进行识别,得到第一情绪信息;第二识别模块,用于对所述人脸图像进行识别,得到第二情绪信息;确定模块,用于根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息;调整模块,用于根据所述第三情绪信息调整所述车载显示屏显示的虚拟人物的情绪。
根据本发明实施例的人车互动系统,通过车内的麦克风接收用户的语音信息,通过车内的摄像头采集人脸图像,通过第一识别模块对语音信息进行识别,进而得到第一情绪信息,以及通过第二识别模块对人脸图像进行识别,进而得到第二情绪信息,通过确定模块根据第一情绪信息和第二情绪信息确定最终识别结果,以得到第三情绪信息,通过调整模块根据第三情绪信息调整车载显示屏显示的虚拟人的情绪。由此,该系统能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
另外,根据本发明上述实施例的人车互动系统还可以具有如下附加的技术特征:
根据本发明的一个实施例,所述第一识别模块包括:本地语音识别模块,用于对所述语音信息进行识别;发送模块,用于在所述本地语音识别模块不能从所述语音信息中提取到情绪特征时,将所述语音信息发送至云端,以通过云端语音识别模块对所述语音信息进行识别。
为达上述目的,本发明第四方面实施例提出了一种车辆,包括本发明第三方面实施例提出的人车互动系统。
根据本发明实施例的车辆,采用上述实施例的人车互动系统,能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明实施例的人车互动方法的流程图;
图2是本发明一个实施例的对语音信息进行识别的流程图;
图3是本发明一个实施例的人车互动方法的流程图;
图4是本发明一个具体示例的人车互动的示意图;
图5是本发明实施例的人车互动系统的结构框图;
图6是本发明一个实施例的人车互动系统的结构框图;
图7是本发明实施例的车辆的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的人车互动方法、系统以及车辆和计算机可读存储介质。
图1是本发明实施例的人车互动方法的流程图。
如图1所示,该人车互动方法包括以下步骤:
S101,通过设置在车内的麦克风接收用户的语音信息,并通过设置在车内的摄像头采集人脸图像。
具体地,首先,用户可通过麦克风的物理控制按键或语音唤醒词唤醒麦克风,也可以短暂的开启车载语音识别软件,以通过该车载语音识别软件唤醒麦克风,然后,麦克风可实时接收用户的语音信息,具体而言,在开启车载语音识别软件时,车载语音识别软件可将麦克风接收到的语音信息暂存,以进行后续的语音信息识别;同时,摄像头可实时采集用户的人脸图像,摄像头可与车载显示屏相连,以使摄像头将采集到的人脸图像传输至车载显示屏,以在车载显示屏显示人脸图像。其中,车载显示屏还可用于显示虚拟人物的人脸图像。
S102,对语音信息进行识别,得到第一情绪信息,以及对人脸图像进行识别,得到第二情绪信息。
其中,对语音信息进行识别,可包括:通过设置在车辆上的本地语音识别模块对语音信息进行识别;如果本地语音识别模块不能从语音信息中提取到情绪特征,则将语音信息发送至云端,以通过云端语音识别模块对语音信息进行识别。
具体地,麦克风可首先将接收到的用户的语音信息发送至本地语音识别模块,进而本地语音识别模块判断能否成功从语音信息中提取到情绪特征,如果本地语音识别模块不能从语音信息中提取到情绪特征,则说明提取失败,则将语音信息发送至云端,以通过云端语音识别模块对语音信息进行识别。应当理解,如果提取成功,则将提取到的情绪特征作为第一情绪信息,无需云端语音识别模块对语音信息进行识别。如此,首先在车辆本地对情绪进行判断,如果判断失败,则由云端语音识别模块进行判断,实现了判断的多样混合性,能够有效模拟驾驶员的心理状态外,还可以实现合乎逻辑且有趣的驾驶员的人脸模拟。
在该实施例中,可根据人脸图像所表征的表情、嘴巴张合度、眼睛张合度、分心程度等(均显示在车载显示屏上)判定第二情绪信息,第二情绪信息可以为表征情绪程度的信息,例如,“非常”、“一般”和“微笑”、“大笑”,或者,无法判断的信息。
S103,根据第一情绪信息和第二情绪信息确定最终识别结果,得到第三情绪信息。
具体地,将第一情绪信息与第二情绪信息进行比对分析,也就是说,将第一情绪信息与表征情绪程度的信息进行结合分析,得到的第三情绪信息既存在情绪特征,又存在该表征该情绪特征的程度词,例如“非常生气”;将第一情绪信息与无法判断进行结合分析,得到的第三情绪信息可能为任意程度(应对具体程度的可能性进行判定、筛选)的该情绪信息例如“非常生气或者一般生气”。
应当理解,在确定最终识别结果的过程中,以第一情绪信息为主要情绪信息,以第二情绪信息为辅助情绪信息,如果两者有语义冲突,则可以以第一情绪信息为准。
S104,根据第三情绪信息调整车载显示屏显示的虚拟人物的情绪。
具体地,得到第三情绪信息后,即说明对用户的情绪信息判定完成,进而将该判定出的情绪信息发送至车载显示屏,以将车载显示屏显示的虚拟人物的情绪调整为用户的情绪,使车载显示屏显示用户的情绪,由此,使得车载显示屏显示的虚拟人物的情绪信息更加接近实际用户。
由此,该实施例的人车互动方法能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
在本发明的一个实施例中,如图2所示,步骤S102中的对语音信息进行识别,可包括以下步骤:
S201,将语音信息转换为文字信息。
S202,对文字信息进行分词和语义解析,并判断从文字信息中是否能够提取到情绪特征。
S203,如果从文字信息中能够提取到情绪特征,则将情绪特征作为第一情绪信息。
具体而言,如果文字信息中存在表征情绪特征的词语和/或语义,则说明能够从文字信息中提取到情绪特征,例如,根据语音信息转换的文字信息为“我生气了”,该文字信息中存在表征情绪特征的词语“生气”,则说明从该文字信息中能够提取到情绪特征,则将该情绪特征“生气”作为第一情绪信息;再例如,根据语音信息转换的文字信息为“我再也不理你了,哼”,分析该文字信息的语义,可以判断出用户生气了,则说明从该文字信息中能够提取到情绪特征,则将该情绪特征“生气”作为第一情绪信息。
S204,如果从文字信息中不能够提取到情绪特征,则判定语音信息无语义,并将无语义特征作为第一情绪信息。
具体而言,如果文字信息中不存在表征情绪特征的词语或语义,则说明不能够从文字信息中提取到情绪特征,例如,根据语音信息转换的文字信息为“今天要去买菜”,该文字信息中不存在表征情绪特征的词语和语义,则说明从该文字信息中不能够提取到情绪特征,则判定语音信息无语义,并将“无语义特征”作为第一情绪信息。
进一步地,如图3所示,根据第一情绪信息和第二情绪信息确定最终识别结果,得到第三情绪信息,既上述步骤S103,可包括:
判断第一情绪信息与第二情绪信息是否存在冲突;如果第一情绪信息与第二情绪信息不存在冲突,则将第二情绪信息作为第三情绪信息;如果第一情绪信息与第二情绪信息存在冲突,且第一情绪信息不为无语义特征,第二情绪信息不为无法判断信息,则将第一情绪信息与第二情绪信息中的情绪程度进行组合,得到第三情绪信息;如果第一情绪信息与第二情绪信息存在冲突,且第一情绪信息为无语义特征,则将不改变情绪信息作为第三情绪信息;如果第一情绪信息与第二情绪信息存在冲突,且第一情绪信息不为无语义特征,第二情绪信息为无法判断信息,则获取第一情绪信息包含的情绪可能程度,将第一情绪信息和情绪可能程度进行组合,得到第三情绪信息。
也就是说,上述步骤S103可包括以下步骤:
S301,判断第一情绪信息与第二情绪信息是否存在冲突,如果是,则执行步骤S302;如果否,则将第二情绪信息作为第三情绪信息。
例如,第一情绪信息为“生气”,第二情绪信息为“一般生气”,即两者没有冲突,则将“一般生气”作为第三情绪信息。
S302,判断第一情绪信息是否为无语义特征,如果是,将不改变情绪信息作为第三情绪信息;如果否,则执行步骤S303。
具体而言,只要第一情绪信息是为无语义特征,无论第二情绪信息如何,将不改变情绪信息作为第三情绪信息。
S303,判断第二情绪信息是否为无法判断信息,如果是,则获取第一情绪信息包含的情绪可能程度,将第一情绪信息和情绪可能程度进行组合,得到第三情绪信息;如果否,则执行步骤S304。
具体而言,情绪可能程度可以为“一般”、“非常”等,例如,当第一情绪信息为“生气”时,若第二情绪信息是为无法判断信息,则将“生气”和“一般”、“非常”进行组合,得到的第三情绪信息可能为“非常生气”、“一般生气”。可见,此时,第三情绪信息包括多种情绪信息。
S304,将第一情绪信息与第二情绪信息中的情绪程度进行组合,得到第三情绪信息。
例如,第一情绪信息为“讨厌”,第二情绪信息为“非常生气”,则将“讨厌”和情绪程度“非常”进行组合,得到的第三情绪信息为“非常讨厌”。
结合上述步骤可知,在本发明的一个具体示例中,在第一情绪信息和第二情绪信息不存在冲突时,可根据如下表1进行最终识别结果的确定,进而得到第三情绪信息;在第一情绪信息和第二情绪信息存在冲突时,可根据如下表2进行最终识别结果的确定,进而得到第三情绪信息。
表1
Figure BDA0002306922680000071
表2
Figure BDA0002306922680000072
进一步地,当第三情绪信息包括多种情绪时,根据第三情绪信息调整车载显示屏显示的虚拟人物的情绪,即此时上述步骤S104,可包括:控制车载显示屏显示的虚拟人物情绪在多种情绪之间进行轮流切换。
具体而言,当第三情绪信息包括多种情绪时,可控制车载显示屏显示的虚拟人物情绪在多种情绪之间进行轮流不重复地切换,例如,表2中的第三情绪信息为“一般生气”、“非常生气”时,车载显示屏可轮流显示“一般生气”和“非常生气”,同时,调整车载显示屏上的虚拟人物模拟用户不重复地轮流做“一般生气”、“非常生气”的面部表情,直至用户再次改变情绪,可见,更加拟人化地显示了虚拟人物的情绪信息。
为了便于理解,下面通过一个具体示例对本实施例中的人车互动方法进行解释说明。
如图4所示,麦克风接收驾驶员(用户)的语音信息“我要生气了”,则对该语音信息进行识别户,得到的第一情绪信息为“生气”;同时,摄像头采集驾驶员的人脸图像,对该人脸图像进行识别后,可得出,驾驶员的怒气值为100(最大值),嘴巴张合度也为100,分心程度为20,眼睛闭合度为0,高兴程度为0,说明驾驶员此时非常愤怒,一点都不高兴,根据识别到的这些现象可以得到第二情绪信息为“非常生气”,因此,结合“生气”和“非常生气”可知,第三情绪信息即驾驶员的当前情绪为“非常生气”,进而将车载显示屏显示的虚拟人物的情绪调整为“非常生气”,即使虚拟人物的脸部(主要是五官状态)做“非常生气”的表情。由此,有助于提高驾驶安全性,避免意外事故的发生。
结合上述示例可知,驾驶员如果脸部表情演戏,且试图以冷笑方式讲冷笑话来掩盖心理层面状态,则根据第一情绪信息和第二情绪信息得到的第三情绪信息能够准确的表征驾驶员的心里层面状态,而不仅仅局限于人脸图像。
综上所述,该实施例的人车互动方法能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性;使得虚拟人物的情绪更加多样化,并不局限于复制摄像头采集到的人脸图像,有助于保证驾驶安全性,避免意外事故的发生。
进一步地,本发明实施例提出了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现本发明上述实施例的人车互动方法。
该计算机可读存储介质,在其上存储的计算机程序被处理器执行时,能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
图5是本发明实施例的人车互动系统的结构框图。
如图5所示,该人车互动系统100包括:麦克风10、摄像头20、车载显示屏30、第一识别模块40、第二识别模块50、确定模块60和调整模块70。
其中,麦克风10设置在车内,用于接收用户的语音信息;摄像头20设置在车内,用于采集人脸图像;车载显示屏30用于显示虚拟人物;第一识别模块40用于对语音信息进行识别,得到第一情绪信息;第二识别模块50用于对人脸图像进行识别,得到第二情绪信息;确定模块60用于根据第一情绪信息和第二情绪信息确定最终识别结果,得到第三情绪信息;调整模块70用于根据第三情绪信息调整车载显示屏30显示的虚拟人物的情绪。
在本发明的一个实施例中,如图6所示,第一识别模块40可包括:本地语音识别模块41和发送模块42。
其中,本地语音识别模块41用于对语音信息进行识别;发送模块42用于在本地语音识别模块41不能从语音信息中提取到情绪特征时,将语音信息发送至云端,以通过云端语音识别模块对语音信息进行识别。
需要说明的是,本发明实施例的人车互动系统100的具体实施方式可参见本发明上述实施例的人车互动方法的具体实施方式,为避免冗余,此处不再赘述。
本发明实施例的人车互动系统,能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
图7是本发明实施例的车辆的结构框图。
如图7所示,该车辆1000包括本发明上述实施例的人车互动系统100。
本发明实施例的车辆,采用本发明实施例的人车互动系统,能够结合用户的语音信息和人脸图像识别用户的情绪信息,进而调整虚拟人物的情绪信息,更加拟人化,从而能够提高情绪识别的准确性,增加驾驶时的趣味性。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种人车互动方法,其特征在于,包括:
通过设置在车内的麦克风接收用户的语音信息,并通过设置在车内的摄像头采集人脸图像;
对所述语音信息进行识别,得到第一情绪信息,以及对所述人脸图像进行识别,得到第二情绪信息;
根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息;
根据所述第三情绪信息调整车载显示屏显示的虚拟人物的情绪。
2.如权利要求1所述的人车互动方法,其特征在于,所述对所述语音信息进行识别,包括:
通过设置在车辆上的本地语音识别模块对所述语音信息进行识别;
如果所述本地语音识别模块不能从所述语音信息中提取到情绪特征,则将所述语音信息发送至云端,以通过云端语音识别模块对所述语音信息进行识别。
3.如权利要求1或2所述的人车互动方法,其特征在于,所述对所述语音信息进行识别,还包括:
将所述语音信息转换为文字信息;
对所述文字信息进行分词和语义解析,并判断从所述文字信息中是否能够提取到情绪特征;
如果从所述文字信息中能够提取到情绪特征,则将所述情绪特征作为所述第一情绪信息;
如果从所述文字信息中不能够提取到情绪特征,则判定所述语音信息无语义,并将无语义特征作为所述第一情绪信息。
4.如权利要求3所述的人车互动方法,其特征在于,所述第二情绪信息为表征情绪程度的信息或无法判断信息。
5.如权利要求4所述的人车互动方法,其特征在于,所述根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息,包括:
判断所述第一情绪信息与所述第二情绪信息是否存在冲突;
如果所述第一情绪信息与所述第二情绪信息不存在冲突,则将所述第二情绪信息作为所述第三情绪信息;
如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息不为所述无语义特征,所述第二情绪信息不为所述无法判断信息,则将所述第一情绪信息与所述第二情绪信息中的情绪程度进行组合,得到所述第三情绪信息;
如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息为所述无语义特征,则将不改变情绪信息作为所述第三情绪信息;
如果所述第一情绪信息与所述第二情绪信息存在冲突,且所述第一情绪信息不为所述无语义特征,所述第二情绪信息为所述无法判断信息,则获取所述第一情绪信息包含的情绪可能程度,将所述第一情绪信息和所述情绪可能程度进行组合,得到所述第三情绪信息。
6.如权利要求5所述的人车互动方法,其特征在于,当所述第三情绪信息包括多种情绪时,所述根据所述第三情绪信息调整车载显示屏显示的虚拟人物的情绪,包括:
控制所述车载显示屏显示的虚拟人物情绪在所述多种情绪之间进行轮流切换。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的人车互动方法。
8.一种人车互动系统,其特征在于,包括:
麦克风,所述麦克风设置在车内,用于接收用户的语音信息;
摄像头,所述摄像头设置在车内,用于采集人脸图像;
车载显示屏,用于显示虚拟人物;
第一识别模块,用于对所述语音信息进行识别,得到第一情绪信息;
第二识别模块,用于对所述人脸图像进行识别,得到第二情绪信息;
确定模块,用于根据所述第一情绪信息和所述第二情绪信息确定最终识别结果,得到第三情绪信息;
调整模块,用于根据所述第三情绪信息调整所述车载显示屏显示的虚拟人物的情绪。
9.如权利要求8所述的人车互动系统,其特征在于,所述第一识别模块包括:
本地语音识别模块,用于对所述语音信息进行识别;
发送模块,用于在所述本地语音识别模块不能从所述语音信息中提取到情绪特征时,将所述语音信息发送至云端,以通过云端语音识别模块对所述语音信息进行识别。
10.一种车辆,其特征在于,包括如权利要求8或9所述的人车互动系统。
CN201911243603.3A 2019-12-06 2019-12-06 人车互动方法、系统以及车辆和计算机可读存储介质 Pending CN112927721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911243603.3A CN112927721A (zh) 2019-12-06 2019-12-06 人车互动方法、系统以及车辆和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911243603.3A CN112927721A (zh) 2019-12-06 2019-12-06 人车互动方法、系统以及车辆和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112927721A true CN112927721A (zh) 2021-06-08

Family

ID=76161818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911243603.3A Pending CN112927721A (zh) 2019-12-06 2019-12-06 人车互动方法、系统以及车辆和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112927721A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974312A (zh) * 2022-07-29 2022-08-30 环球数科集团有限公司 一种虚拟人情绪生成方法与系统
CN116129004A (zh) * 2023-02-17 2023-05-16 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496364A (zh) * 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
CN105700682A (zh) * 2016-01-08 2016-06-22 北京乐驾科技有限公司 基于视觉和语音的智能性别、情绪识别检测系统及方法
CN106650633A (zh) * 2016-11-29 2017-05-10 上海智臻智能网络科技股份有限公司 一种驾驶员情绪识别方法和装置
CN107705808A (zh) * 2017-11-20 2018-02-16 合光正锦(盘锦)机器人技术有限公司 一种基于面部特征与语音特征的情绪识别方法
CN108764169A (zh) * 2018-05-31 2018-11-06 厦门大学 一种基于机器学习的驾驶员情绪识别与显示装置及方法
CN110262665A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110399837A (zh) * 2019-07-25 2019-11-01 深圳智慧林网络科技有限公司 用户情绪识别方法、装置以及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496364A (zh) * 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
CN105700682A (zh) * 2016-01-08 2016-06-22 北京乐驾科技有限公司 基于视觉和语音的智能性别、情绪识别检测系统及方法
CN106650633A (zh) * 2016-11-29 2017-05-10 上海智臻智能网络科技股份有限公司 一种驾驶员情绪识别方法和装置
CN107705808A (zh) * 2017-11-20 2018-02-16 合光正锦(盘锦)机器人技术有限公司 一种基于面部特征与语音特征的情绪识别方法
CN108764169A (zh) * 2018-05-31 2018-11-06 厦门大学 一种基于机器学习的驾驶员情绪识别与显示装置及方法
CN110262665A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110399837A (zh) * 2019-07-25 2019-11-01 深圳智慧林网络科技有限公司 用户情绪识别方法、装置以及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974312A (zh) * 2022-07-29 2022-08-30 环球数科集团有限公司 一种虚拟人情绪生成方法与系统
CN114974312B (zh) * 2022-07-29 2022-10-21 环球数科集团有限公司 一种虚拟人情绪生成方法与系统
CN116129004A (zh) * 2023-02-17 2023-05-16 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端
CN116129004B (zh) * 2023-02-17 2023-09-15 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端

Similar Documents

Publication Publication Date Title
US10893236B2 (en) System and method for providing virtual interpersonal communication
US10438586B2 (en) Voice dialog device and voice dialog method
CN107679033B (zh) 文本断句位置识别方法和装置
CN110673748B (zh) 输入法中候选长句的提供方法及装置
CN113460070B (zh) 车辆控制方法和装置
CN108447471A (zh) 语音识别方法及语音识别装置
CN108091324B (zh) 语气识别方法、装置、电子设备和计算机可读存储介质
CN110174942B (zh) 眼动合成方法及装置
CN108629497A (zh) 课程内容掌握程度评价方法和装置
CN112927721A (zh) 人车互动方法、系统以及车辆和计算机可读存储介质
CN111199205A (zh) 车载语音交互体验评估方法、装置、设备及存储介质
CN112820072A (zh) 危险驾驶预警方法、装置、计算机设备及存储介质
CN110111782B (zh) 语音交互方法及设备
JP2009282824A (ja) 感情推定装置及びプログラム
CN109979467B (zh) 人声过滤方法、装置、设备及存储介质
CN104270501B (zh) 一种通讯录中联系人的头像设置方法和相关装置
CN115565518B (zh) 互动游戏中玩家配音的处理方法及相关装置
CN116483305A (zh) 智能网联汽车数字虚拟人应用系统及其使用方法、车辆
CN116403601A (zh) 情绪识别模型训练方法及情绪识别方法、装置以及存储介质
CN111091821B (zh) 一种基于语音识别的控制方法及终端设备
CN112233674A (zh) 一种多模交互方法及其系统
CN111967380A (zh) 内容推荐方法及系统
CN111013138A (zh) 一种语音控制方法、装置、电子设备及存储介质
CN116844523B (zh) 语音数据生成方法、装置、电子设备及可读存储介质
CN114296680B (zh) 基于面部图像识别的虚拟试驾装置、方法和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210608