CN110196931B - 一种基于图像描述的对话生成方法和装置 - Google Patents

一种基于图像描述的对话生成方法和装置 Download PDF

Info

Publication number
CN110196931B
CN110196931B CN201910584233.3A CN201910584233A CN110196931B CN 110196931 B CN110196931 B CN 110196931B CN 201910584233 A CN201910584233 A CN 201910584233A CN 110196931 B CN110196931 B CN 110196931B
Authority
CN
China
Prior art keywords
question
candidate
keyword
keywords
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910584233.3A
Other languages
English (en)
Other versions
CN110196931A (zh
Inventor
谢文
张伟萌
杨加林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anxin Yiwei Technology Co.,Ltd.
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN201910584233.3A priority Critical patent/CN110196931B/zh
Publication of CN110196931A publication Critical patent/CN110196931A/zh
Application granted granted Critical
Publication of CN110196931B publication Critical patent/CN110196931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图像描述的对话生成方法及装置,所述方法包括:步骤101,采集第一图像;步骤102,基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字;步骤103,基于所述第一图像描述文字提取至少一个候选关键词;步骤104,根据所述至少一个候选关键词,生成第一提问;步骤105,基于所述第一提问,发起对话。通过本发明的方法,能够以用户实时看到的内容为主题展开对话,提升了用户与对话机器人对话的体验。

Description

一种基于图像描述的对话生成方法和装置
技术领域
本发明实施例涉及语音交互领域,特别涉及一种基于图像描述的对话生成方法和装置。
背景技术
用户与对话机器人的对话通常分为任务类对话和闲聊类对话,但无论是哪一种对话类型,目前主流的对话机器人均无法做到主动发起对话,这在很大程度上影响了用户体验。针对上述问题,现有技术中提出一些对话机器人,能够基于预设的有限个场景主动发起对话,例如,用户上车后,对话机器人主动问候用户“你好,请您注意驾驶安全,祝你驾驶愉快”。然而上述对话机器人也仅能够提供通用的、有限的主动对话发起方式,其闲聊功能单调无趣,无法结合用户实时看到的内容展开对话,因此,用户对于对话的主题或内容并不感兴趣,导致对话无法进行下去,用户体验不佳。
发明内容
针对现有技术中的问题,本发明提供一种方法和装置。
本发明提供一种基于图像描述的对话生成方法,所述方法包括:
步骤101,采集第一图像;
步骤102,基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字;
步骤103,基于所述第一图像描述文字提取至少一个候选关键词;
步骤104,根据所述至少一个候选关键词,生成第一提问;
步骤105,基于所述第一提问,发起对话。
本发明提供一种基于图像描述的对话生成装置,所述装置包括:
图像采集单元,用于采集第一图像;
图像描述文字生成单元,用于基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字;
候选关键词提取单元,用于基于所述第一图像描述文字提取至少一个候选关键词;
提问生成单元,用于根据所述至少一个候选关键词,生成第一提问;
对话发起单元,用于基于所述第一提问,发起对话。
本发明提供一种基于图像描述的对话生成装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
本发明提供一种车辆,其特征在于,所述车辆包括:如上所述的装置。
本发明提供一种终端,其特征在于,所述终端包括:如上所述的装置。
通过本发明的方法和装置,能够以用户实时看到的内容为主题展开对话,提升了用户与对话机器人对话的体验,即使采集了相同的图像,针对不用的用户能够生成不同的对话内容,为用户提供了个性化的对话体验。此外,通过本发明的方法,能够避免生成重复的对话内容,提高了对话内容的智能型,进一步提升了用户与对话机器人对话的体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的基于图像描述的对话生成方法。
图2是本发明一个实施例中的基于图像描述的对话生成装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
以下对本发明的基于图像描述的对话生成方法进行说明,参见图1,所述方法包括如下步骤:
步骤101,采集第一图像;
步骤102,基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字;
步骤103,基于所述第一图像描述文字提取至少一个候选关键词;
步骤104,根据所述至少一个候选关键词,生成第一提问;
步骤105,基于所述第一提问,发起对话。
优选的,本发明的基于图像描述的对话生成方法可以应用于任何装置或设备,如车辆、移动终端、智能家居设备等。以下仅以本发明的方法应用于车辆为例进行说明,其不应当视为对本发明方案的限制。优选的,本发明的方法可以应用于任意类型的车辆,如小型客车、中型客车、大巴车、卡车、跑车、轿车、货车、SUV等,所述车辆可以是传统的内燃机车辆、电动车辆、汽油电池混合动力车辆以及新型的绿色能源动力车辆如空气动力车辆等。
优选的,本发明的方法应用于车辆时,其执行主体可以是车载系统,如车机、车载导航系统、车载娱乐系统等,所述车载系统包括对话机器人,下文中主要以车载系统为例来说明本发明的方法,但本发明方法的执行主体并不以此为限。
优选的,在步骤101中,由本发明的方法所应用于的装置或设备的图像采集单元来采集第一图像,例如,可以由车载系统的图像采集单元(例如摄像头)来采集第一图像,所述第一图像可以是车内图像,也可以是车外图像,所述采集第一图像可以是在车辆行驶过程中执行。
优选的,在步骤102中,基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字。所述图像描述生成算法可以基于深度学习的图像描述生成算法、基于模板填充的图像描述生成算法、基于检索的图像描述生成算法等。
优选的,在步骤103中,基于所述第一图像描述文字提取至少一个候选关键词。所述提取候选关键词可以采用现有技术中的任意关键词提取算法来完成,例如,基于语义分割的关键词提取算法。
优选的,在步骤104中,根据所述至少一个候选关键词,生成第一提问,具体为:从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,基于所述提问关键词生成第一提问。
优选的,在步骤104中,从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,具体为:识别当前用户的用户身份,获取与所述用户身份对应的兴趣主题,从所述至少一个候选关键词中选择属于所述兴趣主题的一个候选关键词作为提问关键词。
优选的,在步骤104中,若与所述用户身份对应的兴趣主题为多个,且存在多个候选关键词分别属于上述多个兴趣主题中的不同兴趣主题,则按照与所述兴趣主题对应的兴趣系数从所述多个候选关键词中选择一个候选关键词作为提问关键词。
优选的,在步骤104中,从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,具体为:若没有获取到与所述用户身份对应的兴趣主题,或者没有识别到所述当前用户的用户身份,则从所述至少一个候选关键词中随机选择一个候选关键词作为提问关键词。
优选的,步骤104中,识别当前用户的用户身份可以基于以下至少一种:密码识别、生物特征识别(如人脸识别、虹膜识别、指纹识别、声纹识别、体重识别、体型识别等)、便携式设备识别、驾驶习惯识别等。所述便携式设备识别具体为:基于用户携带的便携式设备(如可穿戴设备、手机等)的标识(如手机号、MAC、机器识别码等)与用户身份的对应关系来识别用户身份。
优选的,在步骤104中,生成第一提问,具体为:基于所述提问关键词在第一历史对话记录中搜索,得到与所述提问关键词对应的第一候选提问集合,从所述第一候选提问集合中选择一个第一候选提问作为第一提问。
优选的,在步骤104中,生成第一提问,具体为:向云服务器发送搜索请求,所述搜索请求中携带所述提问关键词,以使得所述云服务器基于所述提问关键词在第一历史对话记录中搜索得到与所述提问关键词对应的第一候选提问集合;从所述云服务器返回的第一候选提问集合中选择一个第一候选提问作为第一提问。
优选的,在步骤104中,从所述第一候选提问集合中选择一个第一候选提问作为第一提问,具体为:基于第一候选提问对应的难度系数,从所述第一候选提问集合中选择一个第一候选提问作为第一提问;或者,从所述第一候选提问集合中,随机选择一个第一候选提问作为第一提问。
优选的,所述第一历史对话记录中包括了所有用户即当前用户和其它用户与装置或设备(如车载系统)之间的历史对话记录,例如,某个用户A向装置或设备(如车载系统)发问“前方的建筑是中央电视塔吗?”、“中央电视塔有多高呢?”,某个用户B向装置或设备(如车载系统)发问“中央电视塔是哪年建成的呢?”,某个用户C向装置或设备(如车载系统)发问“中央电视塔是中国第几高塔?”、“中央电视塔是世界第几高塔?”,且装置或设备(如车载系统)分别对上述问题进行回答,则第一历史对话记录中包括由上述问题和回答构成的多个会话记录。
优选的,所述第一历史对话记录可以存储在云服务器,也可以由装置或设备(如车载系统)从云服务器下载到本地。
优选的,实时或者周期性地将用户与装置或设备(如车载系统)的对话记录上传到云服务器,云服务器将其存储在第一历史对话记录中,上述对话记录包括了用户发起的对话记录,也包括了装置或设备(如车载系统)发起的对话记录。
优选的,第一历史对话记录中包括针对每个提问关键词预设的预定数量的提问。所述预设提问具体为:确定提问关键词所属的主题;根据与该主题对应的属性预设提问。例如,“中央电视塔”所述主题为“建筑物”,建筑物的属性包括高度、颜色、建筑风格、修建年份、占地面积等,则根据上述属性可以为“中央电视塔”这一提问关键词预设如下几个提问:“中央电视塔的高度是多少?”、“中央电视塔是什么颜色”、“中央电视塔是什么建筑风格?”、“中央电视塔是哪年修建的?”、“中央电视塔的占地面积是多少?”。
优选的,上述预设提问的操作可以由云服务器来完成。
优选的,在步骤104中,从所述第一候选提问集建筑物合中选择一个第一候选提问作为第一提问,具体为:基于所述提问关键词在第二历史对话记录中搜索,得到与所述提问关键词对应的第二已提问集合,选择属于所述第一候选提问集合但不属于所述第二已提问集合的一个第一候选提问作为第一提问。其中,所述第二历史对话记录是与所述用户身份对应的第二历史对话记录。
优选的,所述第二历史对话记录为所述当前用户与装置或设备(如车载系统)之间的历史对话记录,其中包括当前用户发起的与装置或设备(如车载系统)对话的记录,也包括装置或设备(如车载系统)发起的与该当前用户的对话的记录。
优选的,所述第二已提问集合包括第二历史对话记录中装置或设备(如车载系统)向当前用户发起的与所述提问关键词对应的提问。
优选的,所述第二已提问集合包括第二历史对话记录中装置或设备(如车载系统)向当前用户发起的与所述提问关键词对应的提问和当前用户向装置或设备(如车载系统)发起的与所述提问关键词对应的提问。
优选的,若属于所述第一候选提问集合但不属于所述第二已提问集合的第一候选提问为多个,则基于第一候选提问对应的难度系数,从所述多个第一候选提问中选择一个第一候选提问作为第一提问;或者,从所述多个第一候选提问中选择一个第一候选提问作为第一提问。
优选的,在步骤104中,若第一候选提问集合中的所有第一候选提问均属于第二已提问集合,则从所述至少一个候选关键词中选择其他候选关键词作为提问关键词,生成第一提问。所述选择过程与前文所述类似,此处不再赘述。
优选的,在步骤101之前,判断是否符合发起对话的第一条件,如果符合所述第一条件,则执行步骤101。所述第一条件为以下至少之一:用户发出使能基于图像描述的对话的指令;用户独自驾车;判断出用户当前为疲倦状态等。
优选的,所述第一条件可以由用户来设置。
以下结合具体的实施例对本发明的方法进行具体说明。
在步骤101中,车辆即将经过中央电视塔,车载系统的图像采集装置采集到的图像可以为中央电视塔的图像。
在步骤102中,生成的第一图像描述文字可以为“天空下的中央电视塔”。
在步骤103中,提取的候选关键词为“天空”和“中央电视塔”。
在步骤104中,采用人脸识别方法识别出当前用户为用户A,其对应的兴趣主题为“建筑物”,由于候选关键词“天空”属于主题“天气”,候选关键词“中央电视塔”属于主题“建筑物”,因此,从两个候选关键词“天空”和“中央电视塔”中选择“中央电视塔”作为提问关键词。基于所述提问关键词,在第一历史对话记录中搜索,得到与所述提问关键词对应的第一候选提问集合,在本实施例中假设第一候选提问集合包括“前方的建筑是中央电视塔吗?”、“中央电视塔有多高呢?”、“中央电视塔是哪年建成的呢?”、“中央电视塔是中国第几高塔?”、“中央电视塔是世界第几高塔?”,其难度系数分别为0.1、0.2、0.3、0.4、0.5。在本实施例中,假设第二已提问集合仅包括第二历史对话记录中装置或设备(如车载系统)向当前用户发起的与所述提问关键词对应的提问,且此前车载系统并未就中央电视塔向用户发起过提问,因此,第二已提问集合为空,此时,从上述第一候选提问集合中基于难度系数,选择第一候选提问“前方的建筑是中央电视塔吗?”作为第一提问,并在步骤105中,基于所述第一提问,发起对话。
所述车载系统实时地将上述对话记录存储到第二历史对话记录中,并实时地或周期性地将上述对话记录上传到云服务器中。
此后,在车辆再次经过中央电视塔时,类似的,在步骤101-103中,车载系统采集图像、生成第一图像描述文字并提取候选关键词,其中包括候选关键词“中央电视塔”,也可包括其他候选关键词如“玉渊潭”,并在步骤104中将候选关键词“中央电视塔”确定为提问关键词,此时,选择属于第一候选提问集合但不属于第二已提问集合的第一候选提问作为第一提问,在本实施例中,第二已提问集合中包括“前方的建筑是中央电视塔吗?”,则第一候选提问集合中有四条第一候选提问符合上述条件,则根据难度系数或随机选择一条第一候选提问作为第一提问,例如选择“中央电视塔有多高呢?”作为第一提问。
值得注意的是,在本实施例中,在车辆首次经过中央电视塔时,仅描述了车载系统向用户发起一次第一提问“前方的建筑是中央电视塔吗?”,显然,在第一提问之后,车载系统还可以根据第一候选提问集合发起其他提问。
随着车载系统与用户对话的进行,或者,随着车辆多次经过中央电视塔、采集第一图像并执行本发明的方法,最终第二已提问集合中将包括上述第一候选提问集合中的所有第一候选提问,则当车辆再次经过中央电视塔,并类似的,在步骤101-103中,车载系统采集图像、生成第一图像描述文字并提取候选关键词后,由于第一候选提问集合中的所有第一候选提问均属于第二已提问集合,则从步骤103中提取的所述至少一个候选关键词中选择其他候选关键词作为提问关键词,在本实施例中,其他候选关键词为“天空”,即将“天空”作为提问关键词,生成第一提问。
在另一个实施例中,假设所述第二已提问集合包括车载系统向当前用户发起的与所述提问关键词对应的提问和当前用户向车载系统发起的与所述提问关键词对应的提问,则若车辆首次经过中央电视塔之后、再次经过中央电视塔之前,用户向车载系统发起提问“中央电视塔有多高呢?”并且得到了车载系统的答复,则在第二历史对话记录中记录了上述对话过程。此后,在车辆再次经过中央电视塔并选择第一提问时,基于第二历史对话记录搜索得到的第二已提问集合中包括“前方的建筑是中央电视塔吗?”和“中央电视塔有多高呢?”,则从第一候选提问集合中的剩余三条第一候选提问即“中央电视塔是哪年建成的呢?”、“中央电视塔是中国第几高塔?”、“中央电视塔是世界第几高塔?”中根据难度系数选择或随机选择一条第一候选提问作为第一提问。
在另一个实施例中,若识别出用户身份为用户B,其兴趣主题包括“建筑物”和“天气”,对应的兴趣系数为0.7和0.9,则由于候选关键词“天空”属于主题“天气”,候选关键词“中央电视塔”属于主题“建筑物”,而当前用户对“天气”的兴趣系数高于对“建筑物”的兴趣系数,因此,从两个候选关键词“天空”和“中央电视塔”中选择“天空”作为提问关键词。此后,基于所述提问关键词生成第一提问,该过程与前文所述类似,此处不再赘述。
通过本发明的方法,能够以用户实时看到的内容为主题展开对话,提升了用户与对话机器人对话的体验。此外,通过本发明的方法,即使采集了相同的图像,针对不用的用户能够生成不同的对话内容,为用户提供了个性化的对话体验。此外,通过本发明的方法,能够避免生成重复的对话内容,提高了对话内容的智能型,进一步提升了用户与对话机器人对话的体验。
本发明还提供一种基于图像描述的对话生成装置,参见图2,所述装置包括:
图像采集单元,用于采集第一图像;
图像描述文字生成单元,用于基于所述采集到的所述第一图像,采用图像描述生成算法,生成第一图像描述文字;
候选关键词提取单元,用于基于所述第一图像描述文字提取至少一个候选关键词;
提问生成单元,用于根据所述至少一个候选关键词,生成第一提问;
对话发起单元,用于基于所述第一提问,发起对话。
优选的,所述对话生成装置可以应用于任何装置或设备,如车辆、移动终端、智能家居设备等。
优选的,当所述对话生成装置应用于车辆时,所述第一图像可以是车内图像,也可以是车外图像,所述采集第一图像可在车辆行驶过程中执行。
优选的,所述提问生成单元,用于从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,基于所述提问关键词生成第一提问。
优选的,所述提问生成单元用于从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,具体为:识别当前用户的用户身份,获取与所述用户身份对应的兴趣主题,从所述至少一个候选关键词中选择属于所述兴趣主题的一个候选关键词作为提问关键词。
优选的,所述装置还包括存储单元,用于对应地存储用户身份与其兴趣主题。所述提问生成单元从所述存储单元中获取与所述用户身份对应的兴趣主题。
优选的,所述提问生成单元用于从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,具体为:若与所述用户身份对应的兴趣主题为多个,且存在多个候选关键词分别属于上述多个兴趣主题中的不同兴趣主题,则按照与所述兴趣主题对应的兴趣系数从所述多个候选关键词中选择一个候选关键词作为提问关键词。
所述存储单元还用于对应地存储用户身份、兴趣主题以及兴趣系数。所述提问生成单元从所述存储单元中获取与所述兴趣主题对应的兴趣系数。
优选的,所述提问生成单元用于从所述至少一个候选关键词中选择一个候选关键词作为提问关键词,具体为:若没有获取到与所述用户身份对应的兴趣主题,或者没有识别到所述当前用户的用户身份,则从所述至少一个候选关键词中随机选择一个候选关键词作为提问关键词。
优选的,所述提问生成单元用于基于所述提问关键词生成第一提问,具体为:基于所述提问关键词在第一历史对话记录中搜索,得到与所述提问关键词对应的第一候选提问集合,从所述第一候选提问集合中选择一个第一候选提问作为第一提问。
优选的,所述提问生成单元用于基于所述提问关键词生成第一提问,具体为:向云服务器发送搜索请求,所述搜索请求中携带所述提问关键词,以使得所述云服务器基于所述提问关键词在第一历史对话记录中搜索得到与所述提问关键词对应的第一候选提问集合,所述提问生成单元还用于从所述云服务器返回的第一候选提问集合中选择一个第一候选提问作为第一提问。
优选的,所述提问生成单元从所述第一候选提问集合中选择一个第一候选提问作为第一提问,具体为:基于第一候选提问对应的难度系数,从所述第一候选提问集合中选择一个第一候选提问作为第一提问;或者,从所述第一候选提问集合中,随机选择一个第一候选提问作为第一提问。
优选的,所述第一历史对话记录中包括了所有用户即当前用户和其它用户与装置(如车载系统)之间的历史对话记录。
优选的,所述第一历史对话记录可以存储在云服务器,也可以由所述装置(如车载系统)从云服务器下载到本地。
优选的,所述装置还包括对话记录上传单元,用于实时或者周期性地将用户与装置(如车载系统)的对话记录上传到云服务器,云服务器将其存储在第一历史对话记录中,上述对话记录包括了用户发起的对话记录,也包括了装置(如车载系统)发起的对话记录。
优选的,第一历史对话记录中包括针对每个提问关键词预设的预定数量的提问。所述预设提问具体为:确定提问关键词所属的主题;根据与该主题对应的属性预设提问。例如,“中央电视塔”所述主题为“建筑物”,建筑物的属性包括高度、颜色、建筑风格、修建年份、占地面积等,则根据上述属性可以为“中央电视塔”这一提问关键词预设如下几个提问:“中央电视塔的高度是多少?”、“中央电视塔是什么颜色”、“中央电视塔是什么建筑风格?”、“中央电视塔是哪年修建的?”、“中央电视塔的占地面积是多少?”。
优选的,上述预设提问的操作可以由云服务器来完成。
优选的,所述提问生成单元用于从所述第一候选提问集合中选择一个第一候选提问作为第一提问,具体为:基于所述提问关键词在第二历史对话记录中搜索,得到与所述提问关键词对应的第二已提问集合,选择属于所述第一候选提问集合但不属于所述第二已提问集合的一个第一候选提问作为第一提问。其中,所述第二历史对话记录是与所述用户身份对应的第二历史对话记录。
所述存储单元还用于与用户身份对应地存储所述第二历史对话记录。所述第二历史对话记录包括所述当前用户与所述装置的历史对话记录。
优选的,所述第二已提问集合包括第二历史对话记录中装置(如车载系统)向当前用户发起的与所述提问关键词对应的提问。
优选的,所述第二已提问集合包括第二历史对话记录中装置(如车载系统)向当前用户发起的与所述提问关键词对应的提问和当前用户向装置(如车载系统)发起的与所述提问关键词对应的提问。
优选的,所述提问生成单元还用于:若属于所述第一候选提问集合但不属于所述第二已提问集合的第一候选提问为多个,则基于第一候选提问对应的难度系数,从所述多个第一候选提问中选择一个第一候选提问作为第一提问;或者,从所述多个第一候选提问中选择一个第一候选提问作为第一提问。
优选的,所述提问生成单元还用于:若第一候选提问集合中的所有第一候选提问均属于第二已提问集合,则从所述候选关键词提取单元提取的所述至少一个候选关键词中选择其他候选关键词作为提问关键词,生成第一提问
优选的,所述装置还包括对话发起判断单元,用于判断是否符合发起对话的第一条件,如果符合所述第一条件,则触发所述图像采集单元。所述第一条件为以下至少之一:用户发出使能基于图像描述的对话的指令;用户独自驾车;判断出用户当前为疲倦状态等。
优选的,所述第一条件可以由用户来设置。
本发明提供一种基于图像描述的对话生成装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
本发明提供一种车辆,其特征在于,所述车辆包括:如上所述的装置。
本发明提供一种终端,其特征在于,所述终端包括:如上所述的装置。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种主动提问的生成方法,其特征在于,所述方法包括:
采用图像描述生成算法对采集到的图像进行图像描述,生成第一图像描述文字;
采用基于语义分割的关键词提取算法从所述第一图像描述文字中提取至少一个候选关键词;
从所述至少一个候选关键词中选择出用于构建第一提问的提问关键词,具体的,识别当前用户的用户身份,获取与所述用户身份对应的兴趣主题,从所述至少一个候选关键词中选择属于所述兴趣主题的一个候选关键词作为提问关键词;若没有获取与所述用户身份对应的兴趣主题,或者没有识别到所述当前用户的用户身份,则从所述至少一个候选关键词中随机选择一个候选关键词作为提问关键词;
从针对所述提问关键词预设的预定数量的提问中选择一个第一候选提问作为第一提问;其中,所述预定数量的提问的预设过程为:确定提问关键词所属的主题;根据与该主题对应的属性预设针对所述提问关键词的预定数量的提问;
基于所述第一提问,向用户发起提问。
2.根据权利要求1所述的方法,其特征在于,
若所述用户身份对应的兴趣主题为多个,则按照与所述兴趣主题对应的兴趣系数从所述多个候选关键词中选择一个候选关键词作为提问关键词。
3.根据权利要求1所述的方法,其特征在于,
基于提问对应的难度系数,从针对所述提问关键词预设的预定数量的提问中选择一个作为第一提问。
4.根据权利要求1所述的方法,其特征在于,
所述方法还包括:基于所述提问关键词在第二历史对话记录中搜索,得到与所述提问关键词对应的第二已提问集合,从针对所述提问关键词预设的预定数量的提问中选择不属于所述第二已提问集合的一个第一候选提问作为第一提问。
5.一种主动提问的生成装置,其特征在于,所述装置包括:
图像采集单元,用于采集图像;
图像描述文字生成单元,用于采用图像描述生成算法对采集到的图像进行图像描述,生成第一图像描述文字;
候选关键词提取单元,用于采用基于语义分割的关键词提取算法从所述第一图像描述文字中提取至少一个候选关键词;
提问生成单元,用于从所述至少一个候选关键词中选择出用于构建第一提问的提问关键词,具体的,识别当前用户的用户身份,获取与所述用户身份对应的兴趣主题,从所述至少一个候选关键词中选择属于所述兴趣主题的一个候选关键词作为提问关键词;若没有获取与所述用户身份对应的兴趣主题,或者没有识别到所述当前用户的用户身份,则从所述至少一个候选关键词中随机选择一个候选关键词作为提问关键词;从针对所述提问关键词预设的预定数量的提问中选择一个第一候选提问作为第一提问;其中,所述预定数量的提问的预设过程为:确定提问关键词所属的主题;根据与该主题对应的属性预设针对所述提问关键词的预定数量的提问;
对话发起单元,用于基于所述第一提问,向用户发起提问。
6.根据权利要求5所述的装置,其特征在于,
所述提问生成单元用于:若与所述用户身份对应的兴趣主题为多个,则按照与所述兴趣主题对应的兴趣系数从所述多个候选关键词中选择一个候选关键词作为提问关键词。
7.根据权利要求5所述的装置,其特征在于,
所述提问生成单元,用于基于提问对应的难度系数,从针对所述提问关键词预设的预定数量的提问中选择一个作为第一提问。
8.根据权利要求5所述的装置,其特征在于,
所述提问生成单元用于:基于所述提问关键词在第二历史对话记录中搜索,得到与所述提问关键词对应的第二已提问集合,从针对所述提问关键词预设的预定数量的提问中选择不属于所述第二已提问集合的一个第一候选提问作为第一提问。
9.一种主动提问的生成装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-4任一项所述的方法。
11.一种车辆,其特征在于,所述车辆包括:如权利要求5-8任一项所述的装置。
12.一种终端,其特征在于,所述终端包括:如权利要求5-8任一项所述的装置。
CN201910584233.3A 2019-06-28 2019-06-28 一种基于图像描述的对话生成方法和装置 Active CN110196931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910584233.3A CN110196931B (zh) 2019-06-28 2019-06-28 一种基于图像描述的对话生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910584233.3A CN110196931B (zh) 2019-06-28 2019-06-28 一种基于图像描述的对话生成方法和装置

Publications (2)

Publication Number Publication Date
CN110196931A CN110196931A (zh) 2019-09-03
CN110196931B true CN110196931B (zh) 2021-10-08

Family

ID=67755479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910584233.3A Active CN110196931B (zh) 2019-06-28 2019-06-28 一种基于图像描述的对话生成方法和装置

Country Status (1)

Country Link
CN (1) CN110196931B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515590A (zh) * 2021-04-21 2021-10-19 洛阳青鸟网络科技有限公司 一种基于大数据的智能机器人应答方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105490918A (zh) * 2015-11-20 2016-04-13 深圳狗尾草智能科技有限公司 一种机器人主动与主人交互的系统及方法
CN105913039A (zh) * 2016-04-26 2016-08-31 北京光年无限科技有限公司 基于视觉和语音的对话数据交互处理方法及装置
JP2017068592A (ja) * 2015-09-30 2017-04-06 大日本印刷株式会社 ロボット、ロボット制御装置、ロボット制御方法、及びプログラム
CN107016046A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 基于视觉场景化的智能机器人对话方法及系统
CN107278302A (zh) * 2017-03-02 2017-10-20 深圳前海达闼云端智能科技有限公司 一种机器人交互方法及交互机器人
CN109885664A (zh) * 2019-01-08 2019-06-14 厦门快商通信息咨询有限公司 一种智能对话方法、机器人对话系统、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245996B (zh) * 2018-09-18 2023-04-07 平安科技(深圳)有限公司 邮件推送方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017068592A (ja) * 2015-09-30 2017-04-06 大日本印刷株式会社 ロボット、ロボット制御装置、ロボット制御方法、及びプログラム
CN105490918A (zh) * 2015-11-20 2016-04-13 深圳狗尾草智能科技有限公司 一种机器人主动与主人交互的系统及方法
CN105913039A (zh) * 2016-04-26 2016-08-31 北京光年无限科技有限公司 基于视觉和语音的对话数据交互处理方法及装置
CN107016046A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 基于视觉场景化的智能机器人对话方法及系统
CN107278302A (zh) * 2017-03-02 2017-10-20 深圳前海达闼云端智能科技有限公司 一种机器人交互方法及交互机器人
CN109885664A (zh) * 2019-01-08 2019-06-14 厦门快商通信息咨询有限公司 一种智能对话方法、机器人对话系统、服务器及存储介质

Also Published As

Publication number Publication date
CN110196931A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
US11605226B2 (en) Video data processing method and apparatus, and readable storage medium
CN109934955B (zh) 充电模式识别方法、装置、终端设备及存储介质
CN109036405A (zh) 语音交互方法、装置、设备及存储介质
JP2022521038A (ja) 顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器
CN111401388B (zh) 数据挖掘方法、装置、服务器及可读存储介质
CN111831795B (zh) 多轮对话处理方法、装置、电子设备及存储介质
CN113347742B (zh) 车机蓝牙的连接方法、装置、电子设备及存储介质
CN111813900B (zh) 多轮对话处理方法、装置、电子设备及存储介质
CN107103029B (zh) 一种用于机器人的图像数据处理方法
CN111611402B (zh) 一种基于位置的驾驶行为知识图谱生成方法、装置和系统
CN110377574A (zh) 图片的协作处理方法及装置、存储介质、电子装置
CN108763355B (zh) 一种基于用户的智能机器人交互数据处理系统及方法
CN110196931B (zh) 一种基于图像描述的对话生成方法和装置
CN113806503A (zh) 一种对话融合方法和装置及设备
CN110852191A (zh) 基于身份验证的预约取车方法及装置、存储介质、终端
CN113589938A (zh) 具备弹幕功能的车载终端信息分享系统
CN110265009B (zh) 一种基于用户身份的主动对话发起方法和装置
CN110517672B (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN104077924A (zh) 反向寻车系统及方法
CN110517523A (zh) 停车位置记录方法、装置及存储介质
CN115775155A (zh) 一种用户场景分析方法、装置、设备和介质
CN110430127B (zh) 基于绘本阅读的语音处理方法、装置及存储介质
CN112822501A (zh) 视频直播中的信息显示方法和装置、存储介质及电子设备
CN112669840A (zh) 一种语音处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231114

Address after: No. 8, Huaichang Road, Jiuduhe Town, Huairou District, Beijing 101400 (cluster registration)

Patentee after: Beijing Anxin Yiwei Technology Co.,Ltd.

Address before: Room 401, gate 2, block a, Zhongguancun 768 Creative Industry Park, 5 Xueyuan Road, Haidian District, Beijing 100083

Patentee before: BEIJING MORAN COGNITIVE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right