CN114817486A - 一种交互方法、装置及电子设备 - Google Patents

一种交互方法、装置及电子设备 Download PDF

Info

Publication number
CN114817486A
CN114817486A CN202110081332.7A CN202110081332A CN114817486A CN 114817486 A CN114817486 A CN 114817486A CN 202110081332 A CN202110081332 A CN 202110081332A CN 114817486 A CN114817486 A CN 114817486A
Authority
CN
China
Prior art keywords
information
answer
adopting
algorithm
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110081332.7A
Other languages
English (en)
Inventor
胡珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110081332.7A priority Critical patent/CN114817486A/zh
Publication of CN114817486A publication Critical patent/CN114817486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种交互方法、装置及电子设备,涉及人工智能技术领域,其中,交互方法包括:接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。本发明实施例能够提高交互体验。

Description

一种交互方法、装置及电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种交互方法、装置及电子设备。
背景技术
随着人工智能技术的不断发展,人们对于更方便、快捷且高效的智能交互方式的需求越来越强烈,对于交互体验的要求越来越高。例如,人们可以向客服机器人输入文本,客服机器人会解析输入的文本,并进行回复,以实现人与客服机器人之间的交互。
然而,在现有的智能交互方式中,基本上只能以文本进行交互,交互方式较为单一,交互体验较差。
发明内容
本发明实施例提供一种交互方法、装置及电子设备,以解决在现有的智能交互方式中,基本上只能以文本进行交互,交互方式较为单一,交互体验较差的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种交互方法,所述方法包括:
接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;
确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,所述对所述第一信息包含的信息内容进行解析,得到融合特征,包括:
在所述第一信息包含的信息内容包括图片和文本的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别、所述图片描述信息及所述文本;
在所述第一信息包含的信息内容包括视频和文本的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息及所述文本;
在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
可选的,所述对所述语音进行语音识别之后,所述方法还包括:
对所述语音提取声纹特征,并基于所述声纹特征判断所述语音对应的用户是否为预设用户;
其中,若所述语音对应的用户为所述预设用户,则所述融合特征包括所述识别文本和所述预设用户对应的用户信息。
可选的,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
在历史问题日志库中查找是否存在所述预设用户关联的历史问题;
所述采用自然语言处理算法对所述融合特征进行识别处理,包括:
若所述历史问题日志库中存在所述预设用户关联的历史问题,则基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理。
可选的,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
基于所述第一信息确定所述第一信息对应的目标领域;
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述目标领域为多个领域中的领域,所述多个领域中第一领域维护有知识图谱;
所述采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;
若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;
若采用所述知识图谱问答算法未识别到所述第一答案,则根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案;
在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别;
若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;
若采用所述意图识别算法未识别到所述第一问题,则采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述第一信息对应的答案包括文本答案,所述文本答案关联有图片答案、视频答案及语音答案;
所述输出所述答案,包括:
输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项。
第二方面,本发明实施例提供了一种交互装置,所述装置包括:
接收模块,用于接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;
解析模块,用于确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;
处理模块,用于采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,所述解析模块包括:
第一解析单元,用于在所述第一信息包含的信息内容包括图片和文本的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别、所述图片描述信息及所述文本;
第二解析单元,用于在所述第一信息包含的信息内容包括视频和文本的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息及所述文本;
第三解析单元,用于在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
可选的,所述第三解析单元还用于:
对所述语音提取声纹特征,并基于所述声纹特征判断所述语音对应的用户是否为预设用户;
其中,若所述语音对应的用户为所述预设用户,则所述融合特征包括所述识别文本和所述预设用户对应的用户信息。
可选的,所述装置还包括:
查找模块,用于在历史问题日志库中查找是否存在所述预设用户关联的历史问题;
所述处理模块具体用于:
若所述历史问题日志库中存在所述预设用户关联的历史问题,则基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,所述装置还包括:
确定模块,用于基于所述第一信息确定所述第一信息对应的目标领域;
所述处理模块具体用于:
采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,所述目标领域为多个领域中的领域,所述多个领域中第一领域维护有知识图谱;
所述处理模块具体用于:
在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;
若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;
若采用所述知识图谱问答算法未识别到所述第一答案,则根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案;
在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述处理模块具体还用于:
根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别;
若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;
若采用所述意图识别算法未识别到所述第一问题,则采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述第一信息对应的答案包括文本答案,所述文本答案关联有图片答案、视频答案及语音答案;
所述处理模块具体用于:
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现第一方面所述的交互方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的交互方法的步骤。
本发明实施例中,接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。这样,相对于单一的以文本进行交互的模式,通过对多种类型的信息内容的解析、融合及识别,能够提高交互体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种交互方法的流程图;
图2是本发明实施例提供的一种交互装置的结构示意图;
图3是本发明实施例提供的另一种交互装置的结构示意图;
图4是本发明实施例提供的另一种交互装置的结构示意图;
图5是本发明实施例提供的另一种交互装置的结构示意图;
图6是本发明实施例提供的另一种交互装置的结构示意图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,提出了一种交互方法、装置及电子设备,以解决在现有的智能交互方式中,基本上只能以文本进行交互,交互方式较为单一,交互体验较差的问题。
参见图1,图1是本发明实施例提供的一种交互方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101、接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项。
其中,所述第一信息可以是用户输入的信息。示例地,所述第一信息可以包括图片及文本;或者,所述第一信息可以包括视频和文本;或者,所述第一信息可以包括语音;或者,所述第一信息可以包括图片、视频、语音及文本,等等,本实施例对所述第一信息包含的信息内容不进行限定。所述交互方法可以应用于电子设备,可以在电子设备的显示界面输入所述第一信息,在所述第一信息包括语音的情况下,可以通过所述电子设备的拾音器输入所述语音。
步骤102、确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征。
其中,可以分析所述第一信息以确定所述第一信息包含的信息内容,示例地,若第一信息中包括图片格式的信息内容,则可以确定第一信息中包括图片;若第一信息中包括视频格式的信息内容,则可以确定第一信息中包括视频。
另外,所述对所述第一信息包含的信息内容进行解析,得到融合特征,可以包括:在所述第一信息包含的信息内容包括图片的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别及所述图片描述信息;在所述第一信息包含的信息内容包括视频的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息;在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
步骤103、采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
其中,所述自然语言处理算法可以包括基于第一语言模型的知识图谱问答算法、基于第二语言模型的意图识别算法、用于多轮对话的自然语言处理算法等等。所述采用自然语言处理算法对所述融合特征进行识别处理,可以包括:采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;或者还可以包括:采用基于第二语言模型的意图识别算法对所述融合特征进行识别处理;或者还可以包括:采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理;等等,本实施例对此不进行限定。
示例地,可以采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;若采用所述知识图谱问答算法未识别到所述第一答案,则可以根据知识库采用意图识别算法对所述融合特征进行意图识别,若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;若采用所述意图识别算法未识别到所述第一问题,则可以采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
本发明实施例中,接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。这样,相对于单一的以文本进行交互的模式,通过对多种类型的信息内容的解析、融合及识别,能够提高交互体验。
可选的,所述对所述第一信息包含的信息内容进行解析,得到融合特征,包括:
在所述第一信息包含的信息内容包括图片和文本的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别、所述图片描述信息及所述文本;
在所述第一信息包含的信息内容包括视频和文本的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息及所述文本;
在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
其中,所述对所述图片进行解析,得到图片类别及图片描述信息,可以是,通过RESNET网络模型对图片进行目标分类,识别出图片类别,并通过细粒度可控图像描述ASG2Caption网络模型,将图片转化为文本类型的图片描述信息。所述图片可以并不包含问题的答案,而是对文本的补充。所述对视频进行解析,可以是,通过3D分解网络FstCN模型识别出视频中的动作,得到视频动作描述信息。
另外,在所述第一信息包含的信息内容包括图片和文本的情况下,所述融合特征可以是所述图片类别、所述图片描述信息及所述文本进行特征拼接后得到的特征;在所述第一信息包含的信息内容包括视频和文本的情况下,所述融合特征可以是所述视频动作描述信息及所述文本进行特征拼接后得到的特征。
该实施方式中,通过判断所述第一信息包含的信息内容的类型,分别对图片、视频及语音进行解析,并将解析结果与文本进行融合,采用自然语言处理算法对融合特征进行识别处理,能够实现可理解并识别多模态输入的智能交互。
可选的,所述对所述语音进行语音识别之后,所述方法还包括:
对所述语音提取声纹特征,并基于所述声纹特征判断所述语音对应的用户是否为预设用户;
其中,若所述语音对应的用户为所述预设用户,则所述融合特征包括所述识别文本和所述预设用户对应的用户信息。
其中,所述预设用户可以为历史用户列表中的用户。可以维护有历史用户列表,并且,对于历史用户列表中的用户可以对应存储有用户信息。所述用户信息可以包括用户名称、用户性别、用户地址或者用户关注的领域等等。所述融合特征可以是所述识别文本和所述预设用户对应的用户信息进行特征拼接后得到的特征。
该实施方式中,若所述语音对应的用户为所述预设用户,则将所述预设用户对应的用户信息作为特征用于获取所述第一信息对应的答案,能够提高获取的所述第一信息对应的答案的准确性,进而可以提高交互体验。
可选的,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
在历史问题日志库中查找是否存在所述预设用户关联的历史问题;
所述采用自然语言处理算法对所述融合特征进行识别处理,包括:
若所述历史问题日志库中存在所述预设用户关联的历史问题,则基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理。
其中,所述基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理,可以是,将所述预设用户关联的历史问题作为问题候选集中的问题,采用自然语言处理算法对所述融合特征进行识别处理。示例地,以自然语言处理算法为基于第一语言模型的知识图谱问答算法为例,可以采用问题候选集中的问题构建知识图谱,基于所述知识图谱实现知识图谱问答算法;以自然语言处理算法为意图识别算法为例,可以采用意图识别算法对所述融合特征进行意图识别,识别得到第一问题,可以将所述第一问题作为问题候选集中的问题,可以采用第二语言模型对问题候选集中的问题进行相关度排序,根据排序结果确定所述第一信息对应的答案。
该实施方式中,基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理,而所述预设用户关联的历史问题有较大可能与所述第一信息匹配,从而能够提高获取的所述第一信息对应的答案的准确性,进而可以提高交互体验。
可选的,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
基于所述第一信息确定所述第一信息对应的目标领域;
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
其中,所述基于所述第一信息确定所述第一信息对应的目标领域,可以是,从所述第一信息中提取目标领域,所述第一信息中包括目标领域;或者还可以是,从所述第一信息包含的信息内容确定目标领域,示例地,第一信息中包括“购买”,则可以确定目标领域为购物领域。
另外,所述目标领域为多个领域中的领域,所述多个领域中第一领域可以维护有知识图谱,所述采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,可以包括:在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理。
该实施方式中,采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,对于不同的领域可以采用不同的自然语言处理算法,能够提高识别的准确性,从而能够提高获取的所述第一信息对应的答案的准确性。
可选的,所述目标领域为多个领域中的领域,所述多个领域中第一领域维护有知识图谱;
所述采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;
若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;
若采用所述知识图谱问答算法未识别到所述第一答案,则根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案;
在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案。
其中,所述第一领域可以为所述多个领域中的部分领域。可以对所述第一领域维护领域内的知识图谱,并且对所述多个领域维护多渠道知识库。所述第一语言模型的知识图谱问答算法可以为基于BERT模型的KBQA算法,可以采用基于BERT模型的KBQA算法对融合特征进行问答匹配,得到第一答案,将所述第一答案确定为所述第一信息对应的答案。所述根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,可以是,根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别,得到第一问题,采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案。
该实施方式中,不同领域维护不同的知识组织形式,包括知识库和知识图谱,且对于不同的领域采用不同的自然语言处理算法对融合特征进行识别处理,相对于仅针对某个垂直领域的交互,能够实现多领域自由切换的智能交互。
可选的,所述根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别;
若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;
若采用所述意图识别算法未识别到所述第一问题,则采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
其中,所述根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别,可以是,采用意图识别算法对所述融合特征进行意图识别,将不同意图的输入引导至目标领域中意图对应的场景,在目标领域对应的知识库中匹配出第一信息对应的场景下的第一问题。所述第一问题可以包括多个问题,所述第二语言模型可以为RoBerta模型,可以采用RoBerta模型对第一问题进行相关度排序,可以将排序结果中排序在最前的,表示相关度最强的问题确定为与所述第一信息匹配的问题,并将与所述第一信息匹配的问题对应的答案确定为所述第一信息对应的答案。知识库中存储有问题与答案的对应关系。
另外,所述采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,可以是,采用对话状态追踪以及槽位识别算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。所述采用对话状态追踪以及槽位识别算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,可以包括:采用对话状态追踪以及槽位识别算法对所述融合特征进行识别处理;若识别到第二答案,可以将识别到的所述第二答案确定为所述第一信息对应的答案;若未识别到所述第二答案,则可以输出表征未识别到答案的信息。
该实施方式中,采用意图识别算法未识别到与所述第一信息匹配的问题时,采用用于多轮对话的自然语言处理算法对融合特征进行识别处理,通过多种方式对融合特征进行识别处理,能够提高匹配到所述第一信息对应的答案的概率,进而能够提高交互体验。
可选的,所述第一信息对应的答案包括文本答案,所述文本答案关联有图片答案、视频答案及语音答案;
所述输出所述答案,包括:
输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项。
其中,可以在第一信息包括图片时,输出文本答案以及与所述文本答案关联的图片答案;在第一信息包括视频时,输出文本答案以及与所述文本答案关联的视频答案;在第一信息包括语音时,输出文本答案以及与所述文本答案关联的语音答案;或者可以同时输出所述文本答案、与所述文本答案关联的图片答案、视频答案及语音答案,等等,本实施例对此不进行限定。
该实施方式中,输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项,从而提供了一种多模态的答案输出方式,提高了交互体验。
作为一种具体的实施方式,本发明实施例提供了一种交互装置,可以用于实现本发明实施例所述的交互方法,如图2所示,所述交互装置可以实现图片-文本问答机制、视频-文本问答机制以及语音-文本问答机制,从而用户可以对交互装置输入文本问题、图片+文本问题、视频+文本问题或语音问题,交互装置针对用户的输入,进行图片解析、视频解析或者语音解析,输出对应的答案。本实施例中的交互装置对多模态的输入信息进行解析,对解析结果进行特征融合,基于知识图谱、知识库以及历史问题日志库,根据不同领域的特点,采用不同领域对应的自然语言处理算法对融合特征进行识别处理,并输出答案,输出的答案可以以图片、视频、语音等多种方式呈现。从而实现了一个多模态结合的智能交互系统,并且可灵活切换不同领域,具有十分广阔的应用推广前景。
参见图3,图3是本发明实施例提供的一种交互装置的结构示意图,如图3所示,交互装置200包括:
接收模块201,用于接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;
解析模块202,用于确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;
处理模块203,用于采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,如图4所示,所述解析模块202包括:
第一解析单元2021,用于在所述第一信息包含的信息内容包括图片和文本的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别、所述图片描述信息及所述文本;
第二解析单元2022,用于在所述第一信息包含的信息内容包括视频和文本的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息及所述文本;
第三解析单元2023,用于在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
可选的,所述第三解析单元2023还用于:
对所述语音提取声纹特征,并基于所述声纹特征判断所述语音对应的用户是否为预设用户;
其中,若所述语音对应的用户为所述预设用户,则所述融合特征包括所述识别文本和所述预设用户对应的用户信息。
可选的,如图5所示,所述装置200还包括:
查找模块204,用于在历史问题日志库中查找是否存在所述预设用户关联的历史问题;
所述处理模块203具体用于:
若所述历史问题日志库中存在所述预设用户关联的历史问题,则基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,如图6所示,所述装置200还包括:
确定模块205,用于基于所述第一信息确定所述第一信息对应的目标领域;
所述处理模块203具体用于:
采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
可选的,所述目标领域为多个领域中的领域,所述多个领域中第一领域维护有知识图谱;
所述处理模块203具体用于:
在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;
若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;
若采用所述知识图谱问答算法未识别到所述第一答案,则根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案;
在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述处理模块203具体还用于:
根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别;
若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;
若采用所述意图识别算法未识别到所述第一问题,则采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
可选的,所述第一信息对应的答案包括文本答案,所述文本答案关联有图片答案、视频答案及语音答案;
所述处理模块203具体用于:
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项。
交互装置能够实现图1的方法实施例中实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
如图7所示,本发明实施例还提供了一种电子设备300,包括:处理器301、存储器302及存储在所述存储器302上并可在所述处理器301上运行的程序,所述程序被所述处理器301执行时实现上述交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (11)

1.一种交互方法,其特征在于,所述方法包括:
接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;
确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一信息包含的信息内容进行解析,得到融合特征,包括:
在所述第一信息包含的信息内容包括图片和文本的情况下,对所述图片进行解析,得到图片类别及图片描述信息,所述融合特征包括所述图片类别、所述图片描述信息及所述文本;
在所述第一信息包含的信息内容包括视频和文本的情况下,对所述视频进行解析,得到视频动作描述信息,所述融合特征包括所述视频动作描述信息及所述文本;
在所述第一信息包含的信息内容包括语音的情况下,对所述语音进行语音识别,得到识别文本,所述融合特征包括所述识别文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音进行语音识别之后,所述方法还包括:
对所述语音提取声纹特征,并基于所述声纹特征判断所述语音对应的用户是否为预设用户;
其中,若所述语音对应的用户为所述预设用户,则所述融合特征包括所述识别文本和所述预设用户对应的用户信息。
4.根据权利要求3所述的方法,其特征在于,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
在历史问题日志库中查找是否存在所述预设用户关联的历史问题;
所述采用自然语言处理算法对所述融合特征进行识别处理,包括:
若所述历史问题日志库中存在所述预设用户关联的历史问题,则基于所述预设用户关联的历史问题,采用自然语言处理算法对所述融合特征进行识别处理。
5.根据权利要求1所述的方法,其特征在于,所述采用自然语言处理算法对所述融合特征进行识别处理之前,所述方法还包括:
基于所述第一信息确定所述第一信息对应的目标领域;
采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
6.根据权利要求5所述的方法,其特征在于,所述目标领域为多个领域中的领域,所述多个领域中第一领域维护有知识图谱;
所述采用与所述目标领域对应的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
在所述目标领域属于所述第一领域的情况下,根据所述目标领域对应的知识图谱采用基于第一语言模型的知识图谱问答算法对所述融合特征进行识别处理;
若采用所述知识图谱问答算法识别到第一答案,则将所述第一答案确定为所述第一信息对应的答案;
若采用所述知识图谱问答算法未识别到所述第一答案,则根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案;
在所述目标领域不属于所述第一领域的情况下,根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标领域对应的知识库采用意图识别算法及第二语言模型对所述融合特征进行识别处理,得到所述第一信息对应的答案,包括:
根据所述目标领域对应的知识库采用意图识别算法对所述融合特征进行意图识别;
若采用所述意图识别算法识别到第一问题,则采用第二语言模型对所述第一问题进行相关度排序,根据排序结果确定所述第一信息对应的答案;
若采用所述意图识别算法未识别到所述第一问题,则采用用于多轮对话的自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案。
8.根据权利要求1所述的方法,其特征在于,所述第一信息对应的答案包括文本答案,所述文本答案关联有图片答案、视频答案及语音答案;
所述输出所述答案,包括:
输出所述文本答案,并输出与所述文本答案关联的图片答案、视频答案及语音答案中的至少一项。
9.一种交互装置,其特征在于,所述装置包括:
接收模块,用于接收输入的第一信息,所述第一信息包括图片、视频或者语音中的至少一项;
解析模块,用于确定所述第一信息包含的信息内容,对所述第一信息包含的信息内容进行解析,得到融合特征;
处理模块,用于采用自然语言处理算法对所述融合特征进行识别处理,得到所述第一信息对应的答案,输出所述答案。
10.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至8中任一项所述的交互方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的交互方法的步骤。
CN202110081332.7A 2021-01-21 2021-01-21 一种交互方法、装置及电子设备 Pending CN114817486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110081332.7A CN114817486A (zh) 2021-01-21 2021-01-21 一种交互方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081332.7A CN114817486A (zh) 2021-01-21 2021-01-21 一种交互方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114817486A true CN114817486A (zh) 2022-07-29

Family

ID=82525230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081332.7A Pending CN114817486A (zh) 2021-01-21 2021-01-21 一种交互方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114817486A (zh)

Similar Documents

Publication Publication Date Title
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
CN106406806A (zh) 一种用于智能设备的控制方法及装置
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN111651497B (zh) 用户标签挖掘方法、装置、存储介质及电子设备
CN111159358A (zh) 多意图识别训练和使用方法及装置
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN112364622B (zh) 对话文本分析方法、装置、电子装置及存储介质
CN113901189A (zh) 一种数字人交互方法、装置、电子设备及存储介质
CN117789099B (zh) 视频特征提取方法及装置、存储介质及电子设备
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN117939238A (zh) 角色识别方法、系统及计算设备、计算机可读存储介质
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN110517672A (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
CN115905490B (zh) 人机交互对话方法、装置以及设备
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN116775821A (zh) 对话处理方法以及系统
CN114697762B (zh) 一种处理方法、装置、终端设备及介质
CN113360630B (zh) 交互信息提示方法
CN115062131A (zh) 一种基于多模态的人机交互方法及装置
CN114817486A (zh) 一种交互方法、装置及电子设备
CN115688758A (zh) 一种语句意图识别方法、装置和存储介质
CN115019788A (zh) 语音交互方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination