CN106980640B

CN106980640B - 针对照片的交互方法、设备和计算机可读存储介质

Info

Publication number: CN106980640B
Application number: CN201710069679.3A
Authority: CN
Inventors: 孙镍波
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2017-02-08
Filing date: 2017-02-08
Publication date: 2020-04-24
Anticipated expiration: 2037-02-08
Also published as: CN106980640A

Abstract

本发明的实施方式提供了一种针对照片的交互方法。该交互方法包括：获取用户输入的针对终端上呈现的特定照片的语音；对所述语音进行识别，得到对应的文本识别结果；根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。本发明的交互方法可以让用户从照片中获取互动的体验，而不是仅仅满足精神上的思念或追求。尤其是对于含有人物对象的照片，本发明的交互方法可以让用户体验到好像与照片中的人进行真实地互动。此外，本发明的实施方式提供了一种针对照片的交互设备。

Description

针对照片的交互方法、设备和计算机可读存储介质

技术领域

本发明的实施方式涉及信息处理领域，更具体地，本发明的实施方式涉及一种针对照片的交互方法、设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着科技的发展，人们已经很少使用纸质照片，基本习惯通过手机、数码相机等电子设备来得到电子照片。通常，人们通过电子照片来怀念以往的一些人、一些事或在精神上追求一些人等。例如，当孩子背井离乡去异地求学或工作，可能很长一段时间都没有与家长交流，家长往往为了不打扰孩子，常常通过翻阅孩子以往的一些照片来满足内心的思念。又如，对于一些追星的人来说，由于距离、交通、时间、成本等原因可能无法与自己的偶像等进行交流，往往通过搜索偶像的照片、海报等单方面的方式来满足精神上的追求。

但是，电子照片毕竟是静态的，虽然能够记录过去的一些场景，但是用户无法获取互动的体验。

发明内容

从上述可以看出，现有技术只能向用户提供能够记录信息的静态照片，这些静态照片虽然可以满足人们的一些精神上的思念或追求，但是用户无法从中获取互动的体验，这是非常令人烦恼的过程。

为此，非常需要一种改进的针对照片的交互方法和设备，以不仅给用户提供能够满足精神上的思念或追求的照片，还能让用户从照片中获取互动的体验。

在本上下文中，本发明的实施方式期望提供一种针对照片的交互方法、设备和计算机可读存储介质。

在本发明实施方式的第一方面中，提供了一种针对照片的交互方法，包括：获取用户输入的针对终端上呈现的特定照片的语音；对所述语音进行识别，得到对应的文本识别结果；根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

在本发明的一个实施例中，所述已知的知识库是根据预先获取到的多个知识元素而建立的，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联。

在本发明的一个实施例中，所述根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：根据从所述知识库中搜索到一个或多个匹配度超过第一阈值的第一知识元素的结果，触发所述终端播放与第一知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

在本发明的一个实施例中，所述根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：根据从所述知识库中搜索到多个匹配度超过第一阈值的知识元素的结果，确定匹配度最高的知识元素；触发所述终端播放与所述匹配度最高的知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

在本发明的一些实施例中，根据本发明的上述一些实施方式所述的方法，所述对应的视频的初始画面与所述特定照片相同或相近。

在本发明的一个实施例中，根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：根据从所述知识库中搜索到一个或多个匹配度低于第一阈值且超过第二阈值的知识元素的结果，触发所述终端向所述用户发出语音确认信息。

在本发明的一个实施例中，所述获取用户输入的针对终端上呈现的特定照片的语音的步骤包括：获取用户输入的第一语音，根据第一语音对所述终端上针对所述照片进行交互的应用进行唤醒检测，直到唤醒成功；获取用户输入的自唤醒成功起的第二语音；将用户输入的自唤醒成功起的第二语音作为待语音识别的对象，直到检测到使语音识别终止的事件。

在本发明的一个实施例中，所述能够使所述应用唤醒成功的第一语音与所述照片中的目标对象的名字对应。

在本发明实施方式的第二方面中，提供了一种针对照片的交互设备，包括：语音获取装置，用于获取用户输入的针对终端上呈现的特定照片的语音；语音识别装置，用于对所述语音进行识别，得到对应的文本识别结果；知识搜索装置，用于根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；交互装置，用于根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现步骤：获取用户输入的针对终端上呈现的特定照片的语音；对所述语音进行识别，得到对应的文本识别结果；根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

根据本发明实施方式的针对照片的交互方法和设备，可以让用户从照片中获取互动的体验，而不是仅仅满足精神上的思念或追求。尤其是对于含有人物对象的照片，本发明可以让用户体验到好像与照片中的人进行真实地互动，以进一步为用户带来更好地体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明实施例提供的针对照片的交互方法的一个应用界面示意图；

图2为本发明实施例提供的针对照片的交互方法的另一个应用界面示意图；

图3示意性地示出了根据本发明一个实施例的针对照片的交互方法的流程示意图；

图4示意性地示出了根据本发明一个实施例的针对图3中的步骤S101进行具体描述的流程图；

图5示意性地示出了根据本发明一个实施例的照片、知识元素和视频三者之间的对应关系示意图；

图6示意性地示出了根据本发明一个实施例的针对图3中的步骤S104进行具体描述的流程图；

图7示意性地示出了根据本发明一个实施例的针对照片的交互设备的结构示意图；

图8示意性地示出了根据本发明另一个实施例的针对照片的交互装置的结构示意图；

图9示意性地示出了根据本发明又一实施例的针对照片的交互的程序产品的示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种针对照片的交互方法、设备以及计算机可读存储介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有技术中，出于静态电子照片只能用于记录以往一瞬间的场景，仅能从单方面满足用户精神上的思念或追求等，而无法给用户提供互动的体验。

本发明实施方式中，可以根据用户针对照片而输入的语音进行语音识别，并根据语音识别的结果，确定照片所位于的终端与该用户进行交互的具体模式，以基于该具体模式进行终端与用户的交互，让用户感受到与终端中照片的交互就如同和照片中的对象进行真实地交流，从而为用户带来很好的互动体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1和图2，图1为本发明实施例提供的针对照片的交互方法的一个应用界面示意图，该应用界面示例性地呈现了终端上的某包含人物对象的电子照片；图2为本发明实施例提供的针对照片的交互方法的另一个应用界面示意图，该应用界面示例性地呈现了终端上由图1电子照片中的人演绎的视频的播放界面。

在一个例子中，用户对图1所示的电子照片说了一句话“你好”，则终端上呈现图2所示的视频播放界面，该视频是由图1所示的电子照片中的人所演绎的说出“你好”的视频。在另一个例子中，图1所示的电子照片只有在被唤醒的情况下才能进行实现用户与电子照片的后续交互。例如，当用户通过诸如语音的方式来与该电子照片进行交互时，通过说出该电子照片中包含的目标对象(例如人物对象)的名字，来唤醒该电子照片所属的应用程序，从而进行后续的交互。典型地，例如电子照片中的人物的名字是XXX，当用户对着该电子照片说出“XXX”，则唤醒该电子照片所在的应用程序以进行后续的交互。其中，所述后续的交互，例如向用户提供图2所示的由电子照片中的人所演绎的视频的播放界面。

示例性方法

下面结合图1和图2的应用界面，参考图3来描述根据本发明示例性实施方式的针对照片的交互方法。需要注意的是，上述应用界面仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何界面或应用场景。

图3示意性地示出了根据本发明实施方式的针对照片的交互方法的流程示意图。该实施例中，针对照片的交互方法的执行主体可以为用户终端或/和安装在用户终端上的应用软件客户端或/和与用户终端通信连接的服务器。其中，用户终端可以包括但不限于手机、平板电脑、笔记本电脑、个人计算机等，应用软件客户端可以包括但不限于安装在用户终端上、相对独立的应用程序(app)等，服务器可以包括任何能够接收用户终端或/和应用软件客户端发送的信息并进行相应处理的服务器设备。

如图3所示，该方法可以包括步骤：

步骤S101，获取用户输入的针对终端上呈现的特定照片的语音。

其中，所述特定照片，例如指通过特定应用程序所打开的照片，例如通过XX应用程序所打开的、用户终端上存储的照片。优选地，该照片包括的对象，例如为人物对象、动物对象或/和其他对象等。

其中，获取用户输入的语音，例如通过用户终端上的音频信号接收装置来获取用户对着该用户终端所说出的字、词或句子。

其中，所述终端包括但不限于手机、平板电脑、笔记本电脑、个人计算机等。

请参考图4，根据本申请的一个优选实施例，所述获取用户输入的针对终端上呈现的特定照片的语音的步骤S101包括：

步骤S201，获取用户输入的第一语音，根据第一语音对所述终端上针对所述照片进行交互的应用进行唤醒检测，直到唤醒成功。

具体地，为了防止因任何输入的语音而误触发本发明的终端针对照片与用户进行交互，本发明采用唤醒的方式来触发终端与用户的正常交互。所述对所述终端上针对所述照片进行交互的应用进行唤醒检测，例如通过获取用户输入的第一语音，并根据预定的语音判断规则判断所述第一语音是否与能够唤醒所述应用的语音相匹配，如果匹配，则唤醒所述应用，否则，继续所述唤醒过程的检测。

优选地，为了增强用户互动的真实感受，所述能够使所述应用唤醒成功的第一语音与所述照片中的目标对象的名字对应。

当然，所述语音唤醒的方式仅是示例，也可以采用其他的方式来唤醒所述应用，例如输入特定文本的方式。

步骤S202，获取用户输入的自唤醒成功起的第二语音。

例如，当唤醒所述应用后，用户对着终端上的所述照片继续说话，则该继续输入的语音则为第二语音。

优选地，当唤醒所述应用后，为了更好地识别用户输入的第二语音以更准确地实现终端与用户的交互，所述终端采用现有的技术确定用户发音的方向并做定向的拾音和降噪处理等。

步骤S203，将用户输入的自唤醒成功起的第二语音作为待语音识别的对象，直到检测到使语音识别终止的事件。

例如，当唤醒所述应用后，用户输入第二语音“最近过得如何”，则将该输入的第二语音作为待语音识别的对象，从而基于识别的结果来确定是否与用户进行下一步交互以及交互的模式等。

优选地，为了减少终端不必要的能耗，在特定事件发生时暂停该终端对用户输入的第二语音继续进行识别。其中所述特定事件例如包括：在预定时间内所述终端没有检测到用户输入的第二语音、或用户通过手动操作的方式控制该终端暂停对用户输入的第二语音继续进行识别等。

步骤S102，对所述语音进行识别，得到对应的文本识别结果。

其中，本发明可以采用现有技术对上述步骤S101获取到的语音进行实时地识别，从而得到对应的文本识别结果。例如，用户对着终端上呈现的特定照片说了一句“XXX”，通过对该语音进行识别，得到文本“XXX”。

步骤S103，根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素。

可选地，所述已知的知识库可以是根据预先获取到的多个知识元素而建立的，是采用已知的某种知识表示方式在计算机存储器中存储、组织、管理和使用的知识元素的集合。所述知识元素例如包括字、词或句或对话等。例如，通过搜集信息或录入信息等方式来获取日常生活中人与人沟通常用的一些字、词或句或对话，例如“你好”、“早上好”、“你叫什么名字”、“我叫XXX”等，并基于获取到的这些字、词或句或对话等，建立知识库。

优选地，还可以对已经建立的知识库进行新的知识元素的添加。例如知识库中原不存在语句“晚安”，而步骤S101中用户经常输入的语音包括“晚安”，则将该语句“晚安”自动添加到知识库中，以自动完成知识库的迭代更新。

其中，所述根据已知的知识库和特定匹配规则，从知识库中搜索与文本识别结果匹配的知识元素的步骤S103，例如包括如下过程：

假定已知的知识库中包含知识元素“你好”、“早上好”、“你叫什么名字”等，某用户对着终端上呈现的特定照片说了一句“你是谁”，根据语音识别，得到文本识别结果“你是谁”。进一步地，根据现有的分词技术和机器学习算法以及现有的大规模语料，使终端对该文本识别结果“你是谁”进行语义理解，并根据语义相同或相近的匹配规则，从知识库中搜索出与文本识别结果“你是谁”的语义相近的一个或多个知识元素，例如搜索出知识元素“你叫什么名字”。

当然，上述语义相同或相近的匹配规则仅是一种示例的特定匹配规则，也可以根据其他合适的匹配规则来从所述知识库中搜索与所述文本识别结果匹配的知识元素。

步骤S104，根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

具体地，例如如果从所述知识库中搜索到多个与所述文本识别结果匹配的知识元素，则由所述终端通过语音提示或文本提示的方式向用户确认所述搜索到的多个知识元素中的哪一个知识元素是最为匹配的知识元素。又如，如果从所述知识库中搜索到唯一的一个与所述文本识别结果匹配的知识元素，则向该用户播放一段与该知识元素相关的视频。

其中，所述播放的视频，例如是预先存储在终端中或者可以通过联网从第三方服务器下载到终端中。

根据本申请的一个实施例，步骤S103中所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联，则在该前提下，所述根据所述搜索的结果确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互的步骤S104包括：

-根据从所述知识库中搜索到一个或多个匹配度超过第一阈值的第一知识元素的结果，触发所述终端播放与第一知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

具体地，在一个例子中，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联，可以是这样的一种情况：对于知识库中的至少一部分知识元素，建立其与终端本地(或能够跟终端通信的第三方服务器端)至少一部分视频的对应关系。例如，对于知识元素“你最近过得如何”，其与终端本地上所存储的由某张照片中的某个人演绎的关于自己最近的生活状况的视频存在对应关系；对于知识元素“你未来有什么打算”，其与终端本地上所存储的由某张照片中的某个人演绎的关于自己未来的打算的视频存在对应关系。

在另一个例子中，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联，可以是这样的一种情况：如图5所示，对于知识库中的至少一部分知识元素，建立其与终端本地(或能够跟终端通信的第三方服务器端)至少一部分视频以及终端本地(或能够跟终端通信的第三方服务器端)至少一部分照片的对应关系。也即，建立知识元素、视频和照片这三者之间的对应关系。例如，对于知识元素M和N，建立的对应关系包括：

照片A—知识元素M—视频1；

照片B—知识元素M—视频3；

照片A—知识元素N—视频2；

照片B—知识元素N—视频4和视频5。

则基于上述的一个例子，当从所述知识库中搜索到知识元素“你未来有什么打算”的结果，则根据该知识元素与视频的对应关系，触发终端本地上所存储的对应视频的播放。

基于上述的另一个例子，根据图5，当从所述知识库中搜索到知识元素N的结果，且步骤S101中用户针对终端上呈现的照片B进行语音输入，则根据知识元素、视频和照片这三者之间已建立的对应关系，触发终端本地上所存储的视频4和视频5的播放。优选地，该视频4和视频5都是由照片B中的目标对象(例如该照片中的人)来演绎的。

根据本申请的另一个实施例，请参考图6，步骤S103中所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联，则在该前提下，所述根据所述搜索的结果确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互的步骤S104包括：

步骤S301，根据从所述知识库中搜索到多个匹配度超过第一阈值的知识元素的结果，确定匹配度最高的知识元素。

具体地，在上述步骤S103中可以根据文本语义的近似度，确定知识元素与文本识别结果的匹配度，如果匹配度大于设定的第一阈值，则判断该知识元素与文本识别结果匹配，否则不匹配。

如果知识库中存在多个匹配度大于第一阈值的知识元素，则对该多个知识元素按照匹配度从大到小的顺序进行排列，从而确定匹配度最高的知识元素。例如，从知识库中搜索出多个与文本识别结果“你是谁”匹配的知识元素，根据匹配度排序，确定其中与文本识别结果“你是谁”的匹配度最高的知识元素为“你叫什么名字”。

步骤S302，触发所述终端播放与所述匹配度最高的知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

例如，知识库中的知识元素“你叫什么名字”与终端本地(或能够跟终端通信的第三方服务器端)上的视频1相对应，该视频1由用户所对话的照片中的目标对象(例如照片中的人)而演绎的。则当步骤S301确定匹配度最高的知识元素是“你叫什么名字”时，触发视频1在终端的播放，也即产生用户与照片中的目标对象进行的对话互动。

基于本实施例，从用户的角度看，其可以顺利地体验到：当其对照片中的人说了一句话后，照片中的人听懂了这句话的内容，从而照片从静态变成了动态的视频，并且该动态的视频是照片中的人演绎的、用于与用户对话的视频。

本发明中，为了进一步增强用户交互的真实感，让用户觉得是通过自己与电子照片中的目标对象(例如人)说话，从而触发该电子照片中的人进行视频回复，则所述对应的视频的初始画面优选与所述特定照片相同或相近。例如如图1和图2所示，图2所示的视频的初始画面与图1所示的照片完全相同或相近。

根据本申请的又一个实施例，所述根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互的步骤S104包括：

-根据从所述知识库中搜索到一个或多个匹配度低于第一阈值且超过第二阈值的知识元素的结果，触发所述终端向所述用户发出语音确认信息。

同样地，在上述步骤S103中可以根据文本语义的近似度，确定知识元素与文本识别结果的匹配度。进一步地，本发明可以针对匹配度设定多个阈值，例如设定第一阈值、第二阈值和第三阈值(其中第一阈值大于第二阈值，第二阈值大于第三阈值)，并可以根据匹配度与第一阈值、第二阈值和第三阈值的比较，来确定终端与所述用户进行交互的模式。

例如，一种情况下，从知识库中搜索到2个匹配度低于第一阈值且超过第二阈值的知识元素的结果，这2个结果例如为：“你叫什么名字”、“你住在哪里”，则触发终端基于现有的语音合成技术，主动向用户发出如下语音确认信息：你想问的问题是“我叫什么名字”还是“我住在哪里”，然后等待用户对此问题进行反馈，进而基于反馈的信息作进一步处理，例如做语音识别处理。另一种情况下，从知识库中搜索到10个匹配度低于第一阈值且超过第二阈值的知识元素的结果，则为了避免向用户发出繁冗的语音确认信息，对该10个知识元素按照匹配度从大到小的顺序进行排列，取排序前3名或前2名的知识元素作为向用户确认的知识元素。又一种情况下，从知识库中搜索到一个匹配度低于第二阈值且超过第三阈值的知识元素的结果，则由于匹配度较低，可能搜索到的知识元素并不一定与用户想表达的内容相符，因此为了谨慎起见，主动向用户发出对该知识元素的语音确认信息，以待进一步确认。还一种情况下，如果从知识库中没有搜索匹配度高于第三阈值的知识元素，则终端无反应或者语音提示“请说点别的吧”等。

与现有技术相比，本发明的交互方法具有以下优点：1)基于可交互的照片，让用户从照片中获取互动的体验，而不是仅仅满足精神上的思念或追求。尤其是对于含有人物对象的照片，本发明可以让用户体验到好像与照片中的人进行真实地互动。2)当终端没有搜索到与用户说出的内容匹配度较高的知识元素时，通过主动询问用户的方式引导用户进行反馈，以进行更符合现实场景的对话。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的、用于针对照片的交互设备进行说明。

图7示意性地示出了根据本发明实施例提供的针对照片的交互设备的结构示意图。如图7所示，所述针对照片的交互设备可以包括：

语音获取装置11，用于获取用户输入的针对终端上呈现的特定照片的语音；

语音识别装置12，用于对所述语音进行识别，得到对应的文本识别结果；

知识搜索装置13，用于根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；

交互装置14，用于根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

可选地，语音获取装置11具体用于：获取用户输入的第一语音，根据第一语音对所述终端上针对所述照片进行交互的应用进行唤醒检测，直到唤醒成功；获取用户输入的自唤醒成功起的第二语音；将用户输入的自唤醒成功起的第二语音作为待语音识别的对象，直到检测到使语音识别终止的事件。

可选地，所述能够使所述应用唤醒成功的第一语音与所述照片中的目标对象的名字对应。

可选地，所述已知的知识库是根据预先获取到的多个知识元素而建立的，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联。

可选地，交互装置14具体用于根据从所述知识库中搜索到一个或多个匹配度超过第一阈值的第一知识元素的结果，触发所述终端播放与第一知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

可选地，交互装置14具体用于：根据从所述知识库中搜索到多个匹配度超过第一阈值的知识元素的结果，确定匹配度最高的知识元素；触发所述终端播放与所述匹配度最高的知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

可选地，所述对应的视频的初始画面与所述特定照片相同或相近。

可选地，交互装置14具体用于：根据从所述知识库中搜索到一个或多个匹配度低于第一阈值且超过第二阈值的知识元素的结果，触发所述终端向所述用户发出语音确认信息。

示例性设备

在介绍了本发明示例性实施方式的方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的针对照片的交互装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的针对照片的交互装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的针对照片的交互方法中的步骤。例如，所述处理单元可以执行如图1所示的步骤S101，获取用户输入的针对终端上呈现的特定照片的语音；步骤S102，对所述语音进行识别，得到对应的文本识别结果；步骤S103，根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；步骤S104，根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

下面参考图8来描述根据本发明的这种实施方式的针对照片的交互装置80。图8显示的针对照片的交互装置80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，针对照片的交互装置80以通用计算设备的形式表现。针对照片的交互装置80的组件可以包括但不限于：上述至少一个处理单元81、上述至少一个存储单元82、连接不同系统组件(包括处理单元81和存储单元82)的总线83。

总线83表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元82可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8201和/或高速缓存存储器8202，还可以进一步包括只读存储器8203。

存储单元82还可以包括具有一组(至少一个)程序模块8204的程序/实用工具821，这样的程序模块包括但不限于：操作系统、一个或多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或者某种组合中可能包括网络环境的实现。

针对照片的交互装置80也可以与一个或多个外部设备84(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或多个使得用户能与该针对照片的交互装置80交互的设备通信，和/或与使得该针对照片的交互装置80与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口85进行。并且，针对照片的交互装置还可以通过网络适配器86与一个或多个网络(例如局域网，广域网等)通信。如图所示，网络适配器86通过总线与针对照片的交互装置80的其他模块通信。应当明白，尽管图8中未示出，可以结合针对照片的交互装置使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端上运行时，所述程序代码用于使所述终端执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的针对照片的交互方法的步骤，例如所述终端可以执行如图3所示的步骤S101，获取用户输入的针对终端上呈现的特定照片的语音；步骤S102，对所述语音进行识别，得到对应的文本识别结果；步骤S103，根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素；步骤S104，根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光钎、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。

如图9所示，描述了根据本发明的实施方式的用于针对照片的交互的程序产品90，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——例如Java、C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网或广域网——连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了针对照片的交互装置的若干单元(或模块)或子单元，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种针对照片的交互方法，包括：

获取用户输入的针对终端上呈现的特定照片的语音，所述获取的语音包括用户输入的第一语音，根据第一语音对所述终端上针对所述照片进行交互的应用进行唤醒检测，直到唤醒成功，其中所述能够使所述应用唤醒成功的第一语音与所述照片中的目标对象的名字对应；

对所述语音进行识别，得到对应的文本识别结果；

根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素，所述已知的知识库是根据预先获取到的多个知识元素而建立的，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联；

根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互，其中包括根据从所述知识库中搜索到一个或多个匹配度超过第一阈值的第一知识元素的结果，触发所述终端播放与第一知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

2.根据权利要求1所述的交互方法，其中根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：

根据从所述知识库中搜索到多个匹配度超过第一阈值的知识元素的结果，确定匹配度最高的知识元素；

触发所述终端播放与所述匹配度最高的知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

3.根据权利要求1-2任一项所述的交互方法，其中所述对应的视频的初始画面与所述特定照片相同或相近。

4.根据权利要求1所述的交互方法，其中根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：

根据从所述知识库中搜索到一个或多个匹配度低于第一阈值且超过第二阈值的知识元素的结果，触发所述终端向所述用户发出语音确认信息。

5.根据权利要求1所述的交互方法，其中所述获取用户输入的针对终端上呈现的特定照片的语音的步骤包括：

获取用户输入的自唤醒成功起的第二语音；

将用户输入的自唤醒成功起的第二语音作为待语音识别的对象，直到检测到使语音识别终止的事件。

6.一种针对照片的交互设备，包括：

语音获取装置，用于获取用户输入的针对终端上呈现的特定照片的语音，所述获取的语音包括用户输入的第一语音，根据第一语音对所述终端上针对所述照片进行交互的应用进行唤醒检测，直到唤醒成功，其中所述能够使所述应用唤醒成功的第一语音与所述照片中的目标对象的名字对应；

语音识别装置，用于对所述语音进行识别，得到对应的文本识别结果；

知识搜索装置，用于根据已知的知识库和特定匹配规则，从所述知识库中搜索与所述文本识别结果匹配的知识元素，所述已知的知识库是根据预先获取到的多个知识元素而建立的，所述知识库中的特定知识元素与特定照片中的目标对象所演绎的至少一段视频相关联；

交互装置，用于根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互，其中包括根据从所述知识库中搜索到一个或多个匹配度超过第一阈值的第一知识元素的结果，触发所述终端播放与第一知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

7.根据权利要求6所述的交互设备，其中交互装置具体用于：根据从所述知识库中搜索到多个匹配度超过第一阈值的知识元素的结果，确定匹配度最高的知识元素；触发所述终端播放与所述匹配度最高的知识元素相关联的特定照片中的目标对象所演绎的至少一段视频。

8.根据权利要求6或7所述的交互设备，其中所述对应的视频的初始画面与所述特定照片相同或相近。

9.根据权利要求6所述的交互设备，其中所述交互装置具体用于：根据从所述知识库中搜索到一个或多个匹配度低于第一阈值且超过第二阈值的知识元素的结果，触发所述终端向所述用户发出语音确认信息。

10.根据权利要求6所述的交互设备，其中所述语音获取装置具体用于：获取用户输入的自唤醒成功起的第二语音；将用户输入的自唤醒成功起的第二语音作为待语音识别的对象，直到检测到使语音识别终止的事件。

11.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现步骤：

对所述语音进行识别，得到对应的文本识别结果；

12.根据权利要求11所述的计算机可读存储介质，其中根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：

13.根据权利要求11或12所述的计算机可读存储介质，其中所述对应的视频的初始画面与所述特定照片相同或相近。

14.根据权利要求11所述的计算机可读存储介质，其中根据所述搜索的结果，确定所述终端与所述用户进行交互的模式以执行所述终端与用户的交互包括：

15.根据权利要求11所述的计算机可读存储介质，其中所述获取用户输入的针对终端上呈现的特定照片的语音的步骤包括：

获取用户输入的自唤醒成功起的第二语音；