CN112652301B - 语音处理方法和分布式系统、及语音交互设备和方法 - Google Patents

语音处理方法和分布式系统、及语音交互设备和方法 Download PDF

Info

Publication number
CN112652301B
CN112652301B CN201910967408.9A CN201910967408A CN112652301B CN 112652301 B CN112652301 B CN 112652301B CN 201910967408 A CN201910967408 A CN 201910967408A CN 112652301 B CN112652301 B CN 112652301B
Authority
CN
China
Prior art keywords
interaction
information
voice
user
scene information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910967408.9A
Other languages
English (en)
Other versions
CN112652301A (zh
Inventor
林世鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910967408.9A priority Critical patent/CN112652301B/zh
Publication of CN112652301A publication Critical patent/CN112652301A/zh
Application granted granted Critical
Publication of CN112652301B publication Critical patent/CN112652301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提出了一种语音处理方法和分布式系统、及语音交互设备和方法,其中该语音处理方法包括:接收语音数据;对所述语音数据进行处理;以及基于场景信息,生成所述语音数据的处理结果。由此,能够为用户提供更符合当前需要的处理结果。本发明的语音处理方案可以通过对场景信息的获取和判断推测出用户的当前关注度水平,并且给出与用户的所述关注度水平相适应的反馈内容。进一步地,该方案还可以根据关注度水平和当前语音设备的交互条件,确定交互的具体形式,由此灵活应对不同的应用场景,并提供各自最优的使用体验。

Description

语音处理方法和分布式系统、及语音交互设备和方法
技术领域
本发明涉及信息处理领域,尤其涉及一种语言处理方法和分布式系统, 以及语音交互设备和方法。
背景技术
智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。 语音助手除了以最常见的音箱型态出现在用户家中之外,也开始出现在像 是车上的车娱系统、智能手表之中。与家中场景不同,以车载场景为例, 用户在车内会有停车、行驶等状态,对于其他信息源的接收与专注程度也 不同。但在现有技术中,表现为车娱系统、智能手表和智能音箱在内的语 音助手针对用户在各种场景中的交互仍然会给出相同的回复,无法很好地 应对各种场景下默认的关注度需求。
有鉴于此,需要一种能够应对各种场景提供恰当回复的语音交互方案。
发明内容
为了解决如上至少一个问题,本发明提出了一种能够依据场景信息裁 减或是扩充语音助手交互形式与内容的方法与系统,以给予用户更友好、 安全的体验。
根据本发明的第一方面,提出了一种语音处理方法,包括:接收语音 数据;对所述语音数据进行处理;以及基于场景信息,生成所述语音数据 的处理结果。由此,能够为用户提供更符合当前需要的处理结果。
可选地,可以基于不同的场景信息,生成所述语音数据的不同的处理 结果,例如,生成与所述场景信息相对应的交互等级下的处理结果。不同 的交互等级可以对应于如下至少一项:包括不同信息量的处理结果;包括 不同交互方式的处理结果;以及包括不同交互能力的处理结果。
可选地,所述场景信息可以表征用户的当前关注度级别,并且生成与 所述场景信息相对应的交互等级的处理结果包括:生成包括与所述用户的 当前关注度级别相对应的信息量的处理结果。
可选地,该方法还可以包括:基于至少一个相关信息,确定所述场景 信息。具体地,可以至少基于所述语音交互设备类型和当前速度,确定所 述场景信息是车内场景信息;可以至少基于所述语音交互设备类型和当前 时间,确定所述场景信息是室内场景信息;可以基于当前日历信息,确定 所述场景信息包括特殊日历场景信息;可以基于当前用户信息,确定所述 场景信息包括用户偏好场景信息。所述相关信息可以包括如下至少一项: 语音交互设备类型;当前时间;当前地理位置;当前速度;当前日历信息; 用户偏好信息;以及当前环境信息。
可选地,所述对所述语音数据进行处理包括:识别所述语音数据的意 图和领域;以及基于所述领域的交互等级规则,选择与所述场景信息相匹 配的交互等级标签。于是,生成与所述场景信息相对应的交互等级的处理 结果可以包括:将所述意图和所述交互等级标签提交至对应领域的服务器; 以及所述服务器根据所述意图和所述交互等级标签返回相应的处理结果。
可选地,接收语音数据可以包括:语音交互设备接收来自用户的语音 数据;以及所述设备将所述语音数据和至少部分场景信息上传至服务器。 相应地,所述基于场景信息,生成所述语音数据的处理结果可以包括:所 述处理器生成并下发与所述场景信息相对应的交互等级下的处理结果。进 一步地,该方法还可以包括:所述语音交互设备基于下发的所述处理结果, 与用户交互。
根据本发明的第二方面,提出了一种分布式语音处理系统,包括服务 器以及多个语音交互设备,其中:所述语音交互设备用于:获取语音数据; 获取至少部分场景信息;以及将获取到的语音数据和至少部分场景信息上 传至所述服务器,所述服务器用于:对所述语音数据进行处理;以及基于 场景信息,生成并下发所述语音数据的处理结果,并且所述语音交互设备 进一步用于:基于下发的所述处理结果,与用户交互。
根据本发明的第三方面,提出了一种语音交互设备,包括:语音数据 接收装置,用于获取语音数据;场景信息获取装置,用于获取至少部分场 景信息;联网装置,用于将获取到的语音数据和至少部分场景信息上传至 所述服务器,并获取所述服务器基于场景信息生成并下发所述语音数据的 处理结果;交互装置,用于基于下发的所述处理结果进行交互。
根据本发明的第四方面,提出了一种语音交互方法,包括:获取语音 数据;获取至少部分场景信息;将获取到的语音数据和至少部分场景信息 上传至服务器,获取所述服务器基于场景信息生成并下发所述语音数据的 处理结果;以及基于下发的所述处理结果进行交互。
根据本发明的第五方面,提出了一种计算设备,包括:处理器;以及 存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时, 使所述处理器执行如上任一项所述的方法。
根据本发明的第六方面,提出了一种非暂时性机器可读存储介质,其 上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使 所述处理器执行如上任一项所述的方法。
本发明的语音处理方案可以通过对场景信息的获取和判断推测出用 户的当前关注度水平,并且给出与用户的所述关注度水平相适应的反馈内 容。进一步地,该方案还可以根据关注度水平和当前语音设备的交互条件, 确定交互的具体形式,由此灵活应对不同的应用场景,并提供各自最优的 使用体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的 上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性 实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明一个实施例的语音处理方法的流程示意图。
图2示出了语音交互链路的处理流程示意图。
图3示出了根据本发明一个实施例的分布式语音处理系统的组成示意 图。
图4示出了本发明云端语音服务系统的一个实现例。
图5示出了根据本发明一个实施例的语音交互设备的组成示意图。
图6示出了根据本发明一个实施例的语音交互方法的流程示意图。
图7示出了根据本发明一个实施例可用于实现上述语音处理方法的计 算设备的结构示意图。
图8A-D示出了根据本发明的语音处理方案的应用场景。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显 示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开 而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使 本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的 技术人员。
智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。 语音助手除了以最常见的音箱型态出现在用户家中之外,也开始出现在像 是车上的车娱系统、智能手表之中。与家中场景不同,以车载场景为例, 用户在车内会有停止、行驶等状态,对于其他信息源的接收与专注程度也 不同。因此,语音助手所提供的能力、回复也必须依据场景有所调整,本 发明提供了一个能够依据场景信息裁减/扩充语音助手交互形式与内容的 方法与系统,以给予用户更友好、安全的体验。在不同的实施例中,本发 明可以实现为单机范围的方法或是装置,例如,根据行车状态给出不同交 互反馈的车载系统;也可以实现为应用于分布式系统的方法或装置,此时, 用户可能会与内嵌在不同类型设备中的同一品牌语音助理进行语音交互 (例如,智能音箱、智能手表和车娱系统等),并由该品牌的云端针对更 为复杂多变的交互场景,提供更为多变的语音交互反馈。
图1示出了根据本发明一个实施例的语音处理方法的流程示意图。该 语音处理方法在不同的应用场景中,可以是在完全在语音交互设备上实现 的单机方案,可以是在单个语音交互设备借助云端处理能力实现的单机联 网方案,可以是云端服务器支持海量语音交互端实现的分布式系统方案, 也可以是单纯由服务器执行的云端解决方案。
在步骤S110,接收语音数据。在某些实施例中,例如,涉及语音交互 端的实施例,接收语音数据可以指代直接从本地的语音交互设备的音频采 集模块(例如,麦克风阵列)获取其采集到的音频数据。例如,车载娱乐 系统(IVI,In-Vehicle Infotainment,简称车娱系统)经由设置在方向盘上 的麦克风阵列采集到的音频数据。在其他实施例中,接收语音数据可以指 代从外部获取的语音数据,例如,云端服务器从客户端获取的语音数据。 在此,语音数据可以是指代原始的语音数据,例如,音频数据,也可以指 代进行一定处理的语音数据。例如,云端服务器可以直接获取客户端进行 经过ASR(自动语音识别)处理的文本数据。
在步骤S120,对接收的语音数据进行语音处理。在此,进行的语音处 理可以是语音处理链路中的语音识别和自然语义理解等的处理。随后,可 以在步骤S130,基于场景信息,生成所述语音数据的处理结果。
在此,场景信息可以指代语音数据生成时,或是更具体地,原始音频 数据采集时能够用于描述用户所处具体场景的信息(随后将举例详述)。 由于上述场景信息能够表征语音生成时用户所处的具体场景,因此,可以 根据对上述场景的判断来生成与之相应的处理结果。即,在接收到相同的 语音输入的情况下,可以基于不同的场景信息,生成所述语音数据的不同 的处理结果。
在此,处理结果可以是用于与用户进行交互的交互结果。上述交互结 果可以是语音交互,也可以是其他形式,例如,触觉和视觉上的交互,例 如,可以是交由语音识别进行TTS(语音合成)的数据,也可以包括其他 的表现形式,例如在本地语音设备还具有显示屏的情况下,上述交互结果 还包括用于在显示屏上显示的数据等。
由此,就可以基于场景信息,生成与场景信息相适应的语音数据处理 结果,用于与用户进行交互,从而通过对用户所处场景的理解,给出更为 贴切和恰当的反馈。在本发明中,场景信息可以用于表征用户的当前关注 度级别,因此步骤S130可以包括生成包括与所述用户的当前关注度级别 相对应的信息量的处理结果。另外,针对分布式系统,场景信息也可以表 征语音设备的能力,因此生成的处理结果还可以是与进行交互设备的能力 相匹配的结果,例如,仅为有显示屏的语音设备提供包括视频信息(例如, 图片)的处理结果。
在一个方面,给出与场景信息相对应的处理结果,可以是给出与用户 当前所处场景相应的交互内容的处理结果。在场景信息显示用户处于较为 空闲的状态时,可以为用户的提供更多的交互内容。而在场景信息显示用 户处于非空闲状态的时候,则可为用户的提供较少的交互内容。例如,针 对比如“屠呦呦是谁”的同一个提问,位于家中的智能音箱(例如,20 秒的说明内容)就可以比行驶中车辆的车娱系统(例如,5秒内的说明内 容)提供更多的说明信息,这是因为在家中跟智能音箱对话的用户通常比 正在开车的用户有着更多的关注度(或精力)可用于与语音设备进行交互。
在另一个方面,给出与场景信息相对应的处理结果,可以是给出与用 户当前所处场景相应的交互形式处理结果。在场景信息显示用户处于较为 空闲的状态时,可以为用户的提供更为丰富的交互形式。而在场景信息显 示用户处于非空闲状态的时候,则可为用户的提供较为单一的交互形式。 例如,同样针对比如“屠呦呦是谁”的提问,相比于仅提供语音说明的行 驶中车辆的车娱系统,位于家中的带屏幕的智能音箱可以在进行语音播报 的同时,在屏幕上显示屠呦呦的相片或是其在领取诺贝尔奖时的新闻图片。 这同样可以是因为在家中跟智能音箱对话的用户通常比正在开车的用户 有着更多的关注度(或精力)可用于与语音设备进行交互,因此有余力去 看向显示屏。另外,交互形式还受到本地语音设备本身能力的限制,例如, 相比于不带屏幕的智能音箱,带屏幕的智能音箱可以额外提供视觉信息。
在一个实施例中,上述交互内容和/或交互形式上的差异,可以通过交 互等级加以明确。在此,“交互等级”指代处理结果的交互丰富程度。例 如,越高的交互等级,可以为用户提供越多的反馈信息和/或更为丰富的交 互内容。当然,交互形式上的丰富也可以看作是更多的交互内容。换句话 说,更多交互内容的表现形式可以是更为多样的交互形式。具体地,不同 的交互等级对应于如下至少一项:包括不同信息量的处理结果;包括不同 交互方式的处理结果;以及包括不同交互能力的处理结果。通常情况下, 更高的交互等级意味着处理结果包括更多的信息量,更丰富的交互方式以 及更强的交互能力。例如,同样是购买牛奶的请求,更高的交互等级可以 提供更多的牛奶相关信息(更高的信息量)、除语音播报之外还提供图像 内容(更丰富的交互方式)、以及更多的牛奶购买选项和支付选项(更强 的交互能力)。
如上所述,场景信息是用于描述用户语音生成时所处场景的信息。在 一个实施例中,可以基于至少一个相关信息,确定所述场景信息。
相关信息可以包括语音交互设备的类型,例如,是智能音箱(有没有 屏幕)、智能电视、还是车娱系统。设备类型可以从一定程度上反映用户 当前的状态,尤其是关注度状态。例如,可以默认认为用户在使用智能音 箱时,比使用车娱系统时有着对语音交互更高的关注度。这是因为用户在 家中通常比在开车时具有更放松的状态和更富余的精力。另外,设备类型 还可以从一定程度上确定交互处理结果所包括的表示形式,例如,带触摸 屏的智能音箱可以包括触屏交互的内容,而没有屏幕的智能音箱通常只能 包括语音交互。
但在大多数情况下,除了语音交互设备的类型之外,还需要获取其他 相关信息来进一步确定用户所处场景。
在一个实施例中,相关信息可以包括当前时间。当前时间处于休闲还 是匆忙时间,也可以从一个侧面反映用户的当前关注度水平。例如,工作 日的上班之前的场景就比休息日的场景更为匆忙,因此交互系统可以提供 更为简短省时的反馈。进一步地,当前时间的场景划分可以根据特定用户 的特定作息时间进行。例如,对于退休人员而言,通常的上下班时间就不 应被划分为匆忙时间。上述划分可以通过设备对当前用户的使用习惯等进 行分析或是基于用户设置而得到。
在一个实施例中,相关信息可以包括当前日历信息。在其他实施例中, 当前日历信息也可以作为当前时间信息的一部分。在此,日历信息可以特 指某些节假日或是全民活动的信息。这些信息会在日历(或日历软件)上 有所反映,因此可被成为日历信息。于是,可以基于当前日历信息,确定 所述场景信息包括特殊日历场景信息。例如,春节和双十一所对应的日历 信息。在双十一到来之前的一段时间内,交互系统可以提供与其相关的促 销反馈,由此提升用户进一步浏览和参与双十一购物的意愿。
在一个实施例中,相关信息可以包括当前地理位置。当前地理位置同 样可以从一个侧面反映用户的当前关注度水平。例如,可以从地理位置判 断出用户是否位于通常生活的城市,由此判断用户是否在出差,并能给出 与出差相关的交互信息。
在一个实施例中,相关信息可以包括当前速度。当前速度尤其适用于 车娱系统对用户状态的判断。例如,在停车状态和高速行驶的状态下,用 户能够用于语音交互的状态显然不同。另外,在智能手表的场景下,手表 可以通过例如GPS感知用户的运动状态(例如,步行、跑步还是骑车等), 并且基于对用户运动状态的判断,给出符合相应交互等级的处理结果。
在一个实施例中,相关信息还可以包括环境信息。此处的环境信息可 以是小环境信息,例如,周围音量、亮度等,也可以是大环境信息,例如 天气和温度等。例如,在场景信息指示当前背景声音嘈杂时(例如,智能 音箱获知智能电视正打开时),智能音箱可以以更大的音量进行语音交互。 再例如,在场景信息指示当前亮度较低时(例如,智能音箱在夜间获知智 能电灯已关闭时),智能音箱可以以较低的亮度或是护眼黄光显示给用户 反馈的图像。在此,上述播放音量的大小以及屏幕亮度的高低等,也可以 看作是前述不同交互形式的一种体现。
在一个实施例中,相关信息还可以包括用户信息。用户信息可以包括 用户设置或是基于用户使用行为或是用户画像得到的用户偏好信息,也可 以是用户自身的属性信息。例如,用户可以设定在某一场景下,相比于预 设交互等级更高或是更低的用户偏好交互水平。例如,如果用户的上班时 间与常规上班时间不同,用户可以自行设定与时间相关的用户偏好。例如, 用户可以关闭交互等级对应的反馈等。再例如,可以通过声纹识别当前交互的对象是老人、小孩还是成年人,并选择相应的语气和交互丰富程度来 进行交互。
在通常情况下,场景信息可以基于如上两种以上的相关信息确定,由 此通过参考不同途径的信息描述,更为准确的推断出用户状态,并由此给 出与用户当前状态相对应的交互等级下的处理结果。
在一个实施例中,可以至少基于所述语音交互设备类型和当前速度, 确定所述场景信息是车内场景信息。例如,可以根据语音交互设备类型确 定用户在车内交互,并且可以进一步根据当前速度确定车辆是属于停车状 态还是行驶中,以及是高速还是低速行驶。进一步地,还可以根据当前地 理位置确定该车内场景是否是封闭道路(例如,高速公路)驾驶场景等, 并由此确定交互等级。
在一个实施例中,可以至少基于所述语音交互设备类型和当前时间, 确定所述场景信息是室内场景信息。例如,可以根据智能音箱和智能电视 来确定用户当前(至少是大概率)位于室内,并且可以进一步地结合时间 信息(上班前夕,工作日晚上,休息日)来确定室内场景的闲暇程度。类 似地,上述场景还可以进一步叠加例如当前日历信息或是用户信息,以给 出更为恰当的交互等级下的内容。
在不同的实施例中,场景信息可由不同的动作方获取。例如,在单机 实现中,场景信息可由语音交互终端自行获取,例如,利用自身的传感器 或是联网读取。在涉及云端的实现中,场景信息可以完全由语音交互终端 上传,也可以由云端获取一部分(例如,当前时间)。本发明在此不做限 制。
由上可知,本发明可以基于场景信息,给出与当前场景相适应的语音 处理结果。换句话说,针对获取到的相同语音信息,针对不同的场景,可 以给出不同的交互结果。如下,将结合语音交互链路,描述本发明的具体 实现方式。
图2示出了语音交互链路的处理流程示意图。语音交互链路是指实现 语音交互的过程中涉及的单元模块,这些单元模块共同协作完成语音交互 功能。在不同的应用场景中,可以会涉及上述交互链路中的部分或全部模 块。图2中示出了最为核心的单元模块,在其他的实现中,交互链路还可 以包括诸如唤醒响应和声纹识别等的功能模块。
如图2所示,音频采集到的用户语音经过语音识别模块(AutomaticSpeechRecognition,ASR)产生语音识别结果,即用户话语对 应的文本指令。随后,自然语言理解模块(NaturalLanguageUnderstanding, NLU)对用户话语进行语义解析。在此,自然语言理解是指将文本识别出 其中含意的算法/系统。在语音助理中,NLU能将用户语音指令识别为特 定的领域意图。领域是指自然语言理解领域中的某类特定问题,如天气、 时间等,意图则是指自然语言理解领域中属于某领域的特定问题,如查询 天气、查询时间、设置闹钟等。在理解了用户语音指令中的领域和意图之 后,可以将上述领域和意图送入领域服务模块,该模块可以根据NLU语 义解析结果(即,特定领域和意图)选择需要执行的系统行为。自然语音 生成模块(NaturalLanguageGeneration,NLG)根据系统行为结果生成自然 语言或者说是系统话语。最后,生成的语言可由语音合成模块 (Text-to-Speech,TTS)朗读给用户听。
在本发明中,针对不同的场景生成特定的处理结果可以在获知用户语 音的文本甚至意图之后进行。由此,用户语音可以先经过ASR识别转为 文本指令,再经由自然语言理解模块确认此语音(例如,问句)的领域意 图。于是,步骤S120可以包括识别所述语音数据的意图和领域,以及基 于所述领域的交互等级规则,选择与所述场景信息相匹配的交互等级标签。 进一步地,步骤S130则可包括将所述意图和所述交互等级标签提交至对 应领域的服务器;以及所述服务器根据所述意图和所述交互等级标签返回 相应的处理结果。例如,服务器可以根据交互等级规则,确定特定意图下 特定交互等级应该返回什么形式和何种范围的处理结果。
具体地,在得到领域意图后,可以将此领域意图与场景信息传至交互 优化引擎取得交互等级标签。将此领域意图与上述交互等级标签进行服务 调用,取得服务结果。随后,可将服务调用结果与应回复的TTS音频回传 给用户。
此交互优化引擎是本发明中的新增模块,其可以是独立于现有领域服 务模块的新模块,也可以做完该领域服务模块的附加功能。在一个具体实 施例中,首先,可以先对语音领域/技能的功能性先进行分类:C_1,C_2,..., C_n(如内容服务、信息查询、日程提醒等类型)。在每个分类C_i所想 提供给用户的交互体验,由简洁至丰富区分为最核心功能、一般功能、部 分扩展功能等1到m_{C_i}个等级。此外,可以对每个C_i需再维护一张 场景信息映射至前述1到m_{C_i}个交互等级的表M_{C_i}。当有某个领 域意图进入时,先决定领域类型C_i,再使用场景信息与M_{C_i}决定在 此场景下要使用的交互等级T_j。并在后续领域在实际执行服务时,由此 交互等级决定要执行的服务逻辑。
举例而言,用户可与内嵌在不同类型设备中的同一品牌语音助理进行 语音交互,例如在不同场景下同一品牌的智能音箱、智能手表、车娱系统 进行交互。用户语音指令音频在上传给语音服务系统时,同时附上有助于 进行语音交互优化的场景信息(也可称为context信息,即上下文信息), 包括但不限于以下类型信息:产品类型(produc type):如智能音箱 (smart_speaker)、智能电视(smart_tv)、车娱系统(vehicle)等;目前时间(time); 当前地理位置;当前速度(speed);以及环境信息,如周围音量、亮度等。 在此,通过人物百科与购物两个领域为例进行说明。
例1:人物百科
人物百科与时间、日历等同于信息查询类领域,在一个实施例中,可 以为信息查询类领域区分出以下交互等级:
查询_0:极精简,5秒以内语音回复。
查询_1:精简,10秒以内语音回复。
查询_2:一般,查询内容首段,100字以内回复。
查询_3:多交互,查询内容首段,100字以内回复,并可在结束播报 后提示用户是否查询其他相关信息。
在场景1中,现在有开车中的用户说“屠呦呦是谁”,context信息为 produc type:vehicle、speed:40km/hr。context显示为以较慢速度开车行驶 中,其对应至查询_1,给出关于屠呦呦的10秒内语音介绍。
在场景2中,现在有家中对智能音箱的用户说“屠呦呦是谁”,context 信息为produc type:smart_speaker、time:20:25。context显示为家中环境、 时间较充裕的时段,其对应至查询_3,完整给出屠呦呦的语音介绍外,也 能再询问用户使用需要查询诺贝尔奖或是青蒿素的具体信息。
例2:购物
购物与外卖、充值等同于电商类领域,在一个实施例中,可以为电商 类领域区分出以下交互等级:
电商_0:禁用,无法使用电商能力。
电商_1:迅速,推荐商品、直接支付、能使用小额免密完成购物,购 物流程成功提示。
电商_2:精简,推荐商品、要求下单、要求支付、能使用小额免密完 成购物,购物流程成功提示。
电商_3:一般,推荐商品、要求下单、要求支付、使用其他高安全性 支付方式购物,购物流程成功提示。
电商_4:多交互,推荐商品、要求下单、要求支付、使用其他高安全 性支付方式购物,购物流程成功提示。最后并提示用户是否购买其他相关 商品。
在场景1中,现在有开车中的用户说"我要买牛奶",context信息为 produc type:vehicle、speed:80km/hr。context显示为开车行驶中,其对映 至电商_0,交互回复为:“抱歉,目前环境无法使用此功能。”
在场景2中,现在有家中对智能电视的用户说"我要买牛奶",context 信息为produc type:smart_tv、time:20:25。context显示为家中环境、时间 较充裕的时段、但智能电视无法进行太多语音交互,其对应至电商_3,能 以较安全方式完成支付,但无其他商品推荐。
前述交互等级表可先由系统开发人员定义和按需修改,并且可以直接 根据语音终端功能和形态的不同给出不同交互方式。
如前所述,本发明的上述针对场景的特定处理可以是语音终端结合服 务器做出的。于是,在一个实施例中可以是语音交互设备接收来自用户的 语音数据,并将所述语音数据和至少部分场景信息上传至服务器。服务器 则可以根据获取的语音时间和场景信息,生成并下发与所述场景信息相对 应的交互等级下的处理结果。随后,语音交互设备便可基于下发的所述处 理结果,进行相应的与用户交互。
在其他的实施例中,交互等级标签可由语音交互设备发出。例如,车 娱系统在检测到当前行驶车速为100km/hr的情况下,可以判断该用户处 于最低交互关注度状态,并由此连同语音数据一起直接向服务器发送例如 交互等级最低的标签。服务器在处理得到该语音数据的领域和意图之后, 可以直接依据车娱系统上传的上述标签返回对应于最低交互等级的处理 结果,以供车娱系统进行交互,例如,进行语音播报。在某些实施例中, 本地语音终端在判断出当前交互等级标签时,也可以根据上述标签直接返 回处理结果,例如,车娱系统可以在高速行驶对应的最低交互等级标签时 直接经由本地处理拒绝实施除驾驶相关操作之外的其他交互请求,当然此 时需要车娱系统配备基本的能够识别用户语音文本和意图的ASR和NLU 组件。
由上可知,本发明的语音处理方案将语音服务进行了交互等级的定义, 并且能够通过用户环境上下文(场景信息)与交互等级的对应决定实际给 出的服务内容。透过交互等级标签,能够在每个领域服务实际执行服务时, 对用户当时所使用的语音交互设备与环境有所感知,因而能够给予更符合 用户当时需求的交互体验。
如上所述,在不同的实施例中,结合图1描述的语音处理方法在不同 的应用场景中,可以是在完全在语音交互设备上实现的单机方案,可以是 在单个语音交互设备借助云端处理能力实现的单机联网方案,可以是云端 服务器支持海量语音交互端实现的分布式系统方案,也可以是单纯由服务 器执行的云端解决方案。
如下将结合图3-6进一步描述本发明的语音处理方案在不同范围内的 具体应用。
图3示出了根据本发明一个实施例的分布式语音处理系统的组成示意 图。该系统包括服务器(云端)和多个语音交互设备。在某些实现中,多 个语音交互设备可以是多个相同类型的语音交互设备,但在如图3所示的 更大范围的实现中,云端支持针对多种不同类型的海量语音交互设备的语 音处理。
如图3所示,分布式语音处理系统300包括服务器310以及多个语音 交互设备320。
语音交互设备320例如可以包括各种类型的交互终端,例如图示的智 能音箱、智能电视和车娱系统等。语音交互设备320可以用于:获取语音 数据;获取至少部分场景信息;并将获取到的语音数据和至少部分场景信 息上传至服务器310。
服务器310可以是为同一品牌或厂商旗下的所有语音交互终端提供联 网语音服务的云端服务器。服务器310可以用于对所述语音数据进行处理; 以及基于场景信息,生成并下发所述语音数据的处理结果。
相应地,语音交互设备320可以基于下发的所述处理结果,与用户交 互。
如前所述,服务器310可以基于不同的场景信息,生成所述语音数据 的不同的处理结果,例如,生成与所述场景信息相对应的交互等级下的处 理结果。不同的交互等级可以对应于如下至少一项:包括不同信息量的处 理结果;包括不同交互方式的处理结果;以及包括不同交互能力的处理结 果,并且所述场景信息表征用户的当前关注度级别,所述服务器进一步用 于:生成包括与所述用户的当前关注度级别相对应的信息量的处理结果。
进一步地,服务器310可以包括:自然语言理解模块,用于识别所述 语音数据的意图和领域;以及交互优化模块,用于基于所述领域的交互等 级规则,选择与所述场景信息相匹配的交互等级标签。服务器310还可以 包括领域服务模块,用于根据所述意图和所述交互等级标签返回相应的处 理结果。
场景信息如上所述可以包括如下至少一项:语音交互设备类型;当前 时间;当前地理位置;当前速度;当前日历信息;用户偏好信息;以及当 前环境信息。服务器可以直接接收语音交互设备上传的场景信息,也可以 自行获取至少部分场景信息,例如时间和当前天气等。
在某些实施例中,语音交互设备可以执行语音交互链路的部分功能, 例如可以用于:对获取的语音数据进行包括语音识别和/或自然语言理解的 本地处理;以及将经本地处理的所述语音数据上传至所述服务器。
图4示出了本发明云端语音服务系统的一个实现例。如图4所示,位 于云端的语音服务系统410可以看作是图3所示服务器的一个具体实现, 并且能够为与之相连的语音交互设备(例如,图中的语音助手终端设备) 提供整条语音交互链路的完整功能。
如图所示,语音助手终端设备420将获取的语音数据(例如,用户语 音)和场景信息(例如,环境上下文(Context信息))上传至云端系统410。
该云端系统410包括语音服务模块411,用于在各个语音助手与语音 交互链路模块之间提供接口。图示的云端语音交互链路包括ASR模块412、 NLU模块413、交互优化引擎模块414、交互优化模型415、领域服务模 块416和TTS模块417。
在具体处理过程中,语音服务411首先将用户语音(例如,问句音频) 直接发送给ASR412,ASR412将上述用户语音识别成文字,并将识别文 字回传给语音服务411。随后,语音服务411将识别文字发送给NLU413, NLU413执行自然语言理解,并生成基于文字语义理解的领域和意图信息, 并将上述领域意图语音服务411。随后,语音服务411将领域意图信息连 同在前获取的Context信息一并发送给交互优化引擎模块414,交互优化 引擎模块414调用交互优化模型415,给出相应的交互等级标签(例如, 优化标签),并将该标签回传给语音服务411。
具体地,在构建交互优化模型415时,可以先对语音领域/技能的功能 性先进行分类:C_1,C_2,...,C_n(如内容服务、信息查询、日程提醒等类 型)。在每个分类C_i所想提供给用户的交互体验,由简洁至丰富区分为 最核心功能、一般功能、部分扩展功能等1到m_{C_i}个等级。此外,可 以对每个C_i需再维护一张场景信息映射至前述1到m_{C_i}个交互等级 的表M_{C_i}。当有某个领域意图进入时,先决定领域类型C_i,再使用 场景信息与M_{C_i}决定在此场景下要使用的交互等级T_j,由此得以确 定优化标签。在后续领域在实际执行服务时,由此确定的交互等级(优化 标签)决定要执行的服务逻辑。
随后,语音服务411将在前得到的领域意图连同优化标签一并发送给 领域服务416,在此,优化标签可以看作是用于规定返回内容的规则,例 如,更高交互等级的标签规定领域服务416可以返回更多的内容。领域服 务416基于上述规则(优化标签)对用户的领域意图进行相应的查询和处 理,并返回执行结果。语音服务411基于上述执行结果,向TTS417发送 回复文本和优化标签,以使得TTS417能够生成符合交互水平的TTS音频。 在此,语音链路中的NLG功能可以并入领域服务416或语音服务411。
应该理解的是,在不同实施例中,语音助手终端设备420也可以在本 地执行语音链路的部分功能,例如,ASR、NLU和TTS的部分功能。另 外,在极端场景下(例如,高速行驶中),语音助手终端设备420可以直 接上传交互等级标签(例如,最低交互等级标签)作为场景信息。
图5示出了根据本发明一个实施例的语音交互设备的组成示意图。该 语音交互设备500可以前图中示出的语音交互设备310和410。
如图4所示,语音交互设备500包括语音数据接收装置510,用于获 取语音数据;场景信息获取装置520,用于获取至少部分场景信息;联网 装置530,用于将获取到的语音数据和至少部分场景信息上传至所述服务 器,并获取所述服务器基于场景信息生成并下发所述语音数据的处理结果; 以及交互装置540,用于基于下发的所述处理结果进行交互。
联网装置530可以获取所述服务器生成的与所述场景信息相对应的交 互等级下的处理结果。不同的交互等级可以对应于如下至少一项:包括不 同信息量的处理结果;包括不同交互方式的处理结果;以及包括不同交互 能力的处理结果,并且所述场景信息表征用户的当前关注度级别,并且所 述的处理结果是与所述用户的当前关注度级别相对应的信息量的处理结 果。交互等级可以通过交互等级标签确定。而交互等级标签则基于如下至少一项确定:所述语音交互设备基于获取到的场景信息确定;所述服务器 基于所述语音数据处理得到的领域和意图下所述场景信息所对应的交互 等级标签确定。
在一个实施例中,语音数据接收装置510可以是设备500自带的麦克 风装置,用于采集用户的语音数据。在其他实施例中,语音数据接收装置 510可以是短距离通信装置,用于获取其他语音终端采集到的用户语音数 据,例如,由布置在家中其他房间内的智能语音贴采集并传送的语音数据。
在不同的实现中,交互装置530可以包括如下至少一项:扬声器装置, 用于向用户播报所述处理结果;显示屏装置,用于向用户显示所述处理结 果;以及短距离通信装置,用于将获取的所述处理结果发送至其他语音终 端。
场景信息可以包括如下至少一项:语音交互设备类型;当前时间;当 前地理位置;当前速度;当前日历信息;用户偏好信息;以及当前环境信 息。场景信息获取装置520可以包括如下至少一项:联网装置,用于通过 查询网络获取场景信息;定位装置,用于通过定位系统获取场景位置信息 (例如,利用GPS设备获取GPS信息作为地理位置信息);一个或多个传感器,用于感测一个或多个场景传感信息(例如,感测车速等);系统 访问装置,用于读取本地系统配置信息(例如,设备类型信息)。
如前所述,该设备可以在本地执行部分语音交互链路的功能,因此, 设备500还可以包括:语音识别装置,用于对获取的至少部分语音数据进 行语音识别;以及自然语言理解装置,用于对至少部分经语音识别的语音 数据进行意图和领域的识别。
图6示出了根据本发明一个实施例的语音交互方法的流程示意图。该 方法可由本发明的语音交互设备实现。
在步骤S610,获取语音数据。在步骤S620,获取至少部分场景信息。 在步骤S630,将获取到的语音数据和至少部分场景信息上传至服务器。在 步骤S640,获取所述服务器基于场景信息生成并下发所述语音数据的处理 结果。在步骤S650,基于下发的处理结果进行交互。
在一个实施例中,该处理结果是所述服务器生成的与所述场景信息相 对应的交互等级下的处理结果。不同的交互等级对应于如下至少一项:包 括不同信息量的处理结果;包括不同交互方式的处理结果;以及包括不同 交互能力的处理结果,并且所述场景信息表征用户的当前关注度级别,并 且所述的处理结果是与所述用户的当前关注度级别相对应的信息量的处 理结果。交互等级可以通过交互等级标签确定。交互等级标签则可基于如 下至少一项确定:语音交互设备基于获取到的场景信息确定;所述服务器 基于所述语音数据处理得到的领域和意图下所述场景信息所对应的交互 等级标签确定。
在一个实施例中,获取语音数据可以包括如下至少一项:使用麦克风 装置采集用户的语音数据;以及使用短距离通信装置获取其他语音终端采 集到的用户语音数据。
在一个实施例中,基于下发的所述处理结果进行交互可以包括如下至 少一项:使用扬声器装置向用户播报所述处理结果;使用显示屏装置向用 户显示所述处理结果;以及使用短距离通信装置将获取的所述处理结果发 送至其他语音终端。
场景信息可以包括如下至少一项:语音交互设备类型;当前时间;当 前地理位置;当前速度;当前日历信息;用户偏好信息;以及当前环境信 息。获取至少部分场景信息可以包括如下至少一项:通过查询网络获取场 景信息;通过定位系统获取场景位置信息;感测一个或多个场景传感信息; 读取本地系统配置信息。
进一步地,该设备可以在本地执行部分语音交互链路的功能,因此该 方法还可以包括:对获取的至少部分语音数据进行语音识别;以及对至少 部分经语音识别的语音数据进行意图和领域的识别。
图7示出了根据本发明一个实施例可用于实现上述语音处理方法的计 算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一 些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特 殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。 在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集 成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。
存储器710可以包括各种类型的存储单元,例如系统内存、只读存储 器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计 算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的 存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令 和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大 容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施 方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。 系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随 机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令 和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包 括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程 只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器 710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、 只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光 盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、 磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的 瞬间电子信号。
存储器710上存储有可执行代码,当可执行代码被处理器720处理时, 可以使处理器720执行上文述及的语音处理方法。
上文中已经参考附图详细描述了根据本发明的语音处理方法和分布 式系统,以及语音交互装置和方法。本发明的语音处理方案可以通过对场 景信息的获取和判断推测出用户的当前关注度水平,并且给出与用户的所 述关注度水平相适应的反馈内容。进一步地,该方案还可以根据关注度水 平和当前语音设备的交互条件,确定交互的具体形式,由此灵活应对不同 的应用场景,并提供各自最优的使用体验。
[应用例]
图8A-D示出了根据本发明的语音处理方案的应用场景。如图所示, 用户在不同的场景下针对相同或不同的语音助手进行了相同的语音交互, “我要买牛奶”。
在图8A中,用户在高速行驶的车辆中向车娱系统提出“我要买牛奶” 的语音指令,此时,车娱系统可以通过向云端上传场景信息(包括时速 100km的信息)使得云端给出最低交互等级标签(例如,前述的电商_0 标签),并据此禁用电商能力。相应地,车娱系统给出“无法使用此功能” 的回复。
在图8B中,用户在未行驶车辆中向车娱系统提出“我要买牛奶”的 语音指令,此时,车娱系统可以通过向云端上传场景信息(包括指示车辆 停车中的信息)使得云端给出较低交互等级标签(例如,前述的电商_1 标签),并据此给出迅速简洁的电商能力。具体地,电商_1为迅速模式, 包括推荐商品、直接支付、使用小额免密完成购物,以及购物流程成功提 示。由此,例如车娱系统可以在购物过程中如图所示给出“为您购买XX 牛奶一盒,请确认付款”的交互。
在图8C中,用户在家中向智能电视提出“我要买牛奶”的语音指令, 此时,智能电视可以通过向云端上传场景信息(包括指示终端类型和当前 时间的信息),由于智能电视交互能力相对较差,使得云端给出一般的交 互等级标签(例如,前述的电商_3标签),并据此给出一般电商能力。电 商_3为一般模式,推荐商品、要求下单、要求支付、使用其他高安全性支 付方式购物,购物流程成功提示。可以结合智能电视的显示能力,给出关 于牛奶的选择图片,并提示用户进行选择。
在图8D中,用户在家中向配有触摸屏的智能音箱提出“我要买牛奶” 的语音指令,此时,智能音箱可以通过向云端上传场景信息(包括指示终 端类型和当前时间的信息),由于智能音箱交互能力强,使得云端给出最 高交互等级标签(例如,前述的电商_4标签),并据此给出多交互的电商 能力。电商_4为多交互模式,包括推荐商品、要求下单、要求支付、使用 其他高安全性支付方式购物,购物流程成功提示,并且可以在购物完成后 提示用户是否购买其他相关商品。如图所示,可以在触摸屏中给出面包等 相关商品的图像和购买链接,并询问用户是否需要进行购买。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序 产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中 限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算 机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计 算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或 计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时, 使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性 逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两 者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方 法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每 个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或 代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也 应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同 于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行 地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也 要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的 方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实 现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽 性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更 都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原 理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技 术人员能理解本文披露的各实施例。

Claims (31)

1.一种语音处理方法,包括:
接收语音数据;
确定所述语音数据的领域意图;
查询所述领域意图下的交互等级映射表,基于场景信息确定交互等级;以及
生成与所述场景信息相对应的交互等级下的处理结果,
其中,所述场景信息是用于描述用户语音生成时所处场景的信息,所述交互等级映射表包括每个领域意图下场景信息映射至多个交互等级的信息。
2.如权利要求1所述的方法,其中,不同的交互等级对应于如下至少一项:
包括不同信息量的处理结果;
包括不同交互方式的处理结果;以及
包括不同交互能力的处理结果。
3.如权利要求2所述的方法,其中,所述场景信息表征用户的当前关注度级别,并且生成与所述场景信息相对应的交互等级的处理结果包括:
生成包括与所述用户的当前关注度级别相对应的信息量的处理结果。
4.如权利要求1所述的方法,其中,所述确定所述语音数据的领域意图包括:
基于所述领域意图的交互等级规则,选择与所述场景信息相匹配的交互等级标签。
5.如权利要求4所述的方法,其中,所述生成与所述场景信息相对应的交互等级的处理结果包括:
将所述意图和所述交互等级标签提交至对应领域的服务器;以及
所述服务器根据所述意图和所述交互等级标签返回相应的处理结果。
6.如权利要求1所述的方法,还包括:
基于至少一个相关信息,确定所述场景信息。
7.如权利要求6所述的方法,其中,基于至少一个相关信息,确定所述场景信息包括:
至少基于语音交互设备类型和当前速度,确定所述场景信息是车内场景信息。
8.如权利要求6所述的方法,其中,基于至少一个相关信息,确定所述场景信息包括:
至少基于语音交互设备类型和当前时间,确定所述场景信息是室内场景信息。
9.如权利要求6所述的方法,其中,基于至少一个相关信息,确定所述场景信息包括:
基于当前日历信息,确定所述场景信息包括特殊日历场景信息。
10.如权利要求6所述的方法,其中,基于至少一个相关信息,确定所述场景信息包括:
基于当前用户信息,确定所述场景信息包括用户偏好场景信息。
11.如权利要求6所述的方法,其中,所述相关信息包括如下至少一项:
语音交互设备类型;
当前时间;
当前地理位置;
当前速度;以及
当前环境信息。
12.如权利要求1所述的方法,其中,所述接收语音数据包括:
语音交互设备接收来自用户的语音数据;以及
所述设备将所述语音数据和至少部分场景信息上传至服务器。
13.如权利要求12所述的方法,其中,生成与所述场景信息相对应的交互等级下的处理结果包括:
处理器生成并下发与所述场景信息相对应的交互等级下的处理结果。
14.如权利要求13所述的方法,还包括:
所述语音交互设备基于下发的所述处理结果,与用户交互。
15.一种分布式语音处理系统,包括服务器以及多个语音交互设备,其中:
所述语音交互设备用于:
获取语音数据;
获取至少部分场景信息;以及
将获取到的语音数据和至少部分场景信息上传至所述服务器,
所述服务器用于:
确定所述语音数据的领域意图;
查询所述领域意图下的交互等级映射表,基于所述场景信息确定交互等级;以及
生成与所述场景信息相对应的交互等级下的处理结果,并且
所述语音交互设备进一步用于:
基于下发的所述处理结果,与用户交互,
其中,所述场景信息是用于描述用户语音生成时所处场景的信息,所述交互等级映射表包括每个领域意图下场景信息映射至多个交互等级的信息。
16.如权利要求15所述的系统,其中,不同的交互等级对应于如下至少一项:
包括不同信息量的处理结果;
包括不同交互方式的处理结果;以及
包括不同交互能力的处理结果,并且
所述场景信息表征用户的当前关注度级别,
所述服务器进一步用于:
生成包括与所述用户的当前关注度级别相对应的信息量的处理结果。
17.如权利要求15所述的系统,其中,所述服务器包括:
自然语言理解模块,用于识别所述语音数据的意图和领域;
交互优化模块,用于基于所述领域的交互等级规则,选择与所述场景信息相匹配的交互等级标签;以及
领域服务模块,用于根据所述意图和所述交互等级标签返回相应的处理结果。
18.如权利要求15所述的系统,其中,所述服务器还用于:
基于至少一个相关信息,确定所述场景信息。
19.如权利要求18所述系统,其中,所述服务器自行获取至少部分所述相关信息。
20.如权利要求15所述的系统,其中,所述语音交互设备用于:
对获取的语音数据进行包括语音识别和/或自然语言理解的本地处理;以及
将经本地处理的所述语音数据上传至所述服务器。
21.如权利要求15所述的系统,其中,所述多个语音交互设备包括:
多个相同类型的语音交互设备;
多个不同类型的语音交互设备。
22.一种语音交互设备,包括:
语音数据接收装置,用于获取语音数据;
场景信息获取装置,用于获取至少部分场景信息;
联网装置,用于将获取到的语音数据和至少部分场景信息上传至服务器,并获取所述服务器通过执行权利要求1-14中任一项所述的方法下发的所述语音数据的处理结果;
交互装置,用于基于下发的所述处理结果进行交互。
23.如权利要求22所述的设备,其中,所述语音数据接收装置包括如下至少一项:
麦克风装置,用于采集用户的语音数据;以及
短距离通信装置,用于获取其他语音终端采集到的用户语音数据。
24.如权利要求22所述的设备,其中,所述交互装置包括如下至少一项:
扬声器装置,用于向用户播报所述处理结果;
显示屏装置,用于向用户显示所述处理结果;以及
短距离通信装置,用于将获取的所述处理结果发送至其他语音终端。
25.如权利要求22所述的设备,其中,所述场景信息获取装置包括如下至少一项:
联网装置,用于通过查询网络获取场景信息;
定位装置,用于通过定位系统获取场景位置信息;
一个或多个传感器,用于感测一个或多个场景传感信息;
系统访问装置,用于读取本地系统配置信息。
26.如权利要求22所述的设备,还包括:
语音识别装置,用于对获取的至少部分语音数据进行语音识别;以及
自然语言理解装置,用于对至少部分经语音识别的语音数据进行意图和领域的识别。
27.一种语音交互方法,包括:
获取语音数据;
获取至少部分场景信息;
将获取到的语音数据和至少部分场景信息上传至服务器,
获取所述服务器通过执行权利要求1-14中任一项所述的方法下发的所述语音数据的处理结果;以及
基于下发的所述处理结果进行交互。
28.如权利要求27所述的方法,其中,所述处理结果是所述服务器生成的与所述场景信息相对应的交互等级下的处理结果。
29.如权利要求28所述的方法,其中,不同的交互等级对应于如下至少一项:
包括不同信息量的处理结果;
包括不同交互方式的处理结果;以及
包括不同交互能力的处理结果,并且
所述场景信息表征用户的当前关注度级别,并且所述的处理结果是与所述用户的当前关注度级别相对应的信息量的处理结果。
30.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求27-29中任一项所述的方法。
31.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求27-29中任一项所述的方法。
CN201910967408.9A 2019-10-12 2019-10-12 语音处理方法和分布式系统、及语音交互设备和方法 Active CN112652301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910967408.9A CN112652301B (zh) 2019-10-12 2019-10-12 语音处理方法和分布式系统、及语音交互设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910967408.9A CN112652301B (zh) 2019-10-12 2019-10-12 语音处理方法和分布式系统、及语音交互设备和方法

Publications (2)

Publication Number Publication Date
CN112652301A CN112652301A (zh) 2021-04-13
CN112652301B true CN112652301B (zh) 2023-05-12

Family

ID=75342982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910967408.9A Active CN112652301B (zh) 2019-10-12 2019-10-12 语音处理方法和分布式系统、及语音交互设备和方法

Country Status (1)

Country Link
CN (1) CN112652301B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017139218A1 (en) * 2016-02-08 2017-08-17 Nar Special Global, Llc. Hearing augmentation systems and methods
CN107277260A (zh) * 2017-07-07 2017-10-20 珠海格力电器股份有限公司 一种情景模式调整方法、装置和移动终端
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108369808A (zh) * 2015-11-10 2018-08-03 三星电子株式会社 电子设备和用于控制该电子设备的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181442A (ja) * 2003-12-16 2005-07-07 Fuji Electric Holdings Co Ltd 音声対話装置、その方法、プログラム
JP4634156B2 (ja) * 2005-01-07 2011-02-16 パナソニック株式会社 音声対話方法および音声対話装置
JP4783608B2 (ja) * 2005-09-16 2011-09-28 日本電信電話株式会社 対話方法、対話装置、対話プログラムおよび記録媒体
US10276170B2 (en) * 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
CN105355201A (zh) * 2015-11-27 2016-02-24 百度在线网络技术(北京)有限公司 基于场景的语音服务处理方法、装置和终端设备
US10192551B2 (en) * 2016-08-30 2019-01-29 Google Llc Using textual input and user state information to generate reply content to present in response to the textual input
US10229682B2 (en) * 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
GB2559617B (en) * 2017-02-13 2020-06-24 Toshiba Kk A dialogue system, a dialogue method and a method of adapting a dialogue system
US10750015B2 (en) * 2017-09-20 2020-08-18 Paypal, Inc. Authenticating with a service provider using a virtual assistant device
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN108597509A (zh) * 2018-03-30 2018-09-28 百度在线网络技术(北京)有限公司 智能语音交互实现方法、装置、计算机设备及存储介质
CN109671438A (zh) * 2019-01-28 2019-04-23 武汉恩特拉信息技术有限公司 一种利用语音提供辅助服务的装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369808A (zh) * 2015-11-10 2018-08-03 三星电子株式会社 电子设备和用于控制该电子设备的方法
WO2017139218A1 (en) * 2016-02-08 2017-08-17 Nar Special Global, Llc. Hearing augmentation systems and methods
CN107277260A (zh) * 2017-07-07 2017-10-20 珠海格力电器股份有限公司 一种情景模式调整方法、装置和移动终端
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
解剖语音交互背后的层级;李智勇;《 现代企业文化》;第14-15页 *

Also Published As

Publication number Publication date
CN112652301A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
AU2020203038B2 (en) Modulation of Packetized Audio Signals
CN110603552B (zh) 在促成现有会话时对推荐动作配置的虚拟助理
CN108604178B (zh) 个性化和场境化的音频简报
US20150379989A1 (en) Voice-controlled information exchange platform, such as for providing information to supplement advertising
JP2014135058A (ja) インタラクティブ車内広告の管理
US20080301556A1 (en) Method and apparatus for displaying operational information about an electronic device
US11498501B2 (en) Voice recognition function link control system and method of vehicle
JP2013088813A (ja) 音源情報管理サービスシステム及び音源情報管理サービス方法
CN109325180B (zh) 文章摘要推送方法、装置、终端设备、服务器及存储介质
CN112614491A (zh) 一种车载语音交互方法、装置、车辆、可读介质
CN112652301B (zh) 语音处理方法和分布式系统、及语音交互设备和方法
CN113409797A (zh) 语音处理方法和系统、及语音交互设备和方法
CN111984855A (zh) 信息推荐的方法及装置
CN115905734A (zh) 一种基于地理位置信息进行智能推荐的方法及装置
CN113301362A (zh) 视频元素展示方法及装置
FR3098957A1 (fr) Procédé pour délivrer un contenu audio personnalisé dans une cabine de véhicule
US11947769B2 (en) Interactive map
US20240025416A1 (en) In-vehicle soundscape and melody generation system and method using continuously interpreted spatial contextualized information
WO2023277928A1 (en) Virtual remote control on first device to control second device, eg tv
CN116405914A (zh) 一种服务的控制方法、电子设备及计算机存储介质
CN115662424A (zh) 一种语音信息处理方法及装置
CN111457935A (zh) 一种数据处理方法、装置、设备和机器可读介质
CN118071421A (zh) 声码融媒体运营方法、系统、运营平台
CN115230724A (zh) 交互方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant