CN108242236A

CN108242236A - 对话处理装置及其车辆和对话处理方法

Info

Publication number: CN108242236A
Application number: CN201710559931.9A
Authority: CN
Inventors: 李京澈
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2016-12-26
Filing date: 2017-07-11
Publication date: 2018-07-03
Anticipated expiration: 2037-07-11
Also published as: US20180182382A1; KR102643501B1; US10854195B2; KR20180075050A; CN108242236B

Abstract

本发明提供一种对话处理装置和方法，其实时监视输入的声信号的强度，并且当输入声信号的强度等于或大于参考值时，确定语音识别已经开始，使用户通过话语来开始语音识别，而无需附加的触发器。一种车辆可包括该装置和方法。该装置包括：监视器，用于实时比较输入信号等级与参考等级，并且当输入信号等级大于参考等级时，确定输入语音；语音识别器，用于当确定输入语音时，通过对输入信号进行语音识别来输出文本话语；自然语言处理器，用于基于话语来提取域和关键词；以及对话管理器，用于基于域和关键词来确定是否保持先前语境。

Description

对话处理装置及其车辆和对话处理方法

技术领域

本发明的实施例涉及对话处理装置、具有对话处理装置的车辆和对话处理方法。

背景技术

随着用于车辆的技术的发展，除了作为车辆基本功能的驾驶功能之外，还提供了用于用户便利性的各种功能。

随着车辆实现的功能变得多样化，用户操作负载增加。用户操作负载的增加降低了车辆操作期间用户的集中度，从而干扰安全驾驶。另外，不熟悉车辆的操作的用户不能正确地使用车辆实现的功能。

发明内容

本发明的一个方面提供一种对话处理装置，其可实时监视输入的声信号的强度，并且可确定语音识别已经开始，以及输入声信号的强度等于或大于参考值。所公开的对话处理装置使用户通过话语开始语音识别，而不进行用于附加触发的操作。

本发明的另一方面提供一种对话处理装置，其能够通过确定是否连续进行对话或者是否已经开始与新对象进行对话来提供适合于用户意图的响应和服务。在这方面中，确定基于从输入语音提取的域(domain)和关键词。

本发明还涉及一种对话处理方法和车辆，每一个都具有如上所述的对话处理装置。本发明的附加方面部分地在下面的详细描述中进行阐述，并且部分地由本领域的普通技术人员从描述中显而易见，或者可通过本发明的实践来了解。

根据本发明的一个方面，对话处理装置包括监视器，配置为实时比较输入信号的等级与参考等级，并且配置为当输入信号的等级(电平)大于参考等级(参考电平)时，确定输入用户语音。对话处理装置还包括语音识别器，配置为当确定输入用户语音时，通过对输入信号进行语音识别来输出文本形式的话语。对话处理装置还包括自然语言处理器，配置为基于话语来提取域和关键词，并且包括对话管理器，配置为基于域和关键词来确定是否保持先前语境(context)。

在一个实施例中，基于在不发出用户语音的状态下输入的背景信号的等级来确定参考等级。

在一个实施例中，对话处理装置还包括存储设备，配置为存储背景信号的等级。在本实施例中，当输入信号的等级等于或小于参考等级时，存储设备确定输入信号为背景信号。本实施例中的存储设备还使用输入信号的等级来更新存储的背景信号的等级。

在一个实施例中，对话管理器基于与预先存储的先前语境相关的信息来确定是否存在开始的先前语境。当存在开始的先前语境时，对话管理器可确定开始的先前语境是否结束。当从开始先前语境起经过预定参考时间时，对话管理器可确定先前语境结束。当未超过该参考时间时，对话管理器可通过将与先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。

在一个实施例中，对话管理器通过将从先前语境提取的域和关键词与从当前语境提取的域和关键词进行比较来确定语境是否改变。当确定语境未改变时，对话管理器可提供与先前语境中进行的先前对话和服务的连续的对话和服务。当确定语境改变时，对话管理器可结束先前语境并且将当前语境作为新语境开始。

根据本发明的另一方面，一种车辆包括麦克风，配置为通过一直开启来接收声音，并且配置为将输入的声音转换为电输入信号。车辆还包括监视器，配置为实时比较输入信号的等级与参考等级，并且配置为当输入信号的等级大于参考等级时，确定输入用户语音。车辆还包括语音识别器，配置为当确定输入用户语音时，通过对输入信号进行语音识别来输出文本形式的话语。车辆还包括自然语言处理器，配置为基于话语来提取域和关键词，并且包括对话管理器，配置为基于域和关键词来确定是否保持先前语境。

在一个实施例中，车辆还包括存储设备，配置为存储背景信号的等级。在本实施例中，当输入信号的等级等于或小于参考等级时，存储设备确定输入信号为背景信号。本实施例中的存储设备还使用输入信号的等级来更新存储的背景信号的等级。

在一个实施例中，对话管理器基于与预先存储的先前语境相关的信息来确定是否存在开始的先前语境。

当存在开始的先前语境时，对话管理器可确定开始的先前语境是否结束。当从开始先前语境起经过预定参考时间时，对话管理器可确定先前语境结束。当未超过该参考时间时，对话管理器可通过将与先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。

在一个实施例中，对话管理器通过将从先前语境提取的先前域和关键词与从当前语境提取的域和关键词进行比较来确定语境是否改变。

当确定语境未改变时，对话管理器可提供与先前语境中进行的先前对话和服务连续的对话和服务。当确定语境改变时，对话管理器可结束先前语境并且将当前语境作为新语境开始。

根据本发明的另一方面，一种对话处理方法包括实时地将通过一直开启的麦克风输入的输入信号的等级与参考等级进行比较。对话处理方法还包括：当输入信号的等级大于参考等级时，确定输入用户语音。对话处理方法还包括：当确定输入用户语音时，通过对输入信号进行语音识别来进行对话处理过程。

在一个实施例中，对话处理方法还包括：当输入信号的等级等于或小于参考等级时，确定输入信号为背景信号，并且包括使用输入信号的等级来更新存储的背景信号的等级。

在一个实施例中，对话处理过程的进行包括：基于与预先存储的先前语境相关的信息来确定是否存在开始的先前语境。

在一个实施例中，对话处理过程的进行包括：当存在开始的先前语境时，确定开始的先前语境是否结束。

在一个实施例中，确定开始的先前语境是否结束包括：当从开始先前语境起经过预定参考时间时，确定先前语境结束。

在一个实施例中，对话处理过程的进行包括：当未超过预定参考时间时，通过将与先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。

在一个实施例中，确定语境是否改变包括：通过将从先前语境提取的先前域和关键词与从当前语境提取的域和关键词进行比较来确定语境是否改变。

在一个实施例中，对话处理过程的进行包括：当确定语境未改变时，提供与先前语境中进行的先前对话和服务连续的对话和服务。

在一个实施例中，对话处理过程的进行包括：当确定语境改变时，终止先前语境并且将当前语境作为新语境开始。

附图说明

结合附图，从以下实施例的详细描述中，本发明的这些和/或其它方面将变得显而易见且更容易理解，其中：

图1是示出根据本发明的实施例的对话处理装置与车辆的组件之间的关系的控制框图。

图2是根据本发明的实施例的车辆的外部视图。

图3是根据本发明的实施例的车辆内部的配置的视图。

图4是示出对话处理装置配置为与车辆分离的实施例的控制框图。

图5是示出根据实施例的对话处理装置的控制框图。

图6是示出根据本发明的实施例的对话处理装置的组件的控制框图。

图7是示出根据实施例的对话处理方法的流程图。

图8是示出根据实施例的对话处理方法中的对话处理过程的流程图。

图9是示出根据本发明的实施例的对话处理方法中的自然语言处理的流程图。

具体实施方式

通过将语音识别技术集成到车辆中，可提高操作车辆的可靠性和便利性。这使用户通过简单地说话来控制车辆的各种功能，而不需要操作输入设备。

在下面的描述中，整个说明书中相同的附图标记表示相同的元件。未详细描述公知的功能或结构，这是因为它们将以不必要的细节遮蔽一个或多个实施例。例如“单元”、“模块”、“构件”和“块”的术语可体现为硬件或软件。根据实施例，多个“单元”、“模块”、“构件”和“块”可实施为单个组件，或者单个“单元”、“模块”、“构件”和“块”可包括多个组件。

应当理解，当元件被称为“连接”至另一元件时，其可直接或间接连接至另一元件，其中，间接连接包括“通过无线通信网络的连接”。

而且，当部件“包括”或“包含”元件时，除非具有与之相反的特定描述，否则该部件还可包括其它元件，而不排除其它元件。

应当理解，尽管例如第一、第二、第三等的术语可在本文中用于描述和区分各种元件，但是这样的命名约定并不旨在表示或设定其顺序，并且本发明不应该受这些术语限制。这些术语仅用于区分一个元件与另一元件。

如本文所使用的，单数形式“一个”、“一种”和“所述”也旨在包括复数形式，除非上下文另有明确指示。

使用标识码用于描述的方便，但不旨在说明每个步骤的顺序。除非上下文另有明确指示，否则每个步骤都可以与示出的顺序不同的顺序来实施。

现在将详细参考本发明的实施例，其示例在附图中示出。在附图中，使用以下符号来标识所公开的实施例的各种元件，其中：

i.100表示对话处理装置；

ii.110表示监视器；

iii.120表示语音识别器；

iv.130表示自然语言处理器；

v.140表示语音管理器或对话管理器；

vi.1表示车辆；

vii.210表示麦克风；

viii.220表示控制器；

ix.231表示说话者；

x.232表示显示器；以及

xi.260表示通信器。

根据实施例，对话处理装置可配置为通过识别用户语音(即，话语的发音或语言交流)来识别用户的意图，并提供适合于用户意图的服务。对话处理装置还可通过配置为提供服务或清楚地识别用户意图的模块来输出语音。由于将对话处理装置100连接至用户的网关对应于车辆，所以对话处理装置100可设置在车辆中或车辆的外部服务器中。因此，对话处理装置100可配置为通过与车辆通信来发送和接收数据。

参考图1，当用户向麦克风210发出语音或说话时，麦克风210可将语音转换为电信号，并将电信号传送至对话处理装置100。

在本实施例中，对话处理装置100可识别用户语音并分析识别的语音以识别用户的意图。例如，用户的意图可包括某一目的地搜索和路线引导、信息搜索、呼叫、文本消息发送、音频或视频控制以及与车辆相关的其它控制。

在本实施例中，对话处理装置100可为配置为提供与用户的意图对应的服务的装置。对话处理装置100也可配置为输出语音。例如，当用户的意图为接收至某一目的地的路线引导时，对话处理设备100可输出语音以检查目的地或输出语音以提供与对应目的地相关的附加信息。

当对话处理装置100将配置为输出语音的控制信号或命令字传送至控制器220时，控制器220可通过扬声器231输出对应的语音。

另外，对话处理装置100可通过屏幕输出视觉信息作为用于提供与用户意图对应的服务的另一手段。当对话处理装置100将控制信号或命令字传送至控制器220时，控制器220可例如通过显示器232以视觉方式输出信息。例如，通过扬声器231输出的语音脚本可显示在显示器232上。

当用户的意图为接收至某一目的地的路线引导时，控制器220可将控制信号传送至导航模块240，使得导航模块240根据用户的意图沿着路线引导用户。

在图1的控制框图中，麦克风210、控制器220、扬声器231和显示器232可为设置在车辆1(参考图2)中的组件。对话处理装置100可如上所述设置在车辆1中，或者替换地设置在车辆1外部。

图2是根据本发明的实施例的车辆的外部视图。图3是根据本发明的实施例的车辆内部的配置的视图。

参考图2和图3，车辆1可包括使车辆1移动的车轮51和52、从外部封闭车辆1的内部的车门71L、71R、72L和72R、向车辆1内的驾驶员提供车辆1前方视野的前玻璃63以及向驾驶员提供车辆1的后侧视野的侧视镜81L和81R。

在实施例中，前玻璃63可设置在车辆1前部的上部，以使车辆1内的驾驶员获取车辆1前方的视觉信息，并且可称为“挡风玻璃”。

侧视镜81L、81R可包括设置在车辆1左侧的左侧视镜81L和设置在车辆1右侧的右侧视镜81R。侧视镜81L、81R可使车辆1内的驾驶员获取车辆1的侧部和后部的视觉信息。

车轮51和52可包括设置在车辆前部的前轮51和设置在车辆后部的后轮52。设置在车辆1内部的驱动设备60可向前轮51和后轮52供应扭矩，使得车辆1可向前和向后移动。

当车辆1使用前轮驱动系统时，驱动设备60可向前轮51供应扭矩，并且当车辆1使用后轮驱动系统时，驱动设备60可向后轮52供应扭矩。另外，当车辆1使用四轮驱动系统时，驱动设备60可向前轮51和后轮52两者供应扭矩。

驱动设备60可采用配置为通过燃烧化石燃料产生扭矩的发动机或配置为通过从电容器接收电源来产生扭矩的电动机。替换地，驱动设备60可采用配置为具有发动机和电动机两者并且选择性地使用发动机、电动机或发动机和电动机的混合方法。

车门71L、71R、72L和72R可旋转地设置在车辆1的左侧和右侧。当车门打开时，可允许驾驶员坐在车辆1中。当车门关闭时，车辆1的内部可从外部封闭。

另外，车辆1可包括检测器，例如接近传感器，配置为检测车辆1的后侧或横向侧附近的障碍物或另一车辆。车辆1还可包括雨传感器，配置为检测是否下雨和雨量。

在实施例中，显示器232可设置在车辆1内部的仪表板61的中心部分中。显示器232配置为显示控制车辆所需的屏幕，并且可包括音频功能、视频功能、导航功能和呼叫功能。输入器233配置为接收用户的控制命令，并且也可设置在车辆1内部的仪表板61的中心部分中，即，中心饰板62。

显示器232可通过各种显示设备中的任何一种来实施，例如LCD(液晶显示器)、LED(发光二极管)、PDP(等离子体显示面板)、OLED(有机发光二极管)和CRT(阴极射线管)。

用户可通过操作输入器233来输入控制车辆1的命令。输入器233可在与显示器232相邻的区域上设置为硬键类型，如图3所示。替换地，当显示器232通过触摸屏实施时，显示器232可实现输入器233的功能。

车辆1还可经由麦克风210接收作为语音的用户控制命令。麦克风210可接收语音的声音，然后将声音转换为电信号。

为了有效的语音输入，麦克风210可安装至顶板64，如图3所示，但是车辆1的实施例不限于此。因此，麦克风210可安装至仪表板61或方向盘65。另外，麦克风210可安装至任何位置，只要该位置适合于接收用户语音。

在车辆1的内部，可设置一个或多个扬声器231，其可配置为输出提供用户期望的服务所需的声音。例如，扬声器231可设置在驾驶员座椅车门71L和乘客座椅车门71R内部。

在实施例中，扬声器231可输出用于导航路线引导的语音、包括在音频/视频内容中的声音或语音、用于提供用户期望的信息或服务的语音或者作为对用户语音或话语的响应而产生的语音。

图4是示出对话处理装置100配置为与车辆1分离的实施例的控制框图。

例如，对话处理装置100可设置在外部服务器中或用户的移动设备中。移动设备可包括电子设备，例如个人数字助理(PDA)、膝上型计算机、平板PC、智能电话或可穿戴设备(例如，智能玻璃或智能手表)。然而，移动设备的示例不限于此，因此能够经由有线和/或无线通信连接至车辆1而在确保移动性且能够传送数据的同时能够存储数据的任何电子设备都可用作移动设备。

在实施例中，车辆1可包括配置为与具有对话处理设备100的外部服务器或移动设备进行通信的通信器260。

通信器260可包括配置为与外部设备通信的至少一个通信模块。例如，通信器260可包括短距离通信模块、有线通信模块和无线通信模块中的至少一个。

短距离通信模块可包括各种短距离通信模块，并且配置为使用短距离的无线通信模块(例如，蓝牙模块、红外通信模块、射频识别(RFID)通信模块、无线本地接入网(WLAN)通信模块、NFC通信模块和ZigBee通信模块)来传送和接收信号。

有线通信模块可包括各种有线通信模块(例如，局域网(LAN)模块、广域网(WAN)模块或增值网络(VAN)模块)和各种有线通信模块(例如，通用串行总线(USB)、高清晰度多媒体接口(HDMI)、数字视频接口(DVI)、推荐标准232(RS-232)、电力线通信或普通老式电话服务(POTS))。

无线通信模块可包括支持各种无线通信方法的无线通信模块(例如，Wifi模块、无线宽带模块、全球移动系统(GSM)通信、码分多址(CDMA)、宽带码分多址(WCDMA)、时分多址(TDMA)和长期演进(LTE))。

无线通信模块可包括用于传送和接收信号的天线、发射器和接收器。

无线通信模块还可包括信号转换模块，配置为将数字控制信号调制为模拟形式的无线电信号并且配置为将接收到的模拟形式的无线电信号解调为数字控制信号。

另外，在实施例中，通信器260还可包括用于车辆1中的电子设备之间的通信的内部通信模块。车辆1的通信协议可使用控制器局域网(CAN)、本地互连网络(LIN)、FlexRay、以太网或其任何组合。

通信单元260可经由无线通信模块向外部服务器传送数据和从外部服务器接收数据。通信单元260可经由短距离通信模块或有线通信模块向移动设备传送数据和从移动设备接收数据。

因此，当对话处理装置100设置在外部服务器中时，车辆1可经由无线通信模块向对话处理装置100传送数据和从对话处理装置100接收数据。当在移动设备中设置对话处理装置100时，车辆1可经由短距离通信模块或有线通信模块向对话处理装置100传送数据和从对话处理装置100接收数据。

替换地，对话处理装置100的一些组件可包括在车辆1中，对话处理装置100的其它组件可包括在外部服务器或移动设备中。可根据每个组件占用的数据存储容量或每个组件所需的处理器性能来确定车辆1中包括哪些组件以及哪些组件包括在外部服务器或移动设备中。

图5是示出根据实施例的对话处理装置的控制框图。

参考图5，根据实施例，对话处理装置100可包括监视器110，配置为通过监视从麦克风210传送的输入信号来确定是否输入用户语音。对话处理装置还可包括语音识别器120，配置为通过识别输入的用户语音来输出文本形式的话语。对话处理装置还可包括自然语言处理器130，配置为通过应用自然语言理解技术来识别用户的意图。对话处理装置还可包括对话管理器140，配置为根据用户的意图来管理对话以提供响应或服务。对话处理装置还可包括存储设备150，配置为存储输入信号监视、语音识别、自然语言处理和对话管理所需的各种信息。

通常，用户需要通过操作一键通(PTT)按钮来开启麦克风以便输入语音，或者用户需要输入触发信号，例如，说出单独的命令来激活语音识别。然而，根据实施例，对于对话处理装置100，麦克风210可一直开启，并且监视器110可通过实时监视经由麦克风210输入的信号来确定是否输入用户语音。当监视器110确定输入用户语音时，输入的语音信号可被输入至语音识别器120，然后可开始对话过程的处理。下面更详细地描述监视器的操作。

在实施例中，监视器110、语音识别器120、自然语言处理器130和语音管理器140可分别包括配置为存储用于实现上述操作和下面描述的操作的程序的存储器以及配置为执行存储的程序的处理器。

在另一实施例中，监视器110、语音识别器120、自然语言处理器130和语音管理器140可分别包括单独的存储器和处理器或者彼此共用存储器和处理器。

另外，也可使用多个存储器和处理器，并且在这种情况下，多个存储器和处理器可集成在单个芯片上或设置在物理分离的位置。

在下文中，将参考图6详细描述对话处理装置100中包括的每个组件的操作。

图6是示出根据本发明的实施例的对话处理装置100的组件的控制框图。

参考图6，监视器110可实时监视从麦克风210传送的输入信号。特别地，监视器110可确定输入信号的强度，即输入信号的等级(电平)是否大于参考等级(电平)。当输入信号的等级大于参考等级时，监视器110可确定输入用户语音。

在本实施例中，可由在未发出用户语音的状态下输入的背景信号来确定参考等级。特别地，可确定参考等级，使得当车辆1停止或行驶时产生的背景信号的等级被存入数据库(输入信号等级DB)并存储在存储设备150中。基于存储在输入信号等级DB中的背景信号的等级来确定参考等级。

例如，背景信号等级可存储为平均值，并且可将比背景信号等级的平均值高的等级设定为参考等级。例如，可将比背景信号等级(电平)高10dB的等级(电平)设定为参考等级。

可实时更新存储在输入信号等级DB中的背景信号等级，以提高其准确性和可靠性。为此，当输入信号的等级等于或小于参考等级时，可确定输入信号为背景信号。因此，可使用存储的输入信号的等级来更新背景信号的等级。

在实施例中，语音识别器120可根据输入语音信号来识别用户发出的语音并输出识别结果。从语音识别器120输出的识别结果可为文本形式的话语。

语音识别器120还可包括语音识别引擎。语音识别引擎可通过将语音识别算法应用于输入的语音来识别用户发出的语音，并产生识别结果。

由于输入的语音被转换为用于语音识别的更有用的形式，所以语音识别器120可通过检测语音信号的起始点和结束点来检测语音中包括的实际语音段。这称为端点检测(EPD)。

在实施例中，语音识别器120可通过应用特征向量提取技术(例如，倒谱、线性预测系数(LPC)、梅尔频率倒谱系数(MFCC)或滤波器组能量)来从检测到的段中提取输入语音的特征向量。

语音识别器120可通过将提取的特征向量与训练的参考模式进行比较来获取识别结果。语音识别器120可使用用于建模和比较语音的信号特征的声学模型或声音模型，以及用于对与识别词汇对应的单词或音节的语言顺序关系进行建模的语言模型。为此，存储设备150可存储声学模型和语言模型DB。

声学模型可分类为将识别目标设定为特征向量模型并且将特征向量模型与语音信号的特征向量进行比较的直接比较方法。声学模型也可分类为在统计学上处理识别目标的特征向量的统计方法。

直接比较方法为将作为识别目标的例如词或音素的单元设定为特征向量模型，并且将接收到的语音与特征向量模型进行比较，以确定它们之间的相似度。直接比较方法的代表性示例为向量量化。向量量化是将接收到的语音信号的特征向量映射到作为参考模型的码本，以将映射的结果编码为代表值，并将代表值彼此进行比较。

统计模型方法是将识别目标的单元配置为状态序列，并使用状态序列之间的关系。每个状态序列都可配置有多个节点。使用状态序列之间的关系的方法可分为动态时间扭曲(DTW)、隐马尔可夫模型(HMM)和使用神经网络的方法。

DTW为考虑到语音的动态特征，通过与参考模型的比较来补偿时间轴上的差异的方法，例如即使当人发音时，信号的长度也随时间变化。HMM方法是将语音假设为具有每个状态的节点(输出符号)的状态转移概率和观察概率的马尔科夫过程的识别方法。然后，HMM方法基于学习数据来估计节点的状态转移概率和观察概率，并计算根据估计模型生成接收到的语音的概率。

同时，对词、音节等的语言顺序关系进行建模的语言模型可通过将配置语言的单元之间的顺序关系应用于通过语音识别获取的单元来减少声学模糊度和识别误差。语言模型可包括统计语言模型和基于有限状态自动机(FSA)的模型。统计语言模型使用词的链概率，例如一元语法(Unigram)、二元语法(Bigram)和三元语法(Trigram)。

在实施例中，语音识别器120可使用用于语音识别的上述方法中的任何一种。例如，语音识别器120可使用应用HMM方法或其中声学模型与语音模型组合的N最佳搜索方法的声学模型。N最佳搜索方法可通过使用声学模型和语言模型选择N个识别结果候选或更少的候选，然后重新估计识别结果候选的顺序来提高识别性能。

语音识别器120可计算置信度值以确保识别结果的可靠性。置信度值可为表示语音识别结果的可靠性的标准。例如，可相对于作为识别结果的音素或词，将置信度值定义为对应的音素或词已经从不同音素或词发出的概率的相对值。因此，置信度值可表示为0和1之间或在1和100之间的值。

当置信度值大于预定阈值时，语音识别器120可输出识别结果以进行与识别结果对应的操作。当置信度值等于或小于阈值时，语音识别器120可拒绝识别结果。

作为语音识别器120的识别结果的文本形式的话语可输入至自然语言处理器130。

在实施例中，自然语言处理器130可通过应用自然语言理解技术来识别话语语言中包括的用户话语的意图。因此，用户可通过自然对话来输入控制命令，并且对话处理装置100可引起控制命令的输入并且通过对话提供用户所需的服务。

自然语言处理器130可以文本形式对话语进行形态学分析。语素是语义的最小单位，并且代表不可再细分的最小语义元素。因此，形态学分析是自然语言理解的第一步，并将输入的字符串转换为语素字符串。

自然语言处理器130可基于形态学分析结果从话语中提取域。该域可用于辨别用户话语语言的主题或各种主题，例如路线引导、天气搜索、交通搜索、时间表管理、燃料管理和空调控制。通过域辨别的一个或多个主题可存入数据库(域DB)，然后存储在存储设备150中。另外，与用于根据话语推断域的规则相关的信息也可一起存储在域DB中。

自然语言处理器130可从话语中识别实体名称。实体名称可为专有名词(例如，人名、地名、组织名称、时间、日期或货币)，并且可将实体名称识别配置为辨别句子中的实体名称并确定辨别的实体名称的类型。自然语言处理器130可使用实体名称识别从句子中提取重要的关键词，并且识别句子的含义。自然语言处理器130可使用存储在存储设备150中的实体名称DB以用于实体名称识别。

自然语言处理器130可分析话语中包括的语音行为。语音行为分析可配置为识别用户话语的意图，例如，用户是否询问问题、用户是否提出请求、用户是否简单地表达情感。

自然语言处理器130可提取与用户话语的意图对应的动作。自然语言处理器130可基于信息(例如，域、实体名称和语音行为)来识别用户话语的意图，并且提取与话语对应的动作。自然语言处理器130可使用存储在存储设备150中的动作DB来提取动作。可进行的动作的类型和每个动作的推理规则可存储在动作DB中。

自然语言处理器130的处理结果可被传送至语音管理器140。例如，可将与话语对应的域和关键词传送至语音管理器140。形态学分析结果、实体名称、动作信息和语音行为信息也可被传送至语音管理器140。

在实施例中，语音管理器140可包括语境确定模块141，配置为基于自然语言处理器130的处理结果来确定当前语境。语音管理器140还可包括服务提供模块142，配置为生成控制信号以提供与用户话语的意图对应的服务。语音管理器140还可包括响应生成模块143，配置为生成响应以继续与用户对话。

在实施例中，语境确定模块141可基于存储在存储设备150中的先前语境DB来确定语境是否已经开始。“语境”可表示通过用户与对话处理装置100之间的对话来进行某一动作的情况，或者进行对话以用于动作的进行的情况。

当语境尚未开始时，语境确定模块141可基于从自然语言处理器130传送的处理结果，将当前语境作为新语境开始。也就是说，语境确定模块141可进行对话并提供与新语境对应的服务。

与当前语境相关的信息可存储在先前语境DB中，并且当再次输入用户语音时，可使用该信息来确定语境是否已经开始。与当前语境相关的信息可包括开始时间、域和关键词。开始时间可表示用户语音输入的时间点或语境确定模块141开始确定语境的时间点。

当先前语境已经开始时，语境确定模块141可确定先前语境是否结束。例如，当从先前语境开始起经过预定参考时间时，语境确定模块141可确定对应的语境结束。

当未超过参考时间时，语境确定模块141可通过将与先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。例如，语境确定模块141可将与先前语境有关的域和关键词和与当前语境有关的域和关键词进行比较。当与先前语境有关的域和与当前语境有关的域不一致时，语境确定模块141可确定语境改变。虽然与先前语境有关的域可和与当前语境有关的域一致，但是当关键词之间的关联不存在时，语境确定模块141可确定语境改变。

当确定语境改变时，语境确定模块141可确定先前语境结束，然后将当前语境作为新语境开始。

当识别出先前语境的域和关键词与当前语境的域和关键词之间的关联时，语境确定模块141可确定保持先前语境，并基于先前语境DB提供连续的对话和服务。为此，与每个语境有关的对话内容和动作信息可存储在先前语境DB中并用于后续过程。

在实施例中，服务提供模块142和响应生成模块143可基于语境确定模块141的语境确定结果，与用户话语的意图和当前语境对应地，分别提供适当的服务并产生响应。

例如，当用户话语的意图为提供某种服务时，服务提供模块142可输出用于提供对应服务的控制信号。再次参考图1，从服务提供模块142输出的控制信号可传送至车辆1的控制器220，并且控制器220可根据传送的控制信号通过进行适当的控制来提供用户期望的服务。

在实施例中，响应生成模块143可根据用户话语的意图来产生响应以检查用户话语的意图或继续对话。响应可以语音或文本的形式产生。当以语音的形式产生响应时，响应生成模块143可使用文本到语音(TTS)技术来合成语音，并经由扬声器231输出合成的语音。

当提供用户期望的服务时，响应生成模块143可产生响应并在需要响应时输出响应。

下文中，根据本发明的一个方面描述对话处理方法的实施例。对话处理方法的实施例可应用于对话处理装置100或车辆1。因此，参考图1至图6的对话处理装置100或车辆1的描述可以相同的方式应用于对话处理方法的实施例。

图7是示出根据实施例的对话处理方法的流程图。然而，由于不需要将流程图中示出的所有步骤都包括在对话处理方法中，所以可能仅需要一些步骤来描述对话处理方法。因此，可从对话处理方法中排除一些步骤。

参考图7，在实施例中，监视器110可实时监视输入信号(410)。麦克风210可一直开启，并且监视器110可实时监视经由麦克风210输入的信号，以确定是否输入用户语音。

在实施例中，监视器110可确定输入信号的等级是否大于参考等级(411)。当输入信号的等级大于参考等级(在411中为“是”)时，监视器110可确定输入用户语音(413)。可通过在未发出用户语音的状态下输入的背景信号来确定参考等级。特别地，当车辆1停止或行驶时产生的背景信号的等级被存入数据库(输入信号等级DB)并存储在存储设备150中。可基于存储在输入信号等级DB中的背景信号的等级来确定参考等级。

当输入信号的等级等于或小于参考等级(在411中为“否”)时，输入信号的等级可存储在输入信号等级DB中。可实时更新存储在输入信号等级DB中的背景信号等级，以提高其准确性和可靠性。

当确定输入用户语音时，输入语音信号可被输入至语音识别器120，并且可开始用于对话处理的过程(414)。

根据本发明的实施例，能够通过立即开始具有用户期望的内容的话语来激活语音识别，而不用通过通话(PTT)按钮来开启麦克风以便输入语音或不用输入触发信号，例如，说出单独的命令来激活语音识别。

如以上图7中所述，监视器110可实时监视输入信号(510)。监视器110可确定输入信号的等级是否大于参考等级(511)。当输入信号的等级大于参考等级(在511中为“是”)时，监视器110可确定输入用户语音(513)。

当输入信号的等级等于或小于参考等级(在511中为“否”)时，输入信号的等级可存储在输入信号等级DB中(512)。

在实施例中，当确定输入用户语音时，可将输入信号(语音信号)传送至语音识别器120。语音识别器120可从输入语音信号中识别用户发出的语音(514)，并输出识别结果。从语音识别器120输出的识别结果可为文本形式的话语。

从语音识别器120输出的识别结果，即，文本形式的话语可被输入至自然语言处理器130。自然语言处理器130可借助应用自然语言理解技术通过自然语言处理来从话语中提取域和关键词(515)。

在实施例中，语境确定模块141可基于存储在存储设备150中的先前语境DB来确定是否存在先前语境(516)。也就是说，语境确定模块141可确定先前语境是否开始。“语境”可表示通过用户与对话处理装置100之间的对话进行某一动作的情况，或进行对话以用于动作的进行的情况。

当先前语境未开始(在516中为“否”)时，语境确定模块141可基于从自然语言处理器130传送的处理结果，将当前语境作为新语境开始。因此，语境确定模块141可进行对话并提供与新语境对应的服务(521)。与当前语境相关的信息可存储在先前语境DB中，并且当再次输入用户语音时，可使用该信息来确定语境是否已经开始。与当前语境相关的信息可包括开始时间、域和关键词。开始时间可表示用户语音输入的时间点或语境确定模块141开始确定语境时的时间点。

当已经存在先前语境(在516中为“是”)时，语境确定模块141可确定先前语境是否结束。为此，语境确定模块141可确定是否从先前语境开始起经过预定参考时间(517)。当超过预定参考时间(在517中为“是”)时，语境确定模块141可确定对应语境结束，并且进行对话并提供与新语境对应的服务(521)。

当未超过预定参考时间(在517中为“否”)时，语境确定模块141可通过将与先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变(518)。例如，语境确定模块141可将与先前语境有关的域和关键词和与当前语境有关的域和关键词进行比较。当与先前语境有关的域和与当前语境有关的域不一致时，语境确定模块141可确定语境改变。虽然与先前语境有关的域可和与当前语境有关的域一致，但是当关键词之间的关联不存在时，语境确定模块141可确定语境改变。

当确定语境改变(在519中为“是”)时，语境确定模块141可确定先前语境结束，并且将当前语境作为新语境开始。也就是说，语境确定模块141可进行对话并提供与新语境对应的服务(521)。

当确定语境没有改变(在519中为“否”)时，语境确定模块141可基于先前语境DB提供连续的对话和服务(520)。为此，与每个语境有关的对话内容和动作信息可存储在先前语境DB中，然后用于后续过程。

根据实施例，对话处理装置能够通过开始、停止和改变语境本身来开始新语境或进行与先前语境连续的对话和服务，而不用输入单独的命令来开始、停止和改变语境。

对于在用户与设备之间进行对话处理，自然语言处理对于识别用户话语的意图可能是重要的。在实施例中，为了处理自然语言，自然语言处理器130可对文本形式的话语进行形态学分析(515a)，并且基于形态学分析的结果从话语中提取域(515b)。该域可用于辨别用户话语语言的主题或各种主题，例如路线引导、天气搜索、交通搜索、时间表管理、燃料管理和空调控制。通过域辨别的一个或多个主题可存入数据库(域DB)，然后与其推理规则一起存储在存储设备150中。

在实施例中，自然语言处理器130可从话语中识别实体名称(515c)。自然语言处理器130可使用存储在存储设备150中的实体名称DB来进行实体名称识别。

自然语言处理器130可分析话语中包括的语音行为(515d)。语音行为分析可配置为识别用户话语的意图，例如，用户是否询问问题、用户是否提出请求、用户是否简单地表达情感。

自然语言处理器130可基于信息(例如，域、实体名称和语音行为)来识别用户话语的意图，并且提取与用户话语的意图对应的动作(515e)。自然语言处理器130可使用存储在存储设备150中的动作DB来提取动作。可进行的动作的类型和每个动作的推理规则可存储在动作DB中。

可将与话语对应的形态学分析结果、域、实体名称、动作信息以及与语音行为信息(即，自然语言处理的结果)传送至语音管理器140。域、实体名称、动作信息和语音行为信息中的至少一个可成为关键词。关键词可用于与先前语境信息进行比较。

从上述描述可看出，根据所提出的对话处理装置、具有所提出的对话处理装置的车辆和对话处理方法，能够使用户通过话语开始语音识别，而不用进行操作附加的触发器。这可通过如下操作来完成：实时监视输入的声信号的强度，并且当输入的声信号的强度等于或大于参考值时，确定开始语音识别。

基于从输入语音中提取的域和关键词，还能够通过确定是否继续进行对话或者是否开始具有新主题的对话来提供适合于用户意图的响应和服务。

从以上描述可看出，根据所提出的对话处理装置、具有所提出的对话处理装置的车辆和对话处理方法，当用户输入目的地时，能够通过分析用户的行为方式来识别用户的真实意图。将用户的真实意图存入数据库提供当用户输入相同目的地时适合用户真实意图的信息。

虽然已经示出和描述了本发明的一些实施例，但是本领域技术人员将理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其范围在权利要求及其等同物中进行限定。

Claims

1.一种对话处理装置，包括：

监视器，配置为实时比较输入信号的等级与参考等级，并且配置为当所述输入信号的等级大于所述参考等级时，确定输入用户语音；

语音识别器，配置为当确定输入所述语音时，通过对所述输入信号进行语音识别来输出文本形式的话语；

自然语言处理器，配置为基于所述话语来提取域和关键词；以及

对话管理器，配置为基于所述域和所述关键词来确定是否保持先前语境。

2.根据权利要求1所述的对话处理装置，其中

基于在不发出所述语音的状态下输入的背景信号的等级来确定所述参考等级。

3.根据权利要求2所述的对话处理装置，还包括

存储设备，配置为存储所述背景信号的等级，

其中，当所述输入信号的等级等于或小于所述参考等级时，所述存储设备确定所述输入信号为所述背景信号，并且其中，所述存储设备使用所述输入信号的等级来更新存储的背景信号的等级。

4.根据权利要求1所述的对话处理装置，其中

所述对话管理器基于与预先存储的先前语境相关的信息来确定是否存在开始的先前语境。

5.根据权利要求4所述的对话处理装置，其中

当存在开始的先前语境时，所述对话管理器确定开始的先前语境是否结束。

6.根据权利要求5所述的对话处理装置，其中

当从所述先前语境开始起经过预定参考时间时，所述对话管理器确定所述先前语境结束。

7.根据权利要求6所述的对话处理装置，其中

当未超过所述预定参考时间时，所述对话管理器通过将与所述先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。

8.根据权利要求7所述的对话处理装置，其中

所述对话管理器通过将从所述先前语境提取的域和关键词与从所述当前语境提取的域和关键词进行比较来确定语境是否改变。

9.根据权利要求7所述的对话处理装置，其中

当确定语境没有改变时，所述对话管理器提供与所述先前语境中进行的先前对话和服务连续的对话和服务。

10.根据权利要求7所述的对话处理装置，其中，

当确定语境改变时，所述对话管理器结束所述先前语境，并将所述当前语境作为新语境开始。

11.一种车辆，包括：

麦克风，配置为通过一直开启来接收输入声音并且配置为将所述输入声音转换为电输入信号；

监视器，配置为实时比较所述输入信号的等级与参考等级，并且配置为当所述输入信号的等级大于所述参考等级时，确定输入用户语音；

12.根据权利要求11所述的车辆，其中

13.根据权利要求12所述的车辆，还包括：

存储设备，配置为存储所述背景信号的等级，

14.根据权利要求11所述的车辆，其中

15.根据权利要求14所述的车辆，其中

16.根据权利要求15所述的车辆，其中

17.根据权利要求16所述的车辆，其中

18.根据权利要求17所述的车辆，其中

19.根据权利要求17所述的车辆，其中

20.根据权利要求17所述的车辆，其中，

21.一种对话处理方法，包括：

实时比较经由一直开启的麦克风输入的输入信号的等级与参考等级；

当所述输入信号的等级大于所述参考等级时，确定输入用户语音；以及

当确定输入所述语音时，对所述输入信号进行语音识别。

22.根据权利要求21所述的对话处理方法，其中

23.根据权利要求22所述的对话处理方法，还包括：

当所述输入信号的等级等于或小于所述参考等级时，确定所述输入信号为所述背景信号；以及

使用所述输入信号的等级来更新存储的背景信号的等级。

24.根据权利要求21所述的对话处理方法，其中

进行包括：基于与预先存储的先前语境相关的信息来确定是否存在开始的先前语境。

25.根据权利要求24所述的对话处理方法，其中

进行还包括：当存在开始的先前语境时，确定开始的先前语境是否结束。

26.根据权利要求25所述的对话处理方法，其中

开始的先前语境是否结束的确定包括：当从所述先前语境开始起经过预定参考时间时，确定所述先前语境结束。

27.根据权利要求26所述的对话处理方法，其中

进行还包括：当未超过所述预定参考时间时，通过将与所述先前语境相关的信息和与当前语境相关的信息进行比较来确定语境是否改变。

28.根据权利要求27所述的对话处理方法，其中

语境是否改变的确定包括将从所述先前语境提取的域和关键词与从所述当前语境提取的域和当前关键词进行比较。

29.根据权利要求27所述的对话处理方法，其中

进行还包括：当确定所述先前语境未改变时，提供与所述先前语境中进行的先前对话和服务连续的对话和服务。

30.根据权利要求27所述的对话处理方法，其中

进行还包括：当确定所述先前语境改变时，终止所述先前语境，并且将所述当前语境作为新语境开始。