CN1719438A - 整合式对话系统及其方法 - Google Patents
整合式对话系统及其方法 Download PDFInfo
- Publication number
- CN1719438A CN1719438A CNA2004100623579A CN200410062357A CN1719438A CN 1719438 A CN1719438 A CN 1719438A CN A2004100623579 A CNA2004100623579 A CN A2004100623579A CN 200410062357 A CN200410062357 A CN 200410062357A CN 1719438 A CN1719438 A CN 1719438A
- Authority
- CN
- China
- Prior art keywords
- territory
- data
- dialogue
- identification
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种整合式对话系统,包括多数个域与一桥接区,其中每一域具有或不具有该域的数据库,而且每一域与桥接区之间具有一双向连接。当其中一域接收到一输入数据后即开始辨识输入数据,借以决定是在该域中处理输入数据,或者是在该域中处理输入数据后将处理所得的一对话结果与输入数据传输到下一域中,或者是不在该域中处理输入数据并将输入数据传输到下一域中。
Description
技术领域
本发明涉及一种对话系统及其方法。特别涉及一种使用桥接区,或是同时使用超域与桥接区来整合多个域的整合式对话系统及其方法。
背景技术
近年来,因为商业上客户服务等需求日益增加,目前诸如入口网站,或是公司的电话总机,或是公司的信息查询系统等,多会设置一自动对话系统,以提供客户自行查询信息或从事交易行为。现有的自动对话系统,大约可以分成以下几类。
图1是现有技术的对话系统的示意方块图。如图1所示,传统的对话系统100包括一主目录102与多笔数据104a、104b到104n。如果欲查询的内容超过一笔数据时,几乎都是把所有可查询的数据全部组合在一起,而成为一个具有所有功能(all-in-one)的大的对话系统。因为所有的数据都被组合在一起,所以即使各数据之间可能没什么相关,它们也不能被独立使用或被视为独立的个体。换句话说,一旦这个对话系统中的某一笔数据出了问题,即使有些操作不需使用到出问题的数据,此对话系统仍然无法正常运作。再者,此种对话系统必须在所有的数据都开发完成后才能上线使用,如此将严重影响服务提供的时程计划。而且因为所有的数据都被组合在一起,对话系统无法让比较常用的数据部分配置比较多的资源,所以效率也不佳。
为了解决上述对话系统的问题,各家厂商分别提出不同的独立式对话系统。请见图2,是另一种现有技术的对话系统的示意方块图。在图2中,是先行独立开发多数笔数据204a、204b到204n,再依使用者需求,将使用者需要的数笔数据,例如说,204a、204b与204c,组合成一传统的对话系统200。使用者可以利用按键或语音选择选单,一层一层往下找到需要的服务。对话系统200根据使用者的选择,帮使用者找到指定的数据。此种系统的好处是各笔数据可以独立平行地开发,因此开发过程较短,且各自可独立使用。
但是,现在的使用者越来越需要整合一种以上的数据以获得做整合性的服务,例如,当使用者要旅游时,可能同时需要订机票、旅馆以及查询当地天气状况等。而上述的各种对话系统并无法自动整合这些信息,因此使用者仍然必须重复地在每一次对话中下达类似的基本信息与指令,才能得到其想要的数据与信息。对于使用者而言,这种重复下达基本信息的动作不但麻烦而且浪费时间。因此,使用者无不希望能有一种可缩减输入数据次数且能快速而正常运作的整合式对话系统。
发明内容
本发明涉及一种整合式对话系统,可以自动辨识使用者的需求,并且自动进行对话与服务。
此外,本发明涉及一种整合式对话方法,可以自动辨识使用者的需求,并且自动进行对话与服务。
因此,本发明涉及一种整合式对话系统,包括多数个域(domain)与一桥接区(Bridge),其中该桥接区与每一该些域之间具有一双向连接。当该些域其中的第一域接收到一输入数据后即开始辨识该输入数据,并且在该第一域辨识该输入数据后,会决定是否在该第一域中处理该输入数据,以及是否将该输入数据透过该桥接区传输到一第二域中。
在本发明的一实施例中,至少该些域其中之一具有一域数据库。
在本发明的一实施例中,在该第一域辨识该输入数据后,包括决定是在该第一域中处理该输入数据,或者是在该第一域中处理该输入数据后将处理所得的一对话结果与该输入数据传输到该第二域中,或者是不在该第一域中处理该输入数据并将该输入数据传输到该第二域中。
在本发明的一实施例中,该第一域透过辨识该输入数据以获得一本域对话指令与/或一对话参数信息,以及一对话历史信息。接着,若该第一域辨识该输入数据时仅获得该本域对话指令,则该第一域根据该本域对话指令与/或该对话历史信息进行处理并获得一对话结果。或者是,若该第一域辨识该输入数据时,经由辨识/或侦测得到一他域对话指令,而仅获得该对话参数信息,则该第一域将该输入数据与/或该对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。或者是,若该第一域辨识该输入数据时一并获得该本域对话指令与该对话参数信息,则该第一域将该输入数据、根据该本域对话指令所获得的一对话结果与/或该对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。或者是,若辨识该输入数据时无法获得该本域对话指令与该他域对话指令,则输出一错误讯息。
在本发明的一实施例中,该输入数据包括一文字输入数据或一语音输入数据。
在本发明的一实施例中,每一域包括一辨识器与一对话控制器。其中该辨识器,具有一语音输入端用以接收该语音输入数据,与/或具有一文字输入端用以接收该文字输入数据,其中,该辨识器用以辨识该语音输入数据或该文字输入数据,此外,该辨识器双向连接到该桥接区。而该对话控制器,连接到该辨识器,当该辨识器辨识该语音输入数据或该文字输入数据后,决定在此域中处理时,该对话控制器从该辨识器接收并处理该语音输入数据或该文字输入数据以获得一对话结果。
在本发明的一实施例中,每一域还包括一文字转语音器、一语音输出端与一文字输出端。其中该文字转语音器,连接到该对话控制器,用以接收该对话结果并转换成一语音对话结果。而该语音输出端,连接到该文字转语音器,用以输出该语音对话结果。并且该文字输出端,连接到该控制输出端,用以输出该对话结果。
在本发明的一实施例中,该辨识器包括一语音辨识模组、一文法辨识模组以及一域选择器。其中该语音辨识模组,连接到该语音输入端用以接收该语音输入数据,在该语音辨识模组中具有与该辨识器所在的域相关的一本域字汇数据库,借以判别该语音输入数据与该辨识器所在的域的一字汇相关程度,并输出一辨识后语音数据。该文法辨识模组,连接到该文字输入端用以接收该文字输入数据,并且连接到该语音辨识模组用以接收该辨识后语音数据,在该文法辨识模组中具有与该辨识器所在的域相关的一本域文法数据库,借以判别该文字输入数据或是该辨识后语音数据与该辨识器所在的域的一文法相关程度,并输出一辨识后数据。而该域选择器,连接到该文法辨识模组,该对话控制器与该桥接区,用以依据该辨识后数据、该字汇相关程度与该文法相关程度,获得与该辨识后数据相关的域。
在本发明的一实施例中,该语音辨识模组中还包括一明确域转换字汇数据库与一明确域转换文法数据库。当该语音输入数据与该明确域转换字汇数据库中某一部份数据有相关时,即判别该语音输入数据与该部分数据对应的域有关。并且,当该文字输入数据或是该辨识后语音数据与该明确域转换文法数据库中某一部份数据有相关时,即判别该文字输入数据或是该辨识后语音数据与该部分数据对应的域有关。
在本发明的一实施例中,该语音辨识模组还包括至少一个他域字汇数据库,以及至少一个他域文法数据库。他域字汇数据库用以判别该语音输入数据与该辨识器所在的域以外的其它域的另一字汇相关程度。而他域文法数据库用以判别该文字输入数据或是该辨识后语音数据与该辨识器所在的域以外的其它域的另一文法相关程度。
此外,本发明提出一种整合式对话方法,用于具有一桥接区与多数个域的一对话系统,其中在该桥接区与每一该些域之间具有一双向连接,该整合式对话方法包括在该些域其中的第一域接收到一输入数据后即开始辨识该输入数据,以决定是否在该第一域中处理该输入数据,以及是否将该输入数据透过该桥接区传输到一第二域中。
在本发明的一实施例中,在该第一域辨识该输入数据后,包括决定是在该第一域中处理该输入数据,或者是在该第一域中处理该输入数据后将处理所得的一对话结果与该输入数据传输到该第二域中,或者是不在该第一域中处理该输入数据并将该输入数据传输到该第二域中。
在本发明的一实施例中,透过辨识该输入数据以获得一本域对话指令与/或一对话参数信息,以及一对话历史信息。接着,若辨识该输入数据时仅获得该本域对话指令,则该第一域根据该本域对话指令与/或该对话历史信息进行对话并获得一对话结果。或者是,若辨识该输入数据时仅获得该对话参数信息,则该第一域将该输入数据与/或对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。或者是,若辨识该输入数据时一并获得该本域对话指令与该对话参数信息,则该第一域将该输入数据、根据该本域对话指令所获得的一对话结果与/或对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。或者是,若辨识该输入数据时无法获得该本域对话指令与该他域对话指令,则输出一错误讯息。
此外,本发明提出一种整合式对话系统,包括一超域(hyper-domain)、多数个域(domain),以及一桥接区(bridge)。该超域用以接收并辨识一输入数据。而该桥接区与该超域以及每一该些域之间具有一双向连接。其中,在该超域辨识该输入数据后,判别出至少一个与该输入数据相关的第一域,并透过该桥接区将该输入数据传输到该第一域。并且,在该第一域处理该输入数据后,得到一对话结果,并透过该桥接区将该对话结果传输到该超域。
在本发明的一实施例中,在该超域接收到该对话结果后,包括辨识该输入数据与该对话结果,判别出至少一个相关的第二域,并透过该桥接区将该输入数据与该对话结果传输到该第二域。
在本发明的一实施例中,在该超域接收到该对话结果后,包括将该对话结果输出。而将该对话结果输出的一方法,包括使用语音形式与/或文字形式。
在本发明的实施例中,该超域中具有一超域数据库。或者是,至少该些域其中之一具有一域数据库。
在本发明的一实施例中,该输入数据包括一文字输入数据或一语音输入数据。
在本发明的一实施例中,该超域包括一辨识器与一对话控制器。该辨识器双向连接到该桥接区,该辨识器具有一语音输入端用以接收该语音输入数据,与/或具有一文字输入端用以接收该文字输入数据,其中,该辨识器用以辨识该语音输入数据或该文字输入数据,以判别出该第一域,并透过该桥接区将该输入数据传输到该第一域,并接收来自该第一域的该对话结果。而该对话控制器,连接到该辨识器,用以接收并处理该对话结果。
在本发明的一实施例中,该超域还包括一文字转语音器、一语音输出端以及一文字输出端。其中该文字转语音器,连接到该对话控制器,用以接收该对话结果并转换成一语音对话结果。而该语音输出端,连接到该文字转语音器,用以输出该语音对话结果。并且该文字输出端,连接到该控制输出端,用以输出该对话结果。
在本发明的一实施例中,该辨识器包括一语音辨识模组、一文法辨识模组与一域选择器。其中该语音辨识模组,连接到该语音输入端用以接收该语音输入数据,并输出一辨识后语音数据以及一字汇相关程度。而该文法辨识模组,连接到该文字输入端用以接收该文字输入数据,并且连接到该语音辨识模组用以接收该辨识后语音数据,并输出一辨识后数据以及一文法相关程度。并且该域选择器,连接到该文法辨识模组,该对话控制器与该桥接区,用以依据该辨识后数据、该字汇相关程度与该文法相关程度,获得与该辨识后数据相关的域。
在本发明的一实施例中,该语音辨识模组包括一明确域转换字汇数据库与多数个他域字汇数据库。其中当该语音输入数据与该明确域转换字汇数据库中某一部份数据有相关时,即判别该语音输入数据与该部分数据对应的域有关,并且每一该些他域字汇数据库对应到该些域其中之一,借以判别该语音输入数据与该些域的另一字汇相关程度。
在本发明的一实施例中,该文法辨识模组包括一明确域转换文法数据库,以及多数个他域文法数据库。当该文字输入数据或是该辨识后语音数据与该明确域转换文法数据库中某一部份数据有相关时,即判别该文字输入数据或是该辨识后语音数据与该部分数据对应的域有关,并且每一该些他域文法数据库对应到该些域其中之一,借以判别该文字输入数据或是该辨识后语音数据与该些域的另一文法相关程度。
为让本发明的上述和其它目的、特征、和优点能更明显易懂,下文特举一较佳实施例,并配合所附图式,作详细说明如下:
附图说明
图1是现有技术的对话系统的示意方块图;
图2是另一现有技术的对话系统的示意方块图;
图3是依照本发明的一实施例所绘示的一整合式对话系统的示意方块图;
图4是依照本发明的一实施例所绘示的整合式对话系统中的该域的示意方块图;
图5是依照本发明的一实施例所绘示的整合式对话系统中的辨识器的示意方块图;
图6是依照本发明的另一实施例所绘示的整合式对话系统的示意方块图;
图7是依照本发明的图6的实施例所绘示的整合式对话系统中的超域的示意方块图;以及
图8是依照本发明的一实施例所绘示的整合式对话系统中的辨识器的示意方块图。
图号说明:
100、200:对话系统;
102:主目录;
104a、104b、··104n、204a、204b、··204n:数据;
302、602:整合式对话系统;
304、608:桥接区;
306a、306b、306c、612a、612b、612c:域;
308a、308b、614a、614b:域数据库;
312、314、316:动作;
402、702:辨识器;
404:对话控制器;
406、706:文字转语音器;
502、802:语音辨识模组;
504、804:文法辨识模组;
506、806:域选择器;
512:本域字汇数据库;
514、814:明确域转换字汇数据库;
516a、··516n、816a、··816n:他域字汇数据库;
522:本域文法数据库;
524、824:明确域转换文法数据库;
526a、··526n、826a、··826n:他域文法数据库;
604:超域;
606:超域数据库。
具体实施方式
图3是依照本发明的一实施例所绘示的一整合式对话系统的示意方块图。
请参照图3,整合式对话系统302包括桥接区(bridge)304以及域(domain)306a、306b、306c等,其中完全没有,或是某一部份,或是所有域中可具有域数据库,例如图3中域306a、306b各具有域数据库308a与308b,而域306c则不具有域数据库。在此只列举具有三个域的一实施例,然而本发明中的整合式对话系统302可以具有任意个数的域。在域306a、306b、306c与桥接区304之间各别具有一连接,用以在每一域与桥接区304之间双向传输数据。对使用者而言,可以由任一个域开始对话动作,即输入一输入数据。
当任一个域,接收到输入数据时,该域会开始辨识输入数据,并决定是在该域中处理输入数据,或者是在该域中处理输入数据后将处理所得的对话结果与输入数据传输到下一域中,或者是不在该域中处理输入数据并将输入数据传输到下一域中。
在本发明的一实施例中,例如当图3中的域306b,接收到输入数据(例如使用者输入“我想订某月某日往某地的机票与旅馆”)时,并且例如域306b与订机票有关,则域306b会辨识出一个本域对话指令(例如“订某月某日往某地之机票”)。可以发现,此时输入数据中的“旅馆”并不属于域306b的处理范围。在本发明的一实施例中,此时域306b可以从输入数据中辨识出一语音特征参数,并试着从此语音参数特征辨识出一他域关键词(例如“旅馆”)以及与他域关键词相关的一第二域(例如与旅馆有关的是域306c)。上述的语音特征参数,他域关键词与第二域可以统称为一对话参数信息。在本发明的实施例中,可以视采用的语音特征参数,网络频宽及运算能力,选择需要的对话参数信息。如何辨识得到第二域的方法将在以下详述。此时,在域306b的域数据库308b中会开始一对话动作并得到对话结果(例如“某月某日某时往某地附近机场的机票”)。此外,域306b可以将对话结果输出并告知使用者正在对话第二域。
接着,如图3中的动作312所示,域306b会输出输入数据、对话结果、对话参数信息与对话历史信息到桥接区304。接着,桥接区304会如动作314所示,将输入数据、对话结果、对话参数信息与对话历史信息传输到第二域(例如上述的域306c),再经由第二域的辨识,得到另一对话指令(例如“订某月某日某地的旅馆”)并开始另一对话动作;而且域306c可以将有关旅馆的对话结果透过桥接区304回传至域306b再输出并告知使用者,或者是加上前面有关机票的对话结果一并输出并告知使用者。
在上述的实施例中,使用者可以在任何时候,例如在得到机票对话结果后,输入另一输入数据(例如“查天气”),或是在得到旅馆对话结果后,输入另一输入数据。则收到另一输入数据的域会加入对话参数信息与对话历史信息,延续已经说过的对话,以获得又一对话指令(例如“查某月某日某地的天气”)。同时对话参数信息与对话历史信息可辅助判断输入语音文字是否是之前对话的延续,例如之前对话可能进行到一半,就比较不会突然换话题,(如查旅馆之后可能顺便查机票,比较不可能接着查今天的特价品),可辅助更精确找到后续输入数据的域。
在本发明的另一实施例中(例如输入“我想订某月某日往某地的机票”到一机票相关的域时),若辨识输入数据时仅获得本域对话指令(例如“订某月某日往某地的机票”),则该域根据本域对话指令进行对话并获得一对话结果。
在本发明的又一实施例中(例如输入“我想订某月某日往某地的机票”到一旅馆相关的域时),若辨识输入数据时仅获得一对话参数信息(例如语音特征参数、他域关键词“机票”以及与他域关键词相关的域等),则该域会将输入数据与/或对话参数信息以及对话历史信息,经过桥接区304传输至第二域。
在本发明前述的实施例中(例如输入“我想订某月某日往某地的机票与旅馆”到一机票相关的域时),若辨识输入数据时一并获得本域对话指令(例如“订某月某日往某地的机票”)与对话参数信息,则该域会将输入数据,在此域中处理本域对话指令所得到的一对话结果,对话参数信息,以及对话历史信息经过桥接区304传输至第二域。
在本发明的再一实施例中,若无法辨识任一个输入数据以获得本域对话指令或是他域对话指令时,会对使用者输出一错误讯息。
在本发明的另一实施例中,使用者输入任一个输入数据到上述整合式对话系统的方式,可以是透过语音方式输入一语音输入数据,或者是透过文字方式输入一文字输入数据。
图4是依照本发明的一实施例所绘示的整合式对话系统中的域的示意方块图。请参照图4,整合式对话系统302中的每一个域,例如306a(或者是306b、306c等),包括辨识器402、对话控制器404、以及文字转语音器406。此外,如上述图3的实施例,域306a、306b还具有域数据库308a、308b,而域306c则不具有域数据库。辨识器402具有语音输入端与/或文字输入端,其中语音输入端是用以接收语音输入数据(例如“我想订某月某日往某地的机票以及旅馆”的语音输入数据),而文字输入端是用以接收文字输入数据(例如“我想订某月某日往某地的机票以及旅馆”的文字输入数据),其中,使用者只需使用其中一种输入方式即可。接着,辨识器402会透过了解语音输入数据或文字输入数据的语义,以获得本域对话指令与/或对话参数信息(例如语音特征参数、他域关键词、或是他域关键词相关的域),以及对话历史信息。若辨识器402辨识只得到本域对话指令,则将本域对话指令与/或对话历史信息传输到对话控制器404中,对话控制器404可以自行处理(当没有域数据库时),或是透过查询域数据库308a以获得对话结果,并将对话结果传输到辨识器402中。若辨识器402辨识只得到对话参数信息时,则将语音或文字输入数据与/或对话参数信息与/或对话历史信息透过桥接区304传输到第二域进行辨识与处理。若辨识器402同时辨识得到本域对话指令与对话参数信息,则将语音或文字输入数据、本域的对话结果与/或对话参数信息与/或该对话历史信息对话历史信息透过桥接区304传输到第二域进行辨识与处理。
在本发明的一实施例中,每一域中可以具有语音输出端,透过文字转语音器406连接到对话控制器404的控制输出端414,其中文字转语音器406用以接收对话结果并将其转换成一语音对话结果,并透过语音输出端以语音形式输出给使用。
在本发明的一实施例中,每一域中可以具有文字输出端,连接到对话控制器404的控制输出端414,用以以文字形式输出对话结果给使用者。
图5是依照本发明的一实施例所绘示的整合式对话系统中的辨识器的示意方块图。请参照图5,在本发明的一实施例中,辨识器402包括语音辨识模组502、文法辨识模组504,以及域选择器506。
在本发明的另一实施例中,语音辨识模组502可以包括与辨识器402所在的域相关的本域字汇数据库512,并且文法辨识模组504可以包括与辨识器402所在的域相关的与本域文法数据库522。此外,在本发明的又一实施例中,语音辨识模组502还可以包括明确域转换字汇数据库514与/或多数个他域字汇数据库516a-516n,并且文法辨识模组504还可以包括明确域转换文法数据库524与/或多数个他域文法数据库526a-526n。其中明确域转换字汇数据库514包含每一域的关键词(如天气域包含气温、下雨等),以下将详细说明。
请参照图5,语音辨识模组502连接到对话控制器404用以接收对话结果,并且连接到语音输入端用以接收语音输入数据并将其辨识成一辨识后语音数据。在本发明的一实施例中,例如,与机票相关的域306b接收到语音输入数据(例如使用者以语音输入“我想订某月某日往某地的机票与旅馆”)时,其中,例如“我想订某月某日往某地的机票”可由域306b中的本域字汇数据库512辨识,所以可加上标识“306b”。而对于无法被本域字汇数据库512辨识的部分(例如“旅馆”),若域306b具有明确域转换字汇数据库514与/或他域字汇数据库516a-516n,并且其中有关键词“旅馆”以及所属的域“306c”,则可以将语音输入数据辨识成一个具有多个域字汇卷标(domain lexicon tag)的辨识后语音数据(例如“我想订某月某日往某地的机票[306b]与旅馆[306c]”)。此外,在本发明的一实施例中,每一域字汇卷标根据本域字汇数据库512、明确域转换字汇数据库514、他域字汇数据库516a-516n与对话结果等,可以获得字汇权值(weight),其中字汇权值是用以代表域字汇卷标与相关的域的相关程度(上述的第一输入数据可以改变,例如“我想订某月某日往某地的机票[306b,90%]与旅馆[306c,90%]”)。
请参照图5,文法辨识模组504连接到对话控制器404用以接收对话结果,并且连接到文字输入端412用以接收文字输入数据,以及连接到语音辨识模组502以接收辨识后语音数据。文法辨识模组504是用以将文字输入数据或辨识后语音数据转换成一辨识后数据。例如,在前段的实施例中,在与机票相关的域306b接收到语音输入数据(例如使用者以语音输入“我想订某月某日往某地的机票与旅馆”),并将其辨识成辨识后语音数据(例如“我想订某月某日往某地的机票[306b,90%]与旅馆[306c,90%]”)后,域306b中的本域文法数据库522会加以了解辨识后语音数据中与本域相关部分(例如“我想订某月某日往某地的机票[306b,90%]”)的语句的文法(例如是“订机票”)。而对于与本域文法数据库522无关的部分(例如“旅馆[306c,90%]”),若域306b具有明确域转换文法数据库524与/或他域文法数据库526a-526n,则会将整句辨识后语音数据加以了解并得到另一结果(例如“我想订旅馆[306c,90%]”)。因此,可以将辨识后语音数据辨识成一个具有多个域文法卷标(domain grammar tag)的辨识后数据(例如“我想订某月某日往某地的机票[306b,90%]{306b}”与“我想订旅馆[306c,90%]{306c}”)。此外,在本发明的一实施例中,每一域文法卷标根据本域文法数据库522、明确域转换文法数据库524、他域文法数据库526a-526n与对话结果可以获得一文法权值(weight),其中文法权值是用以代表域文法卷标与相关的域的相关程度(上述的第一输入数据会变成,例如是“我想订某月某日往某地的机票[306b,90%]{306b,80%}”与“我想订旅馆[306c,90%]{306c,80%}”)。
域选择器506连接到文法辨识模组504,用以接收辨识后数据,并依据辨识后数据中的域字汇卷标与相应的字汇权值,以及域文法卷标与相应的文法权值,获得本域对话指令或是对话参数信息(例如语音特征参数、他域关键词、或是他域关键词相关的域等),以及对话历史信息。(若是在域306b中执行该辨识动作,则会辨识得到本域对话指令为“我想订某月某日往某地的机票”、他域关键词为“我想订旅馆”,以及第二域为“306c”)。此外,域选择器506连接到对话控制器404用以输出本域对话指令到对话控制器404,并且连接到桥接区304用以输出输入数据、在此域中的查询结果与对话参数信息以及对话历史信息到桥接区304。
在本发明的一实施例中,提出一种整合式对话方法,可用于具有一桥接区与多数个域的一对话系统,其中在该桥接区与每一该些域之间具有一双向连接,该整合式对话方法包括,当该些域其中的一第一域接收到一输入数掘后即开始辨识该输入数据,以决定是否在该第一域中处理该输入数据,以及是否将该输入数据透过该桥接区传输到一第二域中。
在本发明的一实施例中,当该第一域辨识该输入数据后,会决定是在该第一域中处理该输入数据,或者是在该第一域中处理该输入数据后将处理所得的一对话结果与该输入数据传输到该第二域中,或者是不在该第一域中处理该输入数据并将该输入数据传输到该第二域中。
在本发明的一实施例中,透过辨识该输入数据可以获得一本域对话指令与/或一对话历史信息,以及一对话历史信息。因此,若辨识该输入数据时仅获得该本域对话指令,则该第一域根据该本域对话指令与/或该对话历史信息进行对话并获得一对话结果。或者是,若辨识该输入数据时仅获得该对话参数信息,则该第一域将该输入数据与/或对话参数信息与/或对话历史信息经过该桥接区而传输至该第二域。或者是,若辨识该输入数据时一并获得该本域对话指令与该对话参数信息,则该第一域将该输入数据、根据该本域对话指令所获得的一对话结果与/或该对话参数信息与/或对话历史信息经过该桥接区而传输至该第二域。或者是,若辨识该输入数据时无法获得该本域对话指令与该他域对话指令,则输出一错误讯息。
在本发明的一实施例中,在处理该输入数据而得到对话结果后,更包括以语音或文字的形式将其输出给使用者。因为这些步骤都在之前有关,例如图4的实施例中讨论过,因此不再重复。
综上所述,在本发明中,可以先分别建立各个域的数据库,再使用一桥接区连接所有域来建立一整合式对话系统。因此在本发明中,每一个域可以独立地设计而完全不会影响到其它域,并且可以随时加入新的域到整合式对话系统中。此外,整合式对话系统可以针对不同的应用,以桥接区来整合不同的域,而不会因为有一个以上的应用会用到同一个域的功能,而重复建置,因此可以使系统的建立比较简单,也不会浪费重复的资源。此外,在其中一个域出问题时,还是可以由其它的域开始执行对话,而不会影响到整合式对话系统的运作。而桥接区相当于使得每一个域都多了一个入口,使得每一个域都可以透过桥接区分享给其它的域而充分利用。此外,参考“对话参数信息”与“对话历史信息”可以使系统聪明的延续使用者对话的条件,而不需重复下达同一个信息。此外,在上述的辨识后语音数据与辨识后数据中,加入域字汇卷标、权值与域文法卷标、权值,可以加速域选择器辨识出本域对话指令与对话参数信息的速度,并提高辨识的准确度。
图6为依照本发明的另一实施例所绘示的整合式对话系统的示意方块图。请参照图6,其中整合式对话系统602包括一超域604、一桥接区608,以及多数个域612a-612c。其中完全没有、或是有一部分,或是全部的域可以具有域数据库,例如图6中域612a、612b各具有域数据库614a与614b,而域612c则不具有域数据库。而超域604中也可不具有超域数据库,或是具有一超域数据库606。桥接区608与超域604以及每一域612a-612c之间具有一双向连接。在本发明中可以具有任意个域。在本发明的一实施例中,所有的对话都将透过超域的辨识,通过桥接区转送到其它域处理。也就是,在超域604辨识一输入数据后,会判别出至少一个与输入数据相关的域,并透过桥接区将输入数据传输到该域中。
请参照图6,当使用者使用整合式对话系统602时,是由超域604输入一输入数据(例如“我想订某月某日往某地的机票与旅馆”)。当超域604接收到输入数据时,会辨识输入数据以获得第一域对话指令(例如“我想订某月某日往某地的机票”)及其所属的第一对应域(例如域612b)。接着,第一对话指令会透过桥接区608传输到第一对应域。
当第一对应域接收到第一域对话指令后,即在第一对应域的域数据库(例如域数据库614b)中对话以获得一第一对话结果(例如“某月某日某时往某地附近机场的机票”),并透过桥接区608传输第一对话结果到超域604中。
当超域604接收到对话结果后,会根据第一对话结果与第一域对话指令,辨识输入数据,以获得第二域对话指令及其所属的第二域(例如辨识“某月某日某时往某地附近机场的机票”以及“我想订某月某日往某地的机票与旅馆”等对话结果与输入数据,并得到“订某月某日某地附近机场外围的旅馆”)。并透过桥接区608传输第二域对话指令到第二域中以开始对话。
在上述的整合式对话系统中,在辨识输入数据后若无法获得第一域对话指令时,则得到一错误讯息。
在本发明的另一实施例中,使用者输入输入数据到上述整合式对话系统的方式,可以是透过语音方式输入一语音输入数据,或者是透过文字方式输入一文字输入数据。
图7为依照本发明的图6的实施例所绘示的整合式对话系统中的超域的示意方块图。请参照图7,整合式对话系统602中的超域604,包括一辨识器702、以及一文字转语音器706。辨识器702具有一语音输入端用以接收语音输入数据,与/或一文字输入端用以接收文字输入数据。辨识器702是用以辨识语音输入数据或文字输入数据以获得第一域对话指令与所属的第一域。文字转语音器706连接到辨识器702,用以接收对话结果并将其转换成一语音对话结果以从语音输出端以语音形式输出给使用者。文字输出端连接到辨识器702,用以一文字形式输出对话结果给使用者。
图8为是依照本发明的一实施例所绘示的整合式对话系统中的辨识器的示意方块图。请参照图8,图7中的辨识器702包括语音辨识模组802、文法辨识模组804,以及域选择器806。
在本发明的另一实施例中,语音辨识模组802可以包括明确域转换字汇数据库814与/或多数个他域字汇数据库816a-816n,并且文法辨识模组804还可以包括明确域转换文法数据库824与/或多数个他域文法数据库826a-826n。其中明确域转换字汇数据库814包含每一域的关键词。
图8与图5的差异在于,第8图中的对话历史信息是通过与桥接区输入到辨识器702。在本发明的一实施例中,辨识器702与辨识器402中,具有相同名称的构件其功能相同。而辨识器702与辨识器402的功能也相似。
综上所述,在本发明中,可以先分别建立每个域的数据库,再使用一超域以及一桥接区来连接所有域以建立一整合式对话系统。因此,每一个域可以独立地设计而完全不会影响到其它域,并且可以随时加入新的域到整合式对话系统中。此外,整合式对话系统可以针对不同的使用者,设计不同的超域与桥接区来整合不同的域,而不用把不相关的域组合进来,因此可以使系统的建立比较简单,也不会浪费重复的资源。对于需要一次以上的对话来收集对话条件或缩小对话范围,可以直接由该域的对话控制器来负责。而如果我们就是要建立一个以整合数个域的信息的应用时,可以由超域来负责整合,如此可以更清楚而正确地对使用者所输入的输入数据加以辨识而传输到适合的域中。
虽然本发明已以一较佳实施例揭露如上,然其并非用以限定本发明,任何熟悉此技术者,在不脱离本发明的精神和范围内,当可作适当的更动与润饰,因此本发明的保护范围当视权利要求所界定者为准。
Claims (33)
1.一种整合式对话系统,其特征在于,包括:
多数个域,当该些域其中之一第一域接收到一输入数据后即开始辨识该输入数据;以及
一桥接区,该桥接区与每一该些域之间具有一双向连接;
在该第一域辨识该输入数据后,会决定是否在该第一域中处理该输入数据,以及是否将该输入数据透过该桥接区传输到一第二域中。
2.根据权利要求1所述的整合式对话系统,其特征在于,至少该些域其中之一具有一域数据库。
3.根据权利要求1所述的整合式对话系统,其其特征在于,在该第一域辨识该输入数据后,包括:
决定是在该第一域中处理该输入数据,或者是在该第一域中处理该输入数据后将处理所得的一对话结果与该输入数据传输到该第二域中,或者是不在该第一域中处理该输入数据并将该输入数据传输到该第二域中。
4.根据权利要求1所述的整合式对话系统,其特征在于,该第一域透过辨识该输入数据以获得一本域对话指令与/或一对话参数信息,并得到一对话历史信息。
5.根据权利要求4所述的整合式对话系统,其特征在于,该第一域辨识该输入数据时仅获得该本域对话指令,则该第一域根据该本域对话指令与/或该对话历史信息进行处理并获得一对话结果。
6.根据权利要求4所述的整合式对话系统,其特征在于,该第一域辨识该输入数据时仅获得该对话参数信息,则该第一域将该输入数据与/或该对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。
7.根据权利要求4所述的整合式对话系统,其特征在于,该第一域辨识该输入数据时一并获得该本域对话指令与该对话历史信息,则该第一域将该输入数据、根据该本域对话指令所获得的一对话结果与/或该对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。
8.根据权利要求4所述的整合式对话系统,其中,若辨识该输入数据时无法获得该本域对话指令与其它域对话指令,则输出一错误讯息。
9.根据权利要求1所述的整合式对话系统,其特征在于,该输入数据包括一文字输入数据或一语音输入数据。
10.根据权利要求9所述的整合式对话系统,其特征在于,每一该些域,包括:
一辨识器,具有一语音输入端用以接收该语音输入数据,与/或一文字输入端用以接收该文字输入数据,其中,该辨识器用以辨识该语音输入数据或该文字输入数据,此外,该辨识器双向连接到该桥接区;以及
一对话控制器,连接到该辨识器,当该辨识器辨识该语音输入数据或该文字输入数据后,决定在此域中处理时,该对话控制器从该辨识器接收并处理该语音输入数据或该文字输入数据以获得一对话结果。
11.根据权利要求10所述的整合式对话系统,其特征在于,每一该些域,还包括:
一文字转语音器,连接到该对话控制器,用以接收该对话结果并转换成一语音对话结果;
一语音输出端,连接到该文字转语音器,用以输出该语音对话结果;以及
一文字输出端,连接到该控制输出端,用以输出该对话结果。
12.根据权利要求10所述的整合式对话系统,其特征在于,该辨识器,包括:
一语音辨识模组,连接到该语音输入端用以接收该语音输入数据,在该语音辨识模组中具有与该辨识器所在的域相关的一本域字汇数据库,借以判别该语音输入数据与该辨识器所在的域的一字汇相关程度,并输出一辨识后语音数据;
一文法辨识模组,连接到该文字输入端用以接收该文字输入数据,并且连接到该语音辨识模组用以接收该辨识后语音数据,在该文法辨识模组中具有与该辨识器所在的域相关的一本域文法数据库,借以判别该文字输入数据或是该辨识后语音数据与该辨识器所在的域的一文法相关程度,并输出一辨识后数据;以及
一域选择器,连接到该文法辨识模组,该对话控制器与该桥接区,用以依据该辨识后数据、该字汇相关程度与该文法相关程度,获得与该辨识后数据相关的域。
13.根据权利要求12所述的整合式对话系统,其中在该语音辨识模组中,还包括:
一明确域转换字汇数据库,当该语音输入数据与该明确域转换字汇数据库中某一部份数据有相关时,即判别该语音输入数据与该部分数据对应的域有关;以及
一明确域转换文法数据库,当该文字输入数据或是该辨识后语音数据与该明确域转换文法数据库中某一部份数据有相关时,即判别该文字输入数据或是该辨识后语音数据与该部分数据对应的域有关。
14.根据权利要求12所述的整合式对话系统,其特征在于,在该语音辨识模组中,还包括:
至少一个他域字汇数据库,借以判别该语音输入数据与该辨识器所在的域以外的其它域的另一字汇相关程度;以及
至少一个域文法数据库,借以判别该文字输入数据或是该辨识后语音数据与该辨识器所在的域以外的其它域的另一文法相关程度。
15.一种整合式对话方法,用于具有一桥接区与多数个域的一对话系统,其特征在于,在该桥接区与每一该些域之间具有一双向连接,该整合式对话方法包括:
在该些域其中之一第一域接收到一输入数据后即开始辨识该输入数据,以决定是否在该第一域中处理该输入数据,以及是否将该输入数据透过该桥接区传输到一第二域中。
16.根据权利要求15所述的整合式对话方法,其特征在于,在该第一域辨识该输入数据后,包括:
决定是在该第一域中处理该输入数据,或者是在该第一域中处理该输入数据后将处理所得的一对话结果与该输入数据传输到该第二域中,或者是不在该第一域中处理该输入数据并将该输入数据传输到该第二域中。
17.根据权利要求15所述的整合式对话方法,其特征在于,透过辨识该输入数据以获得一本域对话指令与/或一对话参数信息,并得到一对话历史信息。
18.根据权利要求17所述的整合式对话方法,其特征在于,若辨识该输入数据时仅获得该本域对话指令,则该第一域根据该本域对话指令与/或该对话历史信息进行对话并获得一对话结果。
19.根据权利要求17所述的整合式对话方法,其特征在于,若辨识该输入数据时仅获得该对话参数信息,则该第一域将该输入数据与/或该对话参数信息与/或对话历史信息经过该桥接区而传输至该第二域。
20.根据权利要求17所述的整合式对话方法,其特征在于,若辨识该输入数据时一并获得该本域对话指令与该对话历史信息,则该第一域将该输入数据、根据该本域对话指令所获得的一对话结果与/或该对话参数信息与/或该对话历史信息经过该桥接区而传输至该第二域。
21.根据权利要求17所述的整合式对话方法,其特征在于,辨识该输入数据时无法获得该本域对话指令与该他域对话指令,则输出一错误讯息。
22.一种整合式对话系统,包括:
一超域,用以接收并辨识一输入数据;
多数个域;以及
一桥接区,该桥接区与该超域以及每一该些域之间具有一双向连接;
其特征在于,在该超域辨识该输入数据后,判别出至少一个与该输入数据相关的第一域,并透过该桥接区将该输入数据传输到该第一域;以及
在该第一域处理该输入数据后,得到一对话结果,并透过该桥接区将该对话结果传输到该超域。
23.根据权利要求22所述的整合式对话系统,其特征在于,该超域接收到该对话结果后,包括辨识该输入数据与该对话结果,判别出至少一个相关的第二域,并透过该桥接区将该输入数据与该对话结果传输到该第二域。
24.根据权利要求22所述的整合式对话系统,其特征在于,该超域接收到该对话结果后,包括将该对话结果输出。
25.根据权利要求22所述的整合式对话系统,其特征在于,将该对话结果输出的一方法,包括使用语音形式与/或文字形式。
26.根据权利要求22所述的整合式对话系统,其特征在于,该超域中具有一超域数据库。
27.根据权利要求22所述的整合式对话系统,其特征在于,至少该些域其中之一具有一域数据库。
28.根据权利要求22所述的整合式对话系统,其特征在于,输入数据包括一文字输入数据或一语音输入数据。
29.根据权利要求28所述的整合式对话系统,其特征在于,该超域,包括:
一辨识器,双向连接到该桥接区,该辨识器具有一语音输入端用以接收该语音输入数据,与/或一文字输入端用以接收该文字输入数据,其中,该辨识器用以辨识该语音输入数据或该文字输入数据,以判别出该第一域,并透过该桥接区将该输入数据传输到该第一域,并接收来自该第一域的该对话结果;以及
一对话控制器,连接到该辨识器,用以接收并处理该对话结果。
30.根据权利要求29所述的整合式对话系统,其特征在于,该超域,还包括:
一文字转语音器,连接到该对话控制器,用以接收该对话结果并转换成一语音对话结果;
一语音输出端,连接到该文字转语音器,用以输出该语音对话结果;以及
一文字输出端,连接到该控制输出端,用以输出该对话结果。
31.根据权利要求29所述的整合式对话系统,其特征在于,该辨识器,包括:
一语音辨识模组,连接到该语音输入端用以接收该语音输入数据,并输出一辨识后语音数据以及一字汇相关程度;
一文法辨识模组,连接到该文字输入端用以接收该文字输入数据,并且连接到该语音辨识模组用以接收该辨识后语音数据,并输出一辨识后数据以及一文法相关程度;以及
一域选择器,连接到该文法辨识模组,该对话控制器与该桥接区,用以依据该辨识后数据、该字汇相关程度与该文法相关程度,获得与该辨识后数据相关的域。
32.根据权利要求31所述的整合式对话系统,其特征在于,该语音辨识模组包括:
一明确域转换字汇数据库,当该语音输入数据与该明确域转换字汇数据库中某一部份数据有相关时,即判别该语音输入数据与该部分数据对应的域有关;以及
多数个域字汇数据库,其中每一该些域字汇数据库对应到该些域其中之一,借以判别该语音输入数据与该些域的另一字汇相关程度。
33.根据权利要求31所述的整合式对话系统,其特征在于,该文法辨识模组包括:
一明确域转换文法数据库,当该文字输入数据或是该辨识后语音数据与该明确域转换文法数据库中某一部份数据有相关时,即判别该文字输入数据或是该辨识后语音数据与该部分数据对应的域有关;以及
多数个域文法数据库,其中每一该些域文法数据库对应到该些域其中之一,借以判别该文字输入数据或是该辨识后语音数据与该些域的另一文法相关程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100623579A CN1719438A (zh) | 2004-07-06 | 2004-07-06 | 整合式对话系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2004100623579A CN1719438A (zh) | 2004-07-06 | 2004-07-06 | 整合式对话系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1719438A true CN1719438A (zh) | 2006-01-11 |
Family
ID=35931273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004100623579A Pending CN1719438A (zh) | 2004-07-06 | 2004-07-06 | 整合式对话系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1719438A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105788593A (zh) * | 2016-02-29 | 2016-07-20 | 中国科学院声学研究所 | 生成对话策略的方法及系统 |
CN106057203A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 一种精准语音控制方法及装置 |
US11308965B2 (en) | 2017-10-09 | 2022-04-19 | Huawei Technologies Co., Ltd. | Voice information processing method and apparatus, and terminal |
-
2004
- 2004-07-06 CN CNA2004100623579A patent/CN1719438A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105788593A (zh) * | 2016-02-29 | 2016-07-20 | 中国科学院声学研究所 | 生成对话策略的方法及系统 |
CN105788593B (zh) * | 2016-02-29 | 2019-12-10 | 中国科学院声学研究所 | 生成对话策略的方法及系统 |
CN106057203A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 一种精准语音控制方法及装置 |
US11308965B2 (en) | 2017-10-09 | 2022-04-19 | Huawei Technologies Co., Ltd. | Voice information processing method and apparatus, and terminal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100337235C (zh) | 访问数据库的方法及装置 | |
CN104867492B (zh) | 智能交互系统及方法 | |
CN1188834C (zh) | 在输出声频信号呈现期间处理输入语音信号的方法和设备 | |
CN1711586A (zh) | 声音识别用辞典编制装置和声音识别装置 | |
CN101030994A (zh) | 语音识别方法、系统、语音识别服务器 | |
CN1356688A (zh) | 语音识别系统、语音识别服务器、语音识别客户机及其控制方法 | |
WO2006005789A3 (en) | Elevator arrangement | |
CN1819576A (zh) | 在客户机和服务器之间分配应用任务的方法以及应用服务系统 | |
CN1121217A (zh) | 信息服务提供系统 | |
CN1790483A (zh) | 嵌入式语音识别的多语言姓名标签的管理 | |
CN102202082A (zh) | 车载通信系统及方法 | |
CN1909705A (zh) | 一种基于移动终端平台的通用开发平台 | |
CN1787000A (zh) | 批量作业集中管理和调度的系统及方法 | |
CN101068404A (zh) | 一种双模移动终端中从模块的控制系统及方法 | |
CN101039518A (zh) | 一种呼叫处理系统及其方法 | |
CN1719438A (zh) | 整合式对话系统及其方法 | |
CN1889143A (zh) | 车辆调度方法及系统 | |
CN1238834C (zh) | 一种口语识别理解的识别分析方法 | |
EP1569110A3 (en) | A method for managing execution of a process based on available services | |
CN1949732A (zh) | 网络社区与搜索的结合的方法以及系统 | |
CN1427394A (zh) | 语音浏览网关 | |
CN1588373A (zh) | 一种自动搜索公共交通路径的通用方法及其程序 | |
CN1588411A (zh) | 一种流程定制管理平台 | |
CN1798210A (zh) | 用于选择语音或dtmf接口或二者的混合的方法和系统 | |
CN202584695U (zh) | 映射显示系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060111 |