CN117171323A - 真实多人应答情境下的生成式聊天机器人的系统及其方法 - Google Patents
真实多人应答情境下的生成式聊天机器人的系统及其方法 Download PDFInfo
- Publication number
- CN117171323A CN117171323A CN202311196405.2A CN202311196405A CN117171323A CN 117171323 A CN117171323 A CN 117171323A CN 202311196405 A CN202311196405 A CN 202311196405A CN 117171323 A CN117171323 A CN 117171323A
- Authority
- CN
- China
- Prior art keywords
- information
- portable device
- time sequence
- response
- server host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000013473 artificial intelligence Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 230000006399 behavior Effects 0.000 claims description 7
- 230000008921 facial expression Effects 0.000 claims description 5
- 230000035790 physiological processes and functions Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 208000021663 Female sexual arousal disease Diseases 0.000 description 4
- 208000006262 Psychological Sexual Dysfunctions Diseases 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 244000303258 Annona diversifolia Species 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 244000082204 Phyllostachys viridis Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
一种真实多人应答情境下的生成式聊天机器人的系统及其方法,通过侦测多个语音信号以转换为相应的特征向量及文字信息,并且在文字信息中嵌入时序标记及分类标记以存储为上下文信息,以便服务端主机判断多人对话的时序逻辑,再将上下文信息及时序逻辑传送至人工智慧装置以助其确定当前对话阶段、主题演变及预测对话发展,进而主动生成应答信息并存储至服务端主机,以及由服务端主机筛选出合适的应答信息以传送至可携式装置输出,借以达到提高聊天主动性及应答效率的技术效果。
Description
技术领域
本发明涉及一种聊天机器人的系统及其方法,特别是真实多人应答情境下的生成式聊天机器人的系统及其方法。
背景技术
近年来,随着人工智慧的普及与蓬勃发展,各种人工智慧的应用便如雨后春笋般地涌现。其中,又以聊天机器人最受瞩目。
一般而言,传统的聊天机器人通常是与使用者进行一对一的对话,也就是说,当使用者传送问题时,聊天机器人才根据问题进行回应。然而,目前尚未有聊天机器人能够在真实的多人应答情境下,主动给予合适的应答建议或提示,举例来说,在多人对话的环境中,传统的聊天机器人无法主动且快速地给予使用者合适的对话建议。因此,具有聊天主动性及应答效率不佳的问题。
综上所述,可知相关技术在长期以来一直存在聊天主动性及应答效率不佳的问题,因此实有必要提出改进的技术手段,来解决此问题。
发明内容
本发明公开一种真实多人应答情境下的生成式聊天机器人的系统及其方法。
首先,本发明公开一种真实多人应答情境下的生成式聊天机器人的系统,此系统包含:人工智慧装置、可携式装置及服务端主机。其中,人工智慧装置用以通过应用程序接口(Application Programming Interface,API)接收上下文信息及其相应的时序逻辑,并且一并输入至大型语言模型(Large Language Model,LLM)以产生应答信息,再通过此应用程序接口传送所述应答信息。所述可携式装置包含:感测器、扬声器、存储装置及语音处理器。其中,感测器用以持续感测多个语音信号;扬声器用以输出反馈语音;存储装置用以存储与语音信号相应的多个特征向量及其相应的多个文字信息,每一文字信息包含时序标记及分类标记;以及语音处理器电性连接感测器、扬声器及存储装置,所述语音处理器被配置为:通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)将感测到的所述语音信号转换为相应的所述特征向量,用以对语音信号进行分类;执行语音转文字(Speech-to-Text)处理,将所述语音信号分别转换为相应的文字信息;基于时序关系及分类结果,在对应语音信号的文字信息中嵌入时序标记及分类标记且存储至存储装置作为所述上下文信息;以及当接收到随选对话信息时,执行文字转语音(Text-to-Speech)处理,将此随选对话信息转换为反馈语音以通过扬声器输出。接着,所述服务端主机连接人工智慧装置及可携式装置,此服务端主机包含:非暂态计算机可读存储介质及硬件处理器。其中,所述非暂态计算机可读存储介质用以存储多个计算机可读指令;以及所述硬件处理器电性连接非暂态计算机可读存储介质,用以执行多个计算机可读指令,使服务端主机执行:持续自可携式装置的存储装置载入上下文信息,并且根据文字信息中嵌入的时序标记及分类标记判断多人对话的时序逻辑,此时序逻辑包含对话的人数、时序及主题;将上下文信息及时序逻辑传送至人工智慧装置,并且自人工智慧装置接收相应的应答信息以存储至应答清单;以及自动从应答清单中,选择所述应答信息至少其中之一以作为随选对话信息,并且将此随选对话信息传送至可携式装置。
另外,本发明还公开一种真实多人应答情境下的生成式聊天机器人的方法,其步骤包括:将服务端主机分别与人工智慧装置及可携式装置相互连接,其中,人工智慧装置通过应用程序接口接收上下文信息及其相应的时序逻辑,以及传送应答信息;可携式装置通过感测器持续感测多个语音信号,并且通过梅尔频率倒谱系数将感测到的语音信号转换为相应的特征向量,用以对所述语音信号进行分类;可携式装置执行语音转文字处理,将语音信号分别转换为相应的文字信息;可携式装置基于时序关系及分类结果,在对应语音信号的文字信息中嵌入时序标记及分类标记且存储至可携式装置的存储装置作为上下文信息;服务端主机持续自可携式装置的存储装置载入上下文信息,并且根据其中嵌入的时序标记及分类标记判断多人对话的时序逻辑,所述时序逻辑包含对话的人数、时序及主题;服务端主机将上下文信息及时序逻辑传送至人工智慧装置,用以输入至人工智慧装置的大型语言模型以产生相应的应答信息,再通过应用程序接口将产生的应答信息传送至服务端主机;服务端主机将应答信息存储至应答清单,并且自动从应答清单中,选择所述应答信息至少其中之一以作为随选对话信息,再将此随选对话信息传送至可携式装置;以及可携式装置接收到随选对话信息时,执行文字转语音处理,将随选对话信息转换为反馈语音以通过扬声器输出。
本发明所公开的系统与方法如上,与相关技术的差异在于本发明是通过侦测多个语音信号以转换为相应的特征向量及文字信息,并且在文字信息中嵌入时序标记及分类标记以存储为上下文信息,以便服务端主机判断多人对话的时序逻辑,再将上下文信息及时序逻辑传送至人工智慧装置以助其确定当前对话阶段、主题演变及预测对话发展,进而主动生成应答信息并存储至服务端主机,以及由服务端主机筛选出合适的应答信息以传送至可携式装置输出。
通过上述的技术手段,本发明可以达成提高聊天主动性及应答效率的技术效果。
附图说明
图1为本发明真实多人应答情境下的生成式聊天机器人的系统的系统方块图。
图2A及图2B为本发明真实多人应答情境下的生成式聊天机器人的方法的方法流程图。
图3为应用本发明的可携式装置的示意图。
图4为本发明的上下文信息及时序逻辑的示意图。
图5为应用本发明在应答清单中主动筛选出应答信息的示意图。
符号说明:
110:人工智慧装置
120:可携式装置
121:感测器
122:扬声器
123:存储装置
124:语音处理器
130:服务端主机
131:非暂态计算机可读存储介质
132:硬件处理器
300:智慧型手机
301:显示元件
310:麦克风
320:蓝牙耳机
410:上下文信息
420:时序逻辑
430:上下文信息暨时序逻辑
500:应答清单
步骤210:将一服务端主机分别与一人工智慧装置及一可携式装置相互连接,其中,该人工智慧装置通过一应用程序接口(Application Programming Interface,API)接收一上下文信息及其相应的一时序逻辑,以及传送至少一个应答信息
步骤220:该可携式装置通过至少一个感测器持续感测多个语音信号,并且通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)将感测到的所述语音信号转换为相应的所述特征向量,用以对所述语音信号进行分类
步骤230:该可携式装置执行语音转文字(Speech-to-Text)处理,将所述语音信号分别转换为相应的一文字信息
步骤240:该可携式装置基于时序关系及分类结果,在对应所述语音信号的所述文字信息中嵌入所述时序标记及所述分类标记且存储至该可携式装置的一存储装置作为所述上下文信息
步骤250:该服务端主机持续自该可携式装置的该存储装置载入所述上下文信息,并且根据其中嵌入的所述时序标记及所述分类标记判断多人对话的一时序逻辑,该时序逻辑包含对话的人数、时序及主题
步骤260:该服务端主机将所述上下文信息及该时序逻辑传送至该人工智慧装置,用以输入至该人工智慧装置的大型语言模型(Large Language Model,LLM)以产生相应的所述应答信息,再通过该应用程序接口将产生的所述应答信息传送至该服务端主机
步骤270:该服务端主机将所述应答信息存储至一应答清单,并且自动从该应答清单中,选择所述应答信息至少其中之一以作为一随选对话信息,再将该随选对话信息传送至该可携式装置
步骤280:该可携式装置接收到该随选对话信息时,执行文字转语音(Text-to-Speech)处理,将该随选对话信息转换为一反馈语音以通过该扬声器输出
具体实施方式
以下将配合图示及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题并达成技术效果的实现过程能充分理解并据以实施。
首先,请先参阅“图1”,“图1”为本发明真实多人应答情境下的生成式聊天机器人的系统的系统方块图,此系统包含:人工智慧装置110、可携式装置120及服务端主机130。其中,人工智慧装置110用以通过应用程序接口接收上下文信息及其相应的时序逻辑,并且一并输入至大型语言模型以产生应答信息,再通过应用程序接口传送应答信息。在实际实施上,所述人工智慧装置110是使用大型语言模型的聊天机器人,所述大型语言模型如:生成型预训练变换模型(Generative Pre-trained Transformer,GPT)、PaLM、Galactica、LLaMA、LaMDA或其相似物,并且能够根据上下文信息及其相应的时序逻辑,确定当前对话阶段、主题演变及预测对话的发展,进而将预测对话作为应答信息。
在可携式装置120的部分,其包含:感测器121、扬声器122、存储装置123及语音处理器124。其中,感测器121用以持续感测多个语音信号。在实际实施上,感测器121还可感测用户的生理状态、脸部表情及肢体动作至少其中之一以生成用户行为信息,并且将此用户行为信息传送至服务端主机130,由服务端主机130判断用户的个性以设定个性参数。举例来说,可以感测血压、心跳、脉搏、血糖等生理特征来判断生理状态,如:高兴、兴奋、沮丧等等;或是通过感测人脸、虹膜等等来判断脸部表情及心情等等,以便通过生理状态、脸部表情及心情来判断用户的个性,如:外向、内向、热情、冷淡等等。
扬声器122用以输出反馈语音。在实际实施上,扬声器可包含耳机、喇叭或其相似物。除此之外,可携式装置120还可包含显示元件,用以在扬声器122输出反馈语音时,同步在显示元件显示随选对话信息。在实际实施上,显示元件可包含:显示器、点矩阵发光二极管或其相似物。
存储装置123用以存储与语音信号相应的多个特征向量及其相应的多个文字信息,每一文字信息皆包含时序标记及分类标记。在实际实施上,所述存储装置123可包含硬盘、光盘、快闪存储器或其相似物。除此之外,存储装置123还会将所有嵌入时序标记及分类标记的文字信息一并作为上下文信息。
语音处理器124电性连接感测器121、扬声器122及存储装置123,此语音处理器124被配置为:通过梅尔频率倒谱系数将感测到的语音信号转换为相应的特征向量,用以对语音信号进行分类;执行语音转文字处理,将语音信号转换为相应的文字信息;基于时序关系及分类结果,在对应语音信号的文字信息中嵌入时序标记及分类标记且存储至存储装置123;以及当接收到随选对话信息时,执行文字转语音处理,将随选对话信息转换为反馈语音以通过扬声器输出,例如:通过有线或无线(蓝牙)的耳机、喇叭或其相似物输出所述反馈语音。在实际实施上,语音处理器124可以使用专用于处理语音信号的处理器,如:数字信号处理器(Digital Signal Processing,DSP)来实现。除此之外,可携式装置120还包含将用户的语音信号,通过梅尔频率倒谱系数转换为特征向量以传送至服务端主机130,由服务端主机130与预设的多个个性特征向量进行比对以判断出用户的个性,并且根据判断结果设定个性参数。
接着,在服务端主机130的部分,其连接人工智慧装置110及可携式装置120,所述服务端主机130包含:非暂态计算机可读存储介质131及硬件处理器132。其中,非暂态计算机可读存储介质用以存储多个计算机可读指令。在实际实施上,所述计算机可读指令是由服务端主机130执行,而执行本发明操作的计算机可读指令可以是组合语言指令、指令集架构指令、机器指令、机器相关指令、微指令、固件指令、或者以一种或多种程序语言的任意组合编写的原始码或目的码(Object Code),所述程序语言包括物件导向的程序语言,如:Common Lisp、Python、C++、Objective-C、Smalltalk、Delphi、Java、Swift、C#、Perl、Ruby与PHP等,以及常规的程序式(Procedural)程序语言,如:C语言或类似的程序语言。
硬件处理器133电性连接非暂态计算机可读存储介质131,用以执行所述多个计算机可读指令,使服务端主机130执行:持续自可携式装置120的存储装置123载入上下文信息,并且根据其中嵌入的时序标记及分类标记判断多人对话的时序逻辑,此时序逻辑包含对话的人数、时序及主题;将上下文信息及时序逻辑传送至人工智慧装置110,并且自人工智慧装置110接收相应的应答信息以存储至应答清单;以及自动从应答清单中,选择所述应答信息至少其中之一以作为随选对话信息,并且将此随选对话信息传送至可携式装置120。在实际实施上,硬件处理器133可以是中央处理器、微处理器或其相似物。另外,以多人对话的时序逻辑为例,可以从分类标记的分类数量判断人数,从时序标记判断对话的先后顺序,从上下文信息的内容判断主题,如搭配时间及关键字,举例来说,假设时间为中午,关键字为”吃什么”,可以将主题判断为”午餐讨论”。另外,所述随选对话信息可从应答清单中随机筛选出符合个性参数的应答信息以作为随选对话信息,所述个性参数允许由可携式装置120连线至服务端主机130进行设定。
特别要说明的是,在实际实施上,本发明可部分地或完全地基于硬件来实现,例如,系统中的一个或多个元件可以通过集成电路芯片、系统单芯片(System on Chip,SoC)、复杂可编程逻辑装置(Complex Programmable Logic Device,CPLD)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)等硬件处理器(Hardware Processor)来实现。本发明所述的非暂态计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读指令(或称为计算机程序指令),非暂态计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。非暂态计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:硬盘、随机存取存储器、只读存储器、快闪存储器、光盘、软盘以及上述的任意合适的组合。此处所使用的非暂态计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光信号)、或者通过电线传输的电信号。另外,此处所描述的计算机可读指令可以从非暂态计算机可读存储介质下载到各个计算/处理设备,或者通过网络,例如:因特网、局域网络、广域网络及/或无线网络下载到外部计算机设备或外部存储设备。所述网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换器、集线器及/或闸道器。每一个计算/处理设备中的网络卡或者网络接口从网络接收计算机可读指令,并转发此计算机可读指令,以供存储在各个计算/处理设备中的非暂态计算机可读存储介质中。
请参阅“图2A”及“图2B”,“图2A”及“图2B”为本发明真实多人应答情境下的生成式聊天机器人的方法的方法流程图,其步骤包括:将服务端主机130分别与人工智慧装置110及可携式装置120相互连接,其中,人工智慧装置110通过应用程序接口接收上下文信息及其相应的时序逻辑,以及传送应答信息(步骤210);可携式装置120通过感测器持续感测多个语音信号,并且通过梅尔频率倒谱系数将感测到的语音信号转换为相应的特征向量,用以对所述语音信号进行分类(步骤220);可携式装置120执行语音转文字处理,将语音信号分别转换为相应的文字信息(步骤230);可携式装置120基于时序关系及分类结果,在对应语音信号的文字信息中嵌入时序标记及分类标记且存储至可携式装置120的存储装置123作为上下文信息(步骤240);服务端主机130持续自可携式装置120的存储装置123载入上下文信息,并且根据其中嵌入的时序标记及分类标记判断多人对话的时序逻辑,所述时序逻辑包含对话的人数、时序及主题(步骤250);服务端主机130将上下文信息及时序逻辑传送至人工智慧装置110,用以输入至人工智慧装置110的大型语言模型以产生相应的应答信息,再通过应用程序接口将产生的应答信息传送至服务端主机130(步骤260);服务端主机130将应答信息存储至应答清单,并且自动从应答清单中,选择所述应答信息至少其中之一以作为随选对话信息,再将此随选对话信息传送至可携式装置120(步骤270);以及可携式装置120接收到随选对话信息时,执行文字转语音处理,将随选对话信息转换为反馈语音以通过扬声器122输出(步骤280)。通过上述步骤,即可通过侦测多个语音信号以转换为相应的特征向量及文字信息,并且在文字信息中嵌入时序标记及分类标记以存储为上下文信息,以便服务端主机130判断多人对话的时序逻辑,再将上下文信息及时序逻辑传送至人工智慧装置110以助其确定当前对话阶段、主题演变及预测对话发展,进而主动生成应答信息并存储至服务端主机130,以及由服务端主机130筛选出合适的应答信息以传送至可携式装置120输出。
以下配合“图3”至“图5”以实施例的方式进行如下说明,如“图3”所示意,“图3”为应用本发明的可携式装置的示意图。在实际实施上,可携式装置120可以是智慧型手机300、录音笔、个人数字助理(Personal Digital Assistant,PDA)等具有收音功能的可携式装置,其通过能够收音的感测器,如:麦克风,持续感测人声的语音信号,并且通过MFCC的技术将感测到的语音信号转换为相应的特征向量,用以对语音信号进行分类。以智慧型手机300为例,假设通过麦克风310收音获得多个语音信号,并且转换后共有三种特征向量,那么,代表有三个人可能在对话。接着,智慧型手机300会执行STT处理,将每一个语音信号转换为相应的文字信息,并且基于时序及分类嵌入相应的时序标记与分类标记,其中,时序标记可包含时间、日期等等;分类标记可包含文字、数字、符号至少其中之一,用以指明不同的人员,例如:以“A”代表第一个人、以“B”代表第二个人,并以此类推,或者以“U01”代表第一个人、以“U02”代表第二个人,并以此类推。特别要说明的是,倘若麦克风310持续进行收音,则智慧型手机300会持续将其转换为相应的特征向量及文字信息,以及为每一个文字信息嵌入时序标记及分类标记,并且将存储在存储装置123中的所有或指定时段(如:30分钟内)的文字信息一并视为上下文信息。如此一来,服务端主机130可以持续从存储装置123载入上下文信息,并且据以判断多人对话的时序逻辑,其包含对话的人数、时序及主题。其中,判断人数的方式可根据分类标记的种类数量来判断,假设有三种分类标记代表有三个人;判断时序可根据时序标记来判断对话先后顺序;判断主题可根据上下文信息的内容,针对关键字或字词出现的频率或时间点进行判断,例如,在中午提及多种食物或餐饮字词,则可判断主题为讨论午餐。在实际实施上,上下文信息可如“图3”所示意依时序显示在智慧型手机300的显示元件301。另外,智慧型手机300可通过蓝牙耳机320输出反馈语音。
如“图4”所示意,“图4”为本发明的上下文信息及时序逻辑的示意图。在实际实施上,上下文信息410可包含时序标记、分类标记及文字信息。在此上下文信息410的基础上,服务端主机130可以根据时序标记判断对话的先后顺序(即:对话时序),并且可赋予具有唯一性的序号作为区隔,例如可记录为“01->02->03”代表各文字信息的先后顺序;根据分类标记判断对话人数,例如:有“A”、“B”及“C”三种分类,故可判断对话人数为三人;根据关键字“午餐”及时间点(如:中午时段)判断对话主题为“讨论午餐”。此时,服务端主机130可根据上述判断结果产生相应的时序逻辑420。特别要说明的是,在实际实施上,除了以上述举例呈现上下文信息410及时序逻辑420之外,两者亦可整合在一起,如“图4”所示意的上下文信息暨时序逻辑430。另外,在传送至人工智慧装置110以获得相应的应答信息时,可以通过分类标记的分类指定产生适用于此分类的人员的应答信息。举例来说,假设要获得适用于“A”的应答信息,可以在传送上下文信息及时序逻辑时,加入“请产生信息供A应答”的要求。如此一来,人工智慧装置110即可根据上下文信息及时序逻辑,回传相应的至少一个应答信息至服务端主机130以存储至应答清单,甚至在具有上述要求的情况下,还可以只回传满足上述要求的应答信息,甚至是在对话主题改变时,借由指令来要求指定的对话主题,进而达成跨主题应答,举例来说,在传送上下文信息及时序逻辑时,同时加入“在对话主题为M的前提下产生信息供A应答”的要求,其中,M代表不同的对话主题,如:讨论午餐、讨论饮料等等,以便允许由使用者指定某一对话主题进行提示与回应。在实际实施上,上述要求可通过可携式装置120进行输入或设定,如:通过语音输入或键入文字、数字、符号等等的方式进行设定。
如“图5”所示意,“图5”为应用本发明在应答清单中主动筛选出应答信息的示意图。假设应答清单500中已存在多笔应答信息,服务端主机130可以从中筛选出符合个性参数的应答信息以作为随选对话信息,举例来说,假设个性参数设定为“冷淡”,那么服务端主机130在选择应答信息时,将排除存在具有延伸对话或引导对话(如:含有问号)的应答信息,以此例而言,将选择“我想吃鸡排饭”作为随选对话信息,并且将其传送至可携式装置120以转换为反馈语音,进而通过可携式装置120的扬声器122输出,如“图3”所示意,通过与智慧型手机300连接的蓝牙耳机320输出。在实际实施上,所述个性参数可通过使用者自行设定、由服务端主机130根据可携式装置120感测到的用户行为信息判断用户的个性并加以设定、由服务端主机130根据预设的多个个性特征向量与用户的特征向量进行比对后,判断出用户的个性并据以设定。举例来说,可将低沉声音的特征向量视为代表“冷淡”的个性特征向量、将高昂声音的特征向量视为代表“热情”的个性特征向量,当可携式装置120的使用者,其语音的特征向量与代表“冷淡”的个性特征向量相符时,服务端主机130可将其个性参数设定为“冷淡”。
综上所述,可知本发明与相关技术之间的差异在于通过侦测多个语音信号以转换为相应的特征向量及文字信息,并且在文字信息中嵌入时序标记及分类标记以存储为上下文信息,以便服务端主机判断多人对话的时序逻辑,再将上下文信息及时序逻辑传送至人工智慧装置以助其确定当前对话阶段、主题演变及预测对话发展,进而主动生成应答信息并存储至服务端主机,以及由服务端主机筛选出合适的应答信息以传送至可携式装置输出,借由此技术手段可以解决相关技术所存在的问题,进而达成提高聊天主动性及应答效率的技术效果。
虽然本发明以前述的实施例公开如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,因此本发明的专利保护范围须视本说明书所附的权利要求书所界定者为准。
Claims (10)
1.一种真实多人应答情境下的生成式聊天机器人的系统,所述系统包括:
人工智慧装置,用以通过应用程序接口(Application Programming Interface,API)接收上下文信息及其相应的时序逻辑,并且一并输入至大型语言模型(Large LanguageModel,LLM)以产生至少一个应答信息,再通过所述应用程序接口传送所述应答信息;
可携式装置,所述可携式装置包括:
至少一个感测器,用以持续感测多个语音信号;
扬声器,用以输出反馈语音;
存储装置,用以存储与所述语音信号相应的多个特征向量及其相应的多个文字信息,每一所述文字信息包括时序标记及分类标记;以及
语音处理器,电性连接所述感测器、所述扬声器及所述存储装置,所述语音处理器被配置为:
通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)将感测到的所述语音信号转换为相应的所述特征向量,用以对所述语音信号进行分类;
执行语音转文字(Speech-to-Text)处理,将所述语音信号分别转换为相应的所述文字信息;
基于时序关系及分类结果,在对应所述语音信号的所述文字信息中嵌入所述时序标记及所述分类标记且存储至该存储装置作为所述上下文信息;以及
当接收到随选对话信息时,执行文字转语音(Text-to-Speech)处理,将所述随选对话信息转换为所述反馈语音以通过所述扬声器输出;以及
服务端主机,连接所述人工智慧装置及所述可携式装置,所述服务端主机包括:
非暂态计算机可读存储介质,用以存储多个计算机可读指令;以及
硬件处理器,电性连接所述非暂态计算机可读存储介质,用以执行所述多个计算机可读指令,使所述服务端主机执行:
持续自所述可携式装置的所述存储装置载入所述上下文信息,并且根据其中嵌入的所述时序标记及所述分类标记判断多人对话的时序逻辑,所述时序逻辑包括对话的人数、时序及主题;
将所述上下文信息及所述时序逻辑传送至所述人工智慧装置,并且自所述人工智慧装置接收相应的所述应答信息以存储至应答清单;以及
自动从所述应答清单中,选择所述应答信息至少其中之一以作为所述随选对话信息,并且将所述随选对话信息传送至所述可携式装置。
2.如权利要求1的真实多人应答情境下的生成式聊天机器人的系统,其中所述随选对话信息是自所述应答清单中随机筛选出符合个性参数的所述应答信息以作为所述随选对话信息,所述个性参数允许由所述可携式装置连线至所述服务端主机进行设定。
3.如权利要求1的真实多人应答情境下的生成式聊天机器人的系统,其中所述可携式装置还包括显示元件,用以在所述扬声器输出所述反馈语音时,同步在所述显示元件显示所述随选对话信息。
4.如权利要求2的真实多人应答情境下的生成式聊天机器人的系统,其中所述感测器还包括感测用户的生理状态、脸部表情及肢体动作至少其中之一以生成用户行为信息,并且所述可携式装置将所述用户行为信息传送至所述服务端主机,由所述服务端主机判断用户的个性以设定所述个性参数。
5.如权利要求2的真实多人应答情境下的生成式聊天机器人的系统,其中所述可携式装置还包括将用户的所述语音信号,通过梅尔频率倒谱系数转换为所述特征向量以传送至所述服务端主机,由所述服务端主机与预设的多个个性特征向量进行比对以判断出用户的个性,并且根据判断结果设定所述个性参数。
6.一种真实多人应答情境下的生成式聊天机器人的方法,其步骤包括:
将服务端主机分别与人工智慧装置及可携式装置相互连接,其中,所述人工智慧装置通过应用程序接口(Application Programming Interface,API)接收上下文信息及其相应的时序逻辑,以及传送至少一个应答信息;
所述可携式装置通过至少一个感测器持续感测多个语音信号,并且通过梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)将感测到的所述语音信号转换为相应的特征向量,用以对所述语音信号进行分类;
所述可携式装置执行语音转文字(Speech-to-Text)处理,将所述语音信号分别转换为相应的文字信息;
所述可携式装置基于时序关系及分类结果,在对应所述语音信号的所述文字信息中嵌入所述时序标记及所述分类标记且存储至所述可携式装置的存储装置作为所述上下文信息;
所述服务端主机持续自所述可携式装置的所述存储装置载入所述上下文信息,并且根据其中嵌入的所述时序标记及所述分类标记判断多人对话的时序逻辑,所述时序逻辑包括对话的人数、时序及主题;
所述服务端主机将所述上下文信息及所述时序逻辑传送至所述人工智慧装置,用以输入至所述人工智慧装置的大型语言模型(Large Language Model,LLM)以产生相应的所述应答信息,再通过所述应用程序接口将产生的所述应答信息传送至所述服务端主机;
所述服务端主机将所述应答信息存储至应答清单,并且自动从所述应答清单中,选择所述应答信息至少其中之一以作为随选对话信息,再将所述随选对话信息传送至所述可携式装置;以及
所述可携式装置接收到所述随选对话信息时,执行文字转语音(Text-to-Speech)处理,将所述随选对话信息转换为反馈语音以通过扬声器输出。
7.如权利要求6的真实多人应答情境下的生成式聊天机器人的方法,其中所述随选对话信息是自所述应答清单中随机筛选出符合个性参数的所述应答信息以作为所述随选对话信息,所述个性参数允许由所述可携式装置连线至所述服务端主机进行设定。
8.如权利要求6的真实多人应答情境下的生成式聊天机器人的方法,其中所述可携式装置还包括显示元件,用以在所述扬声器输出所述反馈语音时,同步在所述显示元件显示所述随选对话信息。
9.如权利要求7的真实多人应答情境下的生成式聊天机器人的方法,其中所述感测器还包括感测用户的生理状态、脸部表情及肢体动作至少其中之一以生成用户行为信息,并且所述可携式装置将所述用户行为信息传送至所述服务端主机,由所述服务端主机判断用户的个性以设定所述个性参数。
10.如权利要求7的真实多人应答情境下的生成式聊天机器人的方法,其中所述可携式装置还包括将用户的所述语音信号,通过梅尔频率倒谱系数转换为所述特征向量以传送至所述服务端主机,由所述服务端主机与预设的多个个性特征向量进行比对以判断出用户的个性,并且根据判断结果设定所述个性参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311196405.2A CN117171323A (zh) | 2023-09-15 | 2023-09-15 | 真实多人应答情境下的生成式聊天机器人的系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311196405.2A CN117171323A (zh) | 2023-09-15 | 2023-09-15 | 真实多人应答情境下的生成式聊天机器人的系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171323A true CN117171323A (zh) | 2023-12-05 |
Family
ID=88935284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311196405.2A Pending CN117171323A (zh) | 2023-09-15 | 2023-09-15 | 真实多人应答情境下的生成式聊天机器人的系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171323A (zh) |
-
2023
- 2023-09-15 CN CN202311196405.2A patent/CN117171323A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922925B1 (en) | Managing dialogs on a speech recognition platform | |
CN106874265B (zh) | 一种与用户情绪匹配的内容输出方法、电子设备及服务器 | |
CN111930940B (zh) | 一种文本情感分类方法、装置、电子设备及存储介质 | |
US10970492B2 (en) | IoT-based call assistant device | |
US20190206401A1 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
TWI379205B (en) | Instant communication interacting system and method thereof | |
US11430438B2 (en) | Electronic device providing response corresponding to user conversation style and emotion and method of operating same | |
JP2015156229A (ja) | 音声−テキスト変換の触覚増強のためのシステム及び方法 | |
WO2017200072A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2019242414A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JPWO2017200076A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2021086528A1 (en) | Ai-driven personal assistant with adaptive response generation | |
CN111556999B (zh) | 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
CN112910761B (zh) | 即时通讯方法、装置、设备、存储介质以及程序产品 | |
CN111192577A (zh) | 交流装置及交流装置的控制程序 | |
CN111557001A (zh) | 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
WO2019242415A1 (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN117171323A (zh) | 真实多人应答情境下的生成式聊天机器人的系统及其方法 | |
TWI833678B (zh) | 真實多人應答情境下的生成式聊天機器人之系統及其方法 | |
US20220020368A1 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP2021113835A (ja) | 音声処理装置および音声処理方法 | |
KR102193656B1 (ko) | 상담 내용 분석을 지원하는 녹취 서비스 제공 시스템 및 방법 | |
KR20190115517A (ko) | 인공지능 기반의 캐릭터 표시 장치 및 그 표시 방법 | |
Fujii et al. | Open source system integration towards natural interaction with robots | |
CN117240731A (zh) | 虚拟社群应答情境下的生成式聊天机器人的系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |