CN116895275A - 对话系统及其控制方法 - Google Patents
对话系统及其控制方法 Download PDFInfo
- Publication number
- CN116895275A CN116895275A CN202211595462.3A CN202211595462A CN116895275A CN 116895275 A CN116895275 A CN 116895275A CN 202211595462 A CN202211595462 A CN 202211595462A CN 116895275 A CN116895275 A CN 116895275A
- Authority
- CN
- China
- Prior art keywords
- user
- controller
- utterance
- speech recognition
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 35
- 239000000725 suspension Substances 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012913 prioritisation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种对话系统,其包括语音识别模块,被提供用于执行语音识别;存储设备,其中存储所执行的语音识别的结果;以及控制器,被配置为:当在输入用户的话语的同时发生外部事件时,确定外部事件和语音识别的优先级,以及当控制器断定外部事件的优先级高于语音识别的优先级时,暂停语音识别的执行,并且将在暂停之前输入的用户的话语的语音识别的结果存储在存储设备中。
Description
技术领域
本公开涉及一种能够与用户进行对话的对话系统及其控制方法。
背景技术
对话系统是一种能够识别用户语音以标识用户的意图并提供对应于标识的用户的意图的服务的系统。
对话系统可链接至特定设备,以取决于用户的意图控制特定设备,或者可根据用户的意图提供特定信息。
最近,在车辆中也提供了这类对话系统,使得用户可仅通过发声语音来控制车辆,并且可通过与车辆的对话获得期望的信息,或者可提供期望的服务。
当语音识别开始且用户发声时,发生处理优先级高于语音识别的外部事件(例如,电话呼叫接收、硬键输入、后置摄像头操作等),对话系统中断对应的语音识别场景并以高优先级执行外部事件。
因此,存在的问题是,在外部事件执行完成后,用户必须通过从头重新执行语音识别功能来再次执行期望的场景。
包括在本公开背景中的信息仅用于增强对本公开的一般背景的理解,不得视为承认或以任何形式暗示该信息构成本领域技术人员已知的现有技术。
发明内容
本公开的各个方面旨在提供一种对话系统及其控制方法,该对话系统被配置为在发生外部事件时通过暂停和恢复语音识别来提高语音识别功能的可用性。
本公开的其他方面部分将在以下描述中阐述,并且部分地将从描述中显而易见,或者可通过本公开的实践了解。
根据本公开的一个方面,一种对话系统,包括:语音识别模块,其被提供用于执行语音识别;存储设备,其中存储所执行的语音识别的结果;以及控制器,其被配置为在输入用户的话语的同时发生外部事件时,确定外部事件和语音识别的优先级,以及当控制器断定外部事件的优先级高于语音识别的优先级时,暂停语音识别的执行,并且将在暂停之前输入的用户的话语的语音识别的结果存储在存储设备中。
控制器可被配置为控制语音识别模块,使得当控制器断定外部事件的优先级低于语音识别的优先级时,持续输入用户的话语。
对话系统还可包括NLU模块,其被提供用于对语音识别文本执行自然语言识别,其中当暂停语音识别的执行时,控制器可被配置为控制NLU模块对在暂停之前输入的用户的话语执行自然语言识别,并且将自然语言识别的执行结果存储在存储设备中。
控制器可被配置为通过分析存储在存储设备中的信息来确定在检测期间用户的话语的输入是否由于外部事件而被中断。
当根据所述确定控制器断定用户的话语的输入在检测期间被中断时,控制器可重新分析用户的话语的输入是否被中断且用户的话语确定输入已被中断,并且将重新分析结果存储在存储设备中。
当控制器断定外部事件完成时,控制器可恢复语音识别。
控制器可配置为基于存储在存储设备中的信息而确定是否需要用户的附加话语信息。
对话系统还可包括自然语言生成模块,其被提供用于生成自然语言,其中当控制器断定需要用户的附加话语信息时,控制器可被配置为控制自然语言生成模块生成用于通知是否需要用户的附加话语信息的自然语言。
当控制器断定不需要用户的附加话语信息时,控制器可被配置为控制自然语言生成模块生成用于询问是否继续语音识别的自然语言。
对话系统还可包括文本至语音(TTS)模块,其被提供用于将生成的自然语言转换为语音形式,其中控制器可配置为控制TTS模块以语音形式输出所生成的自然语言。
外部事件可包括电话呼叫发送/接收、后置摄像头显示和硬键输入中的任何一种。
根据本公开的一个方面,一种控制对话系统的方法,包括:执行语音识别,其存储语音识别的结果,当在输入用户的话语的同时发生外部事件时,确定外部事件和语音识别的优先级;以及当控制器断定外部事件的优先级高于语音识别的优先级时,暂停语音识别的执行,并且将暂停前输入的用户的话语的语音识别的结果存储在存储设备中。
控制方法还可包括控制,使得当控制器断定外部事件的优先级低于语音识别的优先级时,持续输入用户的话语。
控制方法还可包括对语音识别的文本执行自然语言识别,其中用户的话语的语音识别的结果的存储可包括当暂停语音识别的执行时,对暂停前输入的用户的话语执行自然语言识别;以及存储自然语言识别的执行结果。
控制方法还可包括通过分析所存储的信息来确定在检测期间用户的话语的输入是否由于外部事件而被中断。
控制方法还可包括,当根据所述确定,控制器断定用户的话语的输入在检测期间被中断时,重新分析用户的话语的输入是否被中断且用户的话语确定输入已被中断,并且将重新分析结果存储在存储设备中。
控制方法还可包括当控制器断定外部事件完成时,恢复语音识别。
控制方法还可包括基于所存储的信息而确定是否需要用户的附加话语信息。
控制方法还可包括生成自然语言,其中自然语言的生成可包括当控制器断定需要用户的附加话语信息时,生成用于通知是否需要用户的附加话语信息的自然语言。
自然语言的生成可包括当控制器断定不需要用户的附加话语信息时,生成用于询问是否继续语音识别的自然语言。
控制方法还可包括将所生成的自然语言转换成语音形式。
外部事件可包括电话呼叫发送/接收、后置摄像头显示和硬键输入中的任何一种。
本公开的方法和装置具有其他特征和优点,这些特征和优点将从并入本文的附图和以下详细描述中显而易见或更详细地阐述,这些附图和详细描述一起用于解释本公开的某些原理。
附图说明
图1为根据本公开的示例性实施例的对话系统的控制框图;
图2为图示根据本公开的示例性实施例在执行语音识别时发生外部事件的示意图;
图3为图示根据本公开的示例性实施例的取决于语音识别功能和外部事件之间的优先级差异的操作的示意图;
图4为根据本公开的示例性实施例的对话系统的控制框图;
图5是图示根据本公开的示例性实施例的控制器被配置为在特定条件下控制用于自然语言识别的NLU模块的示意图;
图6为图示根据本公开的示例性实施例的对话系统的操作的流程图;
图7为图示根据本公开的示例性实施例的外部事件的生成完成的示意图;
图8A和图8B为图示根据本公开的示例性实施例的用户的话语的输入在检测期间被中断的示意图;
图9为图示根据本公开的示例性实施例的对话系统响应用户的话语的示意图;
图10为图示根据本公开的示例性实施例的对话系统响应用户的话语的示意图;
图11为图示根据本公开的示例性实施例的控制对话系统的方法的流程图;
图12为图示根据本公开的示例性实施例的控制对话系统的方法的流程图;以及
图13为图示根据本公开的示例性实施例的控制对话系统的方法的流程图。
可以理解,附图不一定是按比例绘制的,呈现了说明本公开基本原理的各种特征的稍微简化的表示。如本文所包括的本公开的预定设计特征,包括例如特定尺寸、取向、位置和形状,将部分地由特别预期的应用和使用环境来确定。在附图中,附图标记在附图的几个附图中指代本公开的相同或等同部分。
具体实施方式
现在将详细参考本公开(一个或多个)的各种实施例,其示例在附图中示出并在下文中描述。尽管将结合本公开(一个或多个)的示例性实施例来描述本公开,但是应理解,本说明书并不旨在将本公开限制于本公开(一个或多个)的那些示例性实施例。另一方面,本公开(一个或多个)旨在不仅涵盖本公开的示例性实施例,而且还涵盖可包括在由所附权利要求所定义的本公开的精神和范围内的各种替代、修改、等效物和其他实施例。
在整个说明书中,相同的附图标记是指相同的元件。本说明书没有描述实施例的所有因素,并且将省略本公开的领域中的一般内容或实施例之间的重复内容。本说明书中使用的术语“构件”、“模块”和“设备”可体现为软件或硬件,并且多个“构件”、“模块”和“设备”也可体现为一个组件,或者一个“构件”、“模块”和“设备”包括根据实施例的多个组件。
在整个说明书中,当一个部件被称为“连接”到另一个部件时,其不仅包括直接连接,还包括间接连接,并且间接连接包括通过无线网络的连接。
此外,当描述一个部件“包括”一个元件时,意指该元件还可包括其他元件,除非另有特别说明,否则不排除其他元件。
在整个说明书中,还应理解,当一个元件被称为在另一个元件“上”或“上方”时,其可直接在另一个元件上,或也可存在中间元件。
术语“第一”、“第二”等用于将一个元件与另一个元件进行区分,并且这些元件不受上述术语的限制。
除非上下文另有明确规定,否则单数形式“一”、“一个”和“该”包括复数指称。
在每个步骤中,为便于解释,使用了标识数字,该标识数字不描述步骤的顺序,并且除非上下文清楚地说明顺序,否则每个步骤可与指定的顺序不同地实行。
下文将参考附图描述本公开的工作原理和实施例。
图1为根据本公开的示例性实施例的对话系统的控制框图。
对话系统100可包括语音识别模块110、控制器130和存储设备120。
语音识别模块110可检测用户的话语,以将话语转换为文本。
存储设备120可存储执行语音识别的结果。例如,可存储通过语音识别转换的文本,或者可存储通过自然语言识别来识别这类文本的结果。
控制器130可包括被提供用于存储控制各种模块的控制程序和控制数据的存储器132,以及被提供用于取决于存储在存储器132中的控制程序和控制数据生成控制信号的处理器131。处理器131和存储器132可整体地或分开地提供。
存储器132可存储用于控制各种模块的程序和数据。
存储器132可包括用于临时存储数据的易失性存储器,诸如静态随机存取存储器(S-RAM)和动态随机存取存储器(DRAM)。此外,存储器132可包括用于长期存储数据的非易失性存储器,诸如只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)。
处理器131可包括各种逻辑电路和运算电路,根据存储器132提供的程序处理数据,并且根据处理结果生成控制信号。
控制器130可确定在接收用户的话语以执行语音识别时是否发生了外部事件。
外部事件可包括电话呼叫发送/接收、后置摄像头显示、硬键操作等。
当输入用户的话语时发生外部事件时,控制器130可确定外部事件和语音识别的优先级。
如上所述的各种操作的优先级可被预先确定并存储在存储器132中。
当确定外部事件的优先级高于语音识别功能的优先级时,控制器130可暂停语音识别的执行,并且将暂停前输入的用户的话语的语音识别的结果存储在存储设备120中。也就是说,当用户发声以进行语音识别的同时发生外部事件,并且当前事件的重要性高于语音识别的重要性时,可暂时中断语音识别,并且可执行外部事件。
在当前情况下,在发生外部事件之前用户输入的话语内容存储在存储设备120中且然后外部事件完成之后,仅可附加执行在先前存储的内容之后由用户发声的内容。
确定外部事件和语音识别的优先级可由单独的优先级确定模块实行。
每个操作可由单独的模块实行,诸如用于分阶段执行语音识别的操作模块以及用于将语音识别结果存储在存储设备120中的存储模块。然而,对话系统100的组件基于它们的操作或功能而被划分,并且其全部或部分可共享存储器132或处理器131。也就是说,语音识别模块110、优先级确定模块、操作模块、存储模块和控制器130不一定指物理上分离的组件。也就是说,组件可为包括在控制器130中的概念。
上述对话系统100可由其中存储有用于执行上述操作的程序的至少一个存储器132和用于实行所存储的程序的至少一个处理器131来实施。
图2为图示根据本公开的示例性实施例在执行语音识别时发生外部事件的示意图。
当执行语音识别时发生外部事件且外部事件的优先级高于语音识别功能的优先级时,可暂停语音识别的执行。这类外部事件的一个示例可为接收电话呼叫。
参考图2,当在用户发声语音识别的同时接收到电话呼叫时,控制器130可确定电话呼叫接收事件的优先级高于语音识别功能的优先级,并且可暂停语音识别的执行。在图2中,随着在用户输入话语“今日天气”的时刻接收到电话呼叫,此后不执行语音识别操作,仅输入“今日天气”。
控制器130可将作为由用户输入的话语的“今日天气”的输入结果存储在存储设备120中。
图3为图示根据本公开的示例性实施例的取决于语音识别功能和外部事件之间的优先级差异的操作的示意图。
如上所述,在发送和接收电话呼叫的情况下,可将其设置为具有比语音识别功能更高的优先级。优先级可被预先确定并存储在存储设备120中。
因此,当接收到电话呼叫时,或者相反地,在执行语音识别的同时发送电话呼叫时,从发送/接收电话呼叫的时间点开始暂停语音识别的执行。
因为存在停车等情况下绝对需要后置摄像头的情况,因此后置摄像头的操作设置为具有比语音识别功能更高的优先级。
因此,当在执行语音识别的同时操作后置摄像头时,从操作后摄像头的时间点开始暂停语音识别的执行。
另一方面,诸如无线电执行功能的具有相对较低重要性的功能可被设置为具有比语音识别功能更低的优先级。
当确定诸如无线电执行的外部事件的优先级低于语音识别的优先级时,控制器130可控制语音识别模块110,以持续输入用户的话语。
也就是说,可通过持续执行语音识别功能而不停顿地输入用户的所有话语。此后,当语音识别的执行完成时,可执行具有低优先级的外部事件,诸如无线电执行。
图4为根据本公开的示例性实施例的对话系统的控制框图。
对话系统100还可包括自然语言理解(NLU)模块140,以基于由语音识别模块110转换的文本实行自然语言识别。
当前语音识别功能可在用户向连接至车辆10中主单元的麦克风210发声指令的同时,将接收到的语音数据传输至车辆10中的嵌入式引擎和服务器引擎。
也就是说,NLU模块140可包括在车辆10中,或者可设置在单独的服务器中。
因此,对于自然语言识别,根据本公开的控制器130还可将文本发送到包括在车辆10中的NLU模块140或设置在单独服务器中的NLU模块140。
当由于外部事件的发生而暂停语音识别的执行时,控制器130可控制NLU模块140对在暂停语音识别的执行之前输入的用户的话语执行自然语言识别。
控制器130还可将由NLU模块140执行的自然语言识别的结果存储在存储设备120中。
图5为图示根据本公开的示例性实施例的控制器被配置为在预定条件下控制用于自然语言识别的NLU模块的示意图。
一般而言,当在语音识别期间在用户的话语中检测到结束点时,确定用户的话语已完成,因此可对此执行自然语言识别。
然而,在本公开中,如稍后将描述的,为了获得用于在用户的话语中途中断之后请求来自用户的附加话语的信息,在即使未检测到结束点、发生外部事件且将暂停语音识别的执行的情况下,可对暂停之前输入的话语执行自然语言识别。
也就是说,在用户的话语中检测到结束点的EPD的情况下,或者在由于发生外部事件且外部事件的优先级高于语音识别的优先级而暂停语音识别的执行的情况下,可控制NLU模块140以用于对直到对应时间点所识别的话语进行自然语言识别。
图6为图示根据本公开的示例性实施例的对话系统的操作的流程图。
如上所述,当发生外部事件时,可确定外部事件的优先级是否高于语音识别的优先级(601)。作为确定的结果,当外部事件的优先级较高时(601中的是),可暂停语音识别的执行(603),并且可对暂停之前输入的用户的话语执行自然语言识别(605)。
当以当前方式执行自然语言识别时,可将执行自然语言识别的结果存储在存储设备120中(607)。
控制器130可基于存储在存储设备120中的信息确定是否需要用户的附加话语信息。也就是说,控制器130可通过分析存储在存储设备120中的语音数据的频域来确定用户的语音数据是否被中途剪切。
通过本确定,如稍后将描述的,可向用户请求附加话语,或者可提供继续请求功能的询问等。
图7为图示根据本公开的示例性实施例的外部事件的生成完成的示意图。
在由于发生优先级高于语音识别的外部事件而被中断语音识别的情况下,当外部事件完成时,可恢复中断的语音识别功能。
尽管图7图示了电话呼叫完成的情况,但当上述其他外部事件,即硬键输入或后置摄像头操作完成时,可基于结束时间点恢复语音识别功能。
当语音识别功能恢复时,通过分析暂停前用户的话语,并且确定用户的话语是完整的还是中途中断的,需要向用户提供适合于每种情况的响应。
图8A和图8B为图示根据本公开的示例性实施例的用户的话语的输入在检测期间被中断的示意图。
如图8A所示,可能存在这样一种情况,即随着在用户发声“打电话给Gil-DongHong”之后发生外部事件,语音识别被中断。
此外,如图8B所示,可能存在这样一种情况,即随着用户仅发声“给Hong Gil-dong……”而句子不完整的同时,但发生外部事件,语音识别被中断。
控制器130可基于存储在存储设备120中的信息来确定用户的话5语的输入在检测期间是否由于外部事件而被中断,即,句子是否不完整且中途被切断。
作为确定的结果,当确定输入在句子不完整的同时在检测期间被中断,由于随后需要用户的附加话语信息,因此有必要向用户提供与
其对应的请求,并且当句子完整时,有必要向用户询问是否执行对应0于用户的话语的功能。
作为确定的结果,当控制器断定用户的话语的输入在检测期间被中断时,控制器130可重新分析用户的话语的输入是否被中断且用户的话语确定输入已被中断,并且将重新分析结果存储在存储设备120中。
5也就是说,控制器130可分析用户的话语被中途剪切的信息和在其被切断之前的话语的内容,然后在此后实行重新分析以请求附加信息。
控制器130可确定这些情况中的每一种,并且控制生成对应于每个情况的响应。
0图9为图示根据本公开的示例性实施例的对话系统响应用户的话语的示意图,并且图10为图示根据本公开的示例性实施例的对话系统响应用户的话语的示意图。
当确定对暂停执行语音识别之前输入的用户的话语执行自然语言识别,并且输入由于识别的结果检测到所有用户的话语而未中途中断5时,控制器130可确定不需要用户的附加话语。
此外,作为识别结果,当确定用户的话语未被全部检测到且输入中途中断时,控制器130可确定需要用户的附加话语。
如图9所示,当输入话语“…给Gil-Dong Hong”且暂停语音识别时,控制器130可确定需要用户的附加话语信息。
也就是说,由于在用户的话语全部输入之前语音识别被中断,因此需要用户的附加话语,控制器130可控制自然语言生成模块生成用于通知是否需要用户的附加话语信息的自然语言。
另一方面,如图10所示,当输入话语“今日天气”且暂停语音识别时,控制器130可确定不需要用户的附加话语信息。
也就是说,由于用户的话语已全部输入且无需附加的话语即可执行对应于用户的话语的功能,因此在这种情况下,控制器130可控制自然语言生成模块生成用于询问是否继续语音识别的自然语言。
在图9的情况下,为了请求用户的附加话语信息,内容“您在使用后置摄像头之前试图打电话给Gil-dong Hong。您想拨打电话吗?”可通过自然语言生成模块生成和输出。
在图10的情况下,为执行对应于用户的话语的功能,可进行是否继续的询问。例如,内容“在与Gil-dong Hong通电话之前,您试图查看今日天气。我能告诉你今日天气吗?”可通过自然语言生成模块生成和输出。
因此,由于即使语音识别因外部事件的发生而中途中断,用户也只需在现有话语信息后发声附加信息,因此可消除外部事件结束之后必须从头开始执行语音识别的不便。
如上所述生成的自然语言可通过将自然语言转换为语音形式的文本至语音(TTS)模块转换为语音形式,并且可以通过诸如扬声器120的输出设备来输出。
图11为图示根据本公开的示例性实施例的控制对话系统的方法的流程图。
语音识别模块110可通过检测用户的话语来执行语音识别(1101)。
当在用户的发声被输入的同时发生外部事件时(1103中的“是”),控制器130可确定外部事件和语音识别的优先级(1105)。
作为确定的结果,当外部事件的优先级高于语音识别的优先级时(1107中的“是”),控制器130可暂停语音识别的执行(1109),并且将与暂停之前检测到的用户的话语相关的信息存储在存储设备120中(1111)。
优先级高于语音识别的外部事件可包括电话呼叫发送/接收、后置摄像头显示、硬键输入等。
该优先级可被预先确定并存储在存储设备120中。
当输入用户的话语时未发生外部事件时(1103中的否),或者当外部事件的优先级不高于语音识别的优先级时(1107中的否),控制器120执行现有语音识别。
图12为图示根据本公开的示例性实施例的控制对话系统的方法的流程图。
当在执行语音识别的同时发生外部事件且外部事件的优先级高于语音识别的优先级时,可暂停语音识别,并且可执行外部事件(1201)。
此后,当外部事件完成时(1203中的是),可再次执行语音识别(1205)。
在当前情况下,控制器130可基于存储在存储设备120中的信息而确定是否需要用户的附加话语信息(1207)。
作为确定的结果,当需要用户的附加话语信息时(1209中的是),可生成用于通知是否需要用户的附加话语信息的自然语言(1211)。
作为确定的结果,当外部事件未完成时(1203中的否),或者当不需要用户的附加话语信息时(1209中的否),可生成用于通知是否继续语音识别的询问的自然语言(1213)。
图13为图示根据本公开的示例性实施例的控制对话系统的方法的流程图。
控制器130可基于存储在存储设备120中的信息而确定是否需要用户的附加话语信息。为此,控制器130可确定用户的话语的输入在检测期间是否由于外部事件而被中断。
也就是说,控制器130可确定用户的话语的检测是否由于外部事件而中途中断(1301),并且当检测中断时(1303中的“是”),可将包括检测是否被中断的用户的话语信息存储在存储设备120中(1305)。
从上面可以看出,根据依据一个方面的对话系统及其控制方法,即使在当外部事件发生时由于语音识别的执行被暂停和恢复而中断语音识别时,用户预期的动作也可基于现有信息自然地继续或执行,而无需用户从头重新执行语音识别场景,从而提高了语音识别功能的可用性和便利性。
在本公开的各种示例性实施例中,上述各操作可由控制设备实行,并且该控制设备可由多个控制设备或集成的单个控制设备构成。
在本公开的各种示例性实施例中,本公开的范围包括软件或机器可执行命令(例如,操作系统、应用程序、固件、程序等),用于促进要在装置或计算机上执行的根据各种实施例的方法的操作,非暂时性计算机可读介质包括存储在其上并可在装置或计算机上执行的这类软件或命令。
在本公开的多个示例性实施例中,控制设备可通过硬件或软件的形式实施,或者通过硬件和软件的组合实施。
此外,本说明书中包括的术语,诸如“单元”、“模块”等意指用于处理至少一个功能或操作的单元,其可通过硬件、软件或其组合来实施。
为便于解释和在所附权利要求中准确定义,术语“上部”、“下部”、“内”、“外”、“上”、“下”、“向上”、“向下”、“前”、“后”、“背”、“内”、“外”、“向内”、“向外”、“内部”、“外部”、“内部的”、“外部的”、“向前”和“向后”用于参考图中显示的这类特征的位置来描述示例性实施例的特征。还应理解,术语“连接”或其派生词既指直接连接也指间接连接。
出于说明和描述的目的,已对本公开的特定示例性实施例进行了前述描述。它们并不旨在穷举或将本公开限于所公开的精确形式,显然,根据上述教导,许多修改和变化均是可能的。选择和描述示例性实施例是为了解释本发明的某些原理及其实际应用,以使本领域的其他技术人员能够做出和利用本公开的各种示例性实施例及其各种替换和修改。本公开的范围旨在由所附权利要求及其等效物来定义。
Claims (22)
1.一种对话系统,包括:
语音识别模块,被提供用于执行语音识别;
存储设备,其中存储执行的语音识别的结果;以及
控制器,通信地连接至所述语音识别模块和所述存储设备,并且被配置为:
当在输入用户的话语的同时发生外部事件时,确定所述外部事件和所述语音识别的优先级,以及
当所述控制器断定所述外部事件的所述优先级高于所述语音识别的所述优先级时,暂停所述语音识别的所述执行,并且将在所述暂停之前输入的所述用户的话语的语音识别的结果存储在所述存储设备中。
2.根据权利要求1所述的对话系统,其中所述控制器被配置为控制所述语音识别模块,使得当所述控制器断定所述外部事件的所述优先级低于所述语音识别的所述优先级时,持续输入所述用户的话语。
3.根据权利要求1所述的对话系统,还包括:
自然语言理解NLU模块,被提供用于对语音识别的文本执行自然语言识别,
其中当暂停所述语音识别的所述执行时,所述控制器被配置为:控制所述NLU模块对在所述暂停之前输入的所述用户的话语执行所述自然语言识别,并且将所述自然语言识别的执行结果存储在所述存储设备中。
4.根据权利要求1所述的对话系统,其中所述控制器被配置为:通过分析存储在所述存储设备中的信息来确定在检测期间是否由于所述外部事件而中断所述用户的话语的所述输入。
5.根据权利要求4所述的对话系统,其中当根据所述确定所述用户的话语的输入是否被中断,所述控制器断定所述用户的话语的所述输入在所述检测期间被中断时,所述控制器被配置为重新分析所述用户的话语的输入是否被中断且所述用户的话语确定所述输入已被中断,并且将重新分析结果存储在所述存储设备中。
6.根据权利要求5所述的对话系统,其中当所述控制器断定所述外部事件完成时,所述控制器被配置为恢复所述语音识别。
7.根据权利要求6所述的对话系统,其中所述控制器被配置为基于存储在所述存储设备中的信息来确定是否需要所述用户的附加话语信息。
8.根据权利要求7所述的对话系统,还包括:
自然语言生成模块,其被提供用于生成自然语言,
其中当所述控制器断定需要所述用户的所述附加话语信息时,所述控制器被配置为控制所述自然语言生成模块生成用于通知是否需要所述用户的所述附加话语信息的自然语言。
9.根据权利要求8所述的对话系统,其中当所述控制器断定不需要所述用户的所述附加话语信息时,所述控制器被配置为控制所述自然语言生成模块生成用于询问是否继续所述语音识别的自然语言。
10.根据权利要求9所述的对话系统,还包括:
文本至语音TTS模块,其被提供用于将生成的自然语言转换成语音形式,
其中所述控制器被配置为控制所述TTS模块以所述语音形式输出所述生成的自然语言。
11.根据权利要求1所述的对话系统,其中所述外部事件包括电话呼叫发送/接收、后置摄像头显示和硬键输入中的一种。
12.一种控制对话系统的方法,所述方法包括:
执行语音识别;
存储所述语音识别的结果;
当在输入用户的话语的同时发生所述外部事件时,由所述控制器确定外部事件和所述语音识别的优先级;以及
当所述控制器断定所述外部事件的所述优先级高于所述语音识别的所述优先级时,由所述控制器暂停所述语音识别的所述执行,并且将在所述暂停之前输入的所述用户的话语的所述语音识别的结果存储在所述存储设备中。
13.根据权利要求12所述的方法,还包括:
由所述控制器进行控制,使得当所述控制器断定所述外部事件的所述优先级低于所述语音识别的所述优先级时,所述用户的话语被持续输入。
14.根据权利要求12所述的方法,还包括:
由所述控制器对语音识别的文本执行自然语言识别,
其中所述用户的话语的所述语音识别的所述结果的所述存储包括:
当暂停所述语音识别的所述执行时,对所述暂停之前输入的所述用户的话语执行所述自然语言识别;以及
存储所述自然语言识别的执行结果。
15.根据权利要求12所述的方法,还包括:
由所述控制器通过分析所存储的信息来确定在检测期间所述用户的话语的所述输入是否由于所述外部事件而被中断。
16.根据权利要求15所述的方法,还包括:
当根据确定所述用户的话语的所述输入是否被中断,所述控制器断定所述用户的话语的所述输入在所述检测期间被中断时,由所述控制器重新分析所述用户的话语的所述输入是否被中断且所述用户的话语确定所述输入已被中断,并且将重新分析结果存储在所述存储设备中。
17.根据权利要求16所述的方法,还包括:
当所述控制器断定所述外部事件完成时,由所述控制器恢复所述语音识别。
18.根据权利要求17所述的方法,还包括:
基于所述存储的信息而确定是否需要所述用户的附加话语信息。
19.根据权利要求18所述的方法,还包括:
生成自然语言,其中所述自然语言的所述生成包括:当所述控制器断定需要所述用户的所述附加话语信息时,生成用于通知是否需要所述用户的所述附加话语信息的自然语言。
20.根据权利要求19所述的方法,其中所述自然语言的所述生成包括:当所述控制器断定不需要所述用户的所述附加话语信息时,生成用于询问是否继续所述语音识别的自然语言。
21.根据权利要求20所述的方法,还包括将所述生成的自然语言转换成语音形式。
22.根据权利要求12所述的方法,其中所述外部事件包括电话呼叫发送/接收、后置摄像头显示和硬键输入中的一种。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0042297 | 2022-04-05 | ||
KR1020220042297A KR20230143436A (ko) | 2022-04-05 | 2022-04-05 | 대화 시스템 및 그 제어 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116895275A true CN116895275A (zh) | 2023-10-17 |
Family
ID=88018847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211595462.3A Pending CN116895275A (zh) | 2022-04-05 | 2022-12-13 | 对话系统及其控制方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230317080A1 (zh) |
KR (1) | KR20230143436A (zh) |
CN (1) | CN116895275A (zh) |
DE (1) | DE102022133195A1 (zh) |
-
2022
- 2022-04-05 KR KR1020220042297A patent/KR20230143436A/ko unknown
- 2022-12-13 CN CN202211595462.3A patent/CN116895275A/zh active Pending
- 2022-12-14 US US18/081,201 patent/US20230317080A1/en active Pending
- 2022-12-14 DE DE102022133195.4A patent/DE102022133195A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230143436A (ko) | 2023-10-12 |
DE102022133195A1 (de) | 2023-10-05 |
US20230317080A1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869487B1 (en) | Allocation of local and remote resources for speech processing | |
US11062703B2 (en) | Automatic speech recognition with filler model processing | |
US9224404B2 (en) | Dynamic audio processing parameters with automatic speech recognition | |
US8255218B1 (en) | Directing dictation into input fields | |
JP6024675B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
US7689424B2 (en) | Distributed speech recognition method | |
US10535337B2 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
US11763819B1 (en) | Audio encryption | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR20200082137A (ko) | 전자 장치 및 그의 제어 방법 | |
JP2006208486A (ja) | 音声入力装置 | |
KR20230005966A (ko) | 거의 일치하는 핫워드 또는 구문 검출 | |
US20180211661A1 (en) | Speech recognition apparatus with cancellation period | |
US20140343947A1 (en) | Methods and systems for managing dialog of speech systems | |
US10923122B1 (en) | Pausing automatic speech recognition | |
JP2018124484A (ja) | 音声認識装置 | |
CN116895275A (zh) | 对话系统及其控制方法 | |
JP2006337942A (ja) | 音声対話装置及び割り込み発話制御方法 | |
KR102417899B1 (ko) | 차량의 음성인식 시스템 및 방법 | |
CN107195298B (zh) | 根本原因分析以及校正系统和方法 | |
US20150039312A1 (en) | Controlling speech dialog using an additional sensor | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
EP2760019B1 (en) | Dynamic audio processing parameters with automatic speech recognition | |
CN115662430B (zh) | 输入数据解析方法、装置、电子设备和存储介质 | |
CN111048098A (zh) | 语音校正系统及语音校正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |