CN116910194A - 用于处理对话的方法和对话系统 - Google Patents
用于处理对话的方法和对话系统 Download PDFInfo
- Publication number
- CN116910194A CN116910194A CN202310397708.4A CN202310397708A CN116910194A CN 116910194 A CN116910194 A CN 116910194A CN 202310397708 A CN202310397708 A CN 202310397708A CN 116910194 A CN116910194 A CN 116910194A
- Authority
- CN
- China
- Prior art keywords
- user
- utterance
- voice command
- intention
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 22
- 238000012545 processing Methods 0.000 title description 6
- 238000003672 processing method Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 230000004044 response Effects 0.000 claims description 35
- 230000007423 decrease Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种对话处理方法包括:使用训练过的意图分类模型获得用户的语音命令的意图分类结果;获得用户的话语历史信息;以及基于用户的话语历史信息,修改意图分类结果,其中,意图分类结果包括每个预定意图的得分,并且修改意图分类结果包括:基于用户的话语历史信息,修改每个预定意图的得分。
Description
技术领域
本公开涉及被配置用于通过与用户的对话掌握用户的意图的对话处理方法和对话系统。
背景技术
对话系统是一种能够通过与用户的对话来识别用户的意图的装置。这种对话系统连接到日常生活中使用的各种电子装置,例如车辆、移动设备、家用电器等,以使得能够执行与用户的话语对应的各种功能。
为了使对话系统从用户话语识别出意图,对话系统必须处理用户以自然语言发出的话语。自然语言是指人类在日常生活中用于交流的语言,并且是与人工语言(或构造语言)(例如,计算机编程语言)相对的概念。
为了使对话系统处理用户以自然语言发出的话语,可以应用自然语言理解(NLU)技术。此外,最近,可以使用由机器学习或深度学习训练的模型来实现NLU技术。
另一方面,当使用训练过的模型对用户话语的域或意图进行分类并对时隙进行标记时,结果可能会根据训练数据而出现偏差。因此,可能出现输出与用户的实际意图不同的结果的情况。
本公开的该背景技术中包括的信息仅用于加强对本公开的一般背景的理解,并且不可被视为承认或以任何形式建议该信息形成本领域技术人员已经知道的现有技术。
发明内容
本公开的各个方面涉及提供一种对话处理方法和对话管理系统,其可以基于每个用户的话语历史修改意图分类模型的输出,从而使与用户的实际意图不同的结果的输出最小化,因为用户话语的意图分类结果偏向于训练数据。
本公开的额外方面将在下面的描述中部分地阐述,并且部分地从描述中显而易见,或者可以通过本公开的实践来了解。
根据本公开的一个方面,对话处理方法包括:使用训练过的意图分类模型获得用户的语音指令的意图分类结果;获得用户的话语历史信息;以及基于用户的话语历史信息,修改意图分类结果,其中,意图分类结果包括每个预定意图的得分,并且修改意图分类结果包括:基于用户的话语历史信息,修改每个预定意图的得分。
用户的话语历史信息可以包括关于用户通过语音命令的话语使用的意图的频度的信息。
修改意图分类结果可以包括:将多个预定意图当中,用户通过语音命令使用的频度较高的意图修改为具有较高的得分。
修改意图分类结果可以包括:通过将高权重分派给多个预定意图当中,用户通过语音命令的话语使用的频度高的意图的得分,来重新确定得分。
修改意图分类结果可以包括:在多个预定意图的得分当中,降低小于阈值的得分,并且增加用户通过语音命令的话语使用的频度高的意图的得分。
小于阈值的得分的降低量和用户通过语音命令的话语使用的频度高的意图的得分的增加量可以相互成比例。
用户的话语历史信息可以还包括关于用户的语音命令的话语时间或用户的语音命令的话语位置的信息中的至少一个。
修改意图分类结果可以包括:通过将高权重分派给多个预定意图当中,在与当前话语时间或当前话语位置匹配的话语时间或话语位置使用的频度高的意图的得分,来重新确定得分。
修改意图分类结果可以包括:将修改后的得分当中具有最高得分的意图确定为用户的语音命令的最终意图,并基于该最终意图对用户的语音命令执行时隙标记。
对话处理方法可以还包括:基于修改后的意图分类结果,生成系统响应;以及将所生成的系统响应发送到用户终端。
根据本公开的另一个方面,存在计算机可读记录介质,其中记录了用于执行根据本公开的示例性实施例的对话处理方法的程序,该对话处理方法包括:使用训练过的意图分类模型获得用户的语音指令的意图分类结果;获得用户的话语历史信息;以及基于用户的话语历史信息,修改意图分类结果,其中,意图分类结果包括每个预定意图的得分,并且修改意图分类结果包括:基于用户的话语历史信息,修改每个预定意图的得分。
用户的话语历史信息可以包括关于用户通过语音命令的话语使用的意图的频度的信息。
修改意图分类结果可以包括:将多个预定意图当中,用户通过语音命令使用的频度较高的意图修改为具有较高的得分。
修改意图分类结果可以包括:通过将高权重分派给多个预定意图当中,用户通过语音命令的话语使用的频度高的意图的得分,来重新确定得分。
修改意图分类结果可以包括:在多个预定意图的得分当中,降低小于阈值的得分,并且增加用户通过语音命令的话语使用的频度高的意图的得分。
小于阈值的得分的降低量和用户通过语音命令的话语使用的频度高的意图的得分的增加量可以相互成比例。
用户的话语历史信息可以还包括关于用户的语音命令的话语时间或用户的语音命令的话语位置的信息中的至少一个。
修改意图分类结果可以包括:通过将高权重分派给多个预定意图当中,在与当前话语时间或当前话语位置匹配的话语时间或话语位置使用的频度高的意图的得分,来重新确定得分。
修改意图分类结果可以包括:将修改后的得分当中具有最高得分的意图确定为用户的语音命令的最终意图,并基于该最终意图对用户的语音命令执行时隙标记。
对话处理方法可以还包括:基于修改后的意图分类结果,生成系统响应;以及将所生成的系统响应发送到用户终端。
本公开的方法和设备具有其他特征和优点,这些特征和优点将从并入本文中的附图和下面的详细描述中显而易见或更详细地阐述,这些附图和详细描述一起用于解释本公开的某些原理。
附图说明
图1是示出了根据本公开的示例性实施例的对话系统的操作的框图;
图2是示出了根据本公开的示例性实施例的用户终端的操作的框图;
图3和图4是示出了根据本公开的示例性实施例的对话系统与用户终端之间的相互关系的图示;
图5是示出了根据本公开的示例性实施例的对话系统中的每个模块执行的操作的框图;
图6是示意性地示出了应用于根据本公开的示例性实施例的对话系统的自然语言理解模块的分类模型的结构的图示;
图7、图8、图9和图10是示出了当对话系统的用户说出语音命令时生成与实际用户的意图不对应的系统响应的情况的图示;
图11是示出了根据本公开的示例性实施例的对话处理方法的流程图;
图12是示出了根据本公开的示例性实施例的对话管理系统中存储的话语历史数据库(DB)的图示;
图13是示出了可从话语历史数据库获得的信息的图示;以及
图14和图15是示出了由根据本公开的示例性实施例的对话系统和对话处理方法输出的意图分类结果的示例的图示。
可以理解的是,附图不一定按比例绘制,呈现的是示出了本公开的基本原理的各种特征的稍微简化的表示。本文中包括的本公开的预先确定的设计特征,包括例如特定的尺寸、取向、位置和形状,将部分地由特别地意图的应用和使用环境确定。
在图中,附图标记贯穿附图中的若干图指代本公开的相同或等效的部分。
具体实施方式
现在将详细参考本公开的各种实施例,其示例在附图中示出并在下面描述。虽然本公开将结合本公开的示例性实施例进行描述,但应理解,本描述不意图将本公开限于本公开的那些示例性实施例。另一方面,本公开不仅意图涵盖本公开的示例性实施例,而且涵盖各种替代形式、修改、等同形式和其他实施例,这些替代形式、修改和等同形式可包括在由所附权利要求限定的本公开的精神和范围内。
本说明书中描述的示例性实施例和附图中所示的配置是所包括的公开的示例性示例,并且在提交本申请时,可存在可以替代本说明书的示例性实施例和附图的各种修改。
此外,本说明书的各图中提供的相同附图标记或符号表示执行基本相同功能的零件或部件。
此外,本说明书中使用的术语用于描述示例,并且不意图限制本公开。除非上下文以其他方式明确指出,否则单数表达包括复数表达。在本说明书中,术语诸如“包括”或“具有”意图指示存在本说明书中描述的特征、数字、步骤、操作、部件、零件或其组合,但不排除存在或增加其他特征、数字、步骤、操作、部件、零件或其组合的可能性。
此外,本说明书中使用的包括序数词的术语,诸如“第一”和“第二”,可以用于描述各种部件,但部件不受这些术语的限制。它们只是用于区分一个部件与其他部件。例如,在不偏离本公开范围的情况下,第一部件可以被称为第二部件,并且类似地,第二部件也可以被称为第一部件。术语“和/或”包括多个相关列出术语的组合或多个相关列出术语中的任一个。
此外,本说明书中使用的术语如“~元件”、“~装置”、“~块”和“~模块”可以指用于处理至少一个功能或操作的单元。例如,上述术语可以指代至少一种硬件(例如,现场可编程门阵列(FPGA)/专用集成电路(ASIC))、存储在存储器中的至少一种软件或由处理器处理的至少一个过程。
附到每个操作的标志用于识别每个操作,并且这些标志不指示操作之间的顺序,并且每个操作的执行与所陈述顺序不同,除非上下文明确指示特定的顺序。
当指代本说明书中的要素的列表时使用的表达“……中的至少一个”可以改变要素的组合。例如,表达“a、b或c中的至少一个”指代只有a、只有b、只有c、a和b两者、a和c两者、b和c两者,或a、b和c的组合。
在下文中,将参考附图详细描述根据一个方面的对话系统和对话处理方法的示例性实施例。
图1是示出了根据本公开的一个示例性实施例的对话系统的操作的框图。
参考图1,根据示例性实施例的对话系统1包括:语音识别模块110,被配置为将用户的语音命令转换成文本;自然语言理解模块120,被配置为基于转换后的文本对语音命令的域(domain)或意图进行分类,并执行实体提取和时隙(slot)标记;控制模块130,被配置为基于自然语言理解模块120的输出,生成与语音命令对应的系统响应;存储140,被配置为存储用户的话语历史;和通信模块150,被配置为与用户终端进行通信。
语音识别模块110可以被实现为语音转文本(STT)引擎,并且可以将语音识别算法应用于用户的话语,使得用户的话语可以被转换成文本。
例如,语音识别模块110可以通过应用特征向量提取技术(例如,倒谱、线性预测系数(LPC)、梅尔频率倒谱系数(MFCC)或滤波器组能量),从用户的话语提取特征向量。
接下来,可以通过将所提取的特征向量与训练过的基准模式(pattern)进行比较,来获得识别结果。为此,可以使用对语音的信号特性进行建模和比较的声学模型或对语言顺序关系(例如,与所识别的词汇对应的单词或音节)进行建模的语言模型。
此外,语音识别模块110可以基于由机器学习或深度学习训练的训练模型,将语音命令转换成文本。在本公开的示例性实施例中,对语音识别模块110将语音命令转换成文本的方法没有限制,并且语音识别模块110可以通过应用除了上述方法之外的各种语音识别技术,将语音命令转换成文本。
自然语言理解模块120可以应用自然语言理解(NLU)技术来确定文本中包括的用户意图。因此,自然语言理解模块120可以包括NLU引擎,该引擎通过对输入句子应用NLU技术来确定用户的意图。这里,由语音识别模块110输出的文本可以是输入到自然语言理解模块120的输入句子。
例如,自然语言理解模块120可以从输入句子识别命名实体。命名实体是专有名词,例如人名、地名、组织名称、时间、日期、金钱等。命名实体识别(NER)识别句子中的命名实体,并确定所识别的命名实体的类型。通过NER从句子中提取重要的关键词,可以理解句子的含义。
此外,自然语言理解模块120可以被配置为从输入句子确定域。该域可以识别用户的话语的主题。例如,可以基于输入句子确定代表各种主题的域,例如提供与车辆控制、日程安排、天气或交通状况、文本传输、导航、音乐等相关的信息。
此外,自然语言理解模块120可以对与输入句子对应的意图进行分类,并且可以提取执行对应意图所需的实体。
例如,当输入句子是“打开空调”时,域可以是[车辆控制],意图可以是[打开_空调],并且执行与该意图对应的控制所需的实体可以是[温度、气流体积]。
然而,用于每个对话系统的术语及其定义可能是不同的。因此,即使使用与所公开的实施例中的那些术语不同的术语,如果对话系统中的术语的含义或作用是相同或类似的,则这些术语可以包括在本公开的范围内。
如上所述,自然语言理解模块120从输入句子提取必要信息(例如,意图、域和实体)的操作可以使用基于机器学习或深度学习的学习模型(在下文中称为意图分类模型)执行。
根据本公开的各种示例性实施例的对话系统1可以基于存储在存储140中的用户的话语历史修改意图分类结果。与此相关的描述将在后面提供。
控制模块130可以被配置为生成与用户的语音命令对应的系统响应,以提供与用户意图对应的服务。该系统响应可以包括响应于语音命令的系统话语和用于执行与该语音命令对应的意图的信号。
通信模块150可以与基站或接入点(AP)进行无线通信,并可以通过基站或AP与外部装置交换数据。
例如,通信模块150可以使用Wi-Fi(WiFiTM,IEEE 802.11技术标准)与AP进行无线通信,或者可以使用CDMA、WCDMA、GSM、长期演进(LTE)、5G、WiBro等与基站进行通信。
对话系统1可以包括:至少一个存储器,在其中存储用于执行上述操作和将在后面描述的操作的程序;以及至少一个处理器,用于执行所存储的程序。
语音识别模块110、自然语言理解模块120和控制模块130可以各自使用单独的存储器和处理器,并且也可以共享存储器和处理器。
也就是说,语音识别模块110、自然语言理解模块120和控制模块130是基于其相应的操作划分的,而不代表物理上分离的部件。因此,只要执行上述的或以后描述的语音识别模块110、自然语言理解模块120或控制模块130的操作,则该操作可以包括在本公开的范围内,而不考虑指代该操作的名称。
此外,存储140可以使用与存储用于执行语音识别模块110、自然语言理解模块120和控制模块130的操作的程序的存储器不同的单独存储器,并且也可以共享同一存储器。
图2是示出了根据本公开的示例性实施例的用户终端的操作的框图,并且图3和图4是示出了根据本公开的示例性实施例的对话系统和用户终端之间的相互关系的图示。
根据本公开的各种示例性实施例的用户终端2被配置为用户与对话系统1之间的网关。例如,用户终端2可以是移动装置(例如,智能手机、平板PC或膝上型PC)、可穿戴装置(例如,智能手表或智能眼镜)、家用电器(例如,配备有麦克风和扬声器的TV、冰箱、空调、空气净化器、真空吸尘器或洗衣机)或AI扬声器。
替换地,车辆可以是用户终端。用户的语音命令可以通过设置在车辆中的麦克风输入,并且该语音命令可以通过设置在车辆中的通信模块发送到对话系统1。
此外,当从对话系统1发送系统响应时,可以通过控制车辆中设置的扬声器或显示器,或者控制车辆的其他部件,来执行与系统响应对应的过程。
参考图2,用户终端2可以包括麦克风210、扬声器220、显示器230、通信模块240、控制器250和输入装置260。
通信模块240可以包括与外部装置无线交换数据的无线通信模块。此外,通信模块240可以还包括用于通过电线与外部装置交换数据的有线通信模块。
有线通信模块可以与通过USB终端或AUX终端连接的外部装置交换数据。
无线通信模块可以与基站或AP进行无线通信,并且可以通过基站或AP与外部装置交换数据。
例如,无线通信模块可以使用Wi-Fi(WiFiTM、IEEE 802.11技术标准)与AP进行无线通信,或者可以使用CDMA、WCDMA、GSM、LTE、5G、WiBro等与基站进行通信。
此外,无线通信模块可以直接与外部装置进行通信。例如,无线通信模块可以使用Wi-Fi Direct、蓝牙(BluetoothTM、IEEE 802.15.1技术标准)、ZigBee(ZigBeeTM、IEEE802.15.4技术标准)等,与位于短距离内的外部装置交换数据。
例如,当用户终端2被实现为车辆时,通信模块240可以通过蓝牙通信与位于车辆内部的移动装置进行通信,以接收由移动装置获得的或存储在移动装置中的信息(用户的图像、用户的语音、联系信息、日程安排等),或者可以通过Wi-Fi或4G或5G通信与对话系统1进行通信,以发送用户的语音命令或接收与该语音命令对应的系统响应。
语音命令可以被输入到麦克风210。当用户终端2被实现为车辆时,用户可以是驾驶员或乘客。麦克风210可以被设置在诸如方向盘、中央仪表盘、顶棚或后视镜的位置处,以接收来自驾驶员或前座的乘客的语音命令。
此外,可以提供两个或更多个麦克风210。在这种情况下,第一麦克风可以被设置在用于接收如上所述的驾驶员的语音命令的位置,并且第二麦克风可以被设置在诸如后座的扶手、B柱或C柱、顶棚、后座门等各种位置中的至少一个位置。
当输入了语音命令时,麦克风210将声波形式的语音命令转换成作为电信号的音频信号,并输出该音频信号。因此,从麦克风210输出后的语音命令可以以音频信号的形式被处理。
扬声器220可以输出与从对话系统1接收的系统响应相关的各种类型的音频。扬声器220可以输出从对话系统1发送的系统话语,或者可以输出与系统响应对应的内容信号。
此外,可以输出音乐、广播或多媒体内容的音频而与系统响应无关,或者在执行导航功能时可以输出用于路线引导的音频。
显示器230可以显示与从对话系统1接收的系统响应相关的各种类型的信息。显示器230可以将通过扬声器220输出的系统话语显示为文本,并且可以在要求用户选择多个项目以执行与用户话语对应的意图时将多个项目显示为列表。
此外,显示器230可以显示执行用户终端2的其他功能(例如,输出多媒体内容而与系统响应无关)所需的信息。
例如,当用户终端2被实现为车辆时,显示器230可以包括在车辆的中央仪表盘上设置的音频、视频和导航(AVN)显示器、仪表群显示器或平视显示器(HUD)。
替换地,显示器230可以包括设置在前座头部后方上的后座显示器,使得后座中的乘客可以看到后座显示器,或者当车辆为多座车辆时,可以包括安装在顶棚上的显示器。
显示器230可以只需要设置在乘坐车辆的用户能够看到显示器230的位置,并且对显示器230的数量或位置没有其他限制。
用户终端2可以包括除了麦克风210之外的用于手动接收用户命令的输入装置260。输入装置260可以以按钮、旋钮或触摸板的形式设置。当输入装置260以触摸板的形式设置时,可以与显示器230一起实现触摸屏。
例如,当用户终端2被实现为车辆时,输入装置260可以包括以按钮或旋钮的形式设置在设置有中央仪表盘的音频视频导航(AVN)的区域、设置有变速箱的区域、或方向盘中的输入装置。
此外,为了接收关于乘客座椅的控制命令,输入装置260可以包括设置在每个座椅的车门上的输入装置,或设置在前排座椅的扶手或后排座椅的扶手上的输入装置。
控制器250可以控制用户终端2的部件,使得可以执行上述操作。
当用户终端2被实现为车辆时,如图3所示,通过用户终端2的麦克风210输入的用户的语音命令可以通过通信模块240发送到对话系统1。
当对话系统1的通信模块150接收到语音命令,并且语音识别模块110和自然语言理解模块120输出语音命令的分析结果时,控制模块130可以被配置为基于对语音命令的分析结果生成适当的系统响应,并且可以通过通信模块150向用户终端2发送系统响应。在这种情况下,自然语言理解模块120可以基于用户的话语历史修改和输出对语音命令的意图分类结果。
对话系统1可以由服务器实现。在这种情况下,对话系统1不一定必须由一台服务器实现,并且可以由多台物理上分离的服务器实现。
替换地,如图4所示,语音识别模块110和自然语言理解模块120可以由单独的外部系统3实现。在这种情况下,当对话系统1从用户终端2接收到用户的语音命令时,对话系统1可以将接收到的语音命令发送到外部系统3,并且可以从外部系统3接收语音命令的分析结果。
对话系统1的控制模块130可以从存储140获得用户的话语历史,并且可以基于所获得的话语历史修改语音命令的分析结果。
控制模块130可以被配置为基于修改后的分析结果生成与语音命令对应的系统响应,并且可以通过通信模块150将所生成的系统响应发送到用户终端2。
因此,当自然语言理解模块120被包括在对话系统1中时,基于用户的语音历史对意图分类结果的修改可以由自然语言理解模块120执行,并且当自然语言理解模块120被包括在外部系统3中时,对意图分类结果的修改可以由对话系统1的控制模块130执行。
图5是示出了根据本公开的示例性实施例的对话系统中的每个模块执行的操作的框图,并且图6是示意性地示出了应用于根据本公开的示例性实施例的对话系统的自然语言理解模块的分类模型的结构的图示。
参考图5,当用户的语音命令被输入到语音识别模块110时,语音识别模块110可以检测输入的语音命令中的语音部分,执行预处理(例如,去除噪声),然后将预处理后的语音命令转换成文本。
文本被输入到自然语言理解模块120,并且自然语言理解模块120可以对输入文本执行形态分析、域分类、意图分类、时隙标记等,以获得理解用户意图所需的信息。
还参考图6,自然语言理解模块120可以将用于自然语言分析的输入文本划分为令牌,这些令牌是用于分析的小单位。令牌可以是词单元或语素单元。替换地,令牌可以是句子单元。
例如,当输入文本是“播放2017年Ed Sheeran的音乐”时,可以如图6所示以词为单元执行令牌化。
自然语言理解模块120可以对与用户的语音命令对应的域和意图进行分类,并且可以通过由深度学习训练的意图分类模型标记时隙。在本示例中,示出了由一个模型一起执行域和意图分类与时隙标记的情况,但是也可以根据设计使用单独模型进行时隙标记。
输入到意图分类模型的输入序列可以由令牌构成,并且通过对输入序列执行词嵌入而生成的词嵌入向量可以被输入到编码层。
编码层可以对表达为向量的输入序列的令牌进行编码。编码层可以包括多个隐藏层,并且可以使用诸如递归神经网络(RNN)或双向门控递归单元(BiGRU)的算法。
意图分类模型可以基于编码层的输出对意图进行分类。例如,可以通过比较预确意图的向量与编码的输入序列,来对与输入文本对应的意图进行分类,并且此时,可以使用softmax函数(其为分类任务中使用的激活函数之一),以将输入序列与意图匹配。
针对每个预定意图,可以确定指示与文本输入的匹配概率的得分。具有最高匹配概率的意图可以被确定为与输入文本对应的意图。然而,当最高匹配概率小于阈值时,输入文本可以被分类为域外(OOD)。
在本示例中,[播放_音乐]可以被确定为与输入文本对应的意图。此外,对于每个预定意图,还可以定义对应意图所属的域。在本示例中,[播放_音乐]的意图所属的域可以被预先确定为[音乐]。
此外,意图分类模型可以使用条件随机场(CRF)层执行时隙标记。编码层的每个隐藏状态可以被输入到CRF层。替换地,也可以使用长短期记忆模型(LSTM)进行时隙标记。
时隙代表与包括在话语中的意图相关的有意义的信息。时隙可以由指示时隙的值所属的分类系统的类型以及时隙在句子中的作用和值来定义。时隙可以由上述实体填充。
时隙的作用可以取决于意图。例如,在“让我们从首尔站到釜山站”的输入句子中,“首尔站”和“釜山站”对应于同一类型的时隙,但是在该句子中,“首尔站”的时隙是起点,并且“釜山站”是目的地,因此它们的作用是不同的。此外,“告诉我首尔站的地址”的输入句子中的“首尔站”与“我们从首尔站到釜山站”的输入句子中的“首尔站”类型相同,但它们作为搜索目标在句子中的作用不同。
此外,时隙的类型也可以取决于意图。例如,在“引导我到杨花大桥”的输入句子中,“杨花大桥”的类型对应于POI(兴趣点),但在“播放杨花大桥”的输入句子中,“杨花大桥”的类型可以被分类为歌曲标题。
在图6的示例中,时隙“2017”的类型可以被标记为“年份”,并且时隙“Ed”和“Sheeran”的类型可被分别标记为“艺术家”。
再次参考图5,当自然语言理解模块120输出与语音命令对应的域、意图或时隙的分析结果时,控制模块130可以被配置为基于输出的分析结果生成与语音命令对应的系统响应。
例如,当意图是车辆相关控制时,可以生成用于执行车辆相关控制的控制信号,并发送到用户终端2。
替换地,当意图是提供特定信息时,可以检索特定信息,并且可以将检索到的信息发送到用户终端2。如果需要,也可以由另一台外部服务器检索信息。
替换地,当意图是提供特定内容时,可以将与该意图对应的特定内容发送到用户终端2。
替换地,当与用户意图对应的服务是简单会话的延续时,可以生成与用户的话语对应的系统话语,并发送到用户终端2。
图7、图8、图9和图10是示出了当对话系统的用户说出语音命令时生成与实际用户的意图不对应的系统响应的情况的图示。
参考图7的示例,在用户A说出语音命令“杨花大桥,请”的情况下,当对话系统将用户A的语音命令的意图分类为路线引导,即[搜索_兴趣点](域:[导航])时,可以输出系统话语诸如“我将引导您到杨花大桥”,并且可以以“杨花大桥”作为目的地执行路线引导。
然而,用户A的语音命令的实际意图可能是[播放_音乐]。也就是说,用户A可能说过收听歌曲“杨花大桥”的语音命令。
参考图8的示例,在用户B说出语音命令“杨花大桥,请”的情况下,当对话系统将用户B的语音命令的意图分类为播放音乐,即[播放_音乐](域:[音乐])时,可以输出系统话语诸如“我将播放Zion T的杨花大桥”,并且可以播放名为“Zion T”的艺术家的歌曲“杨花大桥”。
然而,用户B的语音命令的实际意图可能是[搜索_兴趣点]。也就是说,用户B可能说过接收以“杨花大桥”为目的地的路线引导的语音命令。
当使用训练过的分类模型对意图进行分类时,分类结果可能偏向于用于训练分类模型的训练数据,并且当偏向的分类结果与用户的意图不匹配时,可能输出与用户的意图不同的结果。
当如图7和图8的示例中的具有歧义的句子被输入到意图分类模型时,因为结果偏向于训练数据而不是用户的倾向,所以具有歧义的句子的含义可能被确定为偏向于训练数据,从而输出不同于用户意图的结果。
参考图9的示例,在用户A说出语音命令“我家”的情况下,当对话系统将用户A的语音命令的意图分类为路线引导,即[搜索_兴趣点](域:[导航])时,可以输出系统话语诸如“我将引导您到我家”,并且可以以“我家”作为目的地执行路线引导。
然而,用户A的语音命令的实际意图可能是[动作_打电话]。也就是说,用户A可能说过呼叫“我家”的语音命令。
参考图10的示例,在用户B说出语音命令“我家”的情况下,当对话系统将用户B的语音命令的意图分类为打电话,即[动作_打电话](域:[打电话])时,可以输出系统话语诸如“我将呼叫我家”,并且可以对存储为“我家”的电话号码进行呼叫。
然而,用户B的语音命令的实际意图可能是[搜索_兴趣点]。也就是说,用户B可能说过接收以“我家”作为目的地的路线引导的语音命令。
当用户的语音命令如图9和图10的示例中那样太短时,可能会输出与用户的实际意图不同的结果,因为理解用户的意图所需的信息不充分。当用户终端2是车辆时,由于用户专注于驾驶,因此用户经常发现难以注意他或她自己的话语。
因此,在根据本公开的示例性实施例的对话系统1和使用该对话系统的对话处理方法中,当确定与语音命令对应的意图时,可以考虑用户的个人话语历史对意图分类模型的结果进行修改,从而提供定制的结果。
图11是示出了根据本公开的示例性实施例的对话处理方法的流程图,图12是示出了根据本公开的示例性实施例的对话管理系统中存储的话语历史数据库的图示,并且图13是示出了可从话语历史数据库获得的信息的图示。
根据本公开的各种示例性实施例的对话处理方法可以由上述的对话系统1执行。因此,对对话系统1的描述可以应用于对话处理方法的示例性实施例,即使没有单独提到。反之,对对话处理方法的描述也可以应用于对话系统1,即使没有单独提到。
参考图11,在操作1100中,从用户终端2接收用户的语音命令。
输入到用户终端2的麦克风210的语音命令可以以音频信号的形式发送到对话系统1,并且对话系统1的通信模块150可以接收从用户终端2发送的语音命令。
在操作1200中,将接收到的语音命令转换成文本。
语音识别模块110检测接收到的语音命令中的语音部分,执行预处理(例如,去除噪声),然后将预处理后的语音命令转换成文本。
在操作1300中,基于文本对语音命令的意图进行分类。
如上所述,可以使用训练过的意图分类模型来执行语音命令的意图分类。此外,可以将域与意图一起分类,并且还可以根据意图分类模型的设计来执行时隙标记。
另一方面,当语音识别模块110和自然语言理解模块120被设置在分开的外部系统3中时,在根据本公开的示例性实施例的对话处理方法中可以省略将语音命令转换成文本的操作1200和对意图进行分类的操作1300。在这种情况下,根据本公开的各种示例性实施例的对话处理方法可以包括从外部系统3获得语音命令的意图分类结果。
在操作1400中获得用户的话语历史信息,并且在操作1500中基于所获得的话语历史信息修改意图分类结果。
这里,用户可以是输入了对应语音命令的用户。参考图12,可以在对话系统1的存储140中存储话语历史数据库,并且话语历史数据库可以包括每个用户的话语历史信息。
替换地,当话语历史数据库存储在外部系统3中时,对话系统1可以通过对外部系统3进行请求来获得用户的话语历史信息。
话语历史信息可以以各种方式存储。例如,可以为每个用户存储与作为语音命令处理结果的域和意图的频度相关的信息。替换地,由用户说出的语音命令(文本)也可以与其域和意图一起被存储。
基于话语历史信息,可以获得如图13所示的每个用户的域使用分布(或意图使用分布)。也就是说,基于话语历史信息,可以获得关于每个用户经常使用哪个域和哪个意图的信息。
此外,话语历史信息可以包括关于语音命令的话语时间或话语位置中的至少一个的信息。
对话系统1所支持的意图的数量远远大于用户实际使用的意图的数量。在对话系统1所支持的意图当中,用户没有实际使用的意图可以充当意图分类中的噪声。
如上所述,对话系统1可以从每个用户的话语历史信息获得关于用户主要利用的意图和域的信息,并且可以在对意图进行分类时使用目前的信息,从而减少意图误分类的概率。
另一方面,可以从用户利用对话系统1时留下的日志数据获得用户的话语历史信息。当用户通过个人ID访问对话系统1时,可以为每个用户积累话语历史信息。
否则,可以将话语历史与要积累的用户终端2的标识信息匹配。当用户终端2是车辆时,可以将用户的话语历史与车辆标识信息(例如,车辆标识号(VIN))匹配并可以进行积累。
因此,本公开的示例性实施例中提到的用户的话语历史信息可以与个人用户或用户终端2相关。
对话系统1的自然语言理解模块120可以基于输入了语音命令的用户的话语历史信息来修改意图分类结果。
当输入了文本时,自然语言理解模块120使用的意图分类模型可以被配置为:针对每个预定意图,确定指示与文本输入的匹配概率的得分。为每个预定意图确定的得分可以被包括在意图分类结果中。
例如,可以通过将基于每个用户的话语历史的权重分派给每个意图的得分来重新确定得分。在这种情况下,可以将较高的权重分派给用户通过语音命令更经常使用的意图。也就是说,在对应用户的话语历史信息中,较高的权重可以被分派给具有较高频度的意图,并且较低的权重可以被分派给具有较低频度的意图。
此外,可以调节(distort)意图分类结果,使得自然语言理解模块120降低小于阈值的得分并增加大于或等于阈值的得分。
在这种情况下,可以在等于或大于阈值的得分当中进一步增加对应用户使用的频度高的意图的得分。小于阈值的得分的降低量和对应用户使用的频度高的意图的得分的增加量可以是相互成比例的。例如,当多个预定意图的得分之和为1.0时,具有高使用频度的意图的得分的增加量可以与小于阈值的得分的降低量一样多。
替换地,虽然自然语言理解模块120对意图分类结果进行调节,使得小于阈值的得分降低,并且等于或大于阈值的得分提高,但也可以进一步提高对应用户使用的频度高的意图的得分的增加率,并相对降低其他意图的得分的增加率。
如上所述,用户的话语历史信息还可以包括关于语音指令的话语时间或话语位置的信息中的至少一个。在这种情况下,在修改意图分类结果时,也可以进一步使用诸如语音指令的话语时间或话语位置的信息。
例如,可以通过对在与当前的话语时间或话语位置匹配的话语时间或话语位置使用的频度高的意图的得分分派高权重,来重新确定得分。
与当前话语时间匹配的话语时间可以基于上午/下午确定,或者可以基于早高峰期/工作时间/晚高峰期确定。替换地,也可以基于较短的时间间隔来确定话语时间的匹配。
例如,在当前话语时间为上午8:00时,与当前话语时间匹配的话语时间可能是早晨或早高峰期。在这种情况下,自然语言理解模块120可以被配置为从用户的话语历史信息确定在早晨或早高峰期经常使用的意图,并且可以将高权重分派给所确定的意图的得分。
与当前话语位置匹配的话语位置可以基于城市单位或更小的行政单位来确定,或者可以基于存储的兴趣点(POI)或地标来确定。
例如,在当前话语位置是公司或公司附近时,与当前话语位置匹配的话语位置可以是公司或公司附近。在这种情况下,自然语言理解模块120可以被配置为从用户的话语历史信息确定在公司或公司附近经常使用的意图,并且可以将高权重分派给所确定的意图的得分。
如上所述,时隙的类型或作用可以取决于意图。因此,自然语言理解模块120可以基于修改后的意图分类结果执行时隙标记。例如,当所确定的输入句子“我家”的意图是[搜索_兴趣点]时,实体“我家”的类型可以是POI,并且其作用可以是目的地。此外,当所确定的意图是[动作_打电话]时,实体“我家”的类型是电话号码,并且其作用是接收者。
当意图分类模型输出输入句子的语音部分的标记结果时,自然语言理解模块120可以参考修改后的意图分类结果来执行时隙标记。
替换地,当意图分类模型输出输入句子的时隙标记结果时,自然语言理解模块120可以参考修改后的意图分类结果来修改时隙标记结果。
在操作1600中,控制模块130基于修改后的意图分类结果生成系统响应。
如上所述,系统响应可以包括用于语音命令的系统话语和用于执行与语音命令对应的意图的信号。例如,当确定意图为打电话时,用于打电话的信号可以与用于引导执行打电话的系统话语一起生成,并且当确定意图为路线引导时,用于执行路线引导的信号可以与用于引导执行路线引导的系统话语一起生成。此外,当确定意图为播放音乐时,用于执行“播放音乐”的信号可以与引导执行“播放音乐”的系统话语一起生成。
所生成的系统响应可以被发送到用户终端2,并且用户终端2可以根据所发送的系统响应执行控制。用户终端2可以通过扬声器220输出系统话语,并且可以根据包括在系统响应中的信号执行操作,例如打电话、执行路线引导或播放音乐。
图14和图15是示出了根据本公开的示例性实施例的对话系统和对话处理方法输出的意图分类结果的示例的图示。
在图14和图15中,例示了用户A和用户B分别向麦克风210输入语音命令“杨花大桥,请”的情况。
基于从存储140或外部系统3获得的用户A的话语历史信息,用户A经常使用音乐域。也就是说,用户A具有对音乐领域的高使用频度。
对话系统1的自然语言理解模块120可以通过使用本信息修改意图分类结果。因此,即使意图分类模型将语音命令“杨花大桥,请”的意图分类为路线引导[搜索_兴趣点](域:[导航]),通过根据上述过程修改意图分类结果,可以将最终意图确定为播放音乐[播放_音乐](域:[音乐])。
对话系统1可以被配置为基于修改后的意图分类结果生成系统响应,并且所生成的系统响应可以被发送到用户终端2。
用户终端2可以通过扬声器220输出“我将播放Zion T的杨花大桥”的系统话语,并且可以执行“播放音乐”。
基于从存储140或外部系统3获得的用户B的话语历史信息,用户B经常使用导航域。也就是说,用户B具有对导航领域的高使用频度。
对话系统1的自然语言理解模块120可以通过使用本信息修改意图分类结果。因此,与图14的示例相反,即使意图分类模型将语音命令“杨花大桥,请”的意图分类为播放音乐[播放_音乐](域:[音乐]),通过根据上述过程修改意图分类结果,可以将最终意图确定为路线引导[搜索_兴趣点](域:导航)。
对话系统1可以被配置为基于修改后的意图分类结果生成系统响应,并且所生成的系统响应可以被发送到用户终端2。
用户终端2可以通过扬声器220输出“我将引导您到杨花大桥”的系统话语,并且可以执行路线引导。
另一方面,根据本公开的示例性实施例的对话处理方法可以以可由计算机执行的指令的形式存储在记录介质中。指令可以以程序代码的形式存储,并且当由处理器执行时,可以执行本公开的所公开示例性实施例的操作。记录介质可以被实现为计算机可读的非暂时性记录介质。
计算机可读记录介质包括任何类型的记录介质,其中存储有可由计算机读取的指令。例如,可以有只读存储器(ROM)、随机存取存储器(RAM)、磁带、磁盘、闪存、光学数据存储装置等。
根据上述示例性实施例,仅通过在推理阶段中修改现有意图分类模型的结果而不修改消耗大量时间和金钱的意图分类模型的训练数据,或更新意图分类模块,可以根据每个用户使用对话系统的倾向获得合适的结果。
因此,即使在语音命令由于对话系统的使用环境的特性而不包含足够的信息时,或者在因为语音命令包括矛盾的表达所以难以指定意图时,也可以提供符合用户实际意图的服务。
根据基于本公开的示例性实施例的对话处理方法和对话管理系统,通过基于每个用户的话语历史修改意图分类模型的输出,可以将不同于用户实际意图的结果的输出最小化,因为针对用户话语的意图分类结果偏向于训练数据。
此外,与控制装置相关的术语,诸如“控制器”、“控制设备”、“控制单元”、“控制装置”、“控制模块”或“服务器”等,指代硬件装置,其包括存储器和被配置为执行解释为算法结构的一个或多个步骤的处理器。存储器存储算法步骤,并且处理器执行算法步骤以执行根据本公开的各种示例性实施例的方法的一个或多个过程。根据本公开的示例性实施例的控制装置可以通过非易失性存储器和处理器实施,该非易失性存储器被配置为存储用于控制车辆的各种部件的操作的算法或关于用于执行该算法的软件命令的数据,该处理器被配置为使用存储在存储器中的数据执行上述操作。存储器和处理器可以是单独的芯片。替换地,存储器和处理器可以被集成在单个芯片中。处理器可以被实现为一个或多个处理器。处理器可以包括各种逻辑电路和操作电路,可以根据从存储器提供的程序处理数据,并且可以根据处理结果生成控制信号。
控制装置可以是由预定的程序操作的至少一个微处理器,该程序可以包括用于执行本公开的上述各种示例性实施例中公开的方法的一系列命令。
上述发明也可以体现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是任何数据存储装置,其可存储此后可由计算机系统读取的数据,并存储和执行此后可由计算机系统读取的程序指令。计算机可读记录介质的示例包括硬盘驱动器(HDD)、固态盘(SSD)、硅盘驱动器(SDD)、只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储装置等以及作为载波的实施方式(例如,通过互联网传输)。程序指令的示例包括机器语言代码,诸如由编译器生成的那些,以及可由计算机使用解释器等执行的高级语言代码。
在本公开的各种示例性实施例中,上述的每个操作可以由控制装置执行,并且控制装置可以由多个控制装置或由集成的单个控制装置配置。
在本公开的各种示例性实施例中,本公开的范围包括用于促进根据各种实施例的方法的操作的软件或机器可执行的命令(例如,操作系统、应用程序、固件、程序等),以在设备或计算机、非暂时性计算机可读介质(包括存储在其上并可在设备或计算机上执行的此类软件或命令)上执行。
在本公开的各种示例性实施例中,控制装置可以以硬件或软件的形式实施,或者可以以硬件和软件的组合实施。
此外,本说明书中包括的术语诸如“单元”、“模块”等是指用于处理至少一个功能或操作的单元,其可以通过硬件、软件或其组合实施。
为了在所附权利要求中方便解释和准确定义,术语“上部”、“下部”、“内”、“外”、“上”、“下”、“向上”、“向下”、“前面”、“后面”、“背面”、“内侧”、“外侧”“向内”、“向外”、“内部”、“外部”、“内部的”、“外部的”、“向前”和“向后”被用来参考示例性实施例的特征在图中显示的位置描述此类特征。应进一步理解,术语“连接”或其衍生形式既指直接连接也指间接连接。
本公开的具体示例性实施例的前述描述是为了展示和描述的目的而提出的。它们并不意图详尽无遗,也不意图将本公开限于所公开的精确形式,并且根据上述教导,显然可以进行许多修改和变化。选择并描述示例性实施例是为了解释本公开的某些原理及其实际应用,以使本领域其他技术人员能够制作并利用本公开的各种示例性实施例,以及其各种替代形式和修改。本公开的范围意图由本文所附的权利要求及其等同形式来定义。
Claims (20)
1.一种对话处理方法,包括以下步骤:
接收用户的语音命令;
通过使用训练过的意图分类模型,获得所述用户的语音命令的意图分类结果;
获得所述用户的话语历史信息;以及
基于所获得的所述用户的话语历史信息,修改所述意图分类结果,
其中,所述意图分类结果包括每个预定意图的得分,并且修改所述意图分类结果的步骤包括:基于所述用户的话语历史信息,修改每个预定意图的得分。
2.根据权利要求1所述的对话处理方法,其中,所述用户的话语历史信息包括关于所述用户通过所述语音命令的话语使用的意图的频度的信息。
3.根据权利要求2所述的对话处理方法,其中,修改所述意图分类结果的步骤还包括:
将所述预定意图当中,所述用户通过所述语音命令使用的频度较高的意图修改为具有较高的得分。
4.根据权利要求2所述的对话处理方法,其中,修改所述意图分类结果的步骤还包括:
通过将高权重分派给所述预定意图当中,所述用户通过所述语音命令的话语使用的频度高的意图的得分,来重新确定所述得分。
5.根据权利要求2所述的对话处理方法,其中,修改所述意图分类结果的步骤还包括:
在所述预定意图的得分当中,降低小于阈值的得分,并且增加所述用户通过所述语音命令的话语使用的频度高的意图的得分。
6.根据权利要求5所述的对话处理方法,其中,小于所述阈值的得分的降低量和所述用户通过所述语音命令的话语使用的频度高的意图的得分的增加量相互成比例。
7.根据权利要求2所述的对话处理方法,其中,所述用户的话语历史信息还包括关于所述用户的语音命令的话语时间或所述用户的语音命令的话语位置的信息中的至少一个。
8.根据权利要求7所述的对话处理方法,其中,修改所述意图分类结果的步骤还包括:
通过将高权重分派给所述预定意图当中,在与当前话语时间或当前话语位置匹配的话语时间或话语位置使用的频度高的意图的得分,来重新确定所述得分。
9.根据权利要求1所述的对话处理方法,其中,修改所述意图分类结果的步骤还包括:
将修改后的得分当中包括最高得分的意图确定为所述用户的语音命令的最终意图,并基于所述最终意图对所述用户的语音命令执行时隙标记。
10.根据权利要求1所述的对话处理方法,还包括以下步骤:
基于修改后的意图分类结果,生成系统响应;以及
将所生成的系统响应发送到用户终端。
11.一种存储用于执行对话处理方法的程序的计算机可读介质,所述对话处理方法包括以下步骤:
接收用户的语音命令;
使用训练过的意图分类模型,获得所述用户的语音命令的意图分类结果;
获得所述用户的话语历史信息;以及
基于所获得的所述用户的话语历史信息,修改所述意图分类结果,
其中,所述意图分类结果包括每个预定意图的得分,并且修改所述意图分类结果的步骤包括:基于所述用户的话语历史信息,修改每个预定意图的得分。
12.根据权利要求11所述的计算机可读介质,其中,所述用户的话语历史信息包括关于所述用户通过所述语音命令的话语使用的意图的频度的信息。
13.根据权利要求12所述的计算机可读介质,其中,修改所述意图分类结果的步骤还包括:
将所述预定意图当中,所述用户通过所述语音命令使用的频度较高的意图修改为具有较高的得分。
14.根据权利要求12所述的计算机可读介质,其中,修改所述意图分类结果的步骤还包括:
通过将高权重分派给所述预定意图当中,所述用户通过所述语音命令的话语使用的频度高的意图的得分,来重新确定所述得分。
15.根据权利要求12所述的计算机可读介质,其中,修改所述意图分类结果的步骤还包括:
在所述预定意图的得分当中,降低小于阈值的得分,并且增加所述用户通过所述语音命令的话语使用的频度高的意图的得分。
16.根据权利要求15所述的计算机可读介质,其中,小于所述阈值的得分的降低量和所述用户通过所述语音命令的话语使用的频度高的意图的得分的增加量相互成比例。
17.根据权利要求12所述的计算机可读介质,其中,所述用户的话语历史信息还包括关于所述用户的语音命令的话语时间或所述用户的语音命令的话语位置的信息中的至少一个。
18.根据权利要求17所述的计算机可读介质,其中,修改所述意图分类结果的步骤还包括:
通过将高权重分派给所述预定意图当中,在与当前话语时间或当前话语位置匹配的话语时间或话语位置使用的频度高的意图的得分,来重新确定所述得分。
19.根据权利要求11所述的计算机可读介质,其中,修改所述意图分类结果的步骤还包括:
将在修改后的得分当中包括最高得分的意图确定为所述用户的语音命令的最终意图,并基于所述最终意图对所述用户的语音命令执行时隙标记。
20.根据权利要求11所述的计算机可读介质,还包括以下步骤:
基于修改后的意图分类结果,生成系统响应;以及
将所生成的系统响应发送到用户终端。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220045893A KR20230146898A (ko) | 2022-04-13 | 2022-04-13 | 대화 처리 방법 및 대화 시스템 |
KR10-2022-0045893 | 2022-04-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910194A true CN116910194A (zh) | 2023-10-20 |
Family
ID=88191795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310397708.4A Pending CN116910194A (zh) | 2022-04-13 | 2023-04-13 | 用于处理对话的方法和对话系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230335120A1 (zh) |
KR (1) | KR20230146898A (zh) |
CN (1) | CN116910194A (zh) |
DE (1) | DE102023109210A1 (zh) |
-
2022
- 2022-04-13 KR KR1020220045893A patent/KR20230146898A/ko unknown
-
2023
- 2023-04-10 US US18/132,630 patent/US20230335120A1/en active Pending
- 2023-04-12 DE DE102023109210.3A patent/DE102023109210A1/de active Pending
- 2023-04-13 CN CN202310397708.4A patent/CN116910194A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230146898A (ko) | 2023-10-20 |
DE102023109210A1 (de) | 2023-10-19 |
US20230335120A1 (en) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11170776B1 (en) | Speech-processing system | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US20210358496A1 (en) | A voice assistant system for a vehicle cockpit system | |
JP4666648B2 (ja) | 音声応答システム、音声応答プログラム | |
CN105355202A (zh) | 语音识别装置、具有语音识别装置的车辆及其控制方法 | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
US11715472B2 (en) | Speech-processing system | |
WO2022271435A1 (en) | Interactive content output | |
US11996099B2 (en) | Dialogue system, vehicle, and method of controlling dialogue system | |
US11564194B1 (en) | Device communication | |
US20230298581A1 (en) | Dialogue management method, user terminal and computer-readable recording medium | |
CN115132195B (zh) | 语音唤醒方法、装置、设备、存储介质及程序产品 | |
US11922538B2 (en) | Apparatus for generating emojis, vehicle, and method for generating emojis | |
US11955123B2 (en) | Speech recognition system and method of controlling the same | |
US20230335120A1 (en) | Method for processing dialogue and dialogue system | |
US20230267923A1 (en) | Natural language processing apparatus and natural language processing method | |
JP2020160285A (ja) | エージェント装置、情報提供方法、及びプログラム | |
US20240214332A1 (en) | Chatbot service providing method and chatbot service providing system | |
US12100383B1 (en) | Voice customization for synthetic speech generation | |
US20230178071A1 (en) | Method for determining a vehicle domain and a speech recognition system for a vehicle | |
US20240105171A1 (en) | Data processing in a multi-assistant system | |
KR20230113081A (ko) | 음성 인식 시스템 및 음성 인식 서비스 제공 방법 | |
CN118280359A (zh) | 一种基于车载设备的语音控制方法、装置以及电子设备 | |
CN117275467A (zh) | 一种噪音环境下的语音指令识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |