WO2020151017A1 - 一种可扩展的领域人机对话系统状态跟踪方法及设备 - Google Patents

一种可扩展的领域人机对话系统状态跟踪方法及设备 Download PDF

Info

Publication number
WO2020151017A1
WO2020151017A1 PCT/CN2019/073477 CN2019073477W WO2020151017A1 WO 2020151017 A1 WO2020151017 A1 WO 2020151017A1 CN 2019073477 W CN2019073477 W CN 2019073477W WO 2020151017 A1 WO2020151017 A1 WO 2020151017A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
value
lstm
slot
dialogue
Prior art date
Application number
PCT/CN2019/073477
Other languages
English (en)
French (fr)
Inventor
程国艮
李欣杰
Original Assignee
中译语通科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中译语通科技股份有限公司 filed Critical 中译语通科技股份有限公司
Publication of WO2020151017A1 publication Critical patent/WO2020151017A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to the field of artificial intelligence, in particular to the field of man-machine dialogue systems.
  • the existing human-machine dialogue systems are mainly divided into two categories, one is Xiaodu smart speakers, based on the chat mode system, this type of system achieves the purpose of normal dialogue with people through the learning of human daily dialogue;
  • the other is a system similar to voice customer service, which provides a certain type of business service to users through man-machine dialogue.
  • the design goals of the two types of human-machine dialogue systems are different, and the models used and the restrictions they face are different.
  • the human-machine dialogue system in chat mode can use a large amount of dialogue materials in social networks as training data, and the purpose is only to maintain a smooth dialogue context, not related to specific businesses; human-machine dialogue systems in a specific field recognize speech in a specific field
  • the model is trained, the number of training data sets suitable for a certain field is not many, and the back-end related business of this kind of system requires a clear judgment on the user's wishes.
  • the language understanding model used in the current domain human-machine dialogue system generally uses the method of speech recognition-language understanding-state tracking-countermeasure selection, in which the state tracking step fixes the value of each state according to the corresponding field business Several optional values, so that the status tracking process is customized according to the business scenario.
  • an expandable field human-machine dialogue system state tracking method which is characterized by:
  • the dialogue state tracking can be expressed as a given combination of ⁇ slot, value>, so that the following formula The indicated cross entropy is the smallest:
  • P(y) represents the distribution function in the training data set
  • y represents the predicted slot-value combination value
  • Split the training data feature set collect each round of dialogue, collect the feature items in it, and split each feature item; use the SLU feature set generation method that comes with the DSTC2 data set to analyze the features of each round of dialogue Items are collected; for the split feature items, the training data set is organized for each slot in the feature items, and the feature items are individually trained. Before performing individual training on the feature items, make a logical judgment on the ⁇ slot,value> combination value. If the pair of ⁇ slot,value> combination values are true, then the training will be performed, if it is not true, then the pair ⁇ slot, value>combined value.
  • the description of the context information is D[Es, Ed, Ea].
  • a machine learning model is used to track the conversation state.
  • the training can be abstracted as:
  • Model training based on machine learning methods according to the split training data set, and describe each feature based on LSTM and hierarchical LSTM context information, form a training data set for each feature, and then perform each feature separately Prediction, the combination of all states is recorded as the state tracking result at the current moment.
  • the present invention also provides an electronic device applying the state tracking method of the expandable field human-machine dialogue system.
  • the beneficial effects of the embodiments of the present invention are: the state tracking model provided by the present invention independently predicts each feature without limiting the range of feature values, so it can support dynamic changes in the range of feature values .
  • This state tracking model that does not limit the value of features does not need to retrain the language understanding model when the business is upgraded, making the domain man-machine dialogue system more scalable.
  • Figure 1 is a schematic diagram of the slot-value state tracking model of the present invention.
  • Fig. 2 is a schematic diagram of a training process with two characteristics A and B provided by an embodiment of the present invention.
  • the words “if” and “if” as used herein can be interpreted as “when” or “when” or “in response to determination” or “in response to detection”.
  • the phrase “if determined” or “if detected (statement or event)” can be interpreted as “when determined” or “in response to determination” or “when detected (statement or event) )” or “in response to detection (statement or event)”.
  • the language comprehension model needs to be retrained, and provides a scalable domain man-machine state tracking model and method , Make independent predictions for each feature without limiting the range of feature values, so it can support the dynamic change of feature value ranges.
  • Each slot-value combination can be used as an input parameter for later decision-making. As shown in Figure 1, a value combination of all slots can uniquely determine a session state.
  • the slot-value model can determine the current dialogue state, assuming that the value range is C i 1...C, where i represents the possible number of values in a specific slot, and the slot value range is T k 1...N, where k represents the number of slots, and the dialogue context is D, the dialogue state tracking can be expressed as a given combination of ⁇ slot, value>, such that the cross entropy value indicated by the following formula Minimum:
  • P(y) represents the distribution function in the training data set
  • y represents the predicted slot-value combination value
  • the training data is collected for each round of dialogue of the user, and the characteristic items are collected.
  • each feature item is split, and the training data set is organized for each slot in the feature item.
  • This method of training each feature item individually is different from the method of organizing all feature items into a feature vector in the original conversation tracking system for joint prediction.
  • the value of each item needs to be limited to a few specific value ranges.
  • each feature is trained separately and only a certain ⁇ slot, value> needs to be identified. Whether the combination is true.
  • This method of splitting the training data set doubles the size of the training data set, but it no longer limits the value range of the output result.
  • the context information of this patent adopts the LSTM model.
  • the full name of LSTM is Long Short-Term Memory, which is a type of RNN (Recurrent Neural Network). Due to its design characteristics, LSTM is very suitable for modeling time series data, so as to better capture long-distance dependencies.
  • the hierarchical LSTM uses different LSTMs to process word, sentence, and paragraph level input separately, and uses an autoencoder to detect the document feature extraction and reconstruction capabilities of the LSTM. For each round of user sessions, the following contextual information is collected:
  • the description of the context information can be obtained as D[Es,Ed,Ea].
  • existing machine learning can be used
  • the model is used for tracking training of the conversation state. The process is abstracted as the following formula:
  • the change in the value range of the session state feature is only reflected in the training data set of the subsequent machine learning process, and there is no need to update the subsequent machine learning model.
  • the training data set is split according to features, and context information description based on LSTM and hierarchical LSTM is performed on each feature, thereby forming a training data set for each feature, and then predicting each feature separately.
  • the training process with two features A and B is illustrated: the training data set is segmented according to each feature; for each feature, three LSTM models, Es, Ed, and Ea, are used to describe each feature. After that, the fully connected neural network is used to train each feature separately to obtain the predicted value of each feature. The predicted values of all features are combined to be the result of dialogue state tracking.
  • the present invention uses the method of individual learning of conversation features, avoiding the problem that the conversation feature value needs to be defined in advance in the conversation tracking process of the domain man-machine dialogue system, thereby bringing greater scalability to the domain man-machine dialogue system.
  • the test data set generated by combining word understanding and spoken language comprehension, using the fully connected neural network learning model, combined with the Adam model training optimization method to obtain the conversational state cuisine, location, price, and comprehensive
  • the prediction accuracy rate is as follows:
  • the conversation state can be predicted.
  • the present invention also provides an electronic device applying the state tracking model and method of the above-mentioned extensible field man-machine dialogue system.
  • each implementation manner can be implemented by software plus a necessary general hardware platform, and of course, it can also be implemented by hardware.
  • the computer software product can be stored in a computer-readable storage medium, such as ROM/RAM, magnetic A disc, an optical disc, etc., include a number of instructions to make a computer device (which may be a personal computer, a server, or a network device, etc.) execute the methods described in each embodiment or some parts of the embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种可扩展的领域人机对话系统状态跟踪方法和设备,所述方法包括建立状态跟踪模型,采用slot-value模型确定当前对话状态;训练数据特征集拆分,采集每一轮对话,并对其中的特征项进行采集,对每个特征项进行拆分;准备上下文信息;基于机器学习方法的模型训练。由于该方法中的状态跟踪模型对每个特征进行独立预测,而不对特征取值范围进行限定,可以支持特征取值范围的动态改变,从而在业务升级过程中不需要重新进行语言理解模型的训练,使得领域人机对话系统扩展性更强。

Description

一种可扩展的领域人机对话系统状态跟踪方法及设备 技术领域
本发明涉及人工智能领域,具体而言,涉及人机对话系统领域。
背景技术
随着机器学习尤其是语音识别与理解技术的发展,很多人工对话系统逐渐被人机对话系统取代。现有的人机对话系统主要分为两大类,一类是小度智能音箱之类,基于聊天模式的系统,这类系统通过对人类日常对话的学习,达到和人进行正常对话的目的;另外一类是语音客服类似的系统,通过人机对话,达到对用户某种类型的业务服务。两类人机对话系统的设计目的不同,所使用的模型以及面临的限制也不一样。聊天模式的人机对话系统,可以以社交网络中的大量对话素材为训练数据,且目的只是维护顺畅的对话上下文,不关联具体业务;特定领域的人机对话系统在某个特定领域对语音识别模型进行训练,适用于某个领域的训练数据集数量并不多,而且这类系统后台关联业务,需要对用户的意愿做出明确的判定。
目前的领域人机对话系统所使用的语言理解模型一般使用语音识别-语言理解-状态跟踪-对策选择的方式进行,其中的状态跟踪步骤按照所对应的领域业务将每个状态的取值都固定几个可选值,这样就根据业务场景进行了状态跟踪过程的定制化。为了提高领域人机对话系统中识别准确率,人们一般在语言理解模型中提高语言理解的准确,比如专利CN108334496A《用于特定领域的人机对话理解方法与系统及相关设备》 在模型训练时,引入了额外的词性信息,使用词性预测层预测下一个输入词的词性,通过对语义标注、意图识别、词性预测三个任务进行联合处理,利用三个任务间共享的语义信息,达到了识别准确率的提升。然而现有研究对状态跟踪的实现,仍然是依据领域场景人为指定特征固定取值的方式。在实际系统应用中,由于业务升级或者新业务功能的加入,经常需要造成领域人机对话系统中状态跟踪中特征取值可选值进行改变。由于现有领域人机对话系统中对状态跟踪中特征值的使用是联合使用,相互影响的,为了应对状态跟踪中特征取值的改变,现有的领域人机对话系统需要对状态跟踪之前的语言理解模型进行重新训练,这显然会造成系统升级上的复杂和扩展性变差。
发明内容
为了实现上述目的,本发明提供如下技术方案:一种可扩展的领域人机对话系统状态跟踪方法,其特征在于:
建立状态跟踪模型,采用slot-value模型确定当前对话状态;具体地,设定value取值范围为C i 1......C,其中i表示一个特定slot中value的取值可能数量,slot取值范围为T k 1......N,其中k表示slot个数,对话上下文为D,则对话状态跟踪可表示为给定一个<slot,value>组合值,使得如下公式所指示的交叉熵值最小:
Figure PCTCN2019073477-appb-000001
其中P(y)表示训练数据集中的分布函数,
Figure PCTCN2019073477-appb-000002
表示预测结果的分布函数,y表示预测的slot-value组合值。
训练数据特征集拆分,采集每一轮对话,并对其中的特征项进行采集,对每个特征项进行拆分;采用DSTC2数据集自带的SLU特征集生成方法对每 一轮对话的特征项进行采集;对于拆分后的特征项,分别对特征项中的每个slot组织训练数据集,进行特征项单独训练。在对特征项进行单独训练前,对<slot,value>组合值进行逻辑判别,如若该对<slot,value>组合值为真,则进行训练,如若不为真,则放弃该对<slot,value>组合值。
准备上下文信息;采用LSTM和层次LSTM模型,使用不同的LSTM分别处理词、句子和段落级别输入,并使用自动编码器检测LSTM的文档特征抽取和重建能力。
对每一轮对话,采用如下方法采集上下文信息:
使用LSTM根据当前句子进行特征编码:Es LSTM sentence(Sent j),j表示当前句子个数;
使用层次LSTM根据当前句子的上下文进行特征编码:Ed LSTM dialogue[LSTM sentence 1...j  1(Sent j)];
使用LSTM根据当前句子的上下文以及对应的业务动作进行特征编码:Ea LSTM DialogueAct 1...K(DA K),其中K表示业务动作数量,DA K为第K个Dialogue Action;
则根据上述方法,得到上下文信息的描述为D[Es,Ed,Ea]。基于所述<slot,value>训练数据集和所述上下文信息的准备,利用机器学习模型进行对话状态的跟踪训练,该训练可抽象为:
Figure PCTCN2019073477-appb-000003
从而实现人机对话系统的可扩展性支持。
基于机器学习方法的模型训练,根据进行拆分后的训练数据集,并对每个特征进行基于LSTM和层次LSTM的上下文信息描述,对每个特征形成训练数据集,进而对每个特征单独进行预测,则所有状态的组合,记为当前时刻的状态跟踪结果。
同时,本发明还提供一种应用上述可扩展的领域人机对话系统状态跟踪方法的电子设备。
与现有技术相比,本发明实施例的有益效果是:本发明提供的状态跟踪模型对每个特征进行独立预测,不对特征取值范围做限定,因此可以支持特征取值的范围的动态改变。这种不限定特征取值的状态跟踪模型,在业务升级的时候不需要重新进行语言理解模型的训练,使得领域人机对话系统扩展性更强。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明slot-value状态跟踪模型示意图。
图2是本发明实施例提供的具有A、B两个特征的训练过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
下面结合附图详细说明本发明的优选实施例。
本发明根据现有技术中由于业务系统升级时,改变了状态跟踪中特征取值的范围,从而需要重新对语言理解模型进行训练的问题,提供一种可扩展的领域人机状态跟踪模型及方法,对每个特征进行独立预测,而不对特征取值范围进行限定,因此可以支持特征取值范围的动态改变。
状态跟踪的实质是维护会话过程中的状态slot-value组合,每一种slot-value组合都可以作为后期决策选择的输入参数。如图1所示,所有slot的一种value组合可以唯一确定一种会话状态。
对于特定领域,slot-value模型可以确定当前对话状态,假设value取值范围为C i 1......C,其中i表示一个特定slot中value的取值可能数量,slot取值范围为T k 1......N,其中k表示slot个数,对话上下文为D,则对话状态跟踪可表示为给定一个<slot,value>组合值,使得如下公式所指示的交叉熵值最小:
Figure PCTCN2019073477-appb-000004
其中P(y)表示训练数据集中的分布函数,
Figure PCTCN2019073477-appb-000005
表示预测结果的分布函数,y表示预测的slot-value组合值。
训练数据采集用户每一轮对话,并对其中的特征项进行采集。这里可以采用常规会话特征搜集方法,比如使用DSTC2数据集自带的SLU特征集生成方法(词语理解或者口语理解方法)。
特征项搜集完成之后,对每个特征项进行拆分,分别对特征项中的每个slot组织训练数据集。这种每个特征项单独训练的方式,不同于原有会话跟踪系统中,将所有特征项组织为一个特征向量,进行联合预测的方式。原有方式中,由于进行联合训练,需要将每一项取值限制在几个特定取值范围之内,而现有方式对每个特征进行单独训练,只需要判别某个<slot,value>组合是否为真即可。这种训练数据集拆分的方式,使得训练数据集规模成倍增大,但是却不再对输出结果的取值范围进行限定。
本专利上下文信息采用LSTM模型,LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,从而更好的捕捉到较长距离的依赖关系。层次的LSTM使用不同的LSTM分别处理词、句子和段落级别输入,并使用自动编码器(autoencoder)来检测LSTM的文档特征抽取 和重建能力。对每轮用户会话,都采集以下上下文信息:
使用LSTM根据当前句子进行特征编码:Es LSTM sentence(Sent j),j表示当前句子个数;
使用层次LSTM根据当前句子的上下文进行特征编码:Ed LSTM dialogue[LSTM sentence 1...j  1(Sent j)];
使用LSTM根据当前句子的上下文以及对应的业务动作进行特征编码:Ea LSTM DialogueAct 1...K(DA K),其中K表示业务动作数量,DA K为第K个Dialogue Action;
根据上述上下文信息的准备,可以得到上下文信息的描述为D[Es,Ed,Ea],则基于上述<slot,value>训练数据集的准备,和上下文信息的准备,可以利用已有的机器学习模型,进行会话状态的跟踪训练,该过程抽象为下式:
Figure PCTCN2019073477-appb-000006
由于上述训练过程中,并不限定会话状态特征的取值范围,会话状态特征取值范围的变化,只是体现在后续机器学习过程的训练数据集中,不需要进行后续机器学习模型的更新,从而可以提供会话状态跟踪系统所在领域人机对话系统的可扩展性支持。
根据上述步骤,将训练数据集根据特征进行拆分,并对每个特征进行基于LSTM和层次LSTM的上下文信息描述,从而对每个特征形成训练数据集,进而对每个特征单独进行预测。
对每个特征进行单独预测之后,所有状态的组合,即为当前时刻的状态跟踪结果。图2中,示例了有A、B两个特征的训练过程:将训练数据集按每个特征进行分割;对每个特征,用Es、Ed、Ea三个LSTM模型描述, 从而组件每个特征的训练数据集,之后用全连接神经网络对每个特征分别训练,得到每个特征的预测值,所有特征的预测值组合起来,即为对话状态跟踪的结果。
本发明使用会话特征单独学习的方法,避免了领域人机对话系统中会话跟踪过程需要提前定义会话特征取值这个问题,从而给领域人机对话系统带来更大扩展性。为了验证算法性能,我们在DSTC2数据集中,分别使用结合词语理解与口语理解生成的测试数据集,使用全连接神经网络学习模型,结合Adam模型训练优化方法,得到会话状态菜系、地点、价位、综合预测准确率如下所示:
测试集生成模型 菜系 地点 价位 综合
词语理解 84.0 88.8 91.7 70.7
口语理解 78.7 90.3 91.6 67.5
从对比结果可以看出,本专利提出的可扩展的领域人机对话系统会话状态跟踪模型与方法可以在特征取值可扩展的基础上,提供很高的会话跟踪准确率。
为了更加清晰解释本专利,举例进行说明。
在“餐厅推荐业务”所涉及领域人机对话系统中,有<菜系,地点,价位>三个slot,这三个slot对应的value如果是<北京菜,五道口,200>,业务系统的对策选择方案就会推荐用户“华联购物中心六层的局气”。
假设现有训练数据集为:
“我想去五道口吃人均200元的北京菜”,状态跟踪结果为<北京菜,五道口,200>
“我想去五道口吃人均50元的快餐”,状态跟踪结果为<快餐,五道口,50>
“我想去五道口吃烤鱼”,状态跟踪结果为<川菜,五道口,none>
对训练数据集进行拆分,对每个slot-value组合预测,比如对第一条训练数据:
“我想去五道口吃人均200元的北京菜”,<菜系,北京菜>结果为1;<菜系,川菜>结果为0;<菜系,陕西面食>结果为0
对其他训练数据及其他特征也做同样处理。
再采用LSTM模型和层次LSTM模型对对话上下文信息进行建模,结合上述生成的训练数据集合,对每个特征维度生成最终的训练数据集。使用现有机器学习模型(比如全连接神经网络+Adam模型训练优化方法),就可以对会话状态进行预测。
当新的用户输入“我想去丰台科技园吃biangbiang面”,对于“菜系”slot的预测值为“陕西面食”,对于“地点”slot的预测值为“丰台科技园”,对于“价位”slot的预测值是“none”,因此预测出来的会话状态为<陕西面食,丰台科技园,none>。
同时,本发明还同时提供一种应用上述可扩展的领域人机对话系统状态跟踪模型与方法的电子设备。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以 使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

  1. 一种可扩展的领域人机对话系统状态跟踪方法,其特征在于:
    建立状态跟踪模型,采用slot-value模型确定当前对话状态;
    训练数据特征集拆分,采集每一轮对话,并对其中的特征项进行采集,对每个特征项进行拆分;
    准备上下文信息;
    基于机器学习方法的模型训练。
  2. 根据权利要求1所述的方法,其特征在于:
    所述建立状态跟踪模型步骤中,设定value取值范围为C i 1......C,其中i表示一个特定slot中value的取值可能数量,slot取值范围为T k 1......N,其中k表示slot个数,对话上下文为D,则对话状态跟踪可表示为给定一个<slot,value>组合值,使得如下公式所指示的交叉熵值最小:
    Figure PCTCN2019073477-appb-100001
    其中P(y)表示训练数据集中的分布函数,
    Figure PCTCN2019073477-appb-100002
    表示预测结果的分布函数,y表示预测的slot-value组合值。
  3. 根据权利要求1所述的方法,其特征在于,采用DSTC2数据集自带的SLU特征集生成方法对每一轮对话的特征项进行采集。
  4. 根据权利要求1或3中任一项所述的方法,其特征在于,对于拆分后的特征项,分别对特征项中的每个slot组织训练数据集,进行特征项单独训练。
  5. 根据权利要求4所述的方法,其特征在于,在对特征项进行单独训练前,对<slot,value>组合值进行逻辑判断,如若该对<slot,value>组合值为真,则进行训练,如若不为真,则放弃该对<slot,value>组合值。
  6. 根据权利要求1所述的方法,其特征在于,上下文信息采用LSTM 和层次LSTM模型,使用不同的LSTM分别处理词、句子和段落级别输入,并使用自动编码器检测LSTM的文档特征抽取和重建能力。
  7. 根据权利要求6所述的方法,其特征在于,对每一轮对话,采用如下方法采集上下文信息:
    使用LSTM根据当前句子进行特征编码:Es LSTM sentence(Sent j),j表示当前句子个数;
    使用层次LSTM根据当前句子的上下文进行特征编码:Ed LSTM dialogue[LSTM sentence 1...j 1(Sent j)];
    使用LSTM根据当前句子的上下文以及对应的业务动作进行特征编码:Ea LSTM DialogueAct 1...K(DA K),其中K表示业务动作数量,DA K为第K个Dialogue Action;
    则根据上述方法,得到上下文信息的描述为D[Es,Ed,Ea]。
  8. 根据权利要求1-7中任一项所述的方法,其特征在于,基于所述<slot,value>训练数据集和所述上下文信息的准备,利用机器学习模型进行对话状态的跟踪训练,该训练可表示为:
    Figure PCTCN2019073477-appb-100003
    从而实现人机对话系统的可扩展性支持。
  9. 根据权利要求1和7中任一项所述的方法,根据进行拆分后的训练数据集,并对每个特征进行基于LSTM和层次LSTM的上下文信息描述,对每个特征形成训练数据集,进而对每个特征单独进行预测,则所有状态的组合,记为当前时刻的状态跟踪结果。
  10. 一种应用如权利要求1-9中任一项所述的方法的电子设备。
PCT/CN2019/073477 2019-01-25 2019-01-28 一种可扩展的领域人机对话系统状态跟踪方法及设备 WO2020151017A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910071447.0 2019-01-25
CN201910071447.0A CN109885668A (zh) 2019-01-25 2019-01-25 一种可扩展的领域人机对话系统状态跟踪方法及设备

Publications (1)

Publication Number Publication Date
WO2020151017A1 true WO2020151017A1 (zh) 2020-07-30

Family

ID=66926795

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/073477 WO2020151017A1 (zh) 2019-01-25 2019-01-28 一种可扩展的领域人机对话系统状态跟踪方法及设备

Country Status (2)

Country Link
CN (1) CN109885668A (zh)
WO (1) WO2020151017A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026857B (zh) * 2019-12-10 2022-07-08 思必驰科技股份有限公司 对话状态跟踪方法、人机对话方法及系统
CN112818097A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于对话框状态跟踪模型的任务外训练系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304489A (zh) * 2018-01-05 2018-07-20 广东工业大学 一种基于强化学习网络的目标引导型个性化对话方法与系统
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055403B2 (en) * 2016-02-05 2018-08-21 Adobe Systems Incorporated Rule-based dialog state tracking
US9977778B1 (en) * 2016-11-03 2018-05-22 Conduent Business Services, Llc Probabilistic matching for dialog state tracking with limited training data
CN108710704B (zh) * 2018-05-28 2021-04-02 出门问问信息科技有限公司 对话状态的确定方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN108304489A (zh) * 2018-01-05 2018-07-20 广东工业大学 一种基于强化学习网络的目标引导型个性化对话方法与系统
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法

Also Published As

Publication number Publication date
CN109885668A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
WO2020073694A1 (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN110517664B (zh) 多方言识别方法、装置、设备及可读存储介质
CN113272894A (zh) 完全监督的说话者日志化
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
US20230206928A1 (en) Audio processing method and apparatus
WO2020151690A1 (zh) 语句生成方法、装置、设备及存储介质
CN115083434B (zh) 一种情绪识别方法、装置、计算机设备及存储介质
CN111144124A (zh) 机器学习模型的训练方法、意图识别方法及相关装置、设备
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
Elshaer et al. Transfer learning from sound representations for anger detection in speech
KR20190136578A (ko) 음성 인식 방법 및 장치
WO2020151017A1 (zh) 一种可扩展的领域人机对话系统状态跟踪方法及设备
JP2021081713A (ja) 音声信号を処理するための方法、装置、機器、および媒体
Song Sentiment analysis of Japanese text and vocabulary learning based on natural language processing and SVM
CN110909230A (zh) 一种网络热点分析方法及系统
CN113435208A (zh) 学生模型的训练方法、装置及电子设备
CN115688868B (zh) 一种模型训练方法及计算设备
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116976461A (zh) 联邦学习方法、装置、设备及介质
CN116361442A (zh) 基于人工智能的营业厅数据分析方法及系统
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN111104806A (zh) 神经机器翻译模型的构建方法及装置、翻译方法及装置
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19911781

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19911781

Country of ref document: EP

Kind code of ref document: A1