CN106776828A - 用于保持对话系统对话连贯性的方法及系统 - Google Patents

用于保持对话系统对话连贯性的方法及系统 Download PDF

Info

Publication number
CN106776828A
CN106776828A CN201611060135.2A CN201611060135A CN106776828A CN 106776828 A CN106776828 A CN 106776828A CN 201611060135 A CN201611060135 A CN 201611060135A CN 106776828 A CN106776828 A CN 106776828A
Authority
CN
China
Prior art keywords
topic
current session
sentence
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611060135.2A
Other languages
English (en)
Other versions
CN106776828B (zh
Inventor
简仁贤
王海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhujian Intelligent Technology Guangzhou Co ltd
Original Assignee
Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Technology (shanghai) Co Ltd filed Critical Intelligent Technology (shanghai) Co Ltd
Priority to CN201611060135.2A priority Critical patent/CN106776828B/zh
Publication of CN106776828A publication Critical patent/CN106776828A/zh
Application granted granted Critical
Publication of CN106776828B publication Critical patent/CN106776828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用于保持对话系统对话连贯性的方法及系统,其中,方法包括,根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;从相关话题集合中挖掘出当前话题关键词;根据当前对话输入和当前话题关键词,确定应答输出。本发明提供的用于保持对话系统对话连贯性的方法及系统,根据当前对话输入的内容,实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合,并从切割出的相关话题集合中,挖掘出最具有代表性的当前话题关键词,由于所挖掘出的关键词包含了上下文信息,将当前对话输入内容与当前话题关键词一并作为系统输入,可以保持对话系统对话连贯性,从而实现人机对话达到持续深入的效果。

Description

用于保持对话系统对话连贯性的方法及系统
技术领域
本发明涉及一种用于保持对话系统对话连贯性的方法及系统。
背景技术
在人机对话系统中,用户和对话系统聊天的轮数是衡量该对话系统好坏的最直观的指标。为了提高用户和对话系统聊天的轮数,必须保障对话系统对话连贯性,一方面,在用户讨论的聊天主题下,对话系统需要尽可能在这个主题进行相关回复,避免答非所问;另一方面:当用户切换到新的聊天主题时,对话系统也需要切换到新的聊天主题下。
现有技术中,较为常用的保持对话系统对话连贯性的方法为:获取前面N轮的历史对话,并从中提取出关键词,然后将这些关键词跟当前用户的对话输入相结合,作为系统输入,由于该方法中包含前N轮对话的关键词信息,因而可以在一定程度上保持对话的连贯性。
但是,现有技术的缺陷在于:一方面,N的取值很难确定,如果取得过小,例如,N=1,那么只能包含前面一轮的历史对话信息,因而容易受限于局部信息;如果取得过大,又可能会超出上下文的范围,引入无关信息;另一方面,从N轮历史对话中很有可能获取过多的关键词,当相关度低甚至无关的关键词被引入时会给对话系统带来噪音,而且,无关的关键词越多,噪音越大,会严重影响对话质量。
发明内容
本发明要解决的技术问题是提供一种用于保持对话系统对话连贯性的方法及系统,根据当前对话输入的内容,实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合,并从切割出的相关话题集合中,挖掘出最具有代表性的当前话题关键词,由于所挖掘出的关键词包含了上下文信息,将当前对话输入内容与当前话题关键词一并作为系统输入,可以保持对话系统对话连贯性,从而实现人机对话达到持续深入的效果。
为解决上述技术问题,本发明提供的技术方案是:
一方面,本发明提供一种用于保持对话系统对话连贯性的方法,包括,根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;从相关话题集合中挖掘出当前话题关键词;根据当前对话输入和当前话题关键词,确定应答输出。
进一步地,根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合,具体包括,将当前对话输入标记为Q0,并对历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;根据当前对话输入和重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步地,话题切割规则为:计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算,其中,T为预先设置的话题分割阈值;计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算;计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算;以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步地,计算每两个句子之间语义相似度的步骤包括,将两个句子分别转换成句子向量,以获得第一句子向量和第二句子向量;计算第一句子向量与第二句子向量之间的余弦值,并将此余弦值记为两个句子间的语义相似度。
进一步地,将句子转换成句子向量的步骤具体包括,对句子进行分词,以获得至少一个词;在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;对匹配出的所有词向量进行计算,以获得句子对应的句子向量。
进一步地,从相关话题集合中挖掘出当前话题关键词,具体包括,对相关话题集合中的每个句子进行分词,以获得至少一个词;在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;计算每个词向量对应的方差,其中,方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;选取对应方差最小的词和对应方差最大的词作为当前话题关键词。
另一方面,本发明提供一种用于保持对话系统对话连贯性的系统,包括,话题切割模块:用于根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;关键词提取模块:用于从相关话题集合中挖掘出当前话题关键词;应答模块:用于根据当前对话输入和当前话题关键词,确定应答输出。
进一步地,话题切割模块,具体用于,将当前对话输入标记为Q0,并对历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;根据当前对话输入和重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步地,话题切割规则为:计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算,其中,T为预先设置的话题分割阈值;计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算;计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算;以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步地,关键词提取模块,具体用于,对相关话题集合中的每个句子进行分词,以获得至少一个词;在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;计算每个词向量对应的方差,其中,方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;选取对应方差最小的词和对应方差最大的词作为当前话题关键词。
本发明提供的用于保持对话系统对话连贯性的方法及系统,根据当前用户对话输入的内容,实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合,并从切割出的相关话题集合中,挖掘出最具有代表性的当前话题关键词,由于所挖掘出的关键词包含了上下文信息,将当前对话输入内容与当前话题关键词一并作为系统输入,可以保持对话系统对话连贯性,从而实现人机对话达到持续深入的效果。
附图说明
图1是本发明实施例提供的用于保持对话系统对话连贯性的方法的流程图;
图2是本发明实施例提供的用于保持对话系统对话连贯性的方法的又一流程图;
图3是本发明实施例提供的用于保持对话系统对话连贯性的系统的框图。
具体实施方式
下面通过具体的实施例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本发明。
实施例一
结合图1,本实施例提供的用于保持对话系统对话连贯性的方法,包括:
步骤S1:根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;
步骤S2:从相关话题集合中挖掘出当前话题关键词;
步骤S3:根据当前对话输入和当前话题关键词,确定应答输出。
本发明实施例提供的用于保持对话系统对话连贯性的方法,根据当前对话输入的内容,实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合,并从切割出的相关话题集合中,挖掘出最具有代表性的当前话题关键词,由于所挖掘出的关键词包含了上下文信息,将当前对话输入内容与当前话题关键词一并作为系统输入,可以保持对话系统对话连贯性,从而实现人机对话达到持续深入的效果。
优选地,如图2所示地,根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合,具体包括,
步骤S1.1:将当前对话输入标记为Q0,并对历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;
步骤S1.2:根据当前对话输入和重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
本实施例中,具体地,话题切割规则为:
a)计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算b),其中,T为预先设置的话题分割阈值;
b)计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算c);
c)计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算下一步骤;
以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步具体地,计算每两个句子之间语义相似度的步骤包括,将两个句子分别转换成句子向量,以获得第一句子向量和第二句子向量;计算第一句子向量与第二句子向量之间的余弦值,并将此余弦值记为两个句子间的语义相似度。
更加具体地,将句子转换成句子向量的步骤具体包括,对句子进行分词,以获得至少一个词;在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;对匹配出的所有词向量进行计算,以获得句子对应的句子向量。
进一步优选地,结合图2所示地,从相关话题集合中挖掘出当前话题关键词,具体包括,
步骤S2.1:对相关话题集合中的每个句子进行分词,以获得至少一个词;
步骤S2.2:在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;
步骤S2.3:计算每个词向量对应的方差,其中,方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;
步骤S2.4:选取对应方差最小的词和对应方差最大的词作为当前话题关键词。
本实施例中,词对应的方差越小,表示该词越处于中心位置,即,该词与相关话题集合中的其他词在语义上越接近;而词对应的方差越大,则表示该词越处于边沿位置,即,该词与相关话题集合中的其他词在语义上差异越大。此外,本实施例选取对应方差最小的词和对应方差最大的词作为当前话题关键词,其原因在于,方差最小,表示该词最能够表示当前话题中所论述的内容;方差最大,表示该词最能够表示当前话题所能达到的外沿部分,这两个词从两个不同的维度编码了当前话题的上下文信息,能够更好地把控全局对话信息,从而更好地保持对话连贯性。
实施例二
结合图3,本实施例提供的用于保持对话系统对话连贯性的系统,包括,
话题切割模块1:用于根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;
关键词提取模块2:用于从相关话题集合中挖掘出当前话题关键词;
应答模块3:用于根据当前对话输入和当前话题关键词,确定应答输出。
本发明实施例提供的用于保持对话系统对话连贯性的系统,根据当前对话输入的内容,实时地从所有以往话题中切割出与当前对话属于同一话题的相关话题集合,并从切割出的相关话题集合中,挖掘出最具有代表性的当前话题关键词,由于所挖掘出的关键词包含了上下文信息,将当前对话输入内容与当前话题关键词一并作为系统输入,可以保持对话系统对话连贯性,从而实现人机对话达到持续深入的效果。
优选地,话题切割模块1,具体用于,
将当前对话输入标记为Q0,并对历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;
根据当前对话输入和重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
本实施例中,具体地,话题切割规则为:
a)计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算b),其中,T为预先设置的话题分割阈值;
b)计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算c);
c)计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算下一步骤;
以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
进一步优选地,关键词提取模块2,具体用于,对相关话题集合中的每个句子进行分词,以获得至少一个词;在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;计算每个词向量对应的方差,其中,方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;选取对应方差最小的词和对应方差最大的词作为当前话题关键词。
本实施例中,词对应的方差越小,表示该词越处于中心位置,即,该词与相关话题集合中的其他词在语义上越接近;而词对应的方差越大,则表示该词越处于边沿位置,即,该词与相关话题集合中的其他词在语义上差异越大。此外,本实施例选取对应方差最小的词和对应方差最大的词作为当前话题关键词,其原因在于,方差最小,表示该词最能够表示当前话题中所论述的内容;方差最大,表示该词最能够表示当前话题所能达到的外沿部分,这两个词从两个不同的维度编码了当前话题的上下文信息,能够更好地把控全局对话信息,从而更好地保持对话连贯性。
尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。

Claims (10)

1.一种用于保持对话系统对话连贯性的方法,其特征在于,包括:
步骤S1:根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;
步骤S2:从所述相关话题集合中挖掘出当前话题关键词;
步骤S3:根据所述当前对话输入和所述当前话题关键词,确定应答输出。
2.根据权利要求1所述的用于保持对话系统对话连贯性的方法,其特征在于,所述根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合,具体包括,
步骤S1.1:将当前对话输入标记为Q0,并对所述历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;
步骤S1.2:根据当前对话输入和所述重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
3.根据权利要求2所述的用于保持对话系统对话连贯性的方法,其特征在于,所述话题切割规则为:
a)计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算b),其中,T为预先设置的话题分割阈值;
b)计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算c);
c)计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算下一步骤;
以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
4.根据权利要求3所述的用于保持对话系统对话连贯性的方法,其特征在于,计算每两个句子之间语义相似度的步骤包括,
将所述两个句子分别转换成句子向量,以获得第一句子向量和第二句子向量;
计算所述第一句子向量与所述第二句子向量之间的余弦值,并将此余弦值记为两个句子间的语义相似度。
5.根据权利要求4所述的用于保持对话系统对话连贯性的方法,其特征在于,所述将句子转换成句子向量的步骤具体包括,
对所述句子进行分词,以获得至少一个词;
在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;
对匹配出的所有所述词向量进行计算,以获得所述句子对应的句子向量。
6.根据权利要求1所述的用于保持对话系统对话连贯性的方法,其特征在于,所述从相关话题集合中挖掘出当前话题关键词,具体包括,
步骤S2.1:对所述相关话题集合中的每个句子进行分词,以获得至少一个词;
步骤S2.2:在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;
步骤S2.3:计算每个所述词向量对应的方差,其中,所述方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;
步骤S2.4:选取对应方差最小的词和对应方差最大的词作为所述当前话题关键词。
7.一种用于保持对话系统对话连贯性的系统,其特征在于,包括:
话题切割模块:用于根据当前对话输入,实时地从所有历史对话中切割出与当前对话属于同一话题的相关话题集合;
关键词提取模块:用于从所述相关话题集合中挖掘出当前话题关键词;
应答模块:用于根据所述当前对话输入和所述当前话题关键词,确定应答输出。
8.根据权利要7所述的用于保持对话系统对话连贯性的系统,其特征在于,所述话题切割模块,具体用于,
将当前对话输入标记为Q0,并对所述历史对话重新标记,其中,历史对话为[Q1,A1],[Q2,A2],…[Qi,Ai],…[Qn,An],重新标记后的历史对话为S1,S2,S3,S4,…,S2i-1,S2i,…S2n-1,S2n,其中,n为历史对话的总数量,[Qi,Ai]为第i轮历史对话,Qi为第i轮历史对话中的对话输入,Ai为第i轮历史对话中的应答输出,S2i-1为Qi重新标记后对应的句子,S2i为Ai重新标记后对应的句子;
根据当前对话输入和所述重新标记后的历史对话,按照预先设定的话题切割规则进行话题切割,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
9.根据权利要求8所述的用于保持对话系统对话连贯性的系统,其特征在于,所述话题切割规则为:
a)计算S1与Q0的之间语义相似度M1,0,若M1,0<T,则S1与Q0不属于同一话题,若M1,0≥T,则继续计算b),其中,T为预先设置的话题分割阈值;
b)计算S2分别与S1和QO之间的语义相似度M2,1,M2,0,若max(M2,1,M2,0)<T,则S1与Q0属于同一话题,若max(M2,1,M2,0)≥T,则继续计算c);
c)计算S3分别与S2,S1和QO之间的语义相似度M3,2,M3,1,M3,0,若max(M3,2,M3,1,M3,0)<T,则S2,S1与Q0属于同一话题,若max(M3,2,M3,1,M3,0)≥T,则继续计算下一步骤;
以此类推,以获得所有历史对话中与当前对话输入属于同一话题的相关话题集合。
10.根据权利要求7所述的用于保持对话系统对话连贯性的系统,其特征在于,所述关键词提取模块,具体用于,
对所述相关话题集合中的每个句子进行分词,以获得至少一个词;
在预先训练好的word2vec矩阵中匹配出每个词对应的词向量;
计算每个所述词向量对应的方差,其中,所述方差的计算公式为,Di=(Ci-C1)2+(Ci-C2)2+...+(Ci-Ci-1)2+(Ci-Ci+1)2+...+(Ci-Cm)2,其中,Di为第i个词向量对应的方差,Ci为第i个词对应的词向量,m为总的词向量的个数;
选取对应方差最小的词和对应方差最大的词作为所述当前话题关键词。
CN201611060135.2A 2016-11-24 2016-11-24 用于保持对话系统对话连贯性的方法及系统 Active CN106776828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611060135.2A CN106776828B (zh) 2016-11-24 2016-11-24 用于保持对话系统对话连贯性的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611060135.2A CN106776828B (zh) 2016-11-24 2016-11-24 用于保持对话系统对话连贯性的方法及系统

Publications (2)

Publication Number Publication Date
CN106776828A true CN106776828A (zh) 2017-05-31
CN106776828B CN106776828B (zh) 2020-12-15

Family

ID=58913218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611060135.2A Active CN106776828B (zh) 2016-11-24 2016-11-24 用于保持对话系统对话连贯性的方法及系统

Country Status (1)

Country Link
CN (1) CN106776828B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN108038209A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 答案选择方法、装置和计算机可读存储介质
CN108153737A (zh) * 2017-12-30 2018-06-12 北京中关村科金技术有限公司 一种语义分类的方法、系统及对话处理系统
CN108959447A (zh) * 2018-06-13 2018-12-07 北京信息科技大学 一种对话语篇中对话者的心理距离分析方法
CN110019691A (zh) * 2017-07-19 2019-07-16 北京嘀嘀无限科技发展有限公司 会话消息处理方法和装置
CN110442686A (zh) * 2018-05-03 2019-11-12 阿里巴巴集团控股有限公司 信息确定、关联对构建与会话回复方法、系统及设备
CN111414462A (zh) * 2020-02-21 2020-07-14 网易(杭州)网络有限公司 一种对话语句确定方法、装置、计算机设备和介质
CN111753074A (zh) * 2020-06-30 2020-10-09 贝壳技术有限公司 用于实现会话的方法、装置、介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN104008160A (zh) * 2014-05-29 2014-08-27 吴春尧 一种实现并行话题控制的模糊推理聊天机器人方法和系统
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN104008160A (zh) * 2014-05-29 2014-08-27 吴春尧 一种实现并行话题控制的模糊推理聊天机器人方法和系统
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RYAN LOWE等: "The Ubuntu Dialogue Corpus-- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems", 《ARXIV.ORG》 *
郭胜国等: "基于词向量的句子相似度计算及其应用研究", 《现代电子技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019691A (zh) * 2017-07-19 2019-07-16 北京嘀嘀无限科技发展有限公司 会话消息处理方法和装置
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN108038209A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 答案选择方法、装置和计算机可读存储介质
CN108153737A (zh) * 2017-12-30 2018-06-12 北京中关村科金技术有限公司 一种语义分类的方法、系统及对话处理系统
CN110442686A (zh) * 2018-05-03 2019-11-12 阿里巴巴集团控股有限公司 信息确定、关联对构建与会话回复方法、系统及设备
CN108959447A (zh) * 2018-06-13 2018-12-07 北京信息科技大学 一种对话语篇中对话者的心理距离分析方法
CN111414462A (zh) * 2020-02-21 2020-07-14 网易(杭州)网络有限公司 一种对话语句确定方法、装置、计算机设备和介质
CN111414462B (zh) * 2020-02-21 2023-06-30 网易(杭州)网络有限公司 一种对话语句确定方法、装置、计算机设备和介质
CN111753074A (zh) * 2020-06-30 2020-10-09 贝壳技术有限公司 用于实现会话的方法、装置、介质和电子设备

Also Published As

Publication number Publication date
CN106776828B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN106776828A (zh) 用于保持对话系统对话连贯性的方法及系统
CN107832286B (zh) 智能交互方法、设备及存储介质
CN111488462B (zh) 基于知识图谱的推荐方法、装置、设备及介质
CN103187052B (zh) 一种建立用于语音识别的语言模型的方法及装置
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
CN103810218B (zh) 一种基于问题簇的自动问答方法和装置
CN107665708A (zh) 智能语音交互方法及系统
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN107818781A (zh) 智能交互方法、设备及存储介质
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN103365867A (zh) 一种对用户评价进行情感分析的方法和装置
CN101609672B (zh) 一种语音识别语义置信特征提取的方法和装置
CN110795542A (zh) 对话方法及相关装置、设备
CN116680384A (zh) 知识问答方法、装置、设备及存储介质
CN109857869B (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN105100353A (zh) 一种对移动终端的新增联系人进行通讯录分组的方法
CN111563198B (zh) 一种物料召回方法、装置、设备及存储介质
CN109410935A (zh) 一种基于语音识别的目的地搜索方法及装置
CN115129819A (zh) 文本摘要模型生产方法及其装置、设备、介质
JP2018055671A (ja) 換言文識別方法、換言文識別装置及び換言文識別プログラム
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
JP2017151933A (ja) データ分類装置、データ分類方法、及びプログラム
CN110347807B (zh) 问题信息处理方法及装置
CN104866091A (zh) 一种用于在计算机设备中输出音效信息的方法和装置
KR20190011176A (ko) 속성 언어를 이용한 검색 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240520

Address after: Room 122, First Floor, No. 2429 Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province, 510000 (for office only)

Patentee after: Zhujian Intelligent Technology (Guangzhou) Co.,Ltd.

Country or region after: China

Address before: 200233 room 2075, 2 / F, building 1, 146 Fute East 1st Road, Pudong New Area Free Trade Zone, Shanghai

Patentee before: ZHUJIAN INTELLIGENT TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right