CN110442686A - 信息确定、关联对构建与会话回复方法、系统及设备 - Google Patents
信息确定、关联对构建与会话回复方法、系统及设备 Download PDFInfo
- Publication number
- CN110442686A CN110442686A CN201810415344.7A CN201810415344A CN110442686A CN 110442686 A CN110442686 A CN 110442686A CN 201810415344 A CN201810415344 A CN 201810415344A CN 110442686 A CN110442686 A CN 110442686A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- semantic
- association
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例提供一种信息确定、关联对构建与会话回复方法、系统及设备。其中,信息确定方法包括:基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;根据查询结果,确定所述上文数据与所述下文数据是否具有承接性。本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息确定、关联对构建与会话回复方法、系统及设备。
背景技术
随着互联网的迅速发展,越来越多的用户通过互联网获取信息或进行相互通讯。如问答平台作为一种网络中获取信息和进行信息交流的平台普遍流行起来,尤其是自动问答平台。
目前,越来越多的用户转移到手机端自动问答平台咨询问题。手机端的对话框比计算机端的小很多,用户问问题的时候更多的倾向使用短文本描述问题,也就是说将一句话分成多个子句来提问。而现有自动问答平台涉及的业务比较复杂多样,用户的提问有各种可能再加上多使用短句的表达方式,现有自动问答平台要识别用户问题的上下文话题是否发生切换是比较难的,进而影响了现有自动问答平台的应答准确性。
申请内容
鉴于上述问题,提出了本申请以便提供一种解决上述问题或至少部分地解决上述问题的信息确定、关联对构建与会话回复方法、系统及设备。
在本申请的一个实施例中,提供了一种信息确定方法。该方法,包括:
基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
在本申请的另一个实施例中,提供了一种关联对构建方法。该方法,包括:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
在本申请的又一个实施例中,提供了一种信息确定装置,包括:
构建模块,用于基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
查询模块,用于在接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对以查找包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
确定模块,用于未查找到所述目标关联对时,确定所述上文数据与所述下文数据不具承接性。
在本申请的一个实施例中,提供了一种会话回复方法。该方法,包括:
接收客户端上传的用户会话数据;
获取所述会话数据的上文数据;
查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定回复数据;
将所述回复数据反馈至客户端。
在本申请的另一个实施例中,提供了一种会话回复方法。该方法,包括:
响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端;
接收所述服务端反馈的回复数据;
显示所述回复数据;
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
在本申请的一个实施例中,提供了一种会话回复系统。该系统包括:
服务端,用于接收客户端上传的用户会话数据;获取所述会话数据的上文数据;查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果,确定回复数据;将所述回复数据反馈至客户端;
客户端,用于响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端;接收所述服务端反馈的回复数据;显示所述回复数据。
在本申请的一个实施例中,提供了一种电子设备,包括:第一存储器以及第一处理器;
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
在本申请的另一个实施例中,提供了一种电子设备,包括:第二存储器以及第二处理器;
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个样本语义词。
在本申请的一个实施例中,提供了一种服务端设备。该服务端设备,包括:第三存储器、第三处理器及第三通信组件;其中,
所述第三存储器,用于存储程序;
所述第三通信组件,与所述第三处理器耦合,用于接收客户端上传的用户会话数据;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
获取所述会话数据的上文数据;
查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定回复数据;
所述第三通信组件,还用于将所述回复数据反馈至客户端。
在本申请的另一个实施例中,提供了一种客户端设备。该客户端设备包括:第四存储器、第四处理器、第四通信组件及第四显示器;其中,
所述第四存储器,用于存储程序;
所述第四处理器,与所述第四存储器耦合,用于执行所述第四存储器中存储的所述程序,以用于:
响应于用户触发的会话数据输入事件,控制所述第三通信组件将所述会话数据发送至服务端;
在所述第三通信组件接收到所述服务端反馈的回复数据后,控制所述第四显示器显示所述回复数据;
所述第三通信组件,与所述第四处理器耦合,用于将所述会话数据发送至所述服务端,以及接收所述服务端反馈的所述回复数据;
所述第四显示器,与所述第四处理耦合,用于显示所述回复数据;
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的信息确定方法的流程示意图;
图2为本申请一实施例提供的关联对构建方法的流程示意图;
图3为本申请实施例提供的关联对构建方法中关联对提取过程示意图;
图4为本申请另一实施例提供的关联对构建方法的流程示意图;
图5为本申请一实施例提供的关联对构建方法中基于一具体语义词序列构建的关联对关系示意图;
图6为本申请一实施例提供的会话回复系统的结构示意图;
图7为本申请一实施例提供的会话回复方法的流程示意图;
图8为本申请另一实施例提供的会话回复方法的流程示意图;
图9为本申请一实施例提供的信息确定装置的结构示意图;
图10为本申请一实施例提供的电子设备的结构示意图;
图11为本申请一实施例提供的关联对构建装置的结构示意图;
图12为本申请又一实施例提供的电子设备的结构示意图;
图13为本申请一实施例提供的会话回复装置的结构示意图;
图14为本申请一实施例提供的服务端设备的结构示意图;
图15为本申请另一实施例提供的会话回复装置的结构示意图;
图16为本申请一实施例提供的客户端设备的结构示意图。
具体实施方式
自动问答平台,即一个可以接收用户自然语言形式的输入,在理解用户意图的基础上,基于企业知识库、数据库等资源,自动给出回复的应用平台。自动问答平台(如阿里小蜜)其涉及的业务面较多,例如,账号登陆,密码注销,支付绑定,退款,退货、航旅业务查询、机票查询,火车票查询等业务问题。越来越来多的用户喜欢使用手机向自动问答平台咨询问题。手机端对话框比计算机端小的多,用户咨询问题的时候更多的倾向使用短文本描述,也就是说将一句话分成多个子句来提问。用户在向自动问答平台询问的过程中会进行多轮的对话,在多轮对话的过程中经常会出现用户询问话题切换的情况。现有自动问答平台的重点还在于理解用户发送来的问题为用户推荐比较合适的问题答案。用户提问时使用的短句在不同的业务领域其对应的问题答案是不同的,若仅基于单一短句作出应答,极易出现答非所问的情况。目前,自动问答平台在识别一些问题的上下文话题是否发生切换是比较困难的。为此,本申请实施例提供一种信息确定方法、关联对构建方法、会话回复方法、系统及电子设备,以解决或改善现有技术中自动问答平台存在的问题。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请一实施例提供的信息确定方法的流程示意图。如图1所示,本实施例提供的方法包括:
101、基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据。
102、接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对。
103、根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
上述101中,语料样本可以是系统自动收集或人工收集的属于同一话题的一个会话内容。一个会话内容中可包含有至少一个询问问题。如下表1所示的一个典型的语料样本,表1中SessionID(会话标识)表示用户进入自动问答平台的一个会话ID。当用户退出自动问答平台,再次进入自动问答平台时自动问答平台会重新生成另外唯一的seesionID来表示是一个新的会话。ChatID(问题标识)标示一次会话中的每一个问题。ChatID可以是一个自增的数字,ChatID值越大,表示提问问题的顺序越靠后。比如表1中的SessionId为111的一个会话中,ChatId为1的问题是“要求退款”,然后在同一个会话中再次问了chatID为2的问题“3218060038427832”,最后chatID为3的问题是“谁给我退运费险”。
表1所示的一个典型的语料样本
SessionID | ChatID | 客户问题 |
111 | 1 | 要求退款 |
111 | 2 | 3218********7832 |
111 | 3 | 谁给我退运费险 |
语料样本中可包含有至少一个话题的语料。一对关联对中的两个样本数据为从同一话题的语料中提取出来的。承接关系是指关联对中的两个样本数据具有先后关系,这里两个样本数据的先后关系是指样本数据在话题语料中出现的先后。在一种可实现的技术方案中,基于同一话题的语料构建关联对可包括如下步骤:从同一话题的语料中提取至少两个语义词;至少两个语义词按照其在语料中的出现顺序排序得到语义词序列;从语义词序列中顺序地提取语义词序列以构成关联对。其中,关联对包括两个样本数据,样本数据包括至少一个语义词序列中的至少一个连续语义词。
以上述表1所示的有关退款话题的语料样本为例。上述表1所示的语料“要求退款、3218********7832、谁给我退运费险”可提取出三个语义词。这三个语义词分别为“退款流程、订单号、运费险理赔”。这里需要补充的是:实际应用中同一种语义不同用户会采用不同的表达方式,例如,退款流程,用户可表达为:要求退款、钱款退回、钱退回来、退款退货等等。为了方便后续的处理,这里对语料中各语义语段都统一为对应的语义词。将语义语段统一为对应的语义词可采用类似于如下的规则表2来完成:
表2、语义归一化规则表
上述语义词“退款流程”对应的语义语段“要求退款”的ChatID为1;上述语义词“订单号”对应的语义语段“3218********7832”的ChatID为2;上述语义词“运费险理赔”对应的语义语段“谁给我退运费险”的ChatID为3;按照上述各语义词对应的ChatID的顺序,排列各语义词得到如下的语义词序列“退款流程、订单号、运费险理赔”。
从语义词序列“退款流程、订单号、运费险理赔”中顺序地提取“退款流程”和“订单号”分别作为关联对1中的两个样本数据;或者,顺序地提取“退款流程、订单号”和“运费险理赔”作为关联对2中的两个样本数据;等等。
自动问答平台可以包括前端的人机交互模块以及后端的核心处理模块。其中,人机交互模块也可称为人机交互界面,用于与用户进行互动,如自动问答平台通过人机交互模块可以接收用户所提问的原始问题,并根据原始问题作出相应的应答处理,并将应答内容反馈至人机交互模块供用户查看。上述102中,用户即可通过移动终端侧应用的自动问答接口接入自动问答平台,进而可通过移动终端侧的人机交互界面输入问题。用户通过人机交互界面输入问题并触发提交事件后,即可被发送至服务端(即核心处理模块)。用户两次发送的问题,时间在前的问题为上文数据,时间在后的问题为下文数据。
本申请中提及的语义关联涵盖了两个词或文本之间存在的语义上的相同或相近),以及在某一场景下的语义相关。由此可知,本实施例提供的技术方案中,第一样本数据与上文数据语义关联可理解为:第一样本数据与上文数据在语义上的相同或相近,或者具有一定的语义相关度。同样的,第二样本数据与下文数据可理解为:第二样本数据与下文数据在语义上的相同或相近,或者具有一定的语义相关度。在具体实施时,语义上的相同或相近可采用现有自然语言处理技术中的语义相似度分析算法实现;语义相关可采用自然语义处理技术中的语义相关度算法实现,具体实现过程可参见现有技术中的内容,此次不再赘述。例如,“退回钱款”与“退款”属于语义上的相同或相近;“3218********7832”与“订单号”在电商应用场景下具有较强的相关性。
由此可知,本步骤102可采用现有语义相似度分析算法及语义相关度算法即可确定出关联对中的第一样本数据是否与上文数据语义关联,第二样本数据是否与下文数据语义关联,以从至少一个关联对中查找目标关联对。
另一种可实现的技术方案中,本步骤102在查询至少一个关联对之前,还可先对接收到的上文数据和下文数据进行处理,以避免查询时的语义相似度及相关度计算过程。具体地,上述102可采用如下方法实现:
S1、从所述上文数据中提取至少一个上文语义词。
S2、从所述下文数据中提取至少一个下文语义词。
S3、查询所述至少一对关联对以查找由含有所述至少一个上文语义词的第一样本数据以及含有所述至少一个下文语义词的第二样本数据构成的所述目标关联对。
上述步骤S1和S2分别从上文数据和下文数据中提取语义词的过程,实质上可简单理解为标准化的过程,以将采用不同表达方式具有相同语义的词语统一为标准语义词。这样在S3查询过程中就不需要进行语义相似度及相关分析,直接查找是否包含有相同语义词的方式来查找目标关联对即可。
在一种具体的可实施的方案中,上述步骤S1可采用如下方法实现:
首先,将所述上文数据划分为至少一个单语义语段I;
然后,分别对所述至少一个单语义语段I进行转换处理,得到所述至少一个上文语义词。
单语义语段I的划分过程可基于现有技术中的语义分析方法来实现,按照一个语义表达意图划分为一个语段的方式对上文数据进行划分得到。上述对单语义语段进行转换处理的过程可采用查表(如上述表2所示的语义归一化规则表)的方式实现。
例如,上文数据为“产品已收到,但产品没有商家描述的那么好”;通过语义分析算法可分析出该上文数据包含有两个单语义语段,分别为“产品已收到”以及“但产品没有商家描述的那么好”。通过查询表2所示的语义归一化规则表,将“产品已收到”转换处理得到对应的语义词“收到货”;将“产品没有商家描述的那么好”转换处理得到对应的语义词“描述不符”。
从所述下文数据中提取至少一个下文语义词的过程,同上述上文语义词的提取过程,此处不再赘述。
上述103中,根据查询结果,确定所述上文数据和所述下文数据是否具有承接性,可具体包括:
1031、所述查询结果为未查找到所述目标关联对时,确定所述上文数据与所述下文数据不具承接性。
在未查找到目标关联对时确定出的上文数据和下文数据不具承接性的信息,说明了用户的话题出现切换;此时,自动问答平台可基于该确定出的不具承接性的信息,重新确定用户的意图然后根据新的意图为用户提供相应的应答服务。
1032、所述查询结果为查找到所述目标关联对时,确定所述上文数据与所述下文数据具有承接性。
上文数据和下文数据具有承接性,说明用户的话题未切换;此时,自动问答平台还可基于当前的话题(即上文数据的话题)为用户提供相应的应答服务。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性即更准确,更有助于提高后续为用户提供的应答内容的准确性。
进一步的,上述实施例还可包括如下步骤:
104、所述查询结果为查找到所述目标关联对时,标记所述上文数据和所述下文数据为承接关系,以作为语料样本。
上述实施例中,语料样本可以是人工或系统自动从自动问答系统中收集得到的。语料样本中包含有至少一个话题的语料,语料包含用户在一次会话中提出的所有问题文本。语料样本中包含的语料越多,基于该语料样本得到的关联对也就越多,这样将这些关联对作为上下文数据承接性确定依据作出的结果也就越准确。其中,语料样本中包含的各语料应该是预先被确定属于同一话题的语料。这里需要说明的是:语料样本的自动收集以及确定语料是否属于同一话题的内容均可参见现有相关技术,此处不再赘述。下面以一个话题的语料为例对关联对构建方法进行说明。即上述实施例提供的信息确定方法中构建关联对过程(上述实施例的101步骤)可具体采用如下实施例提供的方法实现。
图2示出了本申请一实施例提供的关联对构建方法的流程示意图。如图2所示,本实施例提供的所述方法,包括:
201、从同一话题的语料中提取至少两个样本语义词。
202、根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列。
203、从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
上述201中,从语料中提取样本语义词的过程可简单理解为用语标准化的过程。具体的,上述201的实现过程可具体表述为如下内容:
首先,将所述语料划分为至少两个单语义语段II;
然后,分别对所述至少两个单语义语段II进行转换处理,得到所述至少两个样本语义词。
单语义语段II的划分过程可基于现有技术中的语义分析方法来实现,按照一个语义表达意图划分为一个语段的方式对上文数据进行划分得到。上述对单语义语段进行转换处理的过程可采用查表(如上述表2所示的语义归一化规则表)的方式实现。
语料中包含的至少两个单语义语段可能是用户在一次会话中一次发送的,也可能是用户在一次会话中分两次或多次发送的。同一语料中包含的至少两个单语义语段具有相同的SessionID。相应的,上述202中,若至少两个单语义语段为一次发送的,则至少两个单语义语段具有相同的ChatID,此时需根据各单语义语段在一次发送的语料中出现的顺序来排列各单语义语段对应的样本语义词。若语料中包含的至少两个单语义语段是用户分多次发送的,且每个单语义语段具有一个ChatID,则可直接根据各单语义语段对应的ChatID来排列各单语义语段对应的样本语义词。
上述203中提及的顺序提取过程可具体是:从语义词序列中顺序提取一个或多个样本语义词作为关联对1中的一个样本数据,然后从排在第一样本数据中最后一个样本语义词之后的样本数据开始再顺序提取一个或多个样本语义词作为上述关联对1中的另一个样本数据。举例来说,语义词序列为{a,b,c,d,e},假设从该语义词序列中顺序提取了{a,b}作为关联对1中的一个样本数据,然后从b之后的样本数据,如c或d等开始再顺序地提取{c,d}作为关联对1中的另一个样本数据。
一种可实现的技术方案中,可基于预先设置的窗口对配置信息实现上述203中的关联对构建过程。即上述203可采用如下方法实现:
2031、获取窗口对配置信息。
其中,所述窗口对配置信息包括第一窗口提取数量M、第二窗口提取数量N以及所述第一窗口和所述第二窗口间间隔语义词的数量D。该窗口对配置信息可以为预先配置好的信息。
2032、根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作。
其中,通过所述关联对提取操作提取出的关联对包括两个样本数据,两个样本数据中一个样本数据包含有所述语义词序列中的M个连续样本语义词,另一个样本数据包含有所述语义词序列中的N个连续样本语义词,且所述M个连续的样本语义词与所述N个连续的样本语义词中间隔有D个样本语义词;M为≥1的自然数,N为≥1的自然数,D为自然数。
上述2032中提取过程可具体为:按照所述窗口对配置信息中包含的M、N以及D值,从语义词序列中提取出M个连续样本语义词作为关联对中的一个样本数据,间隔D个样本语义词再从语义词序列中提取出N个连续样本语义词作为关联对中的另一个样本数据。这里仅示出了使用窗口对配置信息提取一对关联对的过程。
实质上,使用窗口对配置信息对所述语义词序列进行关联对提取操作可以是一个连续操作行为。即,在另一种可实现的技术方案中,上述2032中对所述语义词序列进行关联对提取操作,可具体包括如下内容:
将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据;
调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
这里需要说明的是,调整所述提取开始位置可具体为:将所述提取开始位置后移至少一个语义词的距离,得到调整后的所述提取开始位置。为了从语义词序列中提取出更多个关联对,以提高其覆盖范围,使其更泛化,这里每次提取开始位置调整均后移一个语义词的距离,这样能遍历到语义词序列中的所有语义词。
为了便于理解上述2031和2032步骤的内容,下面举一具体实例进行说明。假设,所述窗口对配置信息中,第一窗口提取数量M=1、第二窗口提取数量N=1以及所述第一窗口和所述第二窗口间间隔语义词的数量D=0。语义词序列为{a,b,c,d,e},其中,a,b,c,d和e分别为该序列中的一个语义词。每次调整提取开始位置为上一次提取位置后移一个语义词的距离。参见图3所示,关联对提取过程包括:
第一次提取:第一窗口10处于a位置;因D=0,相应的第二窗口20处于b位置。第一次提取的关联对I为:a->b;
第二次提取:第一窗口10后移一个语义词至b位置;因D=0,相应的第二窗口20处于c位置。第一次提取的关联对II为:b->c;
第三次提取:第一窗口10继续后移一个语义词至c位置;因D=0,相应的第二窗口20处于d位置。第一次提取的关联对III为:c->d;
第四次提取:第一窗口10继续后移一个语义词至d位置;因D=0,相应的第二窗口20处于e位置。第一次提取的关联对Ⅳ为:d->e;
由于提取出关联对Ⅳ中的一个样本数据e为语义词序列中排序最后的样本语义词,因此提取操作停止。
上述在关联对提取过程中,窗口对配置信息中的第一窗口提取数量M=1、第二窗口提取数量N=1以及所述第一窗口和所述第二窗口间间隔语义词的数量D=0;都是一个定值。也就是说,窗口对配置信息中各值定了以后,提取出的所有关联对中两个样本数据中包含的语义词的数量也就定了,且两个样本数据之间间隔的语义词的数量也就定了。
但在实际场景中,用户在自动问答平台中提问的时候,会多个字句表达一个完整的话题。比如,用户分为四个句子,并分四次发送至自动问答平台:“ABC”->“DE”->“F”->“G”。采用上面的方案,因为窗口对配置信息是一定的,所以提取出的关联对的每个样本数据中包含的语义词的数量是一定。假设,窗口对配置信息中,第一窗口提取数量M=1、第二窗口提取数量N=1以及所述第一窗口和所述第二窗口间间隔语义词的数量D=0;提取出的关联对中每个样本数据均包含有一个语义词。这样的话,像“ABC”包含3个语义词的样本数据与“DE”包含2个语义词的样本数据构成的关联对就会覆盖不到。
为此,本申请还可通过调整窗口对配置信息的方式来提升关联对的覆盖率。即,上述203除包括上述2031和2032外,还包括如下步骤:
2033、调整所述窗口对配置信息。
2034、根据调整后的所述窗口对配置信息,再次对所述语义词序列进行关联对提取操作直至调整后的所述窗口对配置信息满足调整结束条件为止。
上述调整窗口对配置信息包括:调整所述M的取值;和/或调整所述N的取值;和/或调整所述D的取值。即,调整窗口对配置信息时,可仅按照调整策略调整M的取值,也可仅按照调整策略调整N的取值,还可仅按照调整策略调整D的取值;或者,按照调整策略同时调整M、N和D中任意两个或全部的取值。
这里需要说明的是:为了遍历到语义词序列中所有语义词,并使得提取出的所有关联对覆盖更全面,每次调整窗口对配置信息时仅调整窗口对配置信息中的一个参数的取值,即M、N和D中的一个取值。即,如图4所示,上述从语义词序列中顺序地提取样本语义词以构成关联对,可具体表征为如下的过程:
步骤1、获取窗口对配置信息;窗口对配置信息中包括:M、N及D。
步骤2、将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据。
步骤3、调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
步骤4、调整窗口对配置信息中M的取值,并判断调整后的M是否大于调整结束条件中设定的第一阈值,若否,则返回步骤2;若是,则进入步骤5;
例如,M取值加1作为更新后的M。
步骤5、调整窗口对配置信息中N的取值,并判断调整后的N是否大于调整结束条件中设定的第二阈值,若否,则返回步骤2;若是,则进入步骤6;
例如,N取值加1作为更新后的N。
步骤6、调整窗口对配置信息中D的取值,并判断调整后的D是否大于调整结束条件中设定的第三阈值,若否,则返回步骤2;若是,则结束。
这里需要说明的是:上述调整结束条件可根据语义词序列中的语义词数量来确定。即,本申请提供的上述各实施例提供的方法还可包括:
根据所述语义词序列中的语义词数量,确定所述调整结束条件。
参见上述图4所示的关联对提取操作过程可知,上述调整结束条件可包括:第一阈值、第二阈值和第三阈值。其中,第一阈值、第二阈值和第三阈值均可根据语义词序列中的语义词数量确定。例如,语义词序列中的语义词数量为5个,则可按照阈值设定规则(比如总数减少一个、两个等的规则)确定出第一阈值为4或3等;同样的,第二阈值可为4或3等;其中,若语义词序列中语义词数量为2个,则第三阈值可以为0;若语义词序列中语义词数量为3个或3个以上时,则第三阈值可以为1、2….等等。
当然,上述调整结束条件也可人为规定,对此本申请实施例不作具体限定。
这里需要说明的是:窗口对配置信息中D的取值是指关联对中两个样本数据之间间隔的样本语义词的数量。D的取值越小则说明这两个样本数据的承接性更强;D的取值越大,基于该D值提取出的关联对的意义不大,因为两个样本数据之间的顺序关联性不强。因此,窗口对配置信息中D的取值对应的第三阈值可人为的进行一个设定,例如,设定第三阈值为1或2,将其控制在较小的取值范围内。
本申请实施例提供的技术方案中,关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
进一步的,上述各实施例提供的所述方法中,构建得到的关联对可使用表结构存储,还可使用倒排索引存储,本申请实施例对此不作具体限定。
为了进一步的说明本申请提供的技术方案,本申请将在下述内容中从申请人构想方案到方案的具体实现进行全面的说明。
表3示出了一个典型的服务领域上下文询问的实例及各客户问题语义语段对应的语义词。同样表1,表3中SessionID表示用户进入自动问答平台的一个会话ID。ChatID标示一次会话中的每个问题。其中,各客户问题语义语段对应的语义词可通过查询上述表2得到。
表3、一个典型的服务领域上下文询问的实例
如果将将上述语义词合并起来,其中子句间使用“#”来区分。一个SessionID内的语义词合并就成为类似如下表4中各行示出的语义词序列:
表4、不同话题对应的语义词序列实例
基于大量的话题语义词序列(如上述表4中各行的语义词序列),就可以构建关联对,通过查询关联对即可知道用户的问题说到某一个语义词后,比如“退款流程”,可能下个可能说得的语义词是“退货”或者“订单号”相关的语义词。如果用户上一句提到“退款流程”,那下一句问题包含的语义词是“域名”,而通过查询发现关联对中没有“退款流程”和“域名”组成的关联对,那么即可确定这两句不具有承接性,用户的问题话题切换了,自动问答平台就可以获知用户当前已经问到另外一个主题的问题了,进而及时的作出应答调整,以避免出现答非所问的情况。
将上述表4的语义词列表使用通用的表示表示,例如,下表5所示的实例,使用不同的字母来代替每一个语义词。这里使用字母来表征语义词是为了方便后续描述。在计算机侧处理中无需作这样的转化。
表5、使用字母代替语义词形成的语义词序列
sessionID | |
111 | A#B#C |
112 | DEF#A |
113 | GH#IGJH |
114 | KL#IM#N |
…… | …… |
这样问题可以转换为怎么通过上面的语义词序列表,构建关联对,如A->B、B->C;DEF->A、GH->IGJH、KL->IM->N等等。将上面关联对A->B、B->C;DEF->A、GH->IGJH、KL->IM->N存入数据库中。例如,关联对A->B表示一个next关系,就是说用户在说到A之后,会说到B。
假设基于第一个话题语料得到的第一个语义词序列为ABC#DE#F#G;基于第二个话题语料得到的第二个语义词序列为ABC#DF#FG;基于第三个话题语料得到的第三个语义词序列为C#DE#FG;基于第四个话题语料得到的第四个语义词序列为C#G;基于第五个话题语料得到的第五个语义词序列为CF#G。基于上述语料样本,可构建得到如下的关联对:
ABC->DE;DE->F;F->G;
ABC->DF;DF->FG;
C->DE;DE->FG;
C->G;
CF->G;
由此可得到一个图5的next关系。建立图关系后,以上面简单的图关系为例:用户如果上一句的问题识别出“C”,如果用户说的“G”或者“DE”,那用户的问题上下文数据具有承接性。但是如果用户说的是“FG”的话,那从图谱关系上看“C”到“FG”是没有next的关系,所以确定用户问题上下文数据无承接性,可得出询问话题发生变更。
这需要进一步说明的是:用户在自动应答平台中提问的时候,会多个字句表达一个完整的话题。比如上述的第一个话题,分成四个子句:“ABC”->“DE”->“F”->“G”。
上面的方案中是以每个子句(包含一个或多个语义词)作为关联对的一个样本数据的,但是用户可能有其他字句的表达:“AB”->“CD”->“EF”->“G”是同一个意思。如果按照图5所示的关系结构,“AB”和“CD”这种情况在图5是没有对应样本数据分布的。这样的话就不能判断“AB”和“CD”是有next(承接)的关系。如果是这样,那么图5所示的图关系挖掘上下文意图的转换就不够泛化,覆盖率不会很高。“ABC”->“DE”->“F”->“G”和AB”->“CD”->“EF”->“G”其实表达的上下文意图其实是一样。如果以子句作为样本数据,就存在泛化性不够的问题。为了解决这个问题,本申请提出了一种借鉴自然语言处理领域经典的窗口思想,来提升语义节点表达的泛化性。
因为以子句作为关联对的样本数据是有很多弊端,如果将一个话题SeesionID内的所有语义词看成一个序列,以固定窗口来分割并表达next关系,然后调整窗口大小再分割并表达next关系,一直下去直至不能再分割为止。这样得到的字句节点建立其的语义关系会更加泛化。
比如以“ABC”->“DE”->“F”->“G”为例,先将语义词合并起来“ABCDEFG”,然后再按照窗口对来切分生成样本数据。这里限定窗口对配置信息中的两个窗口M和N的取值选取1-3为例,两个窗口之间间隔的语义词数量D为0。具体过程如下:
从“ABCDEFG”中第一个语义词A开始遍历:
调整提取开始位置,即后移一个语义词,从“ABCDEFG”中第二个语义词B开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第三个语义词C开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第四个语义词D开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第五个语义词E开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第五个语义词F开始遍历:
上述提取的D取值0,表示next=1的关联对。当A和C没有直接的next关系的时候,其实next=2“二跳”的语义关系也是一个比较好的判断依据。即,调整窗口对配置信息中的D的取值,D取值为1,再次对“ABCDEFG”进行关联对的提取操作。具体为:
从“ABCDEFG”中第一个语义词A开始遍历:
调整提取开始位置,即后移一个语义词,从“ABCDEFG”中第二个语义词B开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第三个语义词C开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第四个语义词D开始遍历:
再次调整提取开始位置,即再后移一个语义词,从“ABCDEFG”中第五个语义词E开始遍历:
本申请实施例提供的技术方案的整个实现过程可具体表征为如下的过程:
语料样本→语义词→合并语义词列表→构建关联对→存储。
其中,语料样本→语义词的过程包括:将语料划分为至少两个单语义语段,然后分别所述至少两个单语义语段II进行转换处理,得到所述至少两个样本语义词。语义词→合并语义词列表过程包括:根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列。
这里需要说明的是,用户可能在多次表述其问题时,通用语义进行了重复的表达,这时根据语料得到的至少两个样本语义词中可能包含有重复的语义词。对于这类情况,可通过过滤操作将重复的语义词进行去重(即上述程序中提及的过滤过程)操作,然后,再对去重后的至少两个样本语义词进行排序合并。
合并语义词列表→构建关联对过程,即从语义词序列中顺序的提取样本语义词构成关联对。
构建关联对→存储过程,即将基于语料样本构建得到关联对使用表结构或倒排索引的方式进行存储。其中,使用表结构方式进行存储,可采用如下表6所示的表结构进行关联对的存储。
表6、表结构方式存储示例
第一样本数据 | 第二样本数据 | 边大小 | Next |
A | B | 1 | 1 |
A | BC | 1 | 1 |
A | BCD | 1 | 1 |
AB | C | 1 | 1 |
…… | …… | …… | …… |
其中,上述边大小表征两个样本数据之间存在的承接关系,next的取值,表征了两个样本数据之间属于“一跳”(亦或称直接)承接关联,还是输出“二跳”(亦或称间接)承接关系。next的取值=1,则说明两个样本数据之间属于“一跳”承接关系,即在使用窗口对配置信息提取关联对时,两个样本数据之间间隔的语义词为零个。next的取值=2,则说明两个样本数据之间属于“二跳”承接关系,即在使用窗口对配置信息提取关联对时,两个样本数据之间间隔的语义词为1个。
本申请还提供了一种会话回复方法,在介绍该方法之前,先对本申请提供的所述会话回复方法所基于的系统架构进行说明。
图6示出了本申请一实施例提供的会话回复系统的结构示意图。如图6所示,本实施例提供的所述系统包括:服务端301和客户端302。其中,
服务端301,用于接收客户端302上传的用户会话数据;获取所述会话数据的上文数据;查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果,确定回复数据;将所述回复数据反馈至客户端302;
客户端302,用于响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端301;接收所述服务端301反馈的回复数据;显示所述回复数据。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
本申请实施例提供的所述会话回复系统中各组成单元,如服务端、客户端的具体工作流程及之间的信令交互将在以下各实施例中作进一步的说明。
图7示出了本申请一实施例提供的会话回复方法的流程示意图。本申请实施例提供的所述方法适于服务端。其中,所述服务端可以是常用服务器、云端、虚拟服务器等,本申请实施例对此不作具体限定。具体的,如图7所示,所述方法,包括:
401、接收客户端上传的用户会话数据。
402、获取所述会话数据的上文数据。
403、查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对。
404、根据查询结果,确定回复数据。
405、将所述回复数据反馈至客户端。
有关上述402和403的内容可参见上述各实施例中的内容,此处不再赘述。
上述404中,根据查询结果,确定回复数据,可具体包括:
4041、所述查询结果为未查找到所述目标关联对时,基于所述会话数据确定至少一个话题,根据所述至少一个话题确定所述回复数据。
4042、所述查询结果为查找到所述目标关联对时,基于所述上文数据的话题,确定所述回复数据。
上述4041中,查询结果为未查找到所述目标关联对,说明会话数据与上文数据不具有承接性,可得出用户切换了话题。此时,可仅基于会话数据确定话题。具体实现时,可通过对会话数据进行意图识别来确定用户的话题。其中,意图识别可采用现有深度学习网络等实现,具体实现可参见现有技术,此处不再赘述。
在一种可实现的技术方案中,基于会话数据确定出的话题可能是一个,也可能不止一个。即上述4041中,“根据所述至少一个话题确定所述回复数据”可具体为:
将所述至少一个话题作为所述回复数据;或者
从所述至少一个话题中选出一个目标话题,基于所述目标话题确定所述回复数据。
其中,将所述至少一个话题作为所述回复数据,反馈至客户端。具体实施时,客户端可显示和/或播放询问用户此次会话数据询问的话题的提示信息。如只有一个话题,用户可针对该一个话题的询问提示信息,回答是或否;如有多个话题,用户可从中选择一个话题由客户端将用户选出的话题上传至服务端,由服务端根据用户选出的话题作出此次会输数据对应的应答。
上述从所述至少一个话题中选出的一个目标话题,可以是随机选择的,也可以是基于预置的规则选出的,本申请实施例对此不作具体限定。
上述4042、查询结果为查找到所述目标关联对,说明会话数据与上文数据具有承接性,用户未切换话题,还在同一话题内询问问题。此时,可基于上文数据的话题确定所述回复数据。
这里需要补充的是:上述提到的基于话题确定回复数据的过程可简单的理解为:在所述话题范畴内确定所述会话数据对应的应答数据的过程;其具体的实现过程可参见现有技术,此处不再赘述。
进一步的,本实施例提供的所述会话回复方法还可包括如下步骤:
406、所述查询结果为查找到所述目标关联对时,标记所述会话数据与所述上文数据具有承接关系,以作为语料样本。
将会话数据与上文数据标记具有承接关系的目的是将会话数据与上文数据作为语料样本,以便参与构建至少一个关联对。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
图8示出了本申请一实施例提供的会话回复方法的流程示意图。本实施例提供的所述方法适应于客户端。其中,所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本申请实施例对此不作限定。该终端可以为手机、平板电脑、智能穿戴设备、车载智能设备等任意终端设备。具体的,如图8所示,所述方法包括:
501、响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端。
502、接收所述服务端反馈的回复数据。
503、显示所述回复数据。
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
这里需要补充的是:上述回复数据的确定过程可参见上述各实施例中的相应内容,此处不再赘述。
上述501中,所述会话输入事件可以是用户发出语音后被触发的,也可是用户键入文本信息后被触发的,等等,本申请实施例对此不作具体限定。
上述502中,所述回复数据可能是:所述会话数据对应的应答数据、有关某一话题的询问提示信息(例如“请问您是要退货吗?”)、提示用户从多个话题中选择一个话题的提示信息(例如“请问您是要退货、还是退款?”)等等。
在一种可实现的技术方案中,所述回复数据包括至少一个话题,相应的,本实施例提供的所述方法,还可包括如下步骤:
504、响应于用户针对所述至少一个话题的选择事件,将所述选择事件指向的目标话题发送至所述服务端,以由所述服务端根据所述目标话题,确定所述会话数据对应的应答数据。
508、接收所述服务端反馈的应答数据;
509、显示所述应答数据。
上述504中,所述选择事件可以是用户通过触控所述目标话题后被触发的,也可以是用户发出有关目标话题的语音后被触发的,本申请实施例对此不作具体限定。
另外,服务端根据目标话题确定所述会话数据对应的应答数据可参见现有技术,此处不再赘述。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
图9示出了本申请一实施例提供的关联对构建装置的结构示意图。如图所示,本实施例提供的关联对构建装置包括:构建模块601、查询模块602和确定模块603。其中,构建模块601用于基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;查询模块602用于在接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;确定模块603用于根据所述查询结果,确定所述上文数据和所述下文数据是否具有承接性。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性即更准确,更有助于提高后续为用户提供的应答内容的准确性。
进一步的,所述确定模块603还用于:
所述查询结果为未查找到所述目标关联对时,确定所述上文数据与所述下文数据不具承接性;
所述查询结果为查找到所述目标关联对时,确定所述上文数据与所述下文数据具有承接性。
进一步的,所述查询模块602包括:第一提取单元、第二提取单元和查询单元。其中,第一提取单元用于从所述上文数据中提取至少一个上文语义词;第二提取单元用于从所述下文数据中提取至少一个下文语义词;查询单元用于查询所述至少一对关联对以查找由含有所述至少一个上文语义词的第一样本数据以及含有所述至少一个下文语义词的第二样本数据构成的所述目标关联对。
进一步的,上述第一提取单元还用于:将所述上文数据划分为至少一个单语义语段I;分别对所述至少一个单语义语段I进行转换处理,得到所述至少一个上文语义词。
进一步的,上述语料样本中包含有至少一个话题的语料。相应的,上述构建模块601还用于:从同一话题的语料中提取至少两个样本语义词;根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对的两个样本数据中各样本数据包含有所述语义词序列中的至少一个连续样本语义词。
进一步的,所述构建模块601还用于:将所述语料划分为至少两个单语义语段II;分别对所述至少两个单语义语段II进行转换处理,得到所述至少两个样本语义词。
进一步的,所述构建模块601还用于:获取窗口对配置信息,其中,所述窗口对配置信息包括第一窗口提取数量M、第二窗口提取数量N以及所述第一窗口和所述第二窗口间间隔语义词的数量D;
根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作;
其中,通过所述关联对提取操作提取出的关联对包括两个样本数据,两个样本数据中一样本数据包含有所述语义词序列中的M个连续样本语义词,另一样本数据包含有所述语义词序列中的N个连续样本语义词,且所述M个连续的样本语义词与所述N个连续的样本语义词中间隔有D个样本语义词;M为≥1的自然数,N为≥1的自然数,D为自然数。
进一步的,所述构建模块601还用于:将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据;
调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
进一步的,所述构建模块601还用于:将所述提取开始位置后移至少一个语义词的距离,得到调整后的所述提取开始位置。
进一步的,所述构建模块601还用于:调整所述窗口对配置信息;根据调整后的所述窗口对配置信息,再次对所述语义词序列进行关联对提取操作直至调整后的所述窗口对配置信息满足调整结束条件为止。
进一步的,所述构建模块601还用于:调整所述M的取值;和/或调整所述N的取值;和/或调整所述D的取值。
进一步的,所述构建模块601还用于:根据所述语义词序列中的语义词数量,确定所述调整结束条件。
进一步的,本实施例提供的所述装置还包括:
标记模块用于所述查询结果为查找到所述目标关联对时,标记所述上文数据和所述下文数据为承接关系,以作为语料样本。
这里需要说明的是:上述实施例提供的信息确定装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图10为本申请一实施例提供电子设备的结构示意图。该电子设备包括:第一存储器701以及第一处理器702。第一存储器701可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第一存储器701可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
第一处理器702与第一存储器701耦合,用于执行第一存储器701中存储的程序,以用于:
基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
其中,第一处理器702在执行第一存储器701中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图10所示,电子设备还包括:第一通信组件703、第一显示器704、第一电源组件705、第一音频组件706等其它组件。图10中仅示意性给出部分组件,并不意味着电子设备只包括图10所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的信息确定方法步骤或功能。
图11示出了本申请一实施例提供的关联对构建装置的结构示意图。如图所示,本实施例提供的关联对构建装置包括:第一提取模块801、排列模块802和第二提取模块803。其中,第一提取模块801用于从同一话题的语料中提取至少两个样本语义词;排列模块802用于根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;第二提取模块803用于从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性更准确,更有助于提高后续为用户提供的应答内容的准确性。
进一步的,上述第一提取模块801还用于:将所述语料样本划分为至少两个单语义语段;分别对所述至少两个单语义语段进行转换处理,得到所述至少两个样本语义词。
进一步的,上述第二提取模块802包括:获取单元及提取单元。其中,获取单元用于获取窗口对配置信息,其中,所述窗口对配置信息包括第一窗口提取数量M、第二窗口提取数量N以及所述第一窗口和所述第二窗口间间隔语义词的数量D。提取单元用于根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作。其中,通过所述关联对提取操作提取出的关联对包括两个样本数据,两个样本数据中一个样本数据包含有所述语义词序列中的M个连续样本语义词,另一个样本数据包含有所述语义词序列中的N个连续样本语义词,且所述M个连续的样本语义词与所述N个连续的样本语义词中间隔有D个样本语义词;M为≥1的自然数,N为≥1的自然数,D为自然数。
进一步的,所述提取单元还用于:将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据;调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
进一步的,所述提取单元还用于:将所述提取开始位置后移至少一个语义词的距离,得到调整后的所述提取开始位置。
进一步的,所述第二提取模块803还包括:调整单元。所述调整单元用于调整所述窗口对配置信息。相应的所述提取单元还用于:根据调整后的所述窗口对配置信息,再次对所述语义词序列进行关联对提取操作直至调整后的所述窗口对配置信息满足调整结束条件为止。
进一步的,所述调整单元包括:调整所述M的取值;和/或调整所述N的取值;和/或调整所述D的取值。
进一步的,所述关联对构建装置还包括:确定模块。其中,所述确定模块用于根据所述语义词序列中的语义词数量,确定所述调整结束条件。
进一步的,所述关联对构建装置还包括:存储模块。其中,所述存储模块用于将所述关联对存储至关联对库。
这里需要说明的是:上述实施例提供的关联对构建装置可实现上述图2所示方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图12为本申请一实施例提供电子设备的结构示意图。该电子设备包括:第二存储器901以及第二处理器902。第二存储器901可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。第二存储器901可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
第二处理器902与第二存储器901耦合,用于执行第二存储器901中存储的程序,以用于:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
其中,第二处理器902在执行第二存储器901中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图12所示,电子设备还包括:第二通信组件903、第二显示器904、第二电源组件905、第二音频组件906等其它组件。图12中仅示意性给出部分组件,并不意味着电子设备只包括图12所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的关联对构建方法步骤或功能。
图13示出了本申请实施例提供的会话回复装置的结构示意图。如图13所示,所述会话回复装置包括:接收模块1001用于接收客户端上传的用户会话数据;获取模块1002用于获取所述会话数据的上文数据;查询模块1003用于查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;确定模块1004用于根据查询结果,确定回复数据;反馈模块1005用于将所述回复数据反馈至客户端。
进一步的,所述确定模块1004,还用于:
所述查询结果为未查找到所述目标关联对时,基于所述会话数据确定至少一个话题,根据所述至少一个话题确定所述回复数据;
所述查询结果为查找到所述目标关联对时,基于所述上文数据的话题,确定所述回复数据。
进一步的,所述确定模块1004还用于:
将所述至少一个话题作为所述回复数据;或者
从所述至少一个话题中选出一个目标话题,基于所述目标话题确定所述回复数据。
进一步的,本实施例所述的装置还包括:
标记模块,用于所述查询结果为查找到所述目标关联对时,标记所述会话数据与所述上文数据具有承接关系,以作为语料样本。
这里需要说明的是:上述实施例提供的会话回复装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性即更准确,更有助于提高后续为用户提供的应答内容的准确性。
图14示出了本申请一实施例提供的服务端设备的结构示意图。如图14所示,所述服务端设备包括:第三存储器1101、第三处理器1102及第三通信组件1103;其中,所述第三存储器1101用于存储程序。第三存储器1101可被配置为存储其它各种数据以支持在服务端设备上的操作。这些数据的示例包括用于在服务端设备上操作的任何应用程序或方法的指令。第三存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第三通信组件1103,与所述第三处理器1102耦合,用于接收客户端上传的用户会话数据;
所述第三处理器1102,与所述第三存储器1101耦合,用于执行所述第三存储器1101中存储的所述程序,以用于:
获取所述会话数据的上文数据;
查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定回复数据;
所述第三通信组件,还用于将所述回复数据反馈至客户端。
其中,第三处理器1102在执行第一存储器1101中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图14所示,服务端设备还包括:第三显示器1104、第三电源组件1105、第三音频组件1106等其它组件。图14中仅示意性给出部分组件,并不意味着服务端设备只包括图14所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的会话回复方法步骤或功能。
图15示出了本申请一实施例提供的会话回复装置的结构示意图。如图15所示,所述会话回复装置包括:发送模块1201用于响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端;接收模块1202用于接收所述服务端反馈的回复数据;显示模块1203用于显示所述回复数据。其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
进一步的,所述回复数据包括至少一个话题。相应的:
所述发送模块1201还用于响应于用户针对所述至少一个话题的选择事件,将所述选择事件指向的目标话题发送至所述服务端,以由所述服务端根据所述目标话题,确定所述会话数据对应的应答数据;
所述接收模块1202还用于接收所述服务端反馈的应答数据;
所述显示模块1203还用于显示所述应答数据。
这里需要说明的是:上述实施例提供的会话回复装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
本申请实施例提供的技术方案,在接收到用户分两次发送的上文数据和下文数据后,通过查询基于同一话题语料样本得到的至少一个关联对来确定上文数据和下文数据是否具有承接性;不具有承接性则说明下文数据所涉及的话题(亦或称为业务内容)切换,用户在询问另外一个话题(或业务内容)的问题;由此可知,本申请实施例提供的技术方案将较为难实现的话题切换识别问题简化为查询关联对的过程,提供了一种较为简单的话题切换识别方案;另外,该方案中关联对是基于收集到的语料样本得到的,语料样本越多,将这些语料样本得到的关联对作为依据来确定用户两次发送的上文数据和下文数据是否具有承接性即更准确,更有助于提高后续为用户提供的应答内容的准确性。
图16示出了本申请一实施例提供的客户端设备的结构示意图。如图16所示,所述客户端设备包括:第四存储器1301、第四处理器1302、第四通信组件1303及第四显示器1304。其中,所述第四存储器1301用于存储程序。第四存储器1301可被配置为存储其它各种数据以支持在客户端设备上的操作。这些数据的示例包括用于在客户端设备上操作的任何应用程序或方法的指令。第四存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述第四处理器1302,与所述第四存储器1301耦合,用于执行所述第四存储器1301中存储的所述程序,以用于:
响应于用户触发的会话数据输入事件,控制所述第三通信组件将所述会话数据发送至服务端;
在所述第三通信组件1303接收到所述服务端反馈的回复数据后,控制所述第四显示器1304显示所述回复数据;
所述第三通信组件1303,与所述第四处理器1302耦合,用于将所述会话数据发送至所述服务端,以及接收所述服务端反馈的所述回复数据;
所述第四显示器1304,与所述第四处理器1302耦合,用于显示所述回复数据;
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
其中,第四处理器1302在执行第四存储器1301中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图16所示,客户端设备还包括:第四电源组件1305、第四音频组件1306等其它组件。图16中仅示意性给出部分组件,并不意味着客户端设备只包括图16所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的会话回复方法步骤或功能。
在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (32)
1.一种信息确定方法,其特征在于,包括:
基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
2.根据权利要求1所述的方法,其特征在于,根据查询结果,确定所述上文信息和所述下文数据是否具有承接性,包括:
所述查询结果为未查找到所述目标关联对时,确定所述上文数据与所述下文数据不具承接性;
所述查询结果为查找到所述目标关联对时,确定所述上文数据与所述下文数据具有承接性。
3.根据权利要求1所述的方法,其特征在于,查询所述至少一对关联对以查找包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对,包括:
从所述上文数据中提取至少一个上文语义词;
从所述下文数据中提取至少一个下文语义词;
查询所述至少一对关联对以查找由含有所述至少一个上文语义词的第一样本数据以及含有所述至少一个下文语义词的第二样本数据构成的所述目标关联对。
4.根据权利要求2所述的方法,其特征在于,从所述上文数据中提取至少一个上文语义词,包括:
将所述上文数据划分为至少一个单语义语段I;
分别对所述至少一个单语义语段I进行转换处理,得到所述至少一个上文语义词。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述语料样本中包含有至少一个话题的语料;以及
所述基于语料样本构建至少一对关联对,包括:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对的两个样本数据中各样本数据包含有所述语义词序列中的至少一个连续样本语义词。
6.根据权利要求5所述的方法,其特征在于,所述从同一话题的语料中提取至少两个样本语义词,包括:
将所述语料划分为至少两个单语义语段II;
分别对所述至少两个单语义语段II进行转换处理,得到所述至少两个样本语义词。
7.根据权利要求5所述的方法,其特征在于,所述从语义词序列中顺序地提取样本语义词以构成关联对,包括:
获取窗口对配置信息,其中,所述窗口对配置信息包括第一窗口提取数量M、第二窗口提取数量N以及所述第一窗口和所述第二窗口间间隔语义词的数量D;
根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作;
其中,通过所述关联对提取操作提取出的关联对包括两个样本数据,两个样本数据中一样本数据包含有所述语义词序列中的M个连续样本语义词,另一样本数据包含有所述语义词序列中的N个连续样本语义词,且所述M个连续的样本语义词与所述N个连续的样本语义词中间隔有D个样本语义词;
M为≥1的自然数,N为≥1的自然数,D为自然数。
8.根据权利要求7所述的方法,其特征在于,根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作,包括:
将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据;
调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
9.根据权利要求8所述的方法,其特征在于,调整所述提取开始位置,包括:
将所述提取开始位置后移至少一个语义词的距离,得到调整后的所述提取开始位置。
10.根据权利要求7至8中任一项所述的方法,其特征在于,所述从语义词序列中顺序地提取样本语义词以构成关联对,还包括:
调整所述窗口对配置信息;
根据调整后的所述窗口对配置信息,再次对所述语义词序列进行关联对提取操作直至调整后的所述窗口对配置信息满足调整结束条件为止。
11.根据权利要求10所述的方法,其特征在于,调整所述窗口对配置信息包括:
调整所述M的取值;和/或
调整所述N的取值;和/或
调整所述D的取值。
12.根据权利要求10所述的方法,其特征在于,还包括:
根据所述语义词序列中的语义词数量,确定所述调整结束条件。
13.一种关联对构建方法,其特征在于,包括:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
14.根据权利要求13所述的方法,其特征在于,所述从同一话题的语料中提取至少两个样本语义词,包括:
将所述语料样本划分为至少两个单语义语段;
分别对所述至少两个单语义语段进行转换处理,得到所述至少两个样本语义词。
15.根据权利要求13所述的方法,其特征在于,所述从语义词序列中顺序地提取样本语义词以构成关联对,包括:
获取窗口对配置信息,其中,所述窗口对配置信息包括第一窗口提取数量M、第二窗口提取数量N以及所述第一窗口和所述第二窗口间间隔语义词的数量D;
根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作;
其中,通过所述关联对提取操作提取出的关联对包括两个样本数据,两个样本数据中一个样本数据包含有所述语义词序列中的M个连续样本语义词,另一个样本数据包含有所述语义词序列中的N个连续样本语义词,且所述M个连续的样本语义词与所述N个连续的样本语义词中间隔有D个样本语义词;
M为≥1的自然数,N为≥1的自然数,D为自然数。
16.根据权利要求15所述的方法,其特征在于,根据所述窗口对配置信息,对所述语义词序列进行关联对提取操作,包括:
将所述语义词序列中排序第一的样本语义词作为提取开始位置,按照所述窗口对配置信息从所述语义词序列中提取所述M个样本语义词作为关联对中的一个样本数据,间隔所述D个样本语义词再提取所述N个样本语义词作为关联对中的另一个样本数据;
调整所述提取开始位置,并按照所述窗口对配置信息在调整后的所述提取开始位置处继续从所述语义词序列中提取关联对直至提取出的关联对中的一样本数据中包含有排序最后的样本语义词为止。
17.根据权利要求16所述的方法,其特征在于,调整所述提取开始位置,包括:
将所述提取开始位置后移至少一个语义词的距离,得到调整后的所述提取开始位置。
18.根据权利要求15至17中任一项所述的方法,其特征在于,所述从语义词序列中顺序地提取样本语义词以构成关联对,还包括:
调整所述窗口对配置信息;
根据调整后的所述窗口对配置信息,再次对所述语义词序列进行关联对提取操作直至调整后的所述窗口对配置信息满足调整结束条件为止。
19.根据权利要求18所述的方法,其特征在于,调整所述窗口对配置信息,包括:
调整所述M的取值;和/或
调整所述N的取值;和/或
调整所述D的取值。
20.根据权利要求18所述的方法,其特征在于,还包括:
根据所述语义词序列中的语义词数量,确定所述调整结束条件。
21.根据权利要求13至17中任一项所述的方法,其特征在于,还包括:
将所述关联对存储至关联对库。
22.一种会话回复方法,其特征在于,包括:
接收客户端上传的用户会话数据;
获取所述会话数据的上文数据;
查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定回复数据;
将所述回复数据反馈至客户端。
23.根据权利要求22所述的方法,其特征在于,根据查询结果,确定回复数据,包括:
所述查询结果为未查找到所述目标关联对时,基于所述会话数据确定至少一个话题,根据所述至少一个话题确定所述回复数据;
所述查询结果为查找到所述目标关联对时,基于所述上文数据的话题,确定所述回复数据。
24.根据权利要求23所述的方法,其特征在于,根据所述至少一个话题确定所述回复数据,包括:
将所述至少一个话题作为所述回复数据;或者
从所述至少一个话题中选出一个目标话题,基于所述目标话题确定所述回复数据。
25.根据权利要求22至24中任一项所述的方法,其特征在于,还包括:
所述查询结果为查找到所述目标关联对时,标记所述会话数据与所述上文数据具有承接关系,以作为语料样本。
26.一种会话回复方法,其特征在于,包括:
响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端;
接收所述服务端反馈的回复数据;
显示所述回复数据;
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
27.根据权利要求26所述的方法,其特征在于,所述回复数据包括至少一个话题;以及
所述方法,还包括:
响应于用户针对所述至少一个话题的选择事件,将所述选择事件指向的目标话题发送至所述服务端,以由所述服务端根据所述目标话题,确定所述会话数据对应的应答数据;
接收所述服务端反馈的应答数据;
显示所述应答数据。
28.一种会话回复系统,其特征在于,包括:
服务端,用于接收客户端上传的用户会话数据;获取所述会话数据的上文数据;查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果,确定回复数据;将所述回复数据反馈至客户端;
客户端,用于响应于用户触发的会话数据输入事件,将所述会话数据发送至服务端;接收所述服务端反馈的回复数据;显示所述回复数据。
29.一种电子设备,其特征在于,包括:第一存储器以及第一处理器;
所述第一存储器,用于存储程序;
所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:
基于语料样本构建至少一对关联对,所述关联对包含具有承接关系的两个样本数据;
接收到用户分两次发送的上文数据和下文数据后,查询所述至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述下文数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定所述上文数据和所述下文数据是否具有承接性。
30.一种电子设备,其特征在于,包括:第二存储器以及第二处理器;
所述第二存储器,用于存储程序;
所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:
从同一话题的语料中提取至少两个样本语义词;
根据所述至少两个样本语义词中各样本语义词对应语义在所述语料样本中的出现顺序,排列所述至少两个样本语义词得到语义词序列;
从语义词序列中顺序地提取样本语义词以构成关联对,所述关联对包括具有承接关系的两个样本数据,样本数据包含所述语义词序列中的至少一个连续样本语义词。
31.一种服务端设备,其特征在于,包括:第三存储器、第三处理器及第三通信组件;其中,
所述第三存储器,用于存储程序;
所述第三通信组件,与所述第三处理器耦合,用于接收客户端上传的用户会话数据;
所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:
获取所述会话数据的上文数据;
查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;
根据查询结果,确定回复数据;
所述第三通信组件,还用于将所述回复数据反馈至客户端。
32.一种客户端设备,其特征在于,包括:第四存储器、第四处理器、第四通信组件及第四显示器;其中,
所述第四存储器,用于存储程序;
所述第四处理器,与所述第四存储器耦合,用于执行所述第四存储器中存储的所述程序,以用于:
响应于用户触发的会话数据输入事件,控制所述第三通信组件将所述会话数据发送至服务端;
在所述第三通信组件接收到所述服务端反馈的回复数据后,控制所述第四显示器显示所述回复数据;
所述第三通信组件,与所述第四处理器耦合,用于将所述会话数据发送至所述服务端,以及接收所述服务端反馈的所述回复数据;
所述第四显示器,与所述第四处理耦合,用于显示所述回复数据;
其中,所述回复数据是获取到所述会话数据的上文数据后,查询基于语料样本构建出的至少一对关联对中是否包含有与所述上文数据语义关联的第一样本数据以及与所述会话数据语义关联的第二样本数据的目标关联对;根据查询结果确定出的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810415344.7A CN110442686B (zh) | 2018-05-03 | 2018-05-03 | 信息确定、关联对构建与会话回复方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810415344.7A CN110442686B (zh) | 2018-05-03 | 2018-05-03 | 信息确定、关联对构建与会话回复方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442686A true CN110442686A (zh) | 2019-11-12 |
CN110442686B CN110442686B (zh) | 2023-05-26 |
Family
ID=68428067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810415344.7A Active CN110442686B (zh) | 2018-05-03 | 2018-05-03 | 信息确定、关联对构建与会话回复方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442686B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
US20120179707A1 (en) * | 2011-01-06 | 2012-07-12 | Mitel Networks Corporation | Range programming using a search query |
US20160103883A1 (en) * | 2014-10-09 | 2016-04-14 | Splunk Inc. | Automatic entity definitions |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答系统中缺失语义补充的方法 |
CN105704013A (zh) * | 2016-03-18 | 2016-06-22 | 北京光年无限科技有限公司 | 基于上下文的话题更新数据处理方法及装置 |
CN105843849A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106649514A (zh) * | 2015-10-16 | 2017-05-10 | 百度(美国)有限责任公司 | 用于受人启发的简单问答(hisqa)的系统和方法 |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN107122459A (zh) * | 2017-04-27 | 2017-09-01 | 长沙军鸽软件有限公司 | 一种机器人实现智能会话的方法 |
CN107423440A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于情感分析的问答上下文切换与强化选择方法 |
CN107480143A (zh) * | 2017-09-12 | 2017-12-15 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
CN107885878A (zh) * | 2017-11-29 | 2018-04-06 | 广东电网有限责任公司电力科学研究院 | 一种电网cim模型数据查询方法、客户端、服务器及系统 |
CN107958001A (zh) * | 2016-10-14 | 2018-04-24 | 阿里巴巴集团控股有限公司 | 一种智能问答的实现方法及装置 |
-
2018
- 2018-05-03 CN CN201810415344.7A patent/CN110442686B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
US20120179707A1 (en) * | 2011-01-06 | 2012-07-12 | Mitel Networks Corporation | Range programming using a search query |
US20160103883A1 (en) * | 2014-10-09 | 2016-04-14 | Splunk Inc. | Automatic entity definitions |
CN106649514A (zh) * | 2015-10-16 | 2017-05-10 | 百度(美国)有限责任公司 | 用于受人启发的简单问答(hisqa)的系统和方法 |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答系统中缺失语义补充的方法 |
CN105843849A (zh) * | 2016-03-15 | 2016-08-10 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN105704013A (zh) * | 2016-03-18 | 2016-06-22 | 北京光年无限科技有限公司 | 基于上下文的话题更新数据处理方法及装置 |
CN107958001A (zh) * | 2016-10-14 | 2018-04-24 | 阿里巴巴集团控股有限公司 | 一种智能问答的实现方法及装置 |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN107122459A (zh) * | 2017-04-27 | 2017-09-01 | 长沙军鸽软件有限公司 | 一种机器人实现智能会话的方法 |
CN107423440A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于情感分析的问答上下文切换与强化选择方法 |
CN107480143A (zh) * | 2017-09-12 | 2017-12-15 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
CN107885878A (zh) * | 2017-11-29 | 2018-04-06 | 广东电网有限责任公司电力科学研究院 | 一种电网cim模型数据查询方法、客户端、服务器及系统 |
Non-Patent Citations (3)
Title |
---|
DONGYI GUAN 等: "Utilizing query change for session search", 《 PROCEEDINGS OF THE 36TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 * |
张超 等: "交互式问答系统中待消解项的识别方法研究", 《中文信息学报》 * |
施仁娟: "基于元话语能力的汉语话语标记研究", 《中国博士学位论文全文数据库 哲学与人文科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442686B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030412B2 (en) | System and method for chatbot conversation construction and management | |
US10387888B2 (en) | Assisting entities in responding to a request of a user | |
CN106133825B (zh) | 自动语音识别系统中的广义短语 | |
CN103593340B (zh) | 自然表达信息处理方法、处理及回应方法、设备及系统 | |
CN110209897B (zh) | 智能对话方法、装置、存储介质及设备 | |
CN110059182A (zh) | 面向客服的话术推荐方法和装置 | |
CN108304437A (zh) | 一种自动问答方法、装置及存储介质 | |
CN107135247A (zh) | 一种人与人工智能协同工作的服务系统及方法 | |
CN109408622A (zh) | 语句处理方法及其装置、设备和存储介质 | |
CN109783510A (zh) | 客服辅助机器人、方法及系统 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN107704453A (zh) | 一种文字语义分析方法、文字语义分析终端及存储介质 | |
CN108763495B (zh) | 人机对话方法、系统、电子设备及存储介质 | |
CN108228559A (zh) | 一种用于用户业务的人机交互实现方法及系统 | |
CN105718543B (zh) | 语句的展示方法和装置 | |
US20200066259A1 (en) | Intelligence-driven virtual assistant for automated idea documentation | |
CN109408811A (zh) | 一种数据处理方法及服务器 | |
CN110019688A (zh) | 对机器人进行训练的方法 | |
CN109918627A (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN106682137A (zh) | 一种智能股票投顾问答交互方法与系统 | |
CN106951503A (zh) | 信息提供方法、装置、设备以及存储介质 | |
CN109684459A (zh) | 一种信息处理方法及装置 | |
CN110297880A (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN109271459A (zh) | 基于Lucene和文法网络的聊天机器人及其实现方法 | |
CN112434501A (zh) | 工单智能生成的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |