CN107102988A

CN107102988A - 一种基于个人专属语料库主动发起会话的方法

Info

Publication number: CN107102988A
Application number: CN201710286359.3A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Dove Software Co Ltd
Current assignee: Changsha Dove Software Co Ltd
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2017-08-29

Abstract

本发明提供的基于个人专属语料库主动发起会话的方法，通过根据通讯方的会话内容创建属于通讯方的个人专属语料库，确定被发起会话的通讯对方，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容以及将主动会话内容发送至通讯对方，解决了现有通讯方向通讯对方发起会话时，不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低的技术问题，实现了根据个人专属语料库智能获取向通讯对方发起会话的主动会话内容，且获取的主动会话内容充分结合了当前的会话场景标签值，具有较高的智能化和个性化水平。

Description

一种基于个人专属语料库主动发起会话的方法

技术领域

本发明涉及通信技术领域，具体涉及一种基于个人专属语料库主动发起会话的方法。

背景技术

随着通信技术的日益进步，通讯用户之间的沟通联络也与日俱增。例如，通讯方经常需要向通讯对方主动发起消息或音视频会话。

上述过程不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低。针对该问题，本发明提出了一种基于个人专属语料库主动发起会话的方法。

发明内容

本发明提供了一种基于个人专属语料库主动发起会话的方法，以解决现有通讯方向通讯对方发起会话时，不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低的技术问题。

本发明提供的基于个人专属语料库主动发起会话的方法，包括：

根据通讯方的会话内容创建属于通讯方的个人专属语料库；

确定被发起会话的通讯对方；

根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值；

根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容；

将主动会话内容发送至通讯对方。

进一步地，根据通讯方的会话内容创建属于通讯方的个人专属语料库包括：

采集通讯方的会话内容；

获取会话内容中的会话对；

根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值；

将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

进一步地，获取会话内容中的会话对包括：

根据会话内容中会话句的语义，确定会话内容中的发起句和回复句；

根据预设的类型判断规则，确定发起句和回复句的类型；

根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对；

根据基础会话对、基础会话对中发起句和回复句的类型，提取至少一个会话对。

进一步地，根据会话内容中会话句的语义，确定会话内容中的发起句和回复句包括：

判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句；

若有，则判断会话句是否与通讯对方发送的上文无语义关联，若是，则将会话句确定为发起句，否则将会话句确定为回复句。

进一步地，根据预设的类型判断规则，确定发起句的类型包括：

判断发起句是否为具有完整独立语义的语句，若是，则判断发起句是否由多个具有完整独立语义的单句组成，若是，则将发起句的类型确定为复句发起句类型，否则为单句发起句类型；若否，则判断发起句是否包含具有完整独立语义的单句，若包含，则将发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，若有，则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

进一步地，根据预设的类型判断规则，确定回复句的类型包括：

判断回复句是否为具有完整独立语义的语句，若是，则判断回复句是否由多个具有完整独立语义的单句组成，若是，则将回复句的类型确定为复句回复句类型，否则为单句回复句类型；若否，则判断回复句是否包含具有完整独立语义的单句，若包含，则将回复句的类型确定为非标准复句回复句类型，若不包含，则为非标准单句回复句类型；

搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句，若有，则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

进一步地，根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型，提取至少一个会话对包括：

将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句；

将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句；

根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取。

进一步地，确定被发起会话的通讯对方包括：

手动获取被发起会话的通讯对方，或根据通讯方的通讯信息确定被发起会话的通讯对方，

其中，通讯信息包括通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式中的一种或多种，发起历史通讯的选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式。

进一步地，场景标签包括：

第一场景标签和第二场景标签，其中第一场景标签包括：会话通讯双方的时间、地点、日期、天气、季节、体感数据，会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合；

第二场景标签包括：会话内容主题，会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态，会话内容的句型、句类、句式结构类型，以及总量场景标签中的一种或多种组合。

本发明具有以下有益效果：

本发明提供的基于个人专属语料库主动发起会话的方法，通过根据通讯方的会话内容创建属于通讯方的个人专属语料库，确定被发起会话的通讯对方，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容以及将主动会话内容发送至通讯对方，解决了现有通讯方向通讯对方发起会话时，不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低的技术问题，实现了根据创建的个人专属语料库智能匹配获取向通讯对方发起会话的主动会话内容，且获取的主动会话内容充分结合了当前的会话场景标签值，具有较高的智能化和个性化水平。此外，通过自动获取向通讯对方发起会话的主动会话内容，无需人工编辑，提高了会话速度，提升了用户体验。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例基于个人专属语料库主动发起会话的方法流程图；

图2是本发明优选实施例针对的精简实施例一的基于个人专属语料库主动发起会话的方法的流程图；

图3是本发明优选实施例针对的精简实施例二的基于个人专属语料库主动发起会话的方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种基于个人专属语料库主动发起会话的方法，包括：

步骤S101，根据通讯方的会话内容创建属于通讯方的个人专属语料库；

步骤S102，确定被发起会话的通讯对方；

步骤S103，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值；

步骤S104，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容；

步骤S105，将主动会话内容发送至通讯对方。

本发明实施例提供的基于个人专属语料库主动发起会话的方法，通过根据通讯方的会话内容创建属于通讯方的个人专属语料库，确定被发起会话的通讯对方，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容以及将主动会话内容发送至通讯对方，解决了现有通讯方向通讯对方发起会话时，不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低的技术问题，实现了根据创建的个人专属语料库智能匹配获取向通讯对方发起会话的主动会话内容，且获取的主动会话内容充分结合了当前的会话场景标签值，具有较高的智能化和个性化水平。此外，通过自动获取向通讯对方发起会话的主动会话内容，无需人工编辑，提高了会话速度，提升了用户体验。

需要说明的是，本方案中的通讯方并不限于通讯过程中的通讯发起人，例如通讯方还可以是其他任意可以主动发起会话的发起端，例如人机会话系统中的机器人，且当通讯方是人机会话系统中的机器人时，其对通讯对方主动发起会话的过程和方法与当通讯方是通讯发起人时相同，故不再细述。

可选地，根据通讯方的会话内容创建属于通讯方的个人专属语料库包括：

采集通讯方的会话内容；

获取会话内容中的会话对；

本发明实施例通过采集通讯方的会话内容，获取会话内容中的会话对，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，不仅大大减少了人工建立会话语料库的工作量，而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性，从而使得根据会话场景标签值，在个人专属语料库中能匹配获得智能化程度高且与通讯方息息相关的主动会话内容，实用价值高。

此外，本发明实施例直接根据会话对、场景标签以及与场景标签对应的场景标签值生成个人专属语料库，完全模拟真实会话场景建立个人专属语料库，使得建立的个人专属语料库更精准和实用，从而为基于个人专属语料库匹配获得主动会话内容奠定数据基础。且本实施例通过采集通讯方的个人会话内容建立个人专属语料库，使得生成的个人语料库均由通讯方与其他通讯对方进行会话的会话语料构成，从而使匹配获得的主动会话内容均与通讯方息息相关，具有个人专属性和较强的针对性。

需要说明是，本发明实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合生成个人专属语料库，也即按照“会话对+场景标签+场景标签值”的内容匹配组合规则，生成个人专属语料库。此外，由于不同的会话内容具有不同的场景特性，例如会话内容主题、会话意图、会话时间、会话地点、会话双方关系等等，故本实施例获取会话内容中的会话对后，进一步根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值，并将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

由于对于场景标签组合中的一些场景标签(例如会话时间、会话地点等)，系统可以对其进行直接采集，而对于另外一些场景标签(例如会话内容主题、会话双方关系等)，系统无法对其进行直接采集，故本实施例将场景标签分为第一场景标签和第二场景标签，其中第一场景标签为能对其进行直接采集的场景标签，例如时间、地点场景标签，第二场景标签为不能对其进行直接采集的场景标签，例如会话内容主题、会话双方关系场景标签等等。

且本实施例针对第二场景标签，可以通过搜索或匹配获得第二会话场景标签值；根据所述第一会话场景标签值推理获得第二会话场景标签值；通过对会话内容进行语义推理获得第二会话场景标签值；通过获取与会话内容关联的关联词获得第二会话场景标签值；根据已训练好的分类器分类获得第二会话场景标签值；通过已获得的第二会话场景标签进一步多层次推理计算获得新的第二会话场景标签；或根据上述方法的任意组合获得与第二场景标签值。

例如针对地点场景标签值，可以通过移动终端的GPS自动采集获得；针对通讯双方关系场景标签值，可以通过第一场景标签值推理获得；针对会话意图采集标签值，可以通过计算与会话内容关联的词向量获得；针对心情场景标签值，可以通过将会话内容和/或第一会话场景标签值输入分类器，并根据分类器的输出结果，获得心情场景标签值。由此可见，本实施例针对不能直接进行采集的场景标签，能实现对其进行自动获取，体现了较高的智能化程度。

可选地，获取会话内容中的会话对包括：

根据预设的类型判断规则，确定发起句和回复句的类型；

现有从会话内容中提取的会话对或问答对，往往是一问一答的会话对形式，而在实际的会话过程中，通讯双方进行会话并非完全符合一问一答的会话模式，例如针对通讯对方发送的会话句，通讯方可能回复了几条会话句，或针对通讯对方发送的多条会话句，通讯方可能只回复了一条会话句。

故如果仅仅采取一问一答的形式提取对话对，可能存在以下问题：

(1)对于一些没有以一问一答形式展现的会话内容，从会话内容中提取会话对的难度较大，且精度较低。例如对于多个发起句+多个回复句形式的会话内容，从中提取会话对时，需要分析与每一个发起句匹配的回复句，过程复杂，难度大，且精度较低。

(2)由于现有根据会话内容提取的问答对或会话对一般都是比较标准的会话句，或结构比较简单的会话句，这将导致针对一些复杂或非标准结构的会话句不能精准提取完整性好和实用性高的会话对，从而影响通过个人专属语料库匹配获得的主动会话内容的精准性和实用性。

(3)此外，由于以一问一答形式提取的会话对的完整性容易被破坏，这将导致提取的会话对不能准确模拟真实会话，从而导致通过个人专属语料库匹配获得的主动会话内容不能准确模拟真实会话。

针对上述问题，本实施例通过根据会话内容中会话句的语义，确定会话内容中的发起句和回复句，根据预设的类型判断规则，确定发起句和回复句的类型，根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对，以及根据基础会话对、基础会话对中发起句和回复句的类型，提取至少一个会话对，解决了现有技术提取会话对的难度较大、精度较低的技术问题，打破了传统的一问一答的会话对形式的局限性，并且根据发起句和回复句的类型，不仅能快速有效地提取会话对，而且提取的会话对的精度和准确度也大大提升，从而提高了通过个人专属语料库匹配获得的主动会话内容的精准度。

此外，针对一些复杂或非标准结构的会话句，本发明实施例能精准提取完整性好和实用性高的会话对，从而使得通过个人专属语料库匹配获得的主动会话内容能准确模拟真实会话，智能化程度较高。进一步地，本发明实施例提取的会话对形式多样，有利于基于会话对精准匹配主动会话内容，以及匹配获得形式多样的主动会话内容，实用性较高。

需要说明的是，本实施例在确定发起句和回复句的类型之前，首先预设发起句和回复句的类型以及与类型对应的类型判断规则，从而根据预设的类型判断规则，可以快速确定发起句和回复句的类型。且本实施例中的发起句具体是指无通讯对方发送上文的会话句或与通讯对方发送的上文无语义关联的会话句。

本实施例可以通过采集通讯方的即时通讯账号、邮箱账号、手机号的会话内容获得通讯方的会话内容，其中会话内容为文本、图片、语音、视频或动漫格式，且当会话内容是语音、图片、视频或动漫格式时，还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。

可选地，根据会话内容中会话句的语义，确定会话内容中的发起句和回复句包括：

为了精准提取会话内容中的会话对，本实施例首先根据会话内容中会话句的语义，确定会话内容中的发起句和回复句，然后再进一步确定发起句和回复句的类型，从而根据发起句和回复句的类型精准提取会话对。其中，本实施例所指的根据会话内容中会话句的语义，确定会话内容中的发起句和回复句的具体过程为：判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句，若有，则判断会话句是否与通讯对方发送的上文无语义关联，若是，则将会话句确定为发起句，否则将会话句确定为回复句。

在实际的会话过程中，如果当前会话句在预设时间区间内无通讯对方发送的上文，一般将其认为是发起会话的起始句，也即发起句。例如假设当前会话句为12月3日发送的会话句，上一条会话句是通讯对方于12月1日发送的会话句，假设预设的时间区间为1天，则通过判断可知，当前会话句在预设时间区间内无通讯对方发送的上文，则将当前会话句认为是发起会话的起始句，也即将当前会话句判定为发起句。且本实施例预设的时间区间具体由用户自定义，例如可以是1小时、半天、一天、一个月等等，也即当判断出当前会话句在1小时、半天、一天、一个月内无通讯对方发送的上文，则判定当前会话句为发起句。

此外，当会话句有通讯对方发送的上文时，根据实际会话内容可判断，会话句可能是回复通讯对方发送的上文的回复句；也可能不是回复通讯对方发送的上文，而是重新发起会话的发起句；或者同时是回复通讯对方发送的上文的回复句和重新发起会话的发起句。针对这种情况，本实施例通过判断会话句是否与通讯对方发送的上文无语义关联来确定会话句的类型。需要说明的是，本实施例中会话句是否与通讯对方发送的上文无语义关联，具体是指会话句是否包括与通讯对方发送的上文无语义关联的语句。

例如，当会话句有通讯对方发送的上文，且通讯对方A发送的上文为“最近怎么样？”，则针对第一种情况的会话句(通讯方B:“挺好的”)，可判断出该会话句不包括与通讯对方发送的上文无语义关联的语句，此时确定该会话句为回复句；针对第二种情况的会话句(通讯方B:“帮我缴电话费了吗？”)，可判断出该会话句包括与通讯对方发送的上文无语义关联的语句，此时确定该会话句为发起句；针对第三种情况的会话句(通讯方B:“挺好的，帮我缴电话费了吗？”)，可判断出该会话句同样包括与通讯对方发送的上文无语义关联的语句(“帮我缴电话费了吗？”)，此时确定该会话句为发起句。

本实施例通过判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文以及在有通讯对方发送的上文时判断会话句是否与通讯对方发送的上文无语义关联，可以精准确定会话内容中的发起句和回复句，为后续根据精准确定的发起句和回复句提取会话对，以及基于提取的会话对创建的个人专属语料库匹配获得精准度高的主动会话内容奠定基础。

可选地，根据预设的类型判断规则，确定发起句的类型包括：

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，若有，则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将已确定类型的发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

在实际的实施过程中，发起句可能以多种类型进行呈现，例如单句、复句、非标准句等等，且不同类型的发起句可能会影响或导致提取的会话对不同。针对该问题，本实施例按照预设的类型判断规则，确定发起句的类型。具体地，首先在发起句具有完整独立语义的前提下，通过判断发起句是由一个还是多个完整独立语义的单句组成，确定发起句为单句还是复句发起句类型，以及在发起句不具有完整独立语义的前提下，通过判断发起句是否包含具有完整独立语义的单句来确定发起句的类型为非标准复句还是非标准单句发起句类型；然后通过搜索非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，确定是否将发起句的类型衍生扩展为非标准句群发起句类型；最后通过判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句，确定发起句的类型是否可以衍生扩展为句群发起句类型。

具体地，本实施例确定发起句类型的过程本质上分为三个判别过程，即第一个判别过程是对每一条发起句按照四种发起句类型(单句、复句、非标准单句以及非标准复句)进行逐一判别；第二个判别过程是在进行完第一个判别过程后，接着判别非标准单句和非标准复句发起句类型的发起句是否可进一步衍生扩展为非标准句群发起句类型；第三个判别过程是在进行完第二个判别过程后，接着判别单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。

本实施例通过确定发起句的类型，一方面有利于对发起句进行句子结构和成分的深度分析，另一方面，基于对发起句进行类型判断和结构分析，有利于更精准提取实用性高且形式多样的会话对，为后续基于提取的会话对创建的个人专属语料库匹配获得精准度高的主动会话内容奠定基础。需要说明的是，本实施例中发起句是否有自己的上文和下文连续会话句具体是指发起句是否有发送发起句的发送方发送的上文和下文连续会话句。

可选地，根据预设的类型判断规则，确定回复句的类型包括：

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句，若有，则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将已确定类型的回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

本实施例判断回复句的类型和判断发起句的类型的原理和过程基本相同，故不再详述。且本实施例通过确定回复句的类型，一方面有利于对回复句进行句子结构和成分的深度分析，另一方面，基于对回复句进行类型判断和结构分析，有利于更精准提取实用性高且形式多样的会话对，为后续基于提取的会话对创建的个人专属语料库匹配获得精准度高的主动会话内容奠定基础。需要说明的是，本实施例中回复句是否有自己的上文和下文连续会话句具体是指回复句是否有发送所述回复句的发送方发送的上文和下文连续会话句。

可选地，根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型，提取至少一个会话对包括：

由于本实施例中发起句和回复句的类型包括多种，例如单句、复句、非标准单句、非标准复句，非标准句群、句群发起句类型，以及单句、复句、非标准单句、非标准复句、非标准句群、句群回复句类型，故在提取到基础会话对后，为了更精准提取实用性高且形式多样的会话对，本实施例首先将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句，然后将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句，最后根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取，从而可以组合获得多个会话对。

例如假设发起句类型为复句发起句类型，回复句为复句回复句类型，则通过类型衍生扩展后，可以提取出单句发起句+单句回复句，复句发起句+单句回复句，单句发起句+复句回复句，复句发起句+复句回复句等多种形式的会话对。

可选地，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值包括：

预设场景标签库，场景标签库至少包括一个场景标签；

在场景标签库中选择与会话对关联的场景标签；

采集获得会话对与场景标签对应的场景标签值。

本实施例采集获得场景标签值一般是首先通过预设场景标签，然后根据场景标签采集获得会话对与场景标签对应的场景标签值两个步骤实现，而在实际的实施过程中，由于不同的会话对可能关联不同的场景标签，或者不同的会话对与不同的场景标签的关联度不同，故为了更精准获得与会话对对应的场景标签值，本实施例首先预设用于存储场景标签的场景标签库，然后在场景标签库中选择与会话对关联的场景标签，最后再根据与会话对关联的场景标签采集获得会话对与场景标签对应的场景标签值。

具体地，通过人工自定义或自动计算与会话对关联的场景标签，例如针对不同的会话对，人工选择不同的场景标签。且本方案定义的与会话对关联的场景标签，具体可以根据与会话对的会话内容关联，或与会话对的会话内容主题关联，或与会话对的会话时间关联的场景标签进行获取。

需要说明的是，本实施例中的场景标签值是与场景标签对应的结果，可以是数值，也可以是非数值，且当采集到场景标签值是非数值形式时，一般还需要根据预先定义的标识规则让其转换为计算机能处理的数值。例如采集到性别为女，可以根据预先定义的标识规则(“男”输出场景标签值为1，“女”输出场景标签值为2)输出场景标签值为2。又例如对于实时行为状态也可以根据预先定义标识规则输出计算机能处理的数值，例如采集到场景标签值为打球行为时，将该场景标签值转换为计算机能识别的数值(例如001)，采集到场景标签值为听歌行为时，将该场景标签值转换为计算机能识别的数值(例如002)等等。

可选地，确定被发起会话的通讯对方包括：

可选地，场景标签包括：

需要说明的是，本实施例采集与会话意图场景标签对应的场景标签值时，可以通过预先建立的用于识别通讯方和/或通讯对方的会话意图的会话意图识别模型实现。具体地，首先训练好与会话对样本对应的会话意图识别模型，然后根据训练好的会话意图识别模型识别通讯方和/或通讯对方针对会话对的会话意图。

下面针对二个精简实施例对本发明的基于个人专属语料库主动发起会话的方法进行更进一步说明。

精简实施例一

参照图2，本发明的精简实施例一提供的基于个人专属语料库主动发起会话的方法，包括：

步骤S201，采集通讯方的会话内容。

具体地，假设本实施例中的通讯方为A，则可以通过采集通讯方A的即时通讯账号、邮箱账号、手机号与其他通讯对方进行会话的会话内容，获得通讯方A的会话内容，其中，会话内容包括文本、图片、语音、视频或动漫格式的会话内容，且当会话内容是图片、语音、视频或动漫格式的会话内容时，还包括将图片、语音、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例建立个人专属语料库的过程，本实施例以二部分简单的通讯方A的会话内容进行说明，具体如下：

第一部分(通讯方A与通讯对方B的会话内容)：

A：节日快乐！

B：谢谢。

A：最近在忙什

A：么呢？

B：最近经常去健身房健身。

B：还认识了不少朋友。

第二部分(通讯方A与通讯对方C的会话内容)：

A：吃饭了吗？

C：吃了。

A：我刚到KTV了，你来唱歌吗？

C：好呀，把你的定位地址发我。

步骤S202，获取会话内容中的会话对。

具体地，本发明实施例针对第一部分的会话内容获取会话对的过程包括：

步骤S2021，判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将会话句确定为发起句；

具体地，根据上述判断规则，可以确定会话内容中的发起句和回复句，假设本实施例通过判断获得会话内容中的发起句和回复句具体见表1。

表1

发起句	回复句
		节日快乐！	谢谢。
最近在忙什	最近经常去健身房健身。
		么呢？	还认识了不少朋友。

步骤S2022，判断发起句是否为具有完整独立语义的语句，若是，则判断发起句是否由多个具有完整独立语义的单句组成，若是，则将发起句的类型确定为复句发起句类型，否则为单句发起句类型，若否，则判断发起句是否包含具有完整独立语义的单句，若包含，则将发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

具体地，假设本实施例首先根据步骤S2022中的第一个判别过程，判断出发起句的类型如下，具体见表2所示。

表2

序号	发起句	类型
			第一条发起句	节日快乐！	单句
第二条发起句	最近在忙什	非标准单句
			第三条发起句	么呢？	非标准单句

然后，根据步骤S2022中的第二个判别过程，即通过判断非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句，以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句，确定是否将非标准单句和非标准复句发起句的类型衍生扩展为非标准句群发起句类型。通过具体判断可知，本实施例的第二条和第三条发起句可以合并成具有完整独立语义的语句，也即此时可以将第二条和第三条发起句的类型衍生扩展为非标准句群发起句类型，具体见表3所示。

表3

最后，根据步骤S2022中的第三个判别过程，判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。

具体地，根据表3可知，本实施例不能将发起句进一步合并成语义关联的句群，也即在最后一个过程，不对发起句进一步进行衍生扩展。故最终获得发起句的类型如表3所示。

步骤S2023，根据预设的类型判断规则，确定回复句的类型。

本实施例确定回复句的类型的原理和过程和确定发起句的类型的原理和过程基本相同，故不再详述，假设本实施例判断出回复句的类型具体如表4所示。

表4

步骤S2024，根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对。

具体地，本实施例针对第一条发起句提取会话对时，首先判断第一条发起句与下一条发起句之间是否有回复句，若有，则根据所述发起句和所述回复句提取基础会话对，由于第一条和第二条发起句之间有回复句，则根据第一条发起句和回复句提取基础会话对。需要说明的是，本实施例在确定发起句与下一条发起句之间包含回复句后，还需计算发起句与回复句是否语义关联，且只有在语义关联的情况下，才提取基础会话对，否则不提取。本实施例假设第一条发起句和第一条回复句语义关联，则可以提取出基础会话对，假设为基础会话对1，基础会话对1的具体内容如表5所示。

同理，根据第二条和第三条发起句，假设可以提取语义关联的基础会话对2，基础会话对2的具体内容如表5所示。

表5

步骤S2025，将基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句。

具体地，由于本实施例中发起句的类型共有六种，分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群发起句类型，故本实施例首先根据基础会话对中发起句的类型进行衍生扩展，由于本实施例中基础会话对1中的发起句的类型为单句发起句类型，其无法进一步衍生扩展成其他五种发起句类型，故此时只包含一种类型的发起句，即单句发起句类型的发起句，具体如表6所示。而根据基础会话对2中的发起句的类型，可以进一步衍生扩展成其他类型的发起句，例如单句发起句类型，具体如表6所示。

表6

步骤S2026，将基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句。

具体地，由于本实施例中回复句的类型共有六种，分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群回复句类型。故本实施例首先根据基础会话对中回复句的类型进行衍生扩展，由于本实施例中基础会话对1中的回复句的类型为单句回复句类型，其无法进一步衍生扩展成其他五种回复句类型，故此时只包含一种类型的回复句，即单句回复句类型的回复句，具体如表7所示。而根据基础会话对2中的回复句的类型，可以进一步衍生扩展成其他类型的回复句，例如复句回复句类型，具体如表7所示。

表7

步骤S2027，根据多种类型的发起句以及多种类型的回复句，组合至少一个语义关联的会话对进行提取。

具体地，由于针对基础会话对1，发起句和回复句的类型只有一种，故此时只能提取一个会话对，而针对基础会话对2，由于发起句的类型和复句的类型为多种，故可组合获得多个会话对，具体见表8，表8为根据基础会话对2提取的6个会话对。

表8

同理，本发明实施例针对第二部分的会话内容获取会话对的过程与针对第一部分的会话内容获取会话对的过程相同，故不进行细述，假设本实施例根据第二部分获取的会话对为会话对7-会话对10，具体见表9。

表9

步骤S203，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值。

具体地，本实施例在采集与会话对对应的且与预设的场景标签对应的场景标签值时，首先预设场景标签，然后针对每个会话对分别采集与预设的场景标签对应的场景标签值。假设本实施例预设的场景标签包括会话内容主题、会话意图、地点、天气、会话通讯双方关系、通讯对象的年龄、职业的多种组合，则可以采集到与每一个会话对对应的场景标签值，具体见表10所示。需要说明的是，本实施例中由于会话对1-会话对6均为基础会话对2的衍生扩展会话对，故与基础会话对2的场景标签对应的场景标签值相同。同理，会话对8-10的与场景标签对应的场景标签值也相同。此外，本实施例针对不同的对话对可以设置不同的场景标签，且设置的场景标签的数目也可以不同。

表10

步骤S204，将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

具体地，本实施例将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，也即按照“会话对+场景标签+场景标签值”的内容组合规则，从而生成通讯方A的个人专属语料库。

步骤S205，确定被发起会话的通讯对方。

具体地，假设本实施例中的通讯对方是由通讯方A手动选择的，具体为通讯对方D。

步骤S206，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值。

具体地，假设本实施例预设的会话场景标签为会话节日、地点、时间、天气、会话通讯双方关系以及通讯对象的职业，且通过采集获得当前与会话场景标签对应的会话场景标签值具体为：会话节日＝教师节、地点＝在家、时间＝白天、天气＝下雨、会话通讯双方关系＝朋友、通讯对象的职业＝教师。

步骤S207，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容。

具体地，通过根据会话场景标签值，可以在个人专属语料库中匹配获得与会话场景标签值对应的会话对，具体为基础会话对1，且根据基础会话对1不难获得通讯方A向通讯对方D发起会话的主动会话内容(“节日快乐！”)。

步骤S208，将主动会话内容发送至通讯对方。

具体地，本实施例将步骤S207获得的主动会话内容(“节日快乐！”)自动发送给通讯对方D。

由此可见，本发明实施例通过根据通讯方的会话内容创建属于通讯方的个人专属语料库，确定被发起会话的通讯对方，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容以及将主动会话内容发送至通讯对方，解决了现有通讯方向通讯对方发起会话时，不仅需要通讯方人为发起会话，而且还需通讯方人工构思创建主动会话内容，费时费力且效率低的技术问题，实现了根据创建的个人专属语料库智能匹配获取向通讯对方发起会话的主动会话内容，且获取的主动会话内容充分结合了当前的会话场景标签值，具有较高的智能化和个性化水平。此外，通过自动获取向通讯对方发起会话的主动会话内容，无需人工编辑，提高了会话速度，提升了用户体验。

此外，本发明实施例通过采集通讯方的会话内容，获取会话内容中的会话对，根据预设的场景标签，采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库，不仅大大减少了人工建立会话语料库的工作量，而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性，从而使得根据会话场景标签值，在个人专属语料库中能匹配获得智能化程度高且与通讯方息息相关的主动会话内容，实用价值高。

精简实施例二

参照图3，本发明的精简实施例二提供的基于个人专属语料库主动发起会话的方法，包括：

步骤S301，根据通讯方的会话内容创建属于通讯方的个人专属语料库。

具体地，假设本实施例中的通讯方为通讯方A，且根据通讯方A的会话内容创建的个人专属语料库与精简实施例一中创建的个人专属语料库相同，在此不再细述。

步骤S302，根据通讯方的通讯信息确定被发起会话的通讯对方。

具体地，假设通讯发起方A欲向其手机通讯录中一月内通话次数大于10次的通讯联系人主动发起会话。且假设本实施例获取的满足条件(一月内通话次数大于10次)的通讯联系人仅为E一个，也即本实施例确定的被发起会话的通讯对方为通讯联系人E。

步骤S303，根据预设的会话场景标签，采集获得当前与会话场景标签对应的会话场景标签值。

具体地，假设本实施例预设的会话场景标签为会话节日、地点、时间、天气、会话通讯双方关系以及通讯对象的职业，且通过采集获得当前与会话场景标签对应的会话场景标签值具体为：会话节日＝周末、地点＝KTV、时间＝晚上、天气＝晴朗、会话通讯双方关系＝同事、通讯对象的兴趣爱好＝唱歌。

步骤S304，根据会话场景标签值，在个人专属语料库中匹配向通讯对方发起会话的主动会话内容。

具体地，通过根据会话场景标签值，可以在个人专属语料库中匹配获得与会话场景标签值对应的会话对，具体为会话对8-会话对10，且根据会话对8-会话对10可以获得通讯方A向通讯对方E发起会话的两种主动会话内容(具体为“我刚到KTV了，你来唱歌吗？”/“你来唱歌吗？”)。

步骤S305，将主动会话内容发送至通讯对方。

具体地，本实施例可以将基于个人专属语料库获得的主动会话内容(“我刚到KTV了，你来唱歌吗？”或“你来唱歌吗？”)发送给通讯对方E。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于个人专属语料库主动发起会话的方法，其特征在于，包括：

根据通讯方的会话内容创建属于所述通讯方的个人专属语料库；

确定被发起会话的通讯对方；

根据预设的会话场景标签，采集获得当前与所述会话场景标签对应的会话场景标签值；

根据所述会话场景标签值，在所述个人专属语料库中匹配向所述通讯对方发起会话的主动会话内容；

将所述主动会话内容发送至所述通讯对方。

2.根据权利要求1所述的基于个人专属语料库主动发起会话的方法，其特征在于，根据通讯方的会话内容创建属于所述通讯方的个人专属语料库包括：

采集通讯方的会话内容；

获取所述会话内容中的会话对；

根据预设的场景标签，采集获得所述会话对与所述场景标签对应的场景标签值；

将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合，从而生成个人专属语料库。

3.根据权利要求2所述的基于个人专属语料库主动发起会话的方法，其特征在于，获取所述会话内容中的会话对包括：

根据所述会话内容中会话句的语义，确定所述会话内容中的发起句和回复句；

根据预设的类型判断规则，确定所述发起句和所述回复句的类型；

根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对；

根据所述基础会话对、所述基础会话对中发起句和回复句的类型，提取至少一个会话对。

4.根据权利要求3所述的基于个人专属语料库主动发起会话的方法，其特征在于，根据所述会话内容中会话句的语义，确定所述会话内容中的发起句和回复句包括：

判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文，若无，则将所述会话句确定为发起句；

若有，则判断所述会话句是否与所述通讯对方发送的上文无语义关联，若是，则将所述会话句确定为发起句，否则将所述会话句确定为回复句。

5.根据权利要求4所述的基于个人专属语料库主动发起会话的方法，其特征在于，根据预设的类型判断规则，确定所述发起句的类型包括：

判断所述发起句是否为具有完整独立语义的语句，若是，则判断所述发起句是否由多个具有完整独立语义的单句组成，若是，则将所述发起句的类型确定为复句发起句类型，否则为单句发起句类型；若否，则判断所述发起句是否包含具有完整独立语义的单句，若包含，则将所述发起句的类型确定为非标准复句发起句类型，若不包含，则为非标准单句发起句类型；

搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句，若有，则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将所述发起句的类型衍生扩展为句群发起句类型，否则不进行衍生扩展。

6.根据权利要求5所述的基于个人专属语料库主动发起会话的方法，其特征在于，根据预设的类型判断规则，确定所述回复句的类型包括：

判断所述回复句是否为具有完整独立语义的语句，若是，则判断所述回复句是否由多个具有完整独立语义的单句组成，若是，则将所述回复句的类型确定为复句回复句类型，否则为单句回复句类型；若否，则判断所述回复句是否包含具有完整独立语义的单句，若包含，则将所述回复句的类型确定为非标准复句回复句类型，若不包含，则为非标准单句回复句类型；

搜索非标准单句回复句类型的所述回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准单句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准单句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

搜索非标准复句回复句类型的所述回复句是否有自己的上文和下文连续会话句，若无，则不进行衍生扩展，若有，则进一步判断非标准复句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句，若能，则将非标准复句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型，若不能，则不进行衍生扩展；

判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述回复句是否有自己的上文和下文连续会话句，若有，则进一步判断所述回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群，若是，则将所述回复句的类型衍生扩展为句群回复句类型，否则不进行衍生扩展。

7.根据权利要求6所述的基于个人专属语料库主动发起会话的方法，其特征在于，根据基础会话对、所述基础会话对中发起句的类型以及所述基础会话对中回复句的类型，提取至少一个会话对包括：

将所述基础会话对中发起句的类型进行衍生扩展，获得多种类型的发起句；

将所述基础会话对中回复句的类型进行衍生扩展，获得多种类型的回复句；

根据多种类型的所述发起句以及多种类型的所述回复句，组合至少一个语义关联的会话对进行提取。

8.根据权利要7所述的基于个人专属语料库主动发起会话的方法，其特征在于，确定被发起会话的通讯对方包括：

手动获取被发起会话的通讯对方，或根据所述通讯方的通讯信息确定被发起会话的通讯对方，

其中，所述通讯信息包括通讯频率、通讯次数、通讯时长、发起历史通讯的选择方式中的一种或多种，所述发起历史通讯的选择方式包括从通讯录发起通讯方式、从历史通话记录发起通讯方式、从短信通讯模块发起通讯方式、从拨号盘发起通讯方式。

9.根据权利要求8所述的基于个人专属语料库主动发起会话的方法，其特征在于，所述场景标签包括：

第一场景标签和第二场景标签，其中所述第一场景标签包括：会话通讯双方的时间、地点、日期、天气、季节、体感数据，会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签中的一种或多种组合；

所述第二场景标签包括：会话内容主题，会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态，会话内容的句型、句类、句式结构类型，以及总量场景标签中的一种或多种组合。