CN106844732B

CN106844732B - 针对无法直接采集的会话场景标签进行自动获取的方法

Info

Publication number: CN106844732B
Application number: CN201710076036.1A
Authority: CN
Inventors: 陈包容
Original assignee: Changsha Junge Software Co ltd
Current assignee: Changsha Junge Software Co ltd
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2020-05-08
Anticipated expiration: 2037-02-13
Also published as: CN106844732A

Abstract

本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法，通过对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签，以及根据第二会话场景标签项，搜索或匹配获得第二会话场景标签；根据第一会话场景标签推理获得第二会话场景标签；通过对会话内容进行语义推理获得第二会话场景标签；通过获取与会话内容关联的关联词获得第二会话场景标签；根据已训练好的分类器分类获得第二会话场景标签；通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签；或根据上述方法的任意组合获得第二会话场景标签，解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题。

Description

针对无法直接采集的会话场景标签进行自动获取的方法

技术领域

本发明涉及通信技术领域，具体涉及一种针对无法直接采集的会话场景标签进行自动获取的方法。

背景技术

目前，在智能聊天或智能会话过程中，系统往往需要根据不同的会话场景提供不同的智能回复内容，其中所述的会话场景一般是由多个会话场景标签组合而成，例如会话内容主题、会话时间、会话地点、会话双方关系等等。

对于会话场景标签组合中的一些会话场景标签(例如会话时间、会话地点等)，系统可以对其进行直接采集，而对于另外一些会话场景标签(例如会话内容主题、会话双方关系等)，系统无法对其进行直接采集。针对这些无法直接采集的会话场景标签，本发明提供了一种针对无法直接采集的会话场景标签进行自动获取的方法。

发明内容

本发明提供了一种针对无法直接采集的会话场景标签进行自动获取的方法，以解决现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题。本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法，包括：

获取待采集的会话场景标签项；

将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，其中，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项；

对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签；

根据第二会话场景标签项，

搜索或匹配获得第二会话场景标签；

根据第一会话场景标签推理获得第二会话场景标签；

通过对会话内容进行语义推理获得第二会话场景标签；

通过获取与会话内容关联的关联词获得第二会话场景标签；

根据已训练好的分类器分类获得第二会话场景标签；

通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签；

或根据上述方法的任意组合获得第二会话场景标签；

其中，第二会话场景标签为与第二会话场景标签项对应的会话场景标签。

进一步地，根据第一会话场景标签推理获得第二会话场景标签包括：

根据第一会话场景标签以及预设的场景标签推理规则，获得与第二会话场景标签项对应的第二会话场景标签。

进一步地，通过获取与会话内容关联的关联词获得第二会话场景标签包括：

对会话内容进行分词，获得分词文本；

获取与第二会话场景标签项关联的分词文本，获得第一关联文本；

根据预设的关联词库，获取与第一关联文本关联的关联词，获得第二关联文本；

根据第一关联文本和/或第二关联文本，获得与第二会话场景标签项对应的第二会话场景标签。

进一步地，根据已训练好的分类器分类获得第二会话场景标签包括：

预先训练好用于获得会话场景标签的分类器；

将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得的第二会话场景标签，作为分类器的输入；

根据分类器的输出结果，获得与第二会话场景标签项对应的第二会话场景标签。

进一步地，第一会话场景标签项包括：

会话通讯双方的时间、地点、日期、天气、季节、体感数据，会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签项中的一种或多种组合。

进一步地，第二会话场景标签项包括：

会话内容主题，会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态，会话内容的句型、句类、句式结构类型，以及总量场景标签项中的一种或多种组合。

本发明具有以下有益效果：

本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法，通过获取待采集的会话场景标签项，将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签，以及根据第二会话场景标签项，搜索或匹配获得第二会话场景标签；根据第一会话场景标签推理获得第二会话场景标签；通过对会话内容进行语义推理获得第二会话场景标签；通过获取与会话内容关联的关联词获得第二会话场景标签；根据已训练好的分类器分类获得第二会话场景标签；通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签；或根据上述方法的任意组合获得第二会话场景标签，解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题，实现了对无法直接采集的会话场景标签进行自动获取，实现方式简单且智能化程度高，此外，本实施例提供了多个自动获取第二会话场景标签的方法，具有较高的实用性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构建本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构建对本发明的不当限定。在附图中：

图1是本发明优选实施例针对无法直接采集的会话场景标签进行自动获取的方法流程图；

图2是本发明优选实施例针对的精简实施例一的针对无法直接采集的会话场景标签进行自动获取的方法的流程图；

图3是本发明优选实施例针对的精简实施例二的针对无法直接采集的会话场景标签进行自动获取的方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种针对无法直接采集的会话场景标签进行自动获取的方法，包括：

步骤S101，获取待采集的会话场景标签项；

步骤S102，将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，其中，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项；

步骤S103，对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签；

步骤S104，根据第二会话场景标签项，

搜索或匹配获得第二会话场景标签；

根据第一会话场景标签推理获得第二会话场景标签；

通过对会话内容进行语义推理获得第二会话场景标签；

通过获取与会话内容关联的关联词获得第二会话场景标签；

根据已训练好的分类器分类获得第二会话场景标签；

或根据上述方法的任意组合获得第二会话场景标签；

本发明实施例提供的针对无法直接采集的会话场景标签进行自动获取的方法，通过获取待采集的会话场景标签项，将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签，以及根据第二会话场景标签项，搜索或匹配获得第二会话场景标签；根据第一会话场景标签推理获得第二会话场景标签；通过对会话内容进行语义推理获得第二会话场景标签；通过获取与会话内容关联的关联词获得第二会话场景标签；根据已训练好的分类器分类获得第二会话场景标签；通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签；或根据上述方法的任意组合获得第二会话场景标签，解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题，实现了对无法直接采集的会话场景标签进行自动获取，实现方式简单且智能化程度高，此外，本实施例提供了多个自动获取第二会话场景标签的方法，具有较高的实用性。

本实施例根据第二会话场景标签项，搜索或匹配获得第二会话场景标签，具体是通过将第二会话场景标签项与大数据或互联网数据进行匹配的方式获得第二会话场景标签。例如针对性别场景标签项，只需采用正则表达式“性别*”与用户的基本信息进行匹配，就能获得与性别场景标签项对应的结果。同样，对于年龄、兴趣爱好、星座、血型、职业等第二会话场景标签项，也可以采用正则表达式或其他匹配技术，获得与第二会话场景标签项对应的第二会话场景标签。

需要说明的是，本实施例中的第一会话场景标签项和第二会话场景标签项可能会有所重叠，例如针对加速度场景标签项，既可以通过加速度传感器直接采集获得与加速度场景标签项对应的结果，也可以根据直接采集的第一会话场景标签(例如速度场景标签)推理获得与加速度场景标签项对应的结果。也即，此时可以将加速度场景标签项分类到第一会话场景标签项，也可将其分类到第二会话场景标签项。

在实际的实施过程中，本实施例在自动获得第二会话场景标签时，往往可以先采用简单的搜索匹配方法，看是否能获得第二场景标签，且在不能采用简单的搜索匹配方法获得第二会话场景标签时，再陆续采用其他的方法获得第二场景标签，具体可以按照由简单到复杂的顺序自动选择获得第二会话场景标签的方法。

可选地，根据第一会话场景标签推理获得第二会话场景标签包括：

由于本实施例中的第一会话场景标签可以直接采集获得，故本实施例可以根据第一会话场景标签推理获得第二会话场景标签。具体地，首先预设场景标签推理规则，然后根据第一会话场景标签以及预设的场景标签推理规则，获得与第二会话场景标签项对应的第二会话场景标签。例如可以根据已采集的第一会话场景标签(例如时间、地点场景标签)以及预设的场景推理规则(例如当地点为售票厅，时间为白天时，则会话意图为购票；当地点为超市，时间为上午，则会话意图为超市购物等等)，获得会话意图场景标签。

且本实施例中预设的场景标签推理规则具体由用户自定义，例如根据时间和地点场景标签推理获得会话意图场景标签，或通过时间、地点、性别、年龄、通话次数等场景标签推理获得会话通讯双方关系的场景标签规则等等。

本实施例通过第一会话场景标签以及预设的场景标签推理规则，推理获得第二会话场景标签，充分利用已直接采集的第一会话场景标签，以及通过简单的推理就能快速获取第二会话场景标签，实现过程简单有效，实现了对不能直接采集的会话场景标签进行自动获取，智能化程度高。

此外，本实施例还可以通过对会话内容进行语义推理获得第二会话场景标签。具体地，可以首先对会话内容进行词法、语法和/或语义分析，然后根据词法、语法和/或语义分析结果以及预设的知识图谱或语义网，推理获得第二会话场景标签。

可选地，通过获取与会话内容关联的关联词获得第二会话场景标签包括：

对会话内容进行分词，获得分词文本；

具体地，由于会话内容往往是蕴含会话场景标签信息最多的载体，而与会话内容关联的知识也可能或多或少隐含或蕴含会话场景标签信息。针对这种现象，本实施例通过获取与会话内容关联的关联词获得第二会话场景标签。具体地，首先对会话内容进行分词，获得分词文本，然后获取与第二会话场景标签项关联的分词文本，获得第一关联文本以及根据预设的关联词库，获取与第一关联文本关联的关联词，获得第二关联文本，最后根据第一关联文本和/或第二关联文本，获得与第二会话场景标签项对应的第二会话场景标签。

例如，假设本实施例的会话内容为“吃饭了吗？”，则首先对会话内容进行分词，可以获得分词文本{吃饭，了，吗}，然后获取与第二会话场景标签项关联的分词文本，假设本实施例的第二会话场景标签项为菜系，则通过关联度计算，可以获得与第二会话场景标签项关联的分词文本(吃饭)，并将“吃饭”作为第一关联文本。同时，本实施例继续获取与第一关联文本关联的关联词，获得第二关联文本，假设通过预设的词库，本实施例获得第二关联文本为{湘菜、喝酒}，最后根据第一关联文本和/或第二关联文本，获得与第二会话场景标签项对应的第二会话场景标签。

需要说明的是，在该步骤中，由于第二分词文本的数目可能不止一个，故在实际的实施过程中，往往还需计算与第二会话场景标签项最关联的第二关联文本(湘菜)，并将与第二会话场景标签项(菜系)最关联的第二关联文本(湘菜)最为最终的第二会话场景标签。

本实施例通过获取与会话内容关联的关联词获得第二会话场景标签，充分结合与会话内容关联的关联信息，不仅间接有效地实现对第二会话场景标签的自动获取，而且获取的第二会话场景标签充分结合会话内容，具有较高的精准性和智能化程度。

可选地，根据已训练好的分类器分类获得第二会话场景标签包括：

预先训练好用于获得会话场景标签的分类器；

将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得第二会话场景标签，作为分类器的输入；

本实施例通过将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得第二会话场景标签，作为分类器的输入，并根据分类器的输出结果，能较精准地自动获得与第二会话场景标签项对应的第二会话场景标签，智能化程度高，且基于分类器获得第二会话场景标签的方法具有较好的推广适用性。优选地，本实施例中的分类器可以是SVM分类器、贝叶斯分类器、最大熵分类器中的任意一种。

可选地，第一会话场景标签项包括：

需要说明的是，本实施例中的第一会话场景标签不限于包括会话通讯双方的时间、地点、日期、天气、季节、体感数据，会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签项中的一种或多种组合，具体由用户自定义，且第一会话场景标签项与第二会话场景标签项可能会有重叠。

可选地，第二会话场景标签项包括：

需要说明的是，本实施例中的第二会话场景标签不限于包括会话内容主题，会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态，会话内容的句型、句类、句式结构类型，以及总量场景标签项中的一种或多种组合，具体由用户自定义，且第二会话场景标签项与第一会话场景标签项可能会有重叠。

下面针对二个精简实施例对本发明的针对无法直接采集的会话场景标签进行自动获取的方法进行更进一步说明。

精简实施例一

参照图2，本发明的精简实施例一提供的针对无法直接采集的会话场景标签进行自动获取的方法，包括：

步骤S201，获取待采集的会话场景标签项。

具体地，假设本实施例采集的会话场景标签项包括会话时间、会话地点、会话方的年龄、性别、职业及会话意图。

步骤S202，将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，其中，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项。

具体地，根据本实施例中的第一会话场景标签项和第二会话场景标签项的定义可知，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项。依此分类依据，可以获得会话场景标签中的会话时间、会话地点场景标签为第一会话场景标签项，会话方的年龄、性别、职业及会话意图为第二会话场景标签项。

步骤S203，对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签。

假设本实施例中的会话方为A，会话对方为B，且会话方A和会话对方B的会话内容如下：

会话方A：您好。

会话对方B：您好，很高兴为您服务。

会话方A：请帮我查询下还有明天上午10点从长沙到北京的火车票。

会话对方B：好的，您稍等。

由于第一会话场景标签项是可以对其进行直接采集的会话场景标签项，故本实施例对第一会话场景标签项进行直接采集，也即针对会话时间、会话地点场景标签项进行直接采集，假设本实施例采集到会话时间为早上8点，会话地点为火车票售票厅。

步骤S204，根据第二会话场景标签项，搜索或匹配获得第二会话场景标签和/或根据第一会话场景标签推理获得第二会话场景标签。

通过步骤S203可知，本实施例针对会话方的年龄、性别、职业及会话意图都不能进行直接采集，则可以首先通过搜索或匹配获得第二会话场景标签(会话方的年龄、性别、职业及会话意图场景标签)。具体地，假设本实施例通过正则表达式与会话方的基本信息进行匹配后，可以获得会话方的年龄为18，性别为女，职业为学生。

而针对会话方的会话意图场景标签假设本实施例不能通过搜索匹配的方式获得，则根据第一会话场景标签推理获得第二会话场景标签的方法获得会话方的会话意图。具体地，首先获得第一会话场景标签，根据步骤S203可知，本实施例采集获得的第一会话场景标签包括(会话时间：上午8点、会话地点：火车票售票厅)，然后根据第一会话场景标签以及预设的场景标签推理规则，获得与第二会话场景标签项对应的第二会话场景标签(假设为购买火车票)。

由此可见，本实施例针对无法直接采集的会话场景标签，可以通过搜索或匹配获得第二会话场景标签和/或根据第一会话场景标签推理获得第二会话场景标签，实现了对不能直接采集的会话场景标签的自动获取，且充分利用已直接采集的第一会话场景标签，以及通过简单的推理就能快速获取第二会话场景标签，实现过程简单有效，智能化程度高。

精简实施例二

参照图3，本发明的精简实施例二提供的针对无法直接采集的会话场景标签进行自动获取的方法，包括：

步骤S301，获取待采集的会话场景标签项。

具体地，假设本实施例采集的会话场景标签项包括会话时间、会话地点和会话方的心情。

步骤S302，将会话场景标签项分为第一会话场景标签项和第二会话场景标签项，其中，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项。

具体地，根据本实施例中的第一会话场景标签项和第二会话场景标签项的定义可知，第一会话场景标签项为能直接采集的会话场景标签项，第二会话场景标签项为不能直接采集的会话场景标签项。依此分类依据，可以获得会话场景标签中的会话时间、会话地点场景标签为第一会话场景标签项，会话方的心情为第二会话场景标签项。

步骤S303，对第一会话场景标签项进行直接采集，获得与第一会话场景标签项对应的第一会话场景标签。假设本实施例中的会话方为A，会话对方为B，且会话方A和会话对方B的会话内容如下：

会话方A：在忙吗？

会话对方B：不忙，有什么事情吗？

会话方A：今天我把钱包丢了，哎。

由于第一会话场景标签项是可以对其进行直接采集的会话场景标签项，故本实施例对第一会话场景标签项进行直接采集，也即针对会话时间、会话地点场景标签项进行直接采集，假设本实施例采集到会话时间为晚上8点，会话地点为在家。

步骤S304，预先训练好用于获得会话场景标签的分类器。

由于本实施例中的会话方的心情场景标签不能通过直接采集的方式进行自动获取，故根据已训练好的分类器分类获得。具体地，首先预先训练好用于获得会话场景标签的分类器，且在训练分类器阶段，假设预设的心情输出类别为四类，分别为高兴、悲伤、平淡、愤怒。需要说明的是，本实施例中分类器的输出类别并不限于上述四个输出类别，具体由用户根据需要自定义。

步骤S305，将会话内容和/或第一会话场景标签，作为分类器的输入。

具体地，本实施将会话内容和第一会话场景标签，作为分类器的输入，且在实际的实施过程中，还包括首先将会话内容进行分词等预处理操作。

步骤S306，根据分类器的输出结果，获得与第二会话场景标签项对应的第二会话场景标签。

具体地，假设本实施例中分类器的输出结果为悲伤，则将该输出结果作为与会话方的心情场景标签项对应的结果，也即通过该分类器，本实施例可以实现对第二会话场景标签的自动获取，且通过分类器可以自动获得的第二会话场景标签的精准性和智能化程度高。优选地，本实施例中的分类器可以是SVM分类器、贝叶斯分类器、最大熵分类器中的任意一种。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,包括：

获取待采集的会话场景标签项；

将所述会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,所述第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项；

对所述第一会话场景标签项进行直接采集,获得与所述第一会话场景标签项对应的第一会话场景标签；

根据所述第二会话场景标签项，

搜索或匹配获得第二会话场景标签；

根据所述第一会话场景标签推理获得第二会话场景标签；

通过对会话内容进行语义推理获得第二会话场景标签；

通过获取与会话内容关联的关联词获得第二会话场景标签；

其中，通过获取与会话内容关联的关联词获得第二会话场景标签包括：

对会话内容进行分词,获得分词文本；

获取与所述第二会话场景标签项关联的分词文本,获得第一关联文本；

根据预设的关联词库,获取与所述第一关联文本关联的关联词,获得第二关联文本；

根据所述第一关联文本和/或所述第一关联文本,获得与所述第二会话场景标签项对应的第二会话场景标签；

根据已训练好的分类器分类获得第二会话场景标；

通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签。

2.根据权利要求1所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,根据所述第一会话场景标签推理获得第二会话场景标签包括：

根据所述第一会话场景标签以及预设的场景标签推理规则,获得与所述第二会话场景标签项对应的第二会话场景标签。

3.根据权利要求2所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,根据已训练好的分类器分类获得第二会话场景标签包括：

预先训练好用于获得会话场景标签的分类器；

将会话内容和/或所述第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得的第:会话场景标签,作为所述分类器的输入；

根据所述分类器的输出结果,获得与所述第二会话场景标签项对应的第二会话场景标签。

4.根据权利要求3所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,所述第一会话场景标签项包括：

会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间频率时间跨度场景标签项中的一种或多种组合。

5.根据权利要求4所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,所述第二会话场景标签项包括：

会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签项中的一种或多种组合。