CN106844732B - 针对无法直接采集的会话场景标签进行自动获取的方法 - Google Patents

针对无法直接采集的会话场景标签进行自动获取的方法 Download PDF

Info

Publication number
CN106844732B
CN106844732B CN201710076036.1A CN201710076036A CN106844732B CN 106844732 B CN106844732 B CN 106844732B CN 201710076036 A CN201710076036 A CN 201710076036A CN 106844732 B CN106844732 B CN 106844732B
Authority
CN
China
Prior art keywords
conversation
session
scene
scene label
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710076036.1A
Other languages
English (en)
Other versions
CN106844732A (zh
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Junge Software Co ltd
Original Assignee
Changsha Junge Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Junge Software Co ltd filed Critical Changsha Junge Software Co ltd
Priority to CN201710076036.1A priority Critical patent/CN106844732B/zh
Publication of CN106844732A publication Critical patent/CN106844732A/zh
Application granted granted Critical
Publication of CN106844732B publication Critical patent/CN106844732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法,通过对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签,以及根据第二会话场景标签项,搜索或匹配获得第二会话场景标签;根据第一会话场景标签推理获得第二会话场景标签;通过对会话内容进行语义推理获得第二会话场景标签;通过获取与会话内容关联的关联词获得第二会话场景标签;根据已训练好的分类器分类获得第二会话场景标签;通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签;或根据上述方法的任意组合获得第二会话场景标签,解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题。

Description

针对无法直接采集的会话场景标签进行自动获取的方法
技术领域
本发明涉及通信技术领域,具体涉及一种针对无法直接采集的会话场景标签进行自动获取的方法。
背景技术
目前,在智能聊天或智能会话过程中,系统往往需要根据不同的会话场景提供不同的智能回复内容,其中所述的会话场景一般是由多个会话场景标签组合而成,例如会话内容主题、会话时间、会话地点、会话双方关系等等。
对于会话场景标签组合中的一些会话场景标签(例如会话时间、会话地点等),系统可以对其进行直接采集,而对于另外一些会话场景标签(例如会话内容主题、会话双方关系等),系统无法对其进行直接采集。针对这些无法直接采集的会话场景标签,本发明提供了一种针对无法直接采集的会话场景标签进行自动获取的方法。
发明内容
本发明提供了一种针对无法直接采集的会话场景标签进行自动获取的方法,以解决现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题。本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法,包括:
获取待采集的会话场景标签项;
将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项;
对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签;
根据第二会话场景标签项,
搜索或匹配获得第二会话场景标签;
根据第一会话场景标签推理获得第二会话场景标签;
通过对会话内容进行语义推理获得第二会话场景标签;
通过获取与会话内容关联的关联词获得第二会话场景标签;
根据已训练好的分类器分类获得第二会话场景标签;
通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签;
或根据上述方法的任意组合获得第二会话场景标签;
其中,第二会话场景标签为与第二会话场景标签项对应的会话场景标签。
进一步地,根据第一会话场景标签推理获得第二会话场景标签包括:
根据第一会话场景标签以及预设的场景标签推理规则,获得与第二会话场景标签项对应的第二会话场景标签。
进一步地,通过获取与会话内容关联的关联词获得第二会话场景标签包括:
对会话内容进行分词,获得分词文本;
获取与第二会话场景标签项关联的分词文本,获得第一关联文本;
根据预设的关联词库,获取与第一关联文本关联的关联词,获得第二关联文本;
根据第一关联文本和/或第二关联文本,获得与第二会话场景标签项对应的第二会话场景标签。
进一步地,根据已训练好的分类器分类获得第二会话场景标签包括:
预先训练好用于获得会话场景标签的分类器;
将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得的第二会话场景标签,作为分类器的输入;
根据分类器的输出结果,获得与第二会话场景标签项对应的第二会话场景标签。
进一步地,第一会话场景标签项包括:
会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签项中的一种或多种组合。
进一步地,第二会话场景标签项包括:
会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签项中的一种或多种组合。
本发明具有以下有益效果:
本发明提供的针对无法直接采集的会话场景标签进行自动获取的方法,通过获取待采集的会话场景标签项,将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签,以及根据第二会话场景标签项,搜索或匹配获得第二会话场景标签;根据第一会话场景标签推理获得第二会话场景标签;通过对会话内容进行语义推理获得第二会话场景标签;通过获取与会话内容关联的关联词获得第二会话场景标签;根据已训练好的分类器分类获得第二会话场景标签;通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签;或根据上述方法的任意组合获得第二会话场景标签,解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题,实现了对无法直接采集的会话场景标签进行自动获取,实现方式简单且智能化程度高,此外,本实施例提供了多个自动获取第二会话场景标签的方法,具有较高的实用性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:
图1是本发明优选实施例针对无法直接采集的会话场景标签进行自动获取的方法流程图;
图2是本发明优选实施例针对的精简实施例一的针对无法直接采集的会话场景标签进行自动获取的方法的流程图;
图3是本发明优选实施例针对的精简实施例二的针对无法直接采集的会话场景标签进行自动获取的方法的流程图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参照图1,本发明的优选实施例提供了一种针对无法直接采集的会话场景标签进行自动获取的方法,包括:
步骤S101,获取待采集的会话场景标签项;
步骤S102,将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项;
步骤S103,对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签;
步骤S104,根据第二会话场景标签项,
搜索或匹配获得第二会话场景标签;
根据第一会话场景标签推理获得第二会话场景标签;
通过对会话内容进行语义推理获得第二会话场景标签;
通过获取与会话内容关联的关联词获得第二会话场景标签;
根据已训练好的分类器分类获得第二会话场景标签;
通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签;
或根据上述方法的任意组合获得第二会话场景标签;
其中,第二会话场景标签为与第二会话场景标签项对应的会话场景标签。
本发明实施例提供的针对无法直接采集的会话场景标签进行自动获取的方法,通过获取待采集的会话场景标签项,将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签,以及根据第二会话场景标签项,搜索或匹配获得第二会话场景标签;根据第一会话场景标签推理获得第二会话场景标签;通过对会话内容进行语义推理获得第二会话场景标签;通过获取与会话内容关联的关联词获得第二会话场景标签;根据已训练好的分类器分类获得第二会话场景标签;通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签;或根据上述方法的任意组合获得第二会话场景标签,解决了现有技术针对无法直接采集的会话场景标签不能对其进行自动获取的技术问题,实现了对无法直接采集的会话场景标签进行自动获取,实现方式简单且智能化程度高,此外,本实施例提供了多个自动获取第二会话场景标签的方法,具有较高的实用性。
本实施例根据第二会话场景标签项,搜索或匹配获得第二会话场景标签,具体是通过将第二会话场景标签项与大数据或互联网数据进行匹配的方式获得第二会话场景标签。例如针对性别场景标签项,只需采用正则表达式“性别*”与用户的基本信息进行匹配,就能获得与性别场景标签项对应的结果。同样,对于年龄、兴趣爱好、星座、血型、职业等第二会话场景标签项,也可以采用正则表达式或其他匹配技术,获得与第二会话场景标签项对应的第二会话场景标签。
需要说明的是,本实施例中的第一会话场景标签项和第二会话场景标签项可能会有所重叠,例如针对加速度场景标签项,既可以通过加速度传感器直接采集获得与加速度场景标签项对应的结果,也可以根据直接采集的第一会话场景标签(例如速度场景标签)推理获得与加速度场景标签项对应的结果。也即,此时可以将加速度场景标签项分类到第一会话场景标签项,也可将其分类到第二会话场景标签项。
在实际的实施过程中,本实施例在自动获得第二会话场景标签时,往往可以先采用简单的搜索匹配方法,看是否能获得第二场景标签,且在不能采用简单的搜索匹配方法获得第二会话场景标签时,再陆续采用其他的方法获得第二场景标签,具体可以按照由简单到复杂的顺序自动选择获得第二会话场景标签的方法。
可选地,根据第一会话场景标签推理获得第二会话场景标签包括:
根据第一会话场景标签以及预设的场景标签推理规则,获得与第二会话场景标签项对应的第二会话场景标签。
由于本实施例中的第一会话场景标签可以直接采集获得,故本实施例可以根据第一会话场景标签推理获得第二会话场景标签。具体地,首先预设场景标签推理规则,然后根据第一会话场景标签以及预设的场景标签推理规则,获得与第二会话场景标签项对应的第二会话场景标签。例如可以根据已采集的第一会话场景标签(例如时间、地点场景标签)以及预设的场景推理规则(例如当地点为售票厅,时间为白天时,则会话意图为购票;当地点为超市,时间为上午,则会话意图为超市购物等等),获得会话意图场景标签。
且本实施例中预设的场景标签推理规则具体由用户自定义,例如根据时间和地点场景标签推理获得会话意图场景标签,或通过时间、地点、性别、年龄、通话次数等场景标签推理获得会话通讯双方关系的场景标签规则等等。
本实施例通过第一会话场景标签以及预设的场景标签推理规则,推理获得第二会话场景标签,充分利用已直接采集的第一会话场景标签,以及通过简单的推理就能快速获取第二会话场景标签,实现过程简单有效,实现了对不能直接采集的会话场景标签进行自动获取,智能化程度高。
此外,本实施例还可以通过对会话内容进行语义推理获得第二会话场景标签。具体地,可以首先对会话内容进行词法、语法和/或语义分析,然后根据词法、语法和/或语义分析结果以及预设的知识图谱或语义网,推理获得第二会话场景标签。
可选地,通过获取与会话内容关联的关联词获得第二会话场景标签包括:
对会话内容进行分词,获得分词文本;
获取与第二会话场景标签项关联的分词文本,获得第一关联文本;
根据预设的关联词库,获取与第一关联文本关联的关联词,获得第二关联文本;
根据第一关联文本和/或第二关联文本,获得与第二会话场景标签项对应的第二会话场景标签。
具体地,由于会话内容往往是蕴含会话场景标签信息最多的载体,而与会话内容关联的知识也可能或多或少隐含或蕴含会话场景标签信息。针对这种现象,本实施例通过获取与会话内容关联的关联词获得第二会话场景标签。具体地,首先对会话内容进行分词,获得分词文本,然后获取与第二会话场景标签项关联的分词文本,获得第一关联文本以及根据预设的关联词库,获取与第一关联文本关联的关联词,获得第二关联文本,最后根据第一关联文本和/或第二关联文本,获得与第二会话场景标签项对应的第二会话场景标签。
例如,假设本实施例的会话内容为“吃饭了吗?”,则首先对会话内容进行分词,可以获得分词文本{吃饭,了,吗},然后获取与第二会话场景标签项关联的分词文本,假设本实施例的第二会话场景标签项为菜系,则通过关联度计算,可以获得与第二会话场景标签项关联的分词文本(吃饭),并将“吃饭”作为第一关联文本。同时,本实施例继续获取与第一关联文本关联的关联词,获得第二关联文本,假设通过预设的词库,本实施例获得第二关联文本为{湘菜、喝酒},最后根据第一关联文本和/或第二关联文本,获得与第二会话场景标签项对应的第二会话场景标签。
需要说明的是,在该步骤中,由于第二分词文本的数目可能不止一个,故在实际的实施过程中,往往还需计算与第二会话场景标签项最关联的第二关联文本(湘菜),并将与第二会话场景标签项(菜系)最关联的第二关联文本(湘菜)最为最终的第二会话场景标签。
本实施例通过获取与会话内容关联的关联词获得第二会话场景标签,充分结合与会话内容关联的关联信息,不仅间接有效地实现对第二会话场景标签的自动获取,而且获取的第二会话场景标签充分结合会话内容,具有较高的精准性和智能化程度。
可选地,根据已训练好的分类器分类获得第二会话场景标签包括:
预先训练好用于获得会话场景标签的分类器;
将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得第二会话场景标签,作为分类器的输入;
根据分类器的输出结果,获得与第二会话场景标签项对应的第二会话场景标签。
本实施例通过将会话内容和/或第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得第二会话场景标签,作为分类器的输入,并根据分类器的输出结果,能较精准地自动获得与第二会话场景标签项对应的第二会话场景标签,智能化程度高,且基于分类器获得第二会话场景标签的方法具有较好的推广适用性。优选地,本实施例中的分类器可以是SVM分类器、贝叶斯分类器、最大熵分类器中的任意一种。
可选地,第一会话场景标签项包括:
会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签项中的一种或多种组合。
需要说明的是,本实施例中的第一会话场景标签不限于包括会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间、频率、时间跨度场景标签项中的一种或多种组合,具体由用户自定义,且第一会话场景标签项与第二会话场景标签项可能会有重叠。
可选地,第二会话场景标签项包括:
会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签项中的一种或多种组合。
需要说明的是,本实施例中的第二会话场景标签不限于包括会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签项中的一种或多种组合,具体由用户自定义,且第二会话场景标签项与第一会话场景标签项可能会有重叠。
下面针对二个精简实施例对本发明的针对无法直接采集的会话场景标签进行自动获取的方法进行更进一步说明。
精简实施例一
参照图2,本发明的精简实施例一提供的针对无法直接采集的会话场景标签进行自动获取的方法,包括:
步骤S201,获取待采集的会话场景标签项。
具体地,假设本实施例采集的会话场景标签项包括会话时间、会话地点、会话方的年龄、性别、职业及会话意图。
步骤S202,将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项。
具体地,根据本实施例中的第一会话场景标签项和第二会话场景标签项的定义可知,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项。依此分类依据,可以获得会话场景标签中的会话时间、会话地点场景标签为第一会话场景标签项,会话方的年龄、性别、职业及会话意图为第二会话场景标签项。
步骤S203,对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签。
假设本实施例中的会话方为A,会话对方为B,且会话方A和会话对方B的会话内容如下:
会话方A:您好。
会话对方B:您好,很高兴为您服务。
会话方A:请帮我查询下还有明天上午10点从长沙到北京的火车票。
会话对方B:好的,您稍等。
由于第一会话场景标签项是可以对其进行直接采集的会话场景标签项,故本实施例对第一会话场景标签项进行直接采集,也即针对会话时间、会话地点场景标签项进行直接采集,假设本实施例采集到会话时间为早上8点,会话地点为火车票售票厅。
步骤S204,根据第二会话场景标签项,搜索或匹配获得第二会话场景标签和/或根据第一会话场景标签推理获得第二会话场景标签。
通过步骤S203可知,本实施例针对会话方的年龄、性别、职业及会话意图都不能进行直接采集,则可以首先通过搜索或匹配获得第二会话场景标签(会话方的年龄、性别、职业及会话意图场景标签)。具体地,假设本实施例通过正则表达式与会话方的基本信息进行匹配后,可以获得会话方的年龄为18,性别为女,职业为学生。
而针对会话方的会话意图场景标签假设本实施例不能通过搜索匹配的方式获得,则根据第一会话场景标签推理获得第二会话场景标签的方法获得会话方的会话意图。具体地,首先获得第一会话场景标签,根据步骤S203可知,本实施例采集获得的第一会话场景标签包括(会话时间:上午8点、会话地点:火车票售票厅),然后根据第一会话场景标签以及预设的场景标签推理规则,获得与第二会话场景标签项对应的第二会话场景标签(假设为购买火车票)。
由此可见,本实施例针对无法直接采集的会话场景标签,可以通过搜索或匹配获得第二会话场景标签和/或根据第一会话场景标签推理获得第二会话场景标签,实现了对不能直接采集的会话场景标签的自动获取,且充分利用已直接采集的第一会话场景标签,以及通过简单的推理就能快速获取第二会话场景标签,实现过程简单有效,智能化程度高。
精简实施例二
参照图3,本发明的精简实施例二提供的针对无法直接采集的会话场景标签进行自动获取的方法,包括:
步骤S301,获取待采集的会话场景标签项。
具体地,假设本实施例采集的会话场景标签项包括会话时间、会话地点和会话方的心情。
步骤S302,将会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项。
具体地,根据本实施例中的第一会话场景标签项和第二会话场景标签项的定义可知,第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项。依此分类依据,可以获得会话场景标签中的会话时间、会话地点场景标签为第一会话场景标签项,会话方的心情为第二会话场景标签项。
步骤S303,对第一会话场景标签项进行直接采集,获得与第一会话场景标签项对应的第一会话场景标签。假设本实施例中的会话方为A,会话对方为B,且会话方A和会话对方B的会话内容如下:
会话方A:在忙吗?
会话对方B:不忙,有什么事情吗?
会话方A:今天我把钱包丢了,哎。
由于第一会话场景标签项是可以对其进行直接采集的会话场景标签项,故本实施例对第一会话场景标签项进行直接采集,也即针对会话时间、会话地点场景标签项进行直接采集,假设本实施例采集到会话时间为晚上8点,会话地点为在家。
步骤S304,预先训练好用于获得会话场景标签的分类器。
由于本实施例中的会话方的心情场景标签不能通过直接采集的方式进行自动获取,故根据已训练好的分类器分类获得。具体地,首先预先训练好用于获得会话场景标签的分类器,且在训练分类器阶段,假设预设的心情输出类别为四类,分别为高兴、悲伤、平淡、愤怒。需要说明的是,本实施例中分类器的输出类别并不限于上述四个输出类别,具体由用户根据需要自定义。
步骤S305,将会话内容和/或第一会话场景标签,作为分类器的输入。
具体地,本实施将会话内容和第一会话场景标签,作为分类器的输入,且在实际的实施过程中,还包括首先将会话内容进行分词等预处理操作。
步骤S306,根据分类器的输出结果,获得与第二会话场景标签项对应的第二会话场景标签。
具体地,假设本实施例中分类器的输出结果为悲伤,则将该输出结果作为与会话方的心情场景标签项对应的结果,也即通过该分类器,本实施例可以实现对第二会话场景标签的自动获取,且通过分类器可以自动获得的第二会话场景标签的精准性和智能化程度高。优选地,本实施例中的分类器可以是SVM分类器、贝叶斯分类器、最大熵分类器中的任意一种。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,包括:
获取待采集的会话场景标签项;
将所述会话场景标签项分为第一会话场景标签项和第二会话场景标签项,其中,所述第一会话场景标签项为能直接采集的会话场景标签项,第二会话场景标签项为不能直接采集的会话场景标签项;
对所述第一会话场景标签项进行直接采集,获得与所述第一会话场景标签项对应的第一会话场景标签;
根据所述第二会话场景标签项,
搜索或匹配获得第二会话场景标签;
根据所述第一会话场景标签推理获得第二会话场景标签;
通过对会话内容进行语义推理获得第二会话场景标签;
通过获取与会话内容关联的关联词获得第二会话场景标签;
其中,通过获取与会话内容关联的关联词获得第二会话场景标签包括:
对会话内容进行分词,获得分词文本;
获取与所述第二会话场景标签项关联的分词文本,获得第一关联文本;
根据预设的关联词库,获取与所述第一关联文本关联的关联词,获得第二关联文本;
根据所述第一关联文本和/或所述第一关联文本,获得与所述第二会话场景标签项对应的第二会话场景标签;
根据已训练好的分类器分类获得第二会话场景标;
通过已获得的第二会话场景标签进一步多层次推理计算获得其他的第二会话场景标签。
2.根据权利要求1所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,根据所述第一会话场景标签推理获得第二会话场景标签包括:
根据所述第一会话场景标签以及预设的场景标签推理规则,获得与所述第二会话场景标签项对应的第二会话场景标签。
3.根据权利要求2所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,根据已训练好的分类器分类获得第二会话场景标签包括:
预先训练好用于获得会话场景标签的分类器;
将会话内容和/或所述第一会话场景标签和/或搜索或匹配获得第二会话场景标签和/或推理获得的第二会话场景标签和/或通过对会话内容进行语义推理获得的第:会话场景标签,作为所述分类器的输入;
根据所述分类器的输出结果,获得与所述第二会话场景标签项对应的第二会话场景标签。
4.根据权利要求3所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,所述第一会话场景标签项包括:
会话通讯双方的时间、地点、日期、天气、季节、体感数据,会话通讯双方会话通讯的间隔时间频率时间跨度场景标签项中的一种或多种组合。
5.根据权利要求4所述的针对无法直接采集的会话场景标签进行自动获取的方法,其特征在于,所述第二会话场景标签项包括:
会话内容主题,会话通讯双方的会话意图、性别、职业、职务、心情、兴趣爱好、健康状况、实时行为状态,会话内容的句型、句类、句式结构类型,以及总量场景标签项中的一种或多种组合。
CN201710076036.1A 2017-02-13 2017-02-13 针对无法直接采集的会话场景标签进行自动获取的方法 Active CN106844732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076036.1A CN106844732B (zh) 2017-02-13 2017-02-13 针对无法直接采集的会话场景标签进行自动获取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076036.1A CN106844732B (zh) 2017-02-13 2017-02-13 针对无法直接采集的会话场景标签进行自动获取的方法

Publications (2)

Publication Number Publication Date
CN106844732A CN106844732A (zh) 2017-06-13
CN106844732B true CN106844732B (zh) 2020-05-08

Family

ID=59127708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076036.1A Active CN106844732B (zh) 2017-02-13 2017-02-13 针对无法直接采集的会话场景标签进行自动获取的方法

Country Status (1)

Country Link
CN (1) CN106844732B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491493A (zh) * 2017-07-22 2017-12-19 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置
CN108763242B (zh) * 2018-03-26 2022-03-08 广州视源电子科技股份有限公司 标签生成方法及装置
CN110413882B (zh) * 2019-07-15 2023-10-31 创新先进技术有限公司 信息推送方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789008A (zh) * 2010-01-26 2010-07-28 武汉理工大学 人机接口系统知识库及其构建方法
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法
CN105389296A (zh) * 2015-12-11 2016-03-09 小米科技有限责任公司 信息分割方法及装置
CN105808695A (zh) * 2016-03-03 2016-07-27 陈包容 一种获取聊天回复内容的方法及装置
CN106202476A (zh) * 2016-07-14 2016-12-07 广州安望信息科技有限公司 一种基于知识图谱的人机对话的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101359718B1 (ko) * 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789008A (zh) * 2010-01-26 2010-07-28 武汉理工大学 人机接口系统知识库及其构建方法
CN103390047A (zh) * 2013-07-18 2013-11-13 天格科技(杭州)有限公司 聊天机器人知识库及其构建方法
CN105389296A (zh) * 2015-12-11 2016-03-09 小米科技有限责任公司 信息分割方法及装置
CN105808695A (zh) * 2016-03-03 2016-07-27 陈包容 一种获取聊天回复内容的方法及装置
CN106202476A (zh) * 2016-07-14 2016-12-07 广州安望信息科技有限公司 一种基于知识图谱的人机对话的方法及装置

Also Published As

Publication number Publication date
CN106844732A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
Chatterjee et al. Understanding emotions in text using deep learning and big data
Preotiuc-Pietro et al. Studying the Dark Triad of personality through Twitter behavior
US11599729B2 (en) Method and apparatus for intelligent automated chatting
Barbieri et al. Multimodal emoji prediction
WO2022022421A1 (zh) 语言表示模型系统、预训练方法、装置、设备及介质
Suttles et al. Distant supervision for emotion classification with discrete binary values
US20150324065A1 (en) System and Method to Automatically Aggregate and Extract Key Concepts Within a Conversation by Semantically Identifying Key Topics
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
Chowdhury et al. Speak up, fight back! detection of social media disclosures of sexual harassment
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN104462064A (zh) 一种移动终端信息通讯提示输入内容的方法和系统
Nair et al. Sentiment Analysis of Malayalam film review using machine learning techniques
CN106844732B (zh) 针对无法直接采集的会话场景标签进行自动获取的方法
Mangal et al. Analysis of users’ interest based on tweets
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法
Shoeb et al. EmoTag–Towards an emotion-based analysis of emojis
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN116662522B (zh) 问题答案推荐方法、存储介质和电子设备
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
Dowlagar et al. A survey of recent neural network models on code-mixed indian hate speech data
CN116205212A (zh) 招投标文件信息提取方法、装置、设备和存储介质
Vorakitphan et al. Clickbait detection based on word embedding models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant