CN112905765A - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN112905765A CN112905765A CN202110177407.1A CN202110177407A CN112905765A CN 112905765 A CN112905765 A CN 112905765A CN 202110177407 A CN202110177407 A CN 202110177407A CN 112905765 A CN112905765 A CN 112905765A
- Authority
- CN
- China
- Prior art keywords
- intention
- point
- sentence
- relationship
- data structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 16
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 45
- 239000002131 composite material Substances 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000004044 response Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息处理方法及装置。该方法包括:接收用户输入的问题语句,根据问题语句确定用户意图,返回与该用户意图对应的应答语句;之后,根据用户对该应答语句的反应确定用户是否满意刚才输出的应答语句,如果不满意,则通过意图涵盖层级关系(即问题之间的涵盖层级关系)确定用户意图的上级意图,返回与上级意图对应的另一个应答语句。如此,可以在原有应答语句的基础之上,利用问题之间的涵盖层级关系进一步扩展可输出的应答语句,从而可以更快、更准确地找到符合用户意图的应答语句,进一步提高用户的满意度。
Description
技术领域
本发明涉及计算机信息处理领域,尤其涉及一种信息处理方法及装置。
背景技术
在对话系统中,除了找到与用户问题直接对应的答案以进行答复之外,还需要获取与用户问题相关的其他问题以及其他问题的答案以备不时之需。例如,在没有与用户问题直接对应的答案,或使用与用户问题直接对应的答案进行答复时,用户不满意的情况下,可以尝试获取与用户问题相关的其他问题的对应答案,并使用其他问题的对应答案来应答用户问题。
为了实现以上方法,需要挖掘问题之间的相关关系,通常来说相关关系主要分为两类,一类为层级涵盖关系,一类为相似关系。相似关系可以通过计算相似度的方法解决,而层级涵盖关系却很难获得。但涵盖关系的应用场景又非常多,且很重要。因此,如何高效且准确地获得问题之间的层级涵盖关系以进行扩展性应答成为应答系统亟待解决的技术问题。
发明内容
针对以上问题,本发明实施例提供了一种方法及装置。
根据本发明实施例第一方面,一种信息处理方法,该方法包括:接收第一语句;根据第一语句确定用于应答第一语句的第二语句;返回第二语句;接收第三语句;根据第三语句确定是否需要重新确定用于应答第一语句的第四语句,若需要,则根据第一语句和意图涵盖层级关系确定第一语句所对应的上级意图以及与上级意图对应的第四语句,其中意图涵盖层级关系是根据意图集合和知识库动态确定的;返回第四语句。
根据本发明实施例一实施方式,该方法还包括:获取意图集合;根据知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度;确定意图集合中各个意图之间的关系及每一关系的关联度;根据第一规则和各个意图之间的关系及每一关系的关联度对意图进行聚类得到至少一个意图子集;根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图。
根据本发明实施例一实施方式,根据知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度,包括:基于知识库建立语言学习模型,其中,知识库存储有意图集合中意图对应的特征;根据语言学习模型确定意图集合中意图与意图之间的关系以及每一关系的关联度。
根据本发明实施例一实施方式,所述语言学习模型是无监督语言学习模型。
根据本发明实施例一实施方式,每个意图设置有第一属性,相应地,第一规则包括意图的第一属性相似。
根据本发明实施例一实施方式,第二规则包括与同一意图子集中其他意图的关系的综合相关度最高。
根据本发明实施例一实施方式,根据第一规则和各个意图之间的关系及每一关系的关联度对意图进行聚类得到至少一个意图子集,包括:将各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,其中,第一图数据结构的点集中的每个点存储意图集合中的每一意图,第一图数据结构的边集中的每个边存储各个意图之间的每一关系,并根据每一关系的关联度设置相应边的权重值;根据第一规则对第一图数据结构执行图聚类算法得到至少一个第二图数据结构,其中第二图数据结构的点集是第一图数据结构的点集的子集,第二图数据结构的边集是第一图数据结构的边集的子集,且各第二图数据结构的点集和点集之间、边集和边集之间均没有交集;相应地,根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图,包括:根据第二规则和第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点。
根据本发明实施例一实施方式,将各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,包括:创建图数据结构,图数据结构包括点集和边集;获取意图集合中的意图;创建点存储意图,其中,每个点存储一个意图;将点加入到点集中;创建边存储意图集合中意图与意图之间的关系,并根据每一关系的关联度设置相应边的权重值;将边加入到边集中。
根据本发明实施例一实施方式,根据第二规则和第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点包括:根据第二图数据结构的点集中的每个点的度数和与每个点连接的边的权重值确定每个点的权重值;根据每个点的权重值确定权重值最大的点;将权重值最大的点作为同一第二图数据结构点集中其他点的上级点。
根据本发明实施例第二方面,提供一种信息处理装置,该装置包括:第一语句接收模块,用于接收第一语句;第二语句确定模块,用于根据第一语句确定用于应答第一语句的第二语句;第二语句返回模块,用于返回第二语句;第三语句接收模块,用于接收第三语句;第四语句确定模块,用于根据第三语句确定是否需要重新确定用于应答第一语句的第四语句,若需要,则根据第一语句和意图涵盖层级关系确定第一语句所对应的上级意图以及与上级意图对应的第四语句,其中意图涵盖层级关系是根据意图集合和知识库动态确定的;第四语句返回模块,用于返回第四语句。
本发明实施例提供了一种信息处理方法及装置,该方法包括:接收用户输入的问题语句,根据问题语句确定用户意图,返回与该用户意图对应的应答语句;之后,根据用户对该应答语句的反应确定用户是否满意刚才输出的应答语句,如果不满意,则通过意图涵盖层级关系(即问题之间的涵盖层级关系)确定用户意图的上级意图,返回与上级意图对应的另一个应答语句。如此,可以在原有应答语句的基础之上,利用问题之间的涵盖层级关系进一步扩展可输出的应答语句,从而可以更快、更准确地找到符合用户意图的应答语句,进一步提高用户的满意度。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明信息处理方法一实施例的实现流程示意图;
图2为本发明信息处理方法一实施例确定意图涵盖层级关系的实现流程示意图;
图3为本发明信息处理装置一实施例的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了本发明实施例的方法的实现流程。参考图1,该方法包括:操作110,接收第一语句;操作120,根据第一语句确定用于应答第一语句的第二语句;操作130,返回第二语句;操作140,接收第三语句;操作150,根据第三语句确定是否需要重新确定用于应答第一语句的第四语句,若需要,则根据第一语句和意图涵盖层级关系确定第一语句所对应的上级意图以及与上级意图对应的第四语句,其中意图涵盖层级关系是根据意图集合和知识库动态确定的;操作160,返回第四语句。
在操作110中,接收的第一语句通常来自用户输入的语句,可能是用来询问信息的问句,也可能是用于指示操作的命令句或是转换话题的陈述句等等。用户输入的语句可以是语音录入的音频信息,也可以是来自键盘录入的文本信息,还有可能是来自扫描某个图像动态确定的图形信息等等。在操作110中,接收到的第一语句通常已经转换为符合输入要求的的形式,比如,经过声音文字转换或图像文本转换动态确定的字符串,或是经过编码器转换动态确定的语句向量等等。
在操作120中,可对操作110接收到的第一语句进行语义分析得到用户试图通过第一语句想要表达的真实意愿,即意图,然后根据该意图确定用于应答第一语句的第二语句;在进行语义分析、确定用户意图以及根据第一语句确定用于应答第一语句的第二语句时,实施者可采用任何已有的或适用的技术方案。
操作130将操作120中获取的第二语句返回给用户,然后通过操作140接收用户的后续输入(即第三语句)以确定是否需要重新确定用于应答所述第一语句的第四语句。
在操作150中确定是否需要重新确定用于应答所述第一语句的第四语句时,可以通过比对第一语句的意图和第三语句的意图来实现。例如,当第一语句的意图和第三语句的意图相似时,说明用户的疑问并没有得到解答,因此又问了一遍;当第一语句的意图和第三语句的意图明显不同时,说明用户的疑问可能已经得到解答并开启了一个新话题。
此外,如果第三语句是语义较为明确的语句,例如,明确表示用户的疑问并没有得到解答的语句:“不对”、“这不是我想问的”、“你搞错了”等;或是明确表示用户的疑问并没有得到解答的语句:“谢谢”、“知道了”、“原来如此”等时,则可以直接根据对第三语句的语义分析结果来确定是否需要重新确定用于应答所述第一语句的第四语句,而无须再和第一语句的意图进行比较。
操作150中的意图涵盖层级关系为某一意图涵盖多个子意图的层级关系。例如,“关机原因”这一意图可能涵盖以下多个子意图:“电量不足”、“温度过低”、“命令指示”、“内存不足”、“系统异常”等等。这种涵盖层级关系,更类似于思维导图中某个思维点与从该点出发所导出更多思维点的层级关系,可以用于描述和表示各种意图之间的关系,例如,归纳关系、分解关系、因果关系、继承关系、相近关系等等,而不仅仅是语义相似的关系。
第一语句所对应的上级意图主要指涵盖第一语句的意图的上一级意图,例如,假设第一语句的意图是“温度过低”,则第一语句对应的上级意图为“关机原因”。
此外,在操作150中所使用的意图涵盖层级关系并不是静态的、不会改变的,而是可以根据意图集合和知识库动态生成的。
其中,意图集合是业务系统或知识库中预先定义的、用于归纳用户真是意图的短语。
知识库指用于存储有意图集合中的意图所对应的特征的数据存储系统,可以是存储有意图、特征和特征值的三元组的知识图谱;也可以是存储有由概念和细分概念构成的层级概念树(Concept Tree)结构数据的数据库等。
意图集合和知识库通常是针对某一业务类型或知识领域建立的。因此,只要根据业务类型或知识领域的改变,对意图集合和知识库进行相应的改变就能够方便地实现变更或迁移。
由于在操作150进行应答语句扩展时所基于的意图涵盖层级关系比起常用的“语义相似”关系,可覆盖意图之间的更多类型的关系,适用范围更广,也更容易找到与用户真实意图匹配的应答语句;且由于该意图涵盖层级关系是动态确定的,还可以根据对话所针对的业务类型或涉及到的领域知识进行相应的变更或迁移。
之后,通过操作160将扩展后的应答语句(第四语句)返回给用户,以使用户获得扩展后的信息,增加用户获取所询问信息的机率。
由此可见,图1所示的本发明实施例在原有应答语句的基础之上,利用问题之间的涵盖层级关系进一步扩展可输出的应答语句,从而可以更快、更准确地找到符合用户意图的应答语句,进一步提高用户的满意度。
需要说明的是,图1所示的实施例仅为本发明的基础实施例,实施者还可以在此基础上进行细化和扩展。示例性地:
根据本发明实施例一实施方式,该方法还包括:获取意图集合;根据知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度;确定意图集合中各个意图之间的关系及每一关系的关联度;根据第一规则和各个意图之间的关系及每一关系的关联度对意图进行聚类得到至少一个意图子集;根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图。
其中,获取意图集合主要指获取与当前对话场景对应的意图集合,通常与当前对话所针对的业务类型以及涉及到的领域知识相关。
而从知识库中通常可以提取到意图的特征,之后就可以根据意图的特征获取各个意图之间的关系及每一关系的关联度。
根据知识库所确定的意图之间的关系,通常是跟当前对话场景密切相关的。例如,如果与用户的当前对话是用来排查手机故障的,则意图之间的“因果”关系就是进行意图聚类时要考虑的关系;如果与用户的对话是用来进行知识问答的则意图之间的知识图谱关系(例如,三元组)则是进行意图聚类时要考虑的关系,以此类推。
每一关系的关联度指意图之间关联的相关程度,通常是表示强相关或弱相关的不同数值。
聚类指是根据事物本身的特性将相似的事物归类,适用于没有先验知识的分类,可通过设定比较完善的聚类变量和约束条件,就可以通过聚类得到较为科学合理的类别。
第一规则指在进行聚类时使用的聚类算法、聚类变量以及聚类要满足的一些约束等。常见的聚类算法有层次聚类和k均值聚类等。聚类变量,可以是某一特征的相似度或表示关系关联程度的距离等。约束条件可以包括距离约束,簇的个数及每个簇中的元素个数等。
在本实施方式中,在进行与用户的对话之前,会根据当前对话场景对应的意图合集和知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度,并根据意图与意图之间的关系以及每一关系的关联度进行聚类以确定对话过程中可以使用的意图涵盖层级关系。如此,在对话过程中,就可以根据预先确定的意图涵盖层级关系来进一步扩展应对语句了。
由于意图涵盖层级关系时是根据与当前对话场景对应的意图集合和知识库的动态确定的。因此,很容易迁移到其他不同的业务类型或知识领域的应用中,具有很好的学习性和适用性。
根据本发明实施例一实施方式,根据知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度,包括:基于知识库建立语言学习模型,其中,知识库存储有意图集合中意图对应的特征;根据语言学习模型确定意图集合中意图与意图之间的关系以及每一关系的关联度。
由于知识库中存储有意图的特征,基于知识库建立的语言学习模型可以自动提取和学习这些意图的特征,并根据这些特征来确定意图集合中意图与意图之间的关系以及每一关系的关联度。
比起通过定义规则的方式来确定意图集合中意图与意图之间的关系以及每一关系的关联度,使用语音学习模型,可大大简化编程的复杂度,且得到的结果更精准。
根据本发明实施例一实施方式,语言学习模型是无监督语言学习模型。
通过无监督语言学习,可减少人工标注,利用更多无标注数据进行更全面的学习。如此,可更准确地确定意图集合中意图与意图之间的关系以及每一关系的关联度。
根据本发明实施例一实施方式,每个意图设置有第一属性,相应地,第一规则包括意图的第一属性相似。
其中,第一属性可以是意图的语义、意图来源、意图某一特征的分布等。根据意图的第一属性相似度对意图进行聚类可以得到符合某一特性的多个子意图,例如语义相似的子意图、领域或业务相似的子意图、某一特性的偏好相似的子意图等。
根据本发明实施例一实施方式,第二规则包括与同一意图子集中其他意图的关系的综合相关度最高。
通常来说,在一个意图子集中可以成为上级意图的意图,例如,表示一组意图的主题或上层概念的意图,往往与其他多个意图存在关联关系且每一关系都较为紧密。
因此,在确定上级意图时,可以选择一个适用的函数,根据关联关系的个数和每一关系的紧密程度来计算每个意图与同一意图子集中其他意图的关系的综合相关度,并选取综合相关度最高的意图作为其他意图的上级意图,而这也正是从多个意图中甄别出上级意图的有效方法。
使用这一规则所确定出的上级意图更不易出现偏差,准确度更高。
根据本发明实施例一实施方式,根据第一规则和各个意图之间的关系及每一关系的关联度对意图进行聚类得到至少一个意图子集,包括:将各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,其中,第一图数据结构的点集中的每个点存储意图集合中的每一意图,第一图数据结构的边集中的每个边存储各个意图之间的每一关系,并根据每一关系的关联度设置相应边的权重值;根据第一规则对第一图数据结构执行图聚类算法得到至少一个第二图数据结构,其中第二图数据结构的点集是第一图数据结构的点集的子集,第二图数据结构的边集是第一图数据结构的边集的子集,且各第二图数据结构的点集和点集之间、边集和边集之间均没有交集;相应地,根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图,包括:根据第二规则和第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点。
在本实施方式中,利用图数据结构进行聚类运算,可以借助图聚类算法根据点之间的距离、图形的连通性、最短路径等特性进行聚类,效果较好,聚类结果也更准确。
根据本发明实施例一实施方式,将各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,包括:创建图数据结构,图数据结构包括点集和边集;获取意图集合中的意图;创建点存储意图,其中,每个点存储一个意图;将点加入到点集中;创建边存储意图集合中意图与意图之间的关系,并根据每一关系的关联度设置相应边的权重值;将边加入到边集中。
在本实施方式中,可以用点代表意图,用连接点的边代表意图之间的关系,用边上的权重代表每一关系的关联度。如此,可以利用图聚类算法和图运算进行有权图的聚类。
根据本发明实施例一实施方式,根据第二规则和第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点包括:根据第二图数据结构的点集中的每个点的度数和与每个点连接的边的权重值确定每个点的权重值;根据每个点的权重值确定权重值最大的点;将权重值最大的点作为同一第二图数据结构点集中其他点的上级点。
在本实施方式中,利用每个点的度数可以确定该意图与其他意图的关系数,而与其他意图的关系数越多,则该点是个中心点的概率越大,相应地,该点所意图为主题或上级概念的机率也就越大;而每个边的权重值,则可以从关系强弱地角度进一步修正上级意图的遴选,加权计算出来的关系相关度可更准确地表征该点的中心地位。
以上实施方式是对如何在图1所示的基本实施例的基础之上如何进行进一步细化和扩展的示例性说明,实施者还可根据具体的实施条件和需要,对上述实施方式进行各种组合形成新的实施例,以实现更为理想的实施效果。
由于动态确定意图涵盖层级关系,下面就结合图2进行进一步的示例性说明。图2示出了本申请一实施例的动态确定意图涵盖层级关系的过程。如图2所示,该实施例动态确定意图涵盖层级关系的实现过程主要包括:
步骤210,基于数据库存储的概念树,对已知的意图集合中的每一意图进行特征挖掘,并使用无监督学习语言模型对这些特征进行学习得到意图之间的关系以及每一关系的关联度;
步骤220,根据挖掘出的意图之间的关系以及每一关系的关联度构建无向图;其中,将意图构建为无向图的点,将意图之间的关系构建为无向图的边,每一关系的关联度设置为边的权重;
步骤230,使用图聚类算法,依据意图的某一类特征的相似度对图进行聚类,将原大图分为若干小簇图,每个簇图是一个某一类特征较为相似的点(意图)的集合;
步骤240,在每个簇中,根据点出度及相连边权重计算每个点的综合权重值,并根据综合权重值对点进行排序,选择综合权重值最大的点作为上级点。
如此,就得到了多个意图涵盖层级关系。
在该实施例中,通过无监督学习语言模型对意图的特征进行学习,动态确定意图之间的关系及每一关系的关联度;然后,将意图、意图之间的关系及美伊关系的关联度转换为无向图,并对图进行聚类得到簇;之后,再根据点的出度和边的权重计算得到综合权重最大的点作为该簇的其他点的上级点就实现了动态确定意图涵盖层级关系。
上述实施方式具有以下突出优势:
1)相比于规则化方法,使用语言模型动态确定意图之间的关系以及每一关系的关联度,可大大减轻编程的复杂度;
2)使用无监督学习,可减少人工标注,大大减少业务人员的工作量;
3)由于,意图关系的确定过程是基于特征动态学习到的,因此,很容易应对某一业务的变动(例如,增加或减少意图所具有的特征);
4)同理,只要更换相应的概念树,上述方法还可以迁移到其他业务和或领域的应用中,而无需修改特征挖掘过程或图聚类过程的具体实现。
需要说明的是,图2所示的本发明实施例,仅为本发明实施例的示例性说明,并非对本发明实施例实施方式或应用场景的限定。实施者可根据具体实施条件和需要,采用任何适用的实施方式应用于任何适用的应用场景中。
进一步地,本发明实施例还提供信息处理装置。如图3所示,该装置30包括:第一语句接收模块301,用于接收第一语句;第二语句确定模块302,用于根据第一语句确定用于应答第一语句的第二语句;第二语句返回模块303,用于返回第二语句;第三语句接收模块304,用于接收第三语句;第四语句确定模块305,用于根据第三语句确定是否需要重新确定用于应答第一语句的第四语句,若需要,则根据第一语句和意图涵盖层级关系确定第一语句所对应的上级意图以及与上级意图对应的第四语句,其中意图涵盖层级关系是根据意图集合和知识库动态确定的;第四语句返回模块306,用于返回第四语句。
根据本发明实施例一实施方式,该装置30还包括:意图集合获取模块,用于获取意图集合;意图关系确定模块,用于根据知识库确定意图集合中意图与意图之间的关系以及每一关系的关联度;意图聚类模块,用于根据第一规则和各个意图之间的关系及每一关系的关联度对意图进行聚类得到至少一个意图子集;上级意图确定模块,用于根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图。
根据本发明实施例一实施方式,意图关系确定模块包括:建立语言学习模型建立子模块,用于基于知识库建立语言学习模型,其中,知识库存储有意图集合中意图对应的特征;意图关系确定子模块,用于根据语言学习模型确定意图集合中意图与意图之间的关系以及每一关系的关联度。
根据本发明实施例一实施方式,意图聚类模块包括:图构建子模块,用于将各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,其中,第一图数据结构的点集中的每个点存储意图集合中的每一意图,第一图数据结构的边集中的每个边存储各个意图之间的每一关系,并根据每一关系的关联度设置相应边的权重值;聚类子模块,用于根据第一规则对第一图数据结构执行图聚类算法得到至少一个第二图数据结构,其中第二图数据结构的点集是第一图数据结构的点集的子集,第二图数据结构的边集是第一图数据结构的边集的子集,且各第二图数据结构的点集和点集之间、边集和边集之间均没有交集;相应地,上级意图确定模块具体用于根据第二规则和第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点。
根据本发明实施例一实施方式,图构建子模块包括:数据结构创建单元,用于创建图数据结构,图数据结构包括点集和边集;意图获取单元,用于获取意图集合中的意图;点创建单元,用于创建点存储意图,其中,每个点存储一个意图;点集合入单元,用用户将点加入到点集中;边创建单元,用于创建边存储意图集合中意图与意图之间的关系,并根据每一关系的关联度设置相应边的权重值;边集何如单元,用于将边加入到边集中。
根据本发明实施例一实施方式,上级意图确定模块包括:权重值确定子模块,用于根据第二图数据结构的点集中的每个点的度数和与每个点连接的边的权重值确定每个点的权重值;权重值比较子模块,用于根据每个点的权重值确定权重值最大的点;上级点确定子模块,用于将权重值最大的点作为同一第二图数据结构点集中其他点的上级点。
这里需要指出的是:以上针对信息处理装置实施例的描述与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明信息处理装置实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种信息处理方法,应用于对话系统,所述方法包括:
接收第一语句;
根据所述第一语句确定用于应答所述第一语句的第二语句;
返回所述第二语句;
接收第三语句;
根据所述第三语句确定是否需要重新确定用于应答所述第一语句的第四语句,若需要,则根据所述第一语句和意图涵盖层级关系确定所述第一语句所对应的上级意图以及与所述上级意图对应的第四语句,其中所述意图涵盖层级关系是根据意图集合和知识库动态确定的;
返回所述第四语句。
2.根据权利要求1所述的方法,所述方法还包括:
获取所述意图集合;
根据知识库确定所述意图集合中意图与意图之间的关系以及每一关系的关联度;
根据第一规则和所述各个意图之间的关系及每一关系的关联度对所述意图进行聚类得到至少一个意图子集;
根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图。
3.根据权利要求2所述的方法,所述根据知识库确定所述意图集合中意图与意图之间的关系以及每一关系的关联度,包括:
基于知识库建立语言学习模型,其中,所述知识库存储有所述意图集合中意图对应的特征;
根据所述语言学习模型确定所述意图集合中意图与意图之间的关系以及每一关系的关联度。
4.根据权利要求3所述的方法,所述语言学习模型是无监督语言学习模型。
5.根据权利要求2所述的方法,每个意图设置有第一属性,相应地,所述第一规则包括所述意图的第一属性相似。
6.根据权利要求2所述的方法,所述第二规则包括与同一意图子集中其他意图的关系的综合相关度最高。
7.根据权利要求2所述的方法,所述根据第一规则和所述各个意图之间的关系及每一关系的关联度对所述意图进行聚类得到至少一个意图子集,包括:
将所述各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,其中,所述第一图数据结构的点集中的每个点存储所述意图集合中的每一意图,所述第一图数据结构的边集中的每个边存储所述各个意图之间的关系,并根据每一关系的关联度设置相应边的权重值;
根据第一规则对所述第一图数据结构执行图聚类算法得到至少一个第二图数据结构,其中所述第二图数据结构的点集是所述第一图数据结构的点集的子集,所述第二图数据结构的边集是所述第一图数据结构的边集的子集,且各第二图数据结构的点集和点集之间、边集和边集之间均没有交集;
相应地,根据第二规则从每一意图子集中确定一个意图作为同一意图子集中其他意图的上级意图,包括:
根据第二规则和所述第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点。
8.根据权利要求7所述的方法,所述将所述各个意图之间的关系及每一关系的关联度存储在第一图数据结构中,包括:
创建图数据结构,所述图数据结构包括点集和边集;
获取所述意图集合中的意图;
创建点存储所述意图,其中,每个点存储一个意图;
将所述点加入到所述点集中;
创建边存储所述意图集合中意图与意图之间的关系,并根据每一关系的关联度设置相应边的权重值;
将所述边加入到所述边集中。
9.根据权利要求7所述的方法,所述根据第二规则和所述第二图数据结构确定一个点作为同一第二图数据结构点集中其他点的上级点包括:
根据所述第二图数据结构的点集中的每个点的度数和与每个点连接的边的权重值确定每个点的权重值;
根据所述每个点的权重值确定权重值最大的点;
将所述权重值最大的点作为同一第二图数据结构点集中其他点的上级点。
10.一种信息处理装置,应用于对话系统,所述装置包括:
第一语句接收模块,用于接收第一语句;
第二语句确定模块,用于根据所述第一语句确定用于应答所述第一语句的第二语句;
第二语句返回模块,用于返回所述第二语句;
第三语句接收模块,用于接收第三语句;
第四语句确定模块,用于根据所述第三语句确定是否需要重新确定用于应答所述第一语句的第四语句,若需要,则根据所述第一语句和意图涵盖层级关系确定所述第一语句所对应的上级意图以及与所述上级意图对应的第四语句,其中所述意图涵盖层级关系是根据意图集合和知识库动态确定的;
第四语句返回模块,用于返回所述第四语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177407.1A CN112905765B (zh) | 2021-02-09 | 2021-02-09 | 一种信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177407.1A CN112905765B (zh) | 2021-02-09 | 2021-02-09 | 一种信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905765A true CN112905765A (zh) | 2021-06-04 |
CN112905765B CN112905765B (zh) | 2024-06-18 |
Family
ID=76123045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110177407.1A Active CN112905765B (zh) | 2021-02-09 | 2021-02-09 | 一种信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905765B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409042A (zh) * | 2022-10-28 | 2022-11-29 | 北京果然智汇科技有限公司 | 一种基于思维导图的机器人问答方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646103A (zh) * | 2011-02-18 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN109726387A (zh) * | 2017-10-31 | 2019-05-07 | 科沃斯商用机器人有限公司 | 人机交互方法和系统 |
KR102047385B1 (ko) * | 2018-09-21 | 2019-11-21 | 삼성생명보험주식회사 | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 |
JP6731513B1 (ja) * | 2019-04-24 | 2020-07-29 | Jeインターナショナル株式会社 | チャット管理方法、チャットシステム、未来意図予測サーバー装置、答弁生成サーバー装置、およびプログラム |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
US20200401765A1 (en) * | 2018-08-29 | 2020-12-24 | Tencent Technology (Shenzhen) Company Limited | Man-machine conversation method, electronic device, and computer-readable medium |
WO2021001517A1 (en) * | 2019-07-03 | 2021-01-07 | Koninklijke Philips N.V. | Question answering systems |
US20210004390A1 (en) * | 2019-07-03 | 2021-01-07 | Microsoft Technology Licensing, Llc | Context-based multi-granularity intent discovery |
-
2021
- 2021-02-09 CN CN202110177407.1A patent/CN112905765B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646103A (zh) * | 2011-02-18 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN109726387A (zh) * | 2017-10-31 | 2019-05-07 | 科沃斯商用机器人有限公司 | 人机交互方法和系统 |
US20200401765A1 (en) * | 2018-08-29 | 2020-12-24 | Tencent Technology (Shenzhen) Company Limited | Man-machine conversation method, electronic device, and computer-readable medium |
KR102047385B1 (ko) * | 2018-09-21 | 2019-11-21 | 삼성생명보험주식회사 | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 |
JP6731513B1 (ja) * | 2019-04-24 | 2020-07-29 | Jeインターナショナル株式会社 | チャット管理方法、チャットシステム、未来意図予測サーバー装置、答弁生成サーバー装置、およびプログラム |
WO2021001517A1 (en) * | 2019-07-03 | 2021-01-07 | Koninklijke Philips N.V. | Question answering systems |
US20210004390A1 (en) * | 2019-07-03 | 2021-01-07 | Microsoft Technology Licensing, Llc | Context-based multi-granularity intent discovery |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409042A (zh) * | 2022-10-28 | 2022-11-29 | 北京果然智汇科技有限公司 | 一种基于思维导图的机器人问答方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112905765B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11347783B2 (en) | Implementing a software action based on machine interpretation of a language input | |
US11106983B2 (en) | Intelligent interaction method and intelligent interaction system | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
US20180032606A1 (en) | Recommending topic clusters for unstructured text documents | |
CN110413760B (zh) | 人机对话方法、装置、存储介质及计算机程序产品 | |
US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
AU2022201193A1 (en) | System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
Misuraca et al. | BMS: An improved Dunn index for Document Clustering validation | |
CN111428009B (zh) | 关系查询方法、装置、计算机设备和存储介质 | |
US20200302331A1 (en) | Intelligent problem solving using visual input | |
CN111353026A (zh) | 一种智能法务律师助手客服系统 | |
Armentano et al. | Plan recognition for interface agents: state of the art | |
CN114117000A (zh) | 应答方法、装置、设备及存储介质 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
CN112905765A (zh) | 一种信息处理方法及装置 | |
US11698811B1 (en) | Machine learning-based systems and methods for predicting a digital activity and automatically executing digital activity-accelerating actions | |
US20210097404A1 (en) | Systems and methods for creating product classification taxonomies using universal product classification ontologies | |
CN115129890A (zh) | 回馈数据图谱生成方法、生成设备、问答设备及冰箱 | |
US20220179848A1 (en) | Memory-based neural network for question answering | |
CN112988986B (zh) | 人机交互方法、装置与设备 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN113342924A (zh) | 答案检索方法及装置、存储介质及电子设备 | |
CN114546326A (zh) | 一种虚拟人手语生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |