CN107992471B - 一种人机交互过程中的信息过滤方法及装置 - Google Patents

一种人机交互过程中的信息过滤方法及装置 Download PDF

Info

Publication number
CN107992471B
CN107992471B CN201711107489.2A CN201711107489A CN107992471B CN 107992471 B CN107992471 B CN 107992471B CN 201711107489 A CN201711107489 A CN 201711107489A CN 107992471 B CN107992471 B CN 107992471B
Authority
CN
China
Prior art keywords
information
sensitive
word
filtering
sensitive word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711107489.2A
Other languages
English (en)
Other versions
CN107992471A (zh
Inventor
黄伟
魏晨
刘佳亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Wuxian Technology Co Ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN201711107489.2A priority Critical patent/CN107992471B/zh
Publication of CN107992471A publication Critical patent/CN107992471A/zh
Application granted granted Critical
Publication of CN107992471B publication Critical patent/CN107992471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种人机交互过程的信息过滤方法及装置,其中,该方法包括:敏感词识别步骤,对获取到的多模态交互信息进行敏感词识别,从多模态交互信息中提取敏感词;情感识别步骤,对所提取到的敏感词进行情感识别,得到多模态交互信息的情感信息;信息过滤步骤,基于情感信息和敏感词对多模态交互信息进行敏感词过滤。相较于现有的信息过滤方法所存在的由于敏感词过滤纯度不高而导致无法有效滤除敏感信息以及由于过滤过于严格而导致的将非敏感信息滤除的问题,本方法能够有效地对人机交互过程中的多模态交互信息进行过滤,其既能够保证信息过滤的纯度,也能够保证信息功率的有效性和准确性,从而提高了人机交互过程的用户体验。

Description

一种人机交互过程中的信息过滤方法及装置
技术领域
本发明涉及人机交互技术领域,具体地说,涉及一种人机交互过程中的信息过滤方法及装置。
背景技术
随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。
而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人,人机交互也就成为决定智能机器人发展的重要因素。
然而,对于现有的人机交互过程的信息过滤方法来说,普遍存在敏感词过滤程度不高或者过滤过于严格的问题,从而严重影响了人机交互产品的用户体验。
发明内容
为解决上述问题,本发明提供了一种人机交互过程的信息过滤方法,包括:
敏感词识别步骤,对获取到的多模态交互信息进行敏感词识别,从所述多模态交互信息中提取敏感词;
情感识别步骤,对所提取到的敏感词进行情感识别,得到所述多模态交互信息的情感信息;
信息过滤步骤,基于所述情感信息和敏感词对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,所述方法还包括上下文过滤步骤,在所述上下文过滤步骤中:
调用本轮人机交互之前预设轮次的上下文句子依存关系;
根据本轮人机交互所接收到的多模态交互信息和上下文句子依存关系构造敏感语境;
在所述信息过滤步骤中,结合所述敏感语境对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,在所述情感识别步骤中,利用预设情感分类模型来对敏感词进行情感识别,包括:
确定各个敏感词的词向量;
根据各个敏感词在所述多模态交互信息中的位置信息获取各个敏感词的词序信息,根据各个敏感词的词向量和词序信息确定句向量;
根据所述句向量确定所述多模态交互信息的情感倾向。
根据本发明的一个实施例,在所述敏感词识别步骤中,利用预设有限状态自动机和/或预设分词模型来对所述规则信息进行敏感词识别,从所述规则信息中提取出敏感词。
根据本发明的一个实施例,在所述信息过滤步骤中,获取所述敏感词的敏感类型,并基于所述敏感类型和情感信息对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,在所述敏感词识别步骤前,所述方法还包括:
用户类型识别步骤,对所获取到的多模态交互信息进行数据处理,得到用户特征数据,根据所述用户特征数据确定当前用户是否为儿童用户,其中,如果所述当前用户为儿童用户,则执行所述敏感词识别步骤。
本发明还提供了一种人机交互过程的信息过滤装置,其包括:
敏感词识别模块,其用于对获取到的多模态交互信息进行敏感词识别,从所述多模态交互信息中提取敏感词;
情感识别模块,其用于对所提取到的敏感词进行情感识别,得到所述多模态交互信息的情感信息;
信息过滤模块,其用于基于所述情感信息和敏感词对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,所述装置还包括:
上下文过滤模块,其用于调用本轮人机交互之前预设轮次的上下文句子依存关系,并结合本轮人机交互所接收到的多模态交互信息和上下文句子依存关系构造敏感语境;
所述信息过滤模块配置为结合所述敏感语境对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,所述情感识别模块配置为利用预设情感分类模型来对敏感词进行情感识别,包括:
确定各个敏感词的词向量;
根据各个敏感词在所述多模态交互信息中的位置信息获取各个敏感词的词序信息,根据各个敏感词的词向量和词序信息确定句向量;
根据所述句向量确定所述多模态交互信息的情感倾向。
根据本发明的一个实施例,所述敏感词识别模块配置为利用预设有限状态自动机和/或预设分词模型来对所述规则信息进行敏感词识别,从所述规则信息中提取出敏感词。
根据本发明的一个实施例,所述信息过滤模块配置为获取所述敏感词的敏感类型,并基于所述敏感类型和情感信息对所述多模态交互信息进行敏感词过滤。
根据本发明的一个实施例,所述装置还包括:
用户类型识别模块,其用于对所获取到的多模态交互信息进行数据处理,得到用户特征数据,根据所述用户特征数据确定当前用户是否为儿童用户,其中,如果所述当前用户为儿童用户,则生成相应的信息过滤指令并传输至所述敏感词识别模块。
本发明还提供了一种存储介质,所述存储介质上存储有可执行如上任一项所述的人机交互过程的信息过滤方法步骤的程序代码。
相较于现有的信息过滤方法所存在的由于敏感词过滤纯度不高而导致无法有效滤除敏感信息以及由于过滤过于严格而导致的将非敏感信息滤除的问题,本发明所提供的人机交互过程的信息过滤方法能够有效地对人机交互过程中的多模态交互信息进行过滤,其既能够保证信息过滤的纯度,也能够保证信息功率的有效性和准确性。
同时,本发明所提供的信息过滤方法还可以结合上下文语境(即结合历史交互信息所确定出的语境)来对多模态交互信息进行过滤,这样能够进一步提高信息过滤的准确性和可靠性。
此外,本发明所提供的信息过滤方法还可以对用户类型进行识别从而判断当前用户是否为儿童用户,并在当前用户为儿童用户时启动信息过滤,这样能够有效地对儿童用户进行保护,从而保障儿童用户的身心健康。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:
图1是根据本发明一个实施例的人机人机交互过程的信息过滤方法的应用场景示意图;
图2是根据本发明一个实施例的人机人机交互过程的信息过滤方法的实现流程示意图;
图3是根据本发明一个实施例的确定多模态交互信息的情感倾向的实现流程示意图;
图4是根据本发明一个实施例的人机人机交互过程的信息过滤方法的实现流程示意图;
图5是根据本发明一个实施例的人机人机交互过程的信息过滤方法的实现流程示意图;
图6是根据本发明一个实施例的人机人机交互过程的信息过滤装置的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
对于现有的人机交互过程的信息过滤方法来说,普遍存在敏感词过滤程度不高或者过滤过于严格的问题,这也就严重影响了人机交互产品的用户体验。针对现有技术中所存在的上述问题,本发明提供了一种新的人机交互过程的信息过滤方法以及存储由执行该方法的程序代码的存储介质。
为了更加清楚地阐述本发明所提供的人机交互过程的信息过滤方法的实现原理、实现过程以及优点,以下分别结合不同的实施例来对该信息过滤方法作进一步的说明。
实施例一:
图1示出了本实施例所提供的人机交互过程的信息过滤方法的应用场景示意图,图2示出了本实施例所提供的人机交互过程的信息过滤方法的实现流程示意图。
如图1所示,本实施例所提供的人机交互过程的信息过滤方法配置在云端服务器102中,云端服务器102可以通过机器人101获取用户100所输入的多模态交互信息,并对所获取到的多模态交互信息进行敏感词识别以及过滤。根据实际需要,云端服务器102还可以根据所过滤的敏感词生成相应的反馈信息,并将该反馈信息传输至机器人101,以由机器人101生成相应的多模态信息以呈现给用户,从而实现用户100与机器人101的人机交互。
需要指出的是,在本发明的其它实施例中,本实施例所提供的人机交互过程的信息过滤方法还可以配置在机器人101中,以由机器人101实现该方法的相关功能,或是部分地配置在机器人101并部分地配置在云端服务器102中,以由机器人101和云端服务器102配合地实现该方法的相关功能,本发明不限于此。
如图2所示,本实施例所提供的人机交互过程的信息过滤方法在步骤S201中对所获取到的多模态交互信息进行敏感词识别,从而从上述多模态交互信息中提取出敏感词。
本实施例中,该方法在步骤S201中优选地利用预设有限状态自动机和/或预设分词模型来对多模态交互信息进行敏感词识别,以从上述多模态交互信息中提取出敏感词。
为了使得敏感词识别结果更加准确、可靠,本实施例中,在步骤S201中,该方法在进行敏感词识别前,还会对所获取到的多模态交互信息进行预处理,从而将多模态交互信息中所包含的不规则信息转为规则信息。
具体地,本实施例中,该方法优选地通过对多模态交互信息进行简繁转换、特殊字符检查、拼写检查和/或夹杂拼音检查来将多模态交互信息中所包含的不规则信息转换为规则信息。
例如,对于诸如“共*产~党”的不规则信息,该方法可以通过特殊字符检查的方式来将上述不规则信息转换为诸如“共产党”的规则信息;而对于诸如“共产dang”的不规则信息,该方法可以通过拼写检查检查的方式来将上述不规则信息转换为诸如“共产党”的规则信息。
当然,在本发明的其它实施例中,该方法还可以采用其它合理方式来对所获取到的多模态交互信息进行预处理,以提高后续敏感词识别的准确性,本发明不限于此。
在得到多模态交互信息中的敏感词后,该方法会在步骤S202中对步骤S201中所提取到的敏感词进行情感识别,从而得到多模态交互信息的情感信息。
本实施例中,该方法在步骤S202中优选地利用预设情感分类模型来对敏感词进行情感识别。具体地,如图3所示,本实施例中,该方法在得到多模态交互信息中的敏感词后,会在步骤S301中确定出各个敏感词的词向量。通过提取各个敏感词的词向量,本方法能够有效提高信息过滤模型的泛化能力,这样也就有助于提高信息过滤的准确信。
需要指出的是,在本发明的不同实施例中,该方法可以根据实际需要采用不同的合理算法来确定各个敏感词的词向量,本发明不限于此。
例如,在本发明的一个实施例中,该方法可以采用LSA矩阵分解模型、PLSA潜在语义分析概率模型、LDA文档生成模型或是Word2Vector模型来确定各个敏感词的词向量。
对于一个语句来说,词语在语句中的不同位置将会影响该语句所表达的语义。例如,对于词语“小明的爸爸”和“小明”来说,“小明的爸爸将小明抚养长大”是正确的,而“小明将小明的爸爸抚养长大”则显然是错误的。现有信息过滤技术无法对词语由于处于语句中的不同位置而导致语句的语义不同这一特征进行准确识别,这样也就导致现有信息过滤技术容易造成了信息的错滤或是漏滤。
针对上述问题,本实施例所提供的信息过滤方法会在步骤S302中根据各个敏感词在多模态交互信息中的位置信息来获取各个敏感词的词序信息,进而在步骤S303中根据各个敏感词的词序信息和词向量来确定出句向量。
具体地,本实施例中,该方法优选地在构造句向量时使用词语的位置信息对每一个位置的词向量进行对数映射。相较于现有的简单地将词向量进行平均或求和的方式,本方法能够更加有效地对句子中的词序信息进行抓取。
在得到句向量后,如图3所示,本实施例中,该方法会在步骤S304中根据步骤S303中所得到的句向量来确定出上述多模态交互信息的情感倾向(即情感信息)。
由此可见,对于现有的信息过滤方法来说,由于其采用的多为词袋模型,这种方法所得到的词向量失去了语句中的词序特征,并且也忽略了语句的语义特征。而本实施例所提供的方法利用各个敏感词的词序信息得到了相应的句向量,这样也就能够准确确定出语句的语义特征,进而确定出句子的情感信息,即确定出多模态交互信息的情感倾向。
需要指出的是,在本发明的其它实施例中,该方法还可以根据实际需要采用其它合理方式来确定多模态交互信息的情感信息,本发明不限于此。
再次如图2所示,在得到多模态交互信息的情感信息后,该方法会在步骤S203中基于步骤S202所得到的情感信息以及步骤S201中所得到的敏感词来对上述多模态交互信息进行敏感词过滤。
具体地,本实施例中,该方法在步骤S202中所得到的多模态交互信息的情感倾向可能是正面倾向、中性或者是负面倾向。如果上述多模态交互信息中包含了敏感词并且其情感倾向为负面倾向,那么该方法也就会在步骤S203中将多模态交互信息中的敏感词进行滤除;而上述多模态交互信息中包含了敏感词,但是其情感倾向为正面倾向或是中性,那么为了更好的实现人机交互,此时也就不需要将上述敏感词滤除,因此该方法在步骤S203中保留多模态交互信息中的上述敏感词。
本实施例中,该方法在步骤S203中对多模态交互信息进行敏感词过滤时,还会获取敏感词的敏感类型,并基于上述敏感类型和情感信息来对多模态交互信息进行信息过滤。
具体地,本实施例中,该方法优选地可以将敏感词的敏感类型分为8类,包括:第一类包括与中国无关的词语、与中国有关系但是非负面倾向(中性加正向)的词语以及无关政治的词语;第二类包括明确反党反政府的词语、挑拨国家关系的词语、侮辱讽刺党政机关和国家领导人的词语以及给国家领导人起侮辱性外号的词语;第三类主要包括违法犯罪行为词语以及危害社会治安、影响社会和谐的词语(例如传销、黑社会等),还包括涉及宗教立场、民族主义、人权、民主、言论自由等影响社会和谐的词语;第四类包括有歧义的敏感词语(其介于第一类与第二类之间);第五类包括倾向反人类、反地球、恐怖组织以及军国注意的词语;第六类主要包括审计政治敏感事件的词语;第七类则主要包括涉黄词语;第八类则主要包括涉暴的词语。
基于敏感词的敏感类型,该方法可以选择将敏感词完全滤除还是部分滤除。同时,基于敏感词的敏感类型,该方法还可以为后续生成相应的反馈信息提供数据基础。
从上述描述中可以看出,本实施例所提供的人机交互过程的信息过滤方法在提取多模态交互信息的同时,还能够确定处该多模态交互信息的情感倾向,进而根据其情感倾向来对多模态交互信息中所包含的敏感词进行过滤。
相较于现有的信息过滤方法所存在的由于敏感词过滤纯度不高而导致无法有效滤除敏感信息以及由于过滤过于严格而导致的将非敏感信息滤除的问题,本发明所提供的人机交互过程的信息过滤方法能够有效地对人机交互过程中的多模态交互信息进行过滤,其既能够保证信息过滤的纯度,也能够保证信息功率的有效性和准确性,从而提高了人机交互过程的用户体验。
实施例二:
图4示出了本实施例所提供的人机交互过程的信息过滤方法的实现流程示意图。
如图4所示,本实施例所提供的人机交互过程的信息过滤方法首先会在步骤S401中对获取到的多模态交互信息进行敏感词识别,从而从上述多模态交互信息中提取出敏感词。
在得到多模态交互信息中的敏感词后,该方法会在步骤S402中对所提供到的敏感词进行情感识别,从而得到上述多模态交互信息的情感信息。
需要指出的是,本实施例中,上述步骤S401和步骤S402的实现原理以及实现过程与上述实施例一中步骤S201和步骤S202的实现原理以及实现过程类似,故在此不再对步骤S401和步骤S402的相关内容进行赘述。
本实施例中,在基于多模态交互信息的情感倾向来进行信息过滤的同时,该方法还会基于语境来对敏感词进行过滤。具体地,如图4所示,本实施例中,该方法还会在步骤S403中调用本轮人机交互之前预设轮次的上下文句子依存关系,并在步骤S404中根据本轮人机交互所接收到的多模态交互信息以及步骤S403中所调取的本轮人机交互之前预设轮次的上下文句子关系来构造敏感语境。
需要指出的是,在本发明的不同实施例中,上述预设轮次可以根据实际需要配置为不同的合理值(例如[5,10]等),本发明并不对上述预设轮次的具体取值进行限定。
现有的信息过滤方法通常是针对单个语句进行过滤,交互语句中只要涉及到敏感词,现有的这些方法通常是将交互语句全部屏蔽或是仅针对某一单句进行屏蔽,这在一定程度上打断了人机交互的连贯性,从而影响了人机交互产品的用户体验。
针对现有技术中所存在的上述问题,本实施例所提供的方法利用上下文过滤防范,其能够有效提高敏感语境下的敏感词过滤效果。具体地,本实施例中,该方法优选地利用对话追踪单元来进行上下文句子关系的追踪,以获取本轮人机交互之前预设轮次的上下文句子依存关系。
为了构造得到人机交互的敏感语境,本实施例中,该方法针对敏感语境构造了针对性槽属性。其中,上述槽属性是指对话追踪单元中的属性,其用于指代敏感语境下具备需要被滤除的属性。本实施例中,槽属性可以包括诸如:政府组织机构、反对势力、领导任务等敏感语境下的槽属性。
本实施例中,对话追踪单元可以存储人机交互过程中的多轮对话信息,对话追踪单元在构造敏感语境时,会综合分析本轮人机交互过程中的多模态交互信息以及本轮人机交互之前预设轮次的对话信息来确定出敏感语境。
为了使得最终信息过滤效果更加合理和高效,上述槽属性需要根据敏感话题的实际情况并从数据出发来进行确定。同时,为了更加有效的识别出上述槽属性,本实施例中,该方法优选的利用句子依存模型来识别句子成分中的依存关系,即利用句子成分的依存关系来判断上下文(即语境)的过滤需要。
需要指出的是,在本发明的其它实施例中,根据实际需要,该方法还可以采用其它合理方式来识别上述槽属性,本发明不限于此。例如,在本发明的一个实施例中,敏感词还可以自带槽属性。
当然,在本发明的其它实施例中,各轮人机交互的上下文句子依存关系可以存储在指定数据存储器中,该方法通过读取数据存储器中相应存储数据来获取本轮人机交互之前预设轮次的上下文句子依存关系,本发明不限于此。
在得到敏感语境后,该方法会在步骤S405中基于步骤S404中所得到的敏感语境、步骤S401所提取出的敏感词以及步骤S402中所得到的多模态交互信息的情感信息来进行敏感词过滤。
实施例三:
图5示出了本实施例所提供的人机交互过程的信息过滤方法的实现流程示意图。
如图5所示,本实施例所提供的人机交互过程的信息过滤方法首先会在步骤S501中对获取到的多模态交互信息进行数据处理,从而得到用户特征数据。
本实施例中,该方法在步骤S501中所获取到的多模态交互信息既可以包含用户所输入的语音信息(即用户语音信息),也可以包含关于用户的图像信息(即用户图像信息)。当然,在本发明的其它实施例中,根据实际情况,该方法在步骤S501中所获取到的多模态交互信息中还可以包含其它合理信息,本发明不限于此。
在获取到多模态交互信息后,该方法会在步骤S501对上述多模态交互信息中所包含的用户图像信息和用户语音信息分别进行图像处理和音频处理,从而对应得到用户特征数据。
具体地,本实施例中,该方法可以通过对多模态交互信息中所包含的用户图像信息进行图像处理来得到用户的人脸数据和/或用户的身高数据。而通过对多模态交互信息中所包含的用户音频数据进行音频处理,该方法则可以得到用户的音频特征数据(例如声纹特征数据、音调特征数据、声长特征数据等)。
在步骤S502中,该方法可以根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据等用户特征数据来判断当前用户是否为儿童用户。具体地,该方法在步骤S502中可以利用预先训练完成的人工神经网络来根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据等用户特征数据判断出当前用户的年龄区间,随后根据当前用户的年龄区间来判断当前用户是否为儿童用户。
当然,在本发明的其它实施例中,该方法还可以采用其它合理的方式来根据获取到的多模态交互信息判断当前用户是否为儿童用户,本发明不限于此。
同时,需要指出的是,在本发明的其它实施例中,根据实际情况,该方法在步骤S501中还可以仅对多模态交互信息中的图像信息或音频信息进行处理,并在步骤S502中根据步骤S501中所得到的图像处理结果或音频处理结果来确定当前用户是否为儿童用户。
本实施例中,如果当前用户为儿童用户,为了对儿童用户的身心健康进行保护,该方法也就需要进行相关敏感信息的过滤,即执行后续信息过滤步骤;而如果当前用户为非儿童用户,那么为了使得当前用户获得更全面的人机交互体验,本方法优选地不直行后续信息过滤步骤,而是直接与当前用户进行人机交互。
本实施例中,如果当前用户为儿童用户,那么该方法则会在步骤S503中对获取到的多模态交互信息进行敏感词识别,从而从上述多模态交互信息中提取出敏感词。
在得到多模态交互信息中的敏感词后,该方法会在步骤S504中对所提供到的敏感词进行情感识别,从而得到上述多模态交互信息的情感信息。最后,该方法会根据步骤S503所提取出的敏感词以及步骤S504中所得到的多模态交互信息的情感信息,来对模态交互信息进行敏感词过滤。
需要指出的是,本实施例中,上述步骤S503至步骤S505的实现原理以及实现过程与上述实施例一中步骤S201至步骤S203的实现原理以及实现过程类似,故在此不再对步骤S503至步骤S505的相关内容进行赘述。
从上述描述中可以看出,本实施例所提供的方法在实施例一以及实施例二所提供的方法的基础上,还能够根据当前用户是否为儿童用户来区别地执行信息过滤步骤,该方法能够有效适用于不同年龄段用户群体的需求,从而使得不同年龄段的用户群体能够从同一人机交互产品中获取到与自身相对应的交互体验,这样也就提高了人机交互产品的智能化水平以及产品竞争力。
本发明还提供了一种人机交互过程的信息过滤装置,图6示出了本实施例中该信息过滤装置的结构示意图。
如图6所示,本实施例所提供的人机交互过程的信息过滤装置优选地包括:用户类型识别模块601、敏感词识别模块602,情感识别模块603、信息过滤模块604以及上下文过滤模块605。其中,用户类型识别模块601对获取到的多模态交互信息进行数据处理,从而得到用户特征数据。在得到用户特征数据后,用户类型识别模块601根据上述用户特征数据来判断当前用户是否为儿童用户。其中,如果当前用户为儿童用户,那么用户类型识别模块601将会生成相应的信息过滤指令,并将该信息过滤指令传输至与之连接的敏感词识别模块602,以由敏感词识别模块602进行敏感词识别;而如果当前用户不为儿童用户,那么用户类型识别模块601也就不会生成信息过滤指令。
本实施例中,用户类型识别模块601实现其自身功能的原理以及过程优选地与实施例三中步骤S501和步骤S502所公开的内容相同,不在此不再对用户类型识别模块601的相关内容进行赘述。
敏感词识别模块602在接收到用户类型识别模块601所传输来的信息过滤指令后,会对所获取到的多模态交互信息进行敏感词识别,从而从上述多模态交互信息中提取出敏感词。
在提取得到多模态交互信息中的敏感词后,敏感词识别模块602会将上述敏感词传输至情感识别模块603。本实施例中,情感识别模块603会对提取到的敏感词进行情感识别,从而得到多模态交互信息的情感信息,并将该情感信息传输至与之连接的信息过滤模块604。
本实施例中,在基于多模态交互信息的情感倾向来进行信息过滤的同时,该装置还可以基于语境来对敏感词进行过滤。具体地,如图6所示,本实施例中,该装置还可以利用上下文过滤模块605来调用本轮人机交互之前预设轮次的上下文句子依存关系,并根据本轮人机交互所接收到的多模态交互信息以及所调取的本轮人机交互之前预设轮次的上下文句子关系来构造敏感语境。
信息过滤模块604会根据上下文过滤模块605所生成的敏感语境、敏感词识别模块602所提取到的敏感词以及情感识别模块603所确定出的多模态交互信息中的情感信息来进行敏感词过滤。
需要指出的是,本实施例中,敏感词识别模块602、情感识别模块603、信息过滤模块604以及上下文过滤模块605实现其各自功能的原理以及过程既可以与实施例一中步骤S201至步骤S203所公开的内容相同,也可以与实施例二中步骤S401至步骤S405所公开的内容相同,故在此不再对敏感词识别模块602、情感识别模块603、信息过滤模块604以及上下文过滤模块605的相关内容进行赘述。
同时,还需要指出的是,在本发明的其它实施例中,根据实际需要,该人机交互过程的信息过滤装置还可以不配置用户类型识别模块601和/或上下文过滤模块605,本发明不限于此。
此外,在本发明的不同实施例中,上述用户类型识别模块601、敏感词识别模块602、情感识别模块603、信息过滤模块604以及上下文过滤模块605既可以全部设置在智能机器人中,也可以全部设置在云端服务器中,还可以部分地设置在智能机器人中部分的设置在云端服务器中,本发明同样不限于此。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。

Claims (11)

1.一种人机交互过程的信息过滤方法,其特征在于,包括:
敏感词识别步骤,对获取到的多模态交互信息进行敏感词识别,从所述多模态交互信息中提取敏感词;
情感识别步骤,对所提取到的敏感词进行情感识别,得到所述多模态交互信息的情感信息;
信息过滤步骤,基于所述情感信息和敏感词对所述多模态交互信息进行敏感词过滤;
在所述情感识别步骤中,利用预设情感分类模型来对敏感词进行情感识别,包括:
确定各个敏感词的词向量;
根据各个敏感词在所述多模态交互信息中的位置信息获取各个敏感词的词序信息,根据各个敏感词的词向量和词序信息确定句向量;其中,使用词语的位置信息对每一个位置的词向量进行对数映射来构造句向量;
根据所述句向量确定所述多模态交互信息的情感倾向;
所述方法还包括:对获取到的多模态交互信息进行预处理,将多模态交互信息中所包含的不规则信息转为规则信息;其中,通过对多模态交互信息进行简繁转换、特殊字符检查、拼写检查和/或夹杂拼音检查来将多模态交互信息中所包含的不规则信息转换为规则信息。
2.如权利要求1所述的方法,其特征在于,所述方法还包括上下文过滤步骤,在所述上下文过滤步骤中:
调用本轮人机交互之前预设轮次的上下文句子依存关系;
根据本轮人机交互所接收到的多模态交互信息和上下文句子依存关系构造敏感语境;
在所述信息过滤步骤中,结合所述敏感语境对所述多模态交互信息进行敏感词过滤。
3.如权利要求1所述的方法,其特征在于,在所述敏感词识别步骤中,利用预设有限状态自动机和/或预设分词模型来对所述规则信息进行敏感词识别,从所述规则信息中提取出敏感词。
4.如权利要求1所述的方法,其特征在于,在所述信息过滤步骤中,获取所述敏感词的敏感类型,并基于所述敏感类型和情感信息对所述多模态交互信息进行敏感词过滤。
5.如权利要求1~4中任一项所述的方法,其特征在于,在所述敏感词识别步骤前,所述方法还包括:
用户类型识别步骤,对所获取到的多模态交互信息进行数据处理,得到用户特征数据,根据所述用户特征数据确定当前用户是否为儿童用户,其中,如果所述当前用户为儿童用户,则执行所述敏感词识别步骤。
6.一种人机交互过程的信息过滤装置,其特征在于,包括:
敏感词识别模块,其用于对获取到的多模态交互信息进行敏感词识别,从所述多模态交互信息中提取敏感词;
预处理模块,其用于对获取到的多模态交互信息进行预处理,将多模态交互信息中所包含的不规则信息转为规则信息;其中,通过对多模态交互信息进行简繁转换、特殊字符检查、拼写检查和/或夹杂拼音检查来将多模态交互信息中所包含的不规则信息转换为规则信息;
情感识别模块,其用于对所提取到的敏感词进行情感识别,得到所述多模态交互信息的情感信息;
所述情感识别模块配置为按照以下策略利用预设情感分类模型来对敏感词进行情感识别:
确定各个敏感词的词向量;
根据各个敏感词在所述多模态交互信息中的位置信息获取各个敏感词的词序信息,根据各个敏感词的词向量和词序信息确定句向量;其中,使用词语的位置信息对每一个位置的词向量进行对数映射来构造句向量;
根据所述句向量确定所述多模态交互信息的情感倾向;
信息过滤模块,其用于基于所述情感信息和敏感词对所述多模态交互信息进行敏感词过滤。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
上下文过滤模块,其用于调用本轮人机交互之前预设轮次的上下文句子依存关系,并结合本轮人机交互所接收到的多模态交互信息和上下文句子依存关系构造敏感语境;
所述信息过滤模块配置为结合所述敏感语境对所述多模态交互信息进行敏感词过滤。
8.如权利要求6所述的装置,其特征在于,所述敏感词识别模块配置为利用预设有限状态自动机和/或预设分词模型来对所述规则信息进行敏感词识别,从所述规则信息中提取出敏感词。
9.如权利要求6所述的装置,其特征在于,所述信息过滤模块配置为获取所述敏感词的敏感类型,并基于所述敏感类型和情感信息对所述多模态交互信息进行敏感词过滤。
10.如权利要求6~9中任一项所述的装置,其特征在于,所述装置还包括:
用户类型识别模块,其用于对所获取到的多模态交互信息进行数据处理,得到用户特征数据,根据所述用户特征数据确定当前用户是否为儿童用户,其中,如果所述当前用户为儿童用户,则生成相应的信息过滤指令并传输至所述敏感词识别模块。
11.一种存储介质,其特征在于,所述存储介质上存储有可执行如权利要求1~6中任一项所述的方法步骤的程序代码。
CN201711107489.2A 2017-11-10 2017-11-10 一种人机交互过程中的信息过滤方法及装置 Active CN107992471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711107489.2A CN107992471B (zh) 2017-11-10 2017-11-10 一种人机交互过程中的信息过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711107489.2A CN107992471B (zh) 2017-11-10 2017-11-10 一种人机交互过程中的信息过滤方法及装置

Publications (2)

Publication Number Publication Date
CN107992471A CN107992471A (zh) 2018-05-04
CN107992471B true CN107992471B (zh) 2021-09-10

Family

ID=62031206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107489.2A Active CN107992471B (zh) 2017-11-10 2017-11-10 一种人机交互过程中的信息过滤方法及装置

Country Status (1)

Country Link
CN (1) CN107992471B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740053B (zh) * 2018-12-26 2021-03-05 广州灵聚信息科技有限公司 基于nlp技术的敏感词屏蔽方法和装置
CN110879963B (zh) * 2019-09-18 2023-09-05 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN111090886A (zh) * 2019-12-31 2020-05-01 新奥数能科技有限公司 脱敏数据确定方法、装置、可读介质及电子设备
CN113157901B (zh) * 2020-01-22 2024-02-23 腾讯科技(深圳)有限公司 用户产生内容过滤方法及相关装置
CN111400439A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 网络不良数据监控方法、装置及存储介质
CN112016317A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101615848B1 (ko) * 2015-01-19 2016-04-26 주식회사 엔씨소프트 유사상황 검색을 통한 대화 스티커 추천방법 및 컴퓨터 프로그램
CN107193796B (zh) * 2016-03-14 2021-12-24 北大方正集团有限公司 一种舆情事件检测方法及装置
CN106055541B (zh) * 2016-06-29 2018-12-28 清华大学 一种新闻内容敏感词过滤方法及系统
CN106919661B (zh) * 2017-02-13 2020-07-24 腾讯科技(深圳)有限公司 一种情感类型识别方法及相关装置

Also Published As

Publication number Publication date
CN107992471A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107992471B (zh) 一种人机交互过程中的信息过滤方法及装置
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
Zhang et al. Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot
Dunne et al. A survey of ambient intelligence
CN108536681A (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
KR20210124938A (ko) 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체
CN111814454B (zh) 一种社交网络上的多模态网络欺凌检测模型
US20190258655A1 (en) Curating knowledge for storage in a knowledge database
EP3620994A1 (en) Methods, apparatuses, devices, and computer-readable storage media for determining category of entity
Bhattacharya et al. Exploring the contextual factors affecting multimodal emotion recognition in videos
Yang et al. Detection of non‐suicidal self‐injury based on spatiotemporal features of indoor activities
US10902342B2 (en) System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of an input question
US10552461B2 (en) System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer
CN114519397A (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
CN112860995A (zh) 交互方法、装置、客户端、服务器以及存储介质
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
Bai et al. Low-rank multimodal fusion algorithm based on context modeling
Brady et al. Theory-driven Measurement of Emotion (Expressions) in Social Media Text
CN109202922B (zh) 用于机器人的基于情感的人机交互方法及装置
CN111159339A (zh) 一种文本匹配处理方法和装置
Grubb Multimodal emotion recognition
CN114048319B (zh) 基于注意力机制的幽默文本分类方法、装置、设备、介质
CN113254635B (zh) 数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant