CN105760445A - 用于过滤垃圾词的方法及系统 - Google Patents

用于过滤垃圾词的方法及系统 Download PDF

Info

Publication number
CN105760445A
CN105760445A CN201610076776.0A CN201610076776A CN105760445A CN 105760445 A CN105760445 A CN 105760445A CN 201610076776 A CN201610076776 A CN 201610076776A CN 105760445 A CN105760445 A CN 105760445A
Authority
CN
China
Prior art keywords
rubbish word
word
rubbish
extension
benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610076776.0A
Other languages
English (en)
Inventor
孙永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Wuxian Technology Co Ltd
Original Assignee
Beijing Guangnian Wuxian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Wuxian Technology Co Ltd filed Critical Beijing Guangnian Wuxian Technology Co Ltd
Priority to CN201610076776.0A priority Critical patent/CN105760445A/zh
Publication of CN105760445A publication Critical patent/CN105760445A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种用于过滤垃圾词的方法及系统,方法包括:获取用户输入信息;根据构建的垃圾词知识库判断用户输入信息中是否包括待过滤垃圾词;其中垃圾词知识库中保存有基准垃圾词和由基准垃圾词扩展而成的扩展垃圾词;如果是,则将待过滤垃圾词从反馈给用户的交互信息中过滤掉。本发明增强了垃圾词的过滤准确性和全面性,提高了过滤成功率,从而在很大程度上确保了问答交互系统的语言纯净度。

Description

用于过滤垃圾词的方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于过滤垃圾词的方法,还涉及一种用于过滤垃圾词的系统。
背景技术
在互联网技术中,问答交互系统反馈给用户的交互信息事先应经过垃圾词过滤。也就是说,系统首先要对反馈给用户的交互信息进行垃圾词过滤,将确定为垃圾词的词语屏蔽掉,以确保问答交互系统的语言纯净度。
目前,现有的垃圾词过滤系统一般通过与基准垃圾词进行完全匹配或者部分匹配的方式来分辨垃圾词,然后将分辨出来的垃圾词过滤掉。可见,现有的垃圾词过滤系统仅限于过滤所列举的基准垃圾词,从而使得过滤的准确性和全面性均有不足,过滤效果不佳,由此可能在问答过程中出现比较严重的问题,并可能导致严重的后果。
发明内容
本发明所要解决的技术问题是:现有技术中的垃圾词过滤系统仅限于过滤所列举的基准垃圾词,从而使得过滤的准确性和全面性均有不足。
为了解决上述技术问题,本发明提供了一种用于过滤垃圾词的方法及系统。
根据本发明的一个方面,提供了一种用于过滤垃圾词的方法,其包括:
获取用户输入信息;
根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
在判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
优选的是,上述用于过滤垃圾词的方法还包括:构建所述垃圾词知识库,其包括:
预先设置所述基准垃圾词;
依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
从所有疑似垃圾词中选出所述扩展垃圾词;
将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
优选的是,依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词,包括:
依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
优选的是,从所有疑似垃圾词中选出所述扩展垃圾词,包括:
依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
在判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
在判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
从所有候选垃圾词中选出所述扩展垃圾词。
优选的是,上述用于过滤垃圾词的方法还包括:更新所述垃圾词知识库,其包括:
依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
从所有新疑似垃圾词中选出新扩展垃圾词;
将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
根据本发明的另一个方面,提供了一种用于过滤垃圾词的系统,其包括:
信息获取模块,设置为获取用户输入信息;
判断模块,设置为根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
过滤模块,设置为在所述判断模块判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
优选的是,上述用于过滤垃圾词的系统还包括:构建模块,设置为构建所述垃圾词知识库;
所述构建模块包括:
预设单元,设置为预先设置所述基准垃圾词;
词向量聚类单元,设置为依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
扩展垃圾词选择单元,设置为从所有疑似垃圾词中选出所述扩展垃圾词;
构建单元,设置为将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
优选的是,所述词向量聚类单元包括:
距离计算子单元,设置为依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
疑似垃圾词确定子单元,设置为将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
优选的是,所述扩展垃圾词选择单元包括:
第一判断子单元,设置为依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
第二判断子单元,设置为在所述第一判断子单元判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
候选垃圾词确定子单元,设置为在所述第二判断子单元判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
扩展垃圾词选择子单元,设置为从所有候选垃圾词中选出所述扩展垃圾词。
优选的是,上述用于过滤垃圾词的系统还包括更新模块,设置为更新所述垃圾词知识库;
所述更新模块包括:
新疑似垃圾词确定子单元,设置为依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
新扩展垃圾词选择子单元,设置为从所有新疑似垃圾词中选出新扩展垃圾词;
更新子单元,设置为将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明,基于构建的垃圾词知识库,判断用户输入信息中是否包括待过滤垃圾词,并将确定的待过滤垃圾词从反馈给用户的交互信息中过滤出去。由于垃圾词知识库中除了包括具有代表性的基准垃圾词还包括由基准垃圾词扩展而成的扩展垃圾词,因此相比于现有技术中仅限于针对基准垃圾词的过滤的技术,本发明实施例将过滤的范围从基准垃圾词扩展到基准垃圾词加上扩展垃圾词,增强了过滤准确性和全面性,提高了过滤成功率,从而在很大程度上确保了问答交互系统的语言纯净度。
本发明的其它特征和优点将在随后的说明书中阐述,并且部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1示出了本发明实施例用于过滤垃圾词的方法的流程示意图;
图2示出了本发明实施例中构建垃圾词知识库的方法的流程示意图;
图3示出了本发明实施例中得到疑似垃圾词的方法的流程示意图;
图4示出了本发明实施例中从所有疑似垃圾词中选出扩展垃圾词的流程示意图;
图5示出了本发明实施例中更新垃圾词知识库的方法的流程示意图;
图6示出了本发明实施例用于过滤垃圾词的系统的结构示意图;
图7示出了本发明实施例中构建模块的结构示意图;
图8示出了本发明实施例中词向量聚类单元的结构示意图;
图9示出了本发明实施例中扩展垃圾词选择单元的结构示意图;以及
图10示出了本发明实施例中更新模块的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
本发明要解决现有技术中存在的如下缺陷:现有的垃圾词过滤系统仅限于过滤所列举的基准垃圾词,通过这些基准垃圾词来进行完全匹配或者部分匹配,而无法实现对这些基准垃圾词的同义词、近义词进行过滤,从而使得过滤效果不佳。例如,垃圾词过滤系统仅能过滤掉基准垃圾词“草尼玛”,而未包括基准垃圾词“草尼玛”的同义垃圾词“法克鱿”等。可以看出,现有的垃圾词过滤系统过滤的范围仅限于基准垃圾词,而没有能力过滤基准垃圾词的同义/近义垃圾词,过滤效果不佳,问答交互系统向用户反馈这些与基准垃圾词同义或近义的垃圾词,同样会破坏该问答交互系统的语言纯净度。
为解决上述技术缺陷,本发明实施例提供了一种用于过滤垃圾词的方法。
在详细阐述本发明各个具体的实施例之前,首先对涉及到的几个术语进行解释。
垃圾词,指代粗口词及不文明词汇。垃圾词的存在会大大破坏问答交互系统的语言纯净度。
基准垃圾词,一般是预先设置在垃圾词过滤系统中的,用于指代一批具有代表性的垃圾词。基准垃圾词例如:“草尼玛”、“你妈的”、“我靠”、“混蛋”等。
扩展垃圾词,指代由基准垃圾词扩展而成的垃圾词。一般来讲,扩展垃圾词与基准垃圾词的意思相同。扩展垃圾词是基准垃圾词的同义词、近义词或者同音词。例如由基准垃圾词“草尼玛”扩展而成的扩展垃圾词有“草泥马”、“法克鱿”等。由基准垃圾词“你妈的”扩展而成的扩展垃圾词有“你M的”等。由基准垃圾词“我靠”扩展而成的扩展垃圾词有“我擦”等。由基准垃圾词“混蛋”扩展而成的扩展垃圾词有“焚蛋”、“坟蛋”等。
疑似垃圾词,指代在构建垃圾词知识库的过程中,对基准垃圾词进行词向量聚类得到的结果。疑似垃圾词中的一些或者全部被选为扩展垃圾词,即扩展垃圾词是从疑似垃圾词这个集合中选择出来的。可以理解,在对基准垃圾词进行词向量聚类时,距离阈值设定得越大,基于基准垃圾词得到的疑似垃圾词就越多。举例来说,对于基准垃圾词“混蛋”来说,经过词向量聚类后得到的疑似垃圾词包括:“焚蛋”、“坟蛋”、“混沌”、“馄饨”。经后续垃圾词确定步骤,可以从这四个疑似垃圾词中选出扩展垃圾词“焚蛋”和“坟蛋”。
候选垃圾词,指代在从所有疑似垃圾词中选出扩展垃圾词的过程中,扩展垃圾词的过渡状态。疑似垃圾词中的一些或者全部被选为候选垃圾词,候选垃圾词中的一些或者全部被选为扩展垃圾词。也就是说,候选垃圾词是从疑似垃圾词的集合中挑选出来的,而扩展垃圾词是从候选垃圾词的集合中挑选出来的。
待过滤垃圾词,指代用户输入信息中与垃圾词知识库中的基准垃圾词或者扩展垃圾词完全匹配或者部分匹配的词。该过滤垃圾词将被垃圾词过滤系统从反馈给用户的交互信息中过滤掉。举例来说,用户输入信息为“你是个焚蛋!”,此用户输入信息中包括与垃圾词知识库中的扩展垃圾词“焚蛋”完全匹配的词“焚蛋”,此时将该词“焚蛋”确定为用户输入信息中的待过滤垃圾词。
实施例一
图1示出了根据本发明实施例的用于过滤垃圾词的方法的流程示意图。如图1所示,根据本实施例的用于过滤垃圾词的方法主要包括步骤101至步骤103。
在步骤101中,获取用户输入信息。
在步骤102中,根据构建的垃圾词知识库,判断用户输入信息中是否包括待过滤垃圾词;其中,垃圾词知识库中保存有基准垃圾词和扩展垃圾词,扩展垃圾词由基准垃圾词扩展而成。
具体地,垃圾词知识库可以是离线构建的也可以是在线构建的。下文将结合图2至图4详细阐述垃圾词知识库的构建方法。垃圾词知识库中不仅包括被预置的基准垃圾词,还包括基于基准垃圾词扩展而成的扩展垃圾词。本步骤基于已构建的垃圾知识库,判断所获取的用户输入信息中是否存在与垃圾词知识库中的基准垃圾词或者扩展垃圾词完全匹配或部分匹配的待过滤垃圾词。
在步骤103中,在判断出用户输入信息中包括待过滤垃圾词时,将待过滤垃圾词从反馈给用户的交互信息中过滤掉。
具体地,当判断出用户输入信息中存在至少一个与基准垃圾词完全匹配或部分匹配的待过滤垃圾词时,或者当判断出用户输入信息中存在至少一个与扩展垃圾词完全匹配或部分匹配的待过滤垃圾词时,将该待过滤垃圾词从反馈给用户的交互信息中过滤掉。应注意的是,在将待过滤垃圾词从反馈给用户的交互信息中过滤掉后,系统还应判断经过滤的交互信息的语法是否符合要求,并将符合要求的经过滤的交互信息反馈给用户。
应用本实施例所述的用于过滤垃圾词的方法,基于构建的垃圾词知识库,判断用户输入信息中是否包括待过滤垃圾词,并将确定的待过滤垃圾词从反馈给用户的交互信息中过滤出去。由于垃圾词知识库中除了包括具有代表性的基准垃圾词还包括由基准垃圾词扩展而成的扩展垃圾词,因此相比于现有技术中仅限于针对基准垃圾词的过滤的技术,本发明实施例将过滤的范围从基准垃圾词扩展到基准垃圾词加上扩展垃圾词,增强了过滤准确性和全面性,提高了过滤成功率,从而在很大程度上确保了问答交互系统的语言纯净度。
实施例二
图2示出了本发明实施例中构建垃圾词知识库的方法的流程示意图。如图2所示,构建垃圾词知识库的方法包括步骤201至步骤204。
在步骤201中,预先设置基准垃圾词。在构建垃圾词知识库的第一步,需要先确定具有代表性的基准垃圾词。
在步骤202中,依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词。
本步骤具体包括子步骤2021和子步骤2022。
参照图3,在子步骤2021中,依次针对每个基准垃圾词,计算基准垃圾词的词向量与预设词库中的每个词的词向量的距离。
在子步骤2022中,将预设词库中与基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与基准垃圾词相对应的疑似垃圾词。
具体地,预设词库中保存有大量词。其中每个词都分别对应一个词向量。通过计算词与词之间的词向量距离,来判断词与词之间的密切程度。一般来讲,词向量距离越小,词与词之间的关联性/相似性越大;反之,词向量距离越大,词与词之间的关联性/相似性就越小。在本实施例中,当计算得出预设词库中的词的词向量与某一基准垃圾词的词向量的距离小于预设距离阈值时,则确定该词为该基准垃圾词的疑似垃圾词。按照此种方式,分别找到对应每个基准垃圾词的所有疑似垃圾词。
举例来说,将每一个词映射成一个固定长度的短向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据这些向量之间的距离来计算词之间的距离,比如英国,对应一个16维向量为”0.5,0.2,0.3,0.2,0.7,0.8,0.5,0.4,0.9.0.3,0.6,0.8,0.4,0.7,0.5,0.3”,找到一个接近的向量”0.4,0.1,0.3,0.2,0.7,0.8,0.5,0.4,0.9.0.3,0.6,0.8,0.4,0.7,0.5,0.3”,而这个向量对应的词是“法国“,这样就找到了比较接近“英国”这个词的“法国”。再例如,可以利用词向量聚类的方式得到与基准垃圾词“草尼玛”相对应的疑似垃圾词“法克鱿”和“羊驼”。
在步骤203中,从所有疑似垃圾词中选出扩展垃圾词。
本步骤具体包括子步骤2031至子步骤2034。
参照图4,在子步骤2031中,依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括疑似垃圾词的评论信息。
在子步骤2032中,在判断出在评论知识库中存在包括疑似垃圾词的评论信息的情况下,判断评论信息中是否包括基准垃圾词或者扩展垃圾词。
在子步骤2033中,在判断出评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定疑似垃圾词为候选垃圾词。
在子步骤2034,从所有候选垃圾词中选出扩展垃圾词。
具体地,构建的评论知识库中保存有大量评论数据,特别是论坛、微博或者微信环境的评论数据。将每条评论看成是一条评论信息。
在选择扩展垃圾词时,首先利用评论知识库从疑似垃圾词中选出候选垃圾词。对于某一个疑似垃圾词,如果同时满足评论知识库中存在包括该疑似垃圾词的评论信息,并且该评论信息还包括其它基准垃圾词或者扩展垃圾词,则确定该疑似垃圾词为候选垃圾词。
按照此种方式,分别找到对应每个基准垃圾词的所有候选垃圾词。然后例如通过人工筛选的方式,从所有候选垃圾词中选出扩展垃圾词。继续上面的例子,可以通过子步骤2031至子步骤2034的方法,从与基准垃圾词“草尼玛”相对应的疑似垃圾词“法克鱿”和“羊驼”中选出扩展垃圾词“法克鱿”。
在步骤204中,将基准垃圾词和扩展垃圾词保存到垃圾词知识库中。
本实施例所述的构建垃圾词知识库的方法,利用词向量聚类的方式得到与预先设置的基准垃圾词相对应的疑似垃圾词,然后通过人工及算法从疑似垃圾词中选出扩展垃圾词,最后将基准垃圾词和扩展垃圾词都保存至垃圾词知识库中,从而完成了垃圾词知识库的构建工作。本实施例采用词向量聚类的技术手段,实现了从基准垃圾词到扩展垃圾词的有效扩展,结合人工及算法,提高了扩展垃圾词的准确性。
值得注意的是,本实施例所涉及预设词库和评论知识库中的数据都要定期更新或训练的,以适应网络信息的迅速更新。具体地,对于预设词库,由于词向量是通过大量数据训练出来的,所以每个周期(周期例如为一周)都会新添加很多数据进入到训练模型,每周都会对词向量训练一遍,从而词向量的准确性会不断的提升,进而提高了垃圾词扩展的准确性。对于评论知识库,每个周期(周期例如为一周)都要添加新的评论信息到评论知识库中,同样也会提高垃圾词扩展的准确性。
实施例三
本实施例在上述实施例二的基础上,通过将得到的扩展垃圾词作为基准垃圾词的方式,对垃圾词知识库进行更新。
图5示出了本发明实施例中更新垃圾词知识库的方法的流程示意图。本实施例更新垃圾库的方法主要包括步骤301至步骤303。
在步骤301中,依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词。
在步骤302中,从所有新疑似垃圾词中选出新扩展垃圾词。
在步骤303中,将新扩展垃圾词作为扩展垃圾词保存到垃圾词知识库中。
应用本实施例所述的更新方法,将每个扩展垃圾词作为新的基准垃圾词,然后根据实施例二所述的方法得到基于这些新的基准垃圾词的新扩展垃圾词,然后将新扩展垃圾词作为上述的扩展垃圾词保存到垃圾词知识库中。以此往复循环。举例来说,根据实施例二的方法得到基于基准垃圾词“草泥玛”的扩展垃圾词“法克鱿”,于是将“法克鱿”作为基准垃圾词添加到垃圾词知识库中,以使下一轮更新时将基准垃圾词“法克鱿”的扩展垃圾词添加至垃圾词知识库中,如此循环可实现垃圾词知识库的不断更新。
实施例四
图6示出了本发明实施例用于过滤垃圾词的系统的结构示意图。如图6所示,本实施例用于过滤垃圾词的系统主要包括垃圾词知识库404、信息获取模块401、判断模块402和过滤模块403。信息获取模块401通过判断模块402连接过滤模块403,判断模块402还与垃圾词知识库404相连接。
具体地,信息获取模块401,设置为获取用户输入信息。
判断模块402,设置为根据构建的垃圾词知识库404,判断用户输入信息中是否包括待过滤垃圾词。其中,垃圾词知识库404中保存有基准垃圾词和扩展垃圾词,扩展垃圾词由基准垃圾词扩展而成。
过滤模块403,设置为在判断模块402判断出用户输入信息中包括待过滤垃圾词时,将待过滤垃圾词从反馈给用户的交互信息中过滤掉。
实施例五
本实施例在实施例四的基础上,还包括用于构建垃圾词知识库404的构建模块。
图7示出了本发明实施例中构建模块的结构示意图。构建模块包括依次连接的预设单元501、词向量聚类单元502、扩展垃圾词选择单元503和构建单元504。
具体地,预设单元501,设置为预先设置基准垃圾词。
词向量聚类单元502,设置为依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词。
扩展垃圾词选择单元503,设置为从所有疑似垃圾词中选出扩展垃圾词。
构建单元504,设置为将基准垃圾词和扩展垃圾词保存到垃圾词知识库中。
进一步地,图8示出了本发明实施例中词向量聚类单元502的结构示意图。如图8所示,词向量聚类单元502包括彼此相连接的距离计算子单元601和疑似垃圾词确定子单元602。
距离计算子单元601,设置为依次针对每个基准垃圾词,计算基准垃圾词的词向量与预设词库中的每个词的词向量的距离。
疑似垃圾词确定子单元602,设置为将预设词库中与基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与基准垃圾词相对应的疑似垃圾词。
进一步地,图9示出了本发明实施例中扩展垃圾词选择单元503的结构示意图。如图9所示,扩展垃圾词选择单元503包括依次连接的第一判断子单元701、第二判断子单元702、候选垃圾词确定子单元703和扩展垃圾词选择子单元704。
第一判断子单元701,设置为依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括疑似垃圾词的评论信息。
第二判断子单元702,设置为在第一判断子单元701判断出在评论知识库中存在包括疑似垃圾词的评论信息的情况下,判断评论信息中是否包括基准垃圾词或者扩展垃圾词。
候选垃圾词确定子单元703,设置为在第二判断子单元702判断出评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定疑似垃圾词为候选垃圾词。
扩展垃圾词选择子单元704,设置为从所有候选垃圾词中选出扩展垃圾词。
实施例六
本实施例在实施例五的基础上还包括用于更新垃圾词知识库404的更新模块。
图10示出了本发明实施例中更新模块的结构示意图。如图10所示,更新模块包括依次连接的新疑似垃圾词确定子单元801、新扩展垃圾词选择子单元802和更新子单元803。
新疑似垃圾词确定子单元801,设置为依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词。
新扩展垃圾词选择子单元802,设置为从所有新疑似垃圾词中选出新扩展垃圾词。
更新子单元803,设置为将新扩展垃圾词作为扩展垃圾词保存到垃圾词知识库中。
值得说明的是,实施例四至实施例六中各模块/单元中的操作的具体细化,可参见上面结合图1至图5对本发明方法的说明,在此不再详细赘述。
应用本发明实施例提供的用于过滤垃圾词的系统,基于构建的垃圾词知识库,判断用户输入信息中是否包括待过滤垃圾词,并将确定的待过滤垃圾词从反馈给用户的交互信息中过滤出去。由于垃圾词知识库中除了包括具有代表性的基准垃圾词还包括由基准垃圾词扩展而成的扩展垃圾词,因此相比于现有技术中仅限于针对基准垃圾词的过滤的技术,本发明实施例将过滤的范围从基准垃圾词扩展到基准垃圾词加上扩展垃圾词,增强了过滤准确性和全面性,提高了过滤成功率,从而在很大程度上确保了问答交互系统的语言纯净度。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种用于过滤垃圾词的方法,其特征在于,包括:
获取用户输入信息;
根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
在判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
2.根据权利要求1所述的方法,其特征在于,还包括:构建所述垃圾词知识库,其包括:
预先设置所述基准垃圾词;
依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
从所有疑似垃圾词中选出所述扩展垃圾词;
将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
3.根据权利要求2所述的方法,其特征在于,依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词,包括:
依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
4.根据权利要求2所述的方法,其特征在于,从所有疑似垃圾词中选出所述扩展垃圾词,包括:
依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
在判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
在判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
从所有候选垃圾词中选出所述扩展垃圾词。
5.根据权利要求2至4中任一项所述的方法,其特征在于,还包括:更新所述垃圾词知识库,其包括:
依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
从所有新疑似垃圾词中选出新扩展垃圾词;
将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
6.一种用于过滤垃圾词的系统,其特征在于,包括:
信息获取模块,设置为获取用户输入信息;
判断模块,设置为根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
过滤模块,设置为在所述判断模块判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
7.根据权利要求6所述的系统,其特征在于,还包括:构建模块,设置为构建所述垃圾词知识库;
所述构建模块包括:
预设单元,设置为预先设置所述基准垃圾词;
词向量聚类单元,设置为依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
扩展垃圾词选择单元,设置为从所有疑似垃圾词中选出所述扩展垃圾词;
构建单元,设置为将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
8.根据权利要求7所述的系统,其特征在于,所述词向量聚类单元包括:
距离计算子单元,设置为依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
疑似垃圾词确定子单元,设置为将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
9.根据权利要求7所述的系统,其特征在于,所述扩展垃圾词选择单元包括:
第一判断子单元,设置为依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
第二判断子单元,设置为在所述第一判断子单元判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
候选垃圾词确定子单元,设置为在所述第二判断子单元判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
扩展垃圾词选择子单元,设置为从所有候选垃圾词中选出所述扩展垃圾词。
10.根据权利要求7至9中任一项所述的系统,其特征在于,还包括更新模块,设置为更新所述垃圾词知识库;
所述更新模块包括:
新疑似垃圾词确定子单元,设置为依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
新扩展垃圾词选择子单元,设置为从所有新疑似垃圾词中选出新扩展垃圾词;
更新子单元,设置为将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
CN201610076776.0A 2016-02-03 2016-02-03 用于过滤垃圾词的方法及系统 Pending CN105760445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610076776.0A CN105760445A (zh) 2016-02-03 2016-02-03 用于过滤垃圾词的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610076776.0A CN105760445A (zh) 2016-02-03 2016-02-03 用于过滤垃圾词的方法及系统

Publications (1)

Publication Number Publication Date
CN105760445A true CN105760445A (zh) 2016-07-13

Family

ID=56329943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610076776.0A Pending CN105760445A (zh) 2016-02-03 2016-02-03 用于过滤垃圾词的方法及系统

Country Status (1)

Country Link
CN (1) CN105760445A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055718A (zh) * 2016-07-15 2016-10-26 北京光年无限科技有限公司 一种针对机器人自主学习的输出内容过滤方法及机器人
CN106250446A (zh) * 2016-07-27 2016-12-21 深圳市金立通信设备有限公司 一种应用通知管理方法及终端
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080044016A1 (en) * 2006-08-04 2008-02-21 Henzinger Monika H Detecting duplicate and near-duplicate files
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080044016A1 (en) * 2006-08-04 2008-02-21 Henzinger Monika H Detecting duplicate and near-duplicate files
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055718A (zh) * 2016-07-15 2016-10-26 北京光年无限科技有限公司 一种针对机器人自主学习的输出内容过滤方法及机器人
CN106055718B (zh) * 2016-07-15 2019-09-27 北京光年无限科技有限公司 一种针对机器人自主学习的输出内容过滤方法及机器人
CN106250446A (zh) * 2016-07-27 2016-12-21 深圳市金立通信设备有限公司 一种应用通知管理方法及终端
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法

Similar Documents

Publication Publication Date Title
CN106992001B (zh) 语音指令的处理方法、装置和系统
CN102930023B (zh) 基于知识的数据质量解决方案
CN110380917A (zh) 联邦学习系统的控制方法、装置、终端设备及存储介质
CN105760445A (zh) 用于过滤垃圾词的方法及系统
WO2001075790A3 (en) Method, system, and computer program product for representing object relationships in a multidimensional space
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN106325596B (zh) 一种书写笔迹自动纠错方法及系统
CN106231074A (zh) 一种消息处理的方法及装置
CN102915344B (zh) 一种sql语句处理方法及装置
CN104144392A (zh) 信息处理方法、设备和系统
CN106126279A (zh) 自动添加bim模型族文件信息的方法及系统
US9015097B2 (en) System and method for learning answers to frequently asked questions from a semi-structured data source
CN101894129A (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
Amir et al. Plan recognition in virtual laboratories
CN110455989A (zh) 气体浓度数据处理方法、装置及终端设备
CN117271645A (zh) 一种测试数据的处理方法、装置及计算机可读存储介质
CN102841919A (zh) 一种会话文本中表情解析的方法和系统
CN105242958A (zh) 一种虚拟试验系统与hla仿真系统数据交换方法
CN105922261B (zh) 一种机器人控制装置及其控制方法
CN105302728B (zh) Sap接口的测试方法和装置
CN111128135B (zh) 语音交流方法及装置
Steinbrenner et al. A structured approach to interactive multiple block grid generation
CN111562990A (zh) 一种基于消息的轻量级无服务器计算方法
CN109145082A (zh) 一种用于智能对话系统的敏感词检测方法
CN104363150B (zh) 一种类文件系统的物联网设备访问系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160713

RJ01 Rejection of invention patent application after publication