CN107515877A - 敏感主题词集的生成方法和装置 - Google Patents

敏感主题词集的生成方法和装置 Download PDF

Info

Publication number
CN107515877A
CN107515877A CN201610431062.7A CN201610431062A CN107515877A CN 107515877 A CN107515877 A CN 107515877A CN 201610431062 A CN201610431062 A CN 201610431062A CN 107515877 A CN107515877 A CN 107515877A
Authority
CN
China
Prior art keywords
sensitive
word
descriptor
theme
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610431062.7A
Other languages
English (en)
Other versions
CN107515877B (zh
Inventor
王经委
张杰伟
张霄
欧林鑫
罗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610431062.7A priority Critical patent/CN107515877B/zh
Publication of CN107515877A publication Critical patent/CN107515877A/zh
Application granted granted Critical
Publication of CN107515877B publication Critical patent/CN107515877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明实施例公开了一种敏感主题词集的生成方法和装置。所述方法包括:根据用户的敏感查询语句构建主题词库;根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;基于所述各主题词及对应的上下文词向量,生成敏感主题词集。本发明实施例的技术方案,实现了根据用户的查询语句对敏感词数量有限的敏感词表进行主题扩充,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。

Description

敏感主题词集的生成方法和装置
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种敏感主题词集的生成方法和装置。
背景技术
随着互联网的飞速发展,基于文本的网络服务已经深入到人们生活的各个方面。由于网络文本服务具有内容丰富、互动性强、实时性强的优势,基于文本的网络服务早已成为移动互联网的一项重要业务。
但是网络文本服务在给人们带来便利的同时,不可避免地也会散播一些未经证实的消息或不良内容,很多情况下均会出现违反国家法律法规并损害公众利益的言行,如:政治敏感、色情词汇等等,为了维护国家法律和公民权益,营造一个良好的互联网使用环境,越来越多的网络文本服务中集成了敏感词识别并过滤的功能。例如搜索引擎的一项重要任务就是识别并过滤用户的查询语句中的敏感词。现有的敏感词识别技术一般是通过建立色情词表,将查询语句中的词与所述色情词表中的词一一匹配,进而判断查询语句中是否含有敏感词,但是这种方法一方面对于查询语句中出现的新词无法判断,另一方面对于查询语句中的歧义词可能错误判断。
发明内容
有鉴于此,本发明实施例提供一种敏感主题词集的生成方法和装置,以根据用户的敏感查询语句得到属于相同主题且具有上下文关系的主题词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
在第一方面,本发明实施例提供了一种敏感主题词集的生成方法,所述方法包括:
根据用户的敏感查询语句构建主题词库;
根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
在第二方面,本发明实施例还提供了一种敏感词识别方法,所述方法包括:
获取用户输入的查询式;
根据所述查询式,以及通过本发明实施例所述的敏感主题词集的生成方法生成的所述敏感主题词集,生成观测序列;
将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
在第三方面,本发明实施例提供了一种敏感主题词集的生成装置,所述装置包括:
主题词库构建模块,用于根据用户的敏感查询语句构建主题词库;
上下文词向量计算模块,用于根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
敏感主题词集生成模块,用于基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
在第四方面,本发明实施例还提供了一种敏感词识别装置,所述装置包括:
查询式获取模块,用于获取用户输入的查询式;
观测序列生成模块,用于根据所述查询式,以及通过本发明实施例所述的敏感主题词集的生成装置生成的所述敏感主题词集,生成观测序列;
观测序列输入模块,用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
敏感词识别模块,用于根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
本发明实施例通过根据用户的敏感查询语句构建主题词库,然后根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量,并基于所述各主题词及对应的上下文词向量,生成敏感主题词集的技术手段,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
附图说明
图1是本发明第一实施例的一种敏感主题词集的生成方法的流程图;
图2是本发明第二实施例的一种敏感主题词集的生成方法的流程图;
图3是本发明第三实施例的一种敏感主题词集的生成方法的流程图;
图4是本发明第三实施例的各主题词之间的相邻矩阵的示意图;
图5是本发明第四实施例的一种敏感词识别方法的流程图;
图6是本发明第五实施例的一种敏感词识别方法的流程图;
图7是本发明第六实施例的一种敏感词识别方法的流程图;
图8是本发明第七实施例的一种敏感主题词集的生成装置的结构图;
图9是本发明第八实施例的一种敏感词识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
第一实施例
图1为本发明第一实施例提供的一种敏感主题词集的生成方法的流程图,本实施例的方法可以由敏感主题词集的生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于过滤用户查询语句的搜索引擎服务器中。本实施例的方法具体包括:
110、根据用户的敏感查询语句构建主题词库。
在本实施例中,所述敏感查询语句具体是指包括有一个或者多个敏感词的查询语句。
其中,可以首先获取用户的大量查询日志,之后通过对查询日志中包括的查询语句通过人工标注的方式,识别并获取所述敏感查询语句;
还可以通过将线下查询日志中包括的用户历史查询语句或者用户实时输入的查询语句,与预先构建的敏感种子词表进行比对的方式,识别并获取所述敏感查询语句。
示例性地,所述根据用户的敏感查询语句构建主题词库,可以包括:对所述敏感查询语句进行分词;根据分词结果构建所述主题词库。
典型的,可以将敏感查询语句中的全部分词,均存储于所述主题词库中,也可以仅获取所述敏感查询语句中设定词性的分词(典型的,名词以及动词),存储于所述主题词库中,还可以统计分词的出现频率,将大量敏感查询语句中均包括的分词,存储于所述主题词库中,本实施例对此并不进行限制。
例如:对用户的敏感查询语句——“我要看激情电影”进行分词得到:“我”、“要看”、“激情”、“电影”,由所述分词去构建所述主题词库。
进一步地,所述根据分词结果构建所述主题词库,可以包括:计算所述分词结果中包括的分词总数量;在所述分词结果中,统计各分词的词频数;分别计算各分词的词频数与所述分词总数量的权重比值;将权重比值满足设定阈值条件的分词,确定为所述主题词库中的主题词。
例如:通过统计用户的大量敏感查询语句得到的结果如下:分词总数量为10000,分词A出现的次数为1000,分词B出现的总次数为100,设定阈值条件为权重比值大于等于0.1,则分词A的权重比值为1000/10000=0.1,分词B的权重比值为100/10000=0.01,分词A满足设定阈值条件,分词B不满足设定阈值条件,则将分词A存储于所述主题词库,不对分词B进行存储操作。其余的分词也按照上述规则进行筛选,通过筛选的所有词构建所述主题词库。
可选的,所述用户的敏感查询语句可以是通过基于预先构建的敏感种子词表,从用户历史查询语句中获取所述敏感查询语句。
其中,所述敏感种子词表中包括至少一个敏感种子词,所述敏感种子词可以是指政治敏感词或者色情敏感词。所述预先构建的敏感种子词表可以是对已有的敏感词库的直接调用,还可以是根据常用的敏感词汇直接创建。
示例性地,所述预先构建敏感种子词表,可以包括:筛选设定数量的敏感种子词,建立敏感种子词表。
其中,所述设定数量的敏感种子词可以是从已有的敏感词库中依据各敏感词的使用频率进行筛选的,也可以是技术人员根据特定的应用场景人为进行筛选设置,例如某一搜索引擎需要对关于敏感人员的家庭住址或者家庭成员的信息进行筛选过滤,此时技术人员则需要人为地进行敏感种子词的设定。
由于不管是直接调用已有的敏感词库还是根据常用的敏感词汇直接创建的敏感词表中的敏感词的数量都是有限的,而随着网络的发展,网络新用语不断涌现,导致已有的敏感词库或者直接创建的敏感词表始终无法包含用户查询语句中的所有敏感词,因此需要根据用户的查询语句对敏感种子词表进行主题扩充,将用户查询语句中包含所述敏感种子词的语句过滤出来,由构成所述语句的分词构建主题词库。
示例性地,基于预先构建的敏感种子词表,从用户历史查询语句中获取所述敏感查询语句,可以包括:
将用户的查询语句与所述种子词表中的种子词进行匹配,获取包含所述种子词的敏感语句。
例如,用户的查询语句为“我要看激情电影”,假设种子词表中包含种子词“激情”,通过匹配获取了该用户的查询语句“我要看激情电影”。
再例如,用户的查询语句为“XX激情”,敏感种子词表中包含“激情”,通过将用户的查询语句与敏感种子词表中的敏感词进行匹配,得知用户的查询语句中包含敏感种子词“激情”,因此将此用户查询语句——“XX激情”过滤出来,作为语料,按照一定的规则去构建主题词库,从而使主题词库中包含了网络新词“XX”。
120、根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量。
因为有些词语是多义词,在不同的上下文语境中具有不同的含义,例如“激情”与“工作”、“奋斗”等词语搭配时构成“工作激情”或者“奋斗激情”,此时“激情”的主题含义为一种积极向上的斗志;而当“激情”与“图片”或者“男女”等词语搭配时构成“激情图片”或者“男女激情”时,此时“激情”的主题含义为色情,属于敏感词汇,需要被识别过滤,以营造良好的网络环境;因此为了准确地识别一些多义词是不是敏感词,需要根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量。
其中,统计所述主题词库中包括的各主题词之间的上下文关系可以通过计算每两个主题词之间以上下文关系出现的频率实现,进一步通过对每一个主题词出现在其他各主题词前后的频率进行归一化得到该主题词对应的上下文词向量。例如通过统计多个用户通过搜索引擎输入的查询式得知:主题词“激情”出现的次数为1000次,在“激情”前后面出现主题词“图片”的次数为100次,则“激情”与“图片”的上下文关系为100/1000=0.1。主题词“男女”出现的次数为10000次,在“男女”前后面出现主题词“图片”的次数为100次,则“男女”与“图片”的上下文关系为100/1000=0.01。
130、基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
其中,所述敏感主题词集可以由所述各主题词以及对应的上下文词向量直接构成。
本实施例通过根据用户的敏感查询语句构建主题词库,然后根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量,并基于所述各主题词及对应的上下文词向量,生成敏感主题词集的技术手段,实现了对敏感词数量有限的敏感词表进行主题扩充,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
第二实施例
图2是本发明第二实施例的一种敏感主题词集的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,增加了根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中的操作,这样优化的结果是:所述敏感主题词集由各主题词以及对应的主题类别组成,相应的,本实施例的方法具体包括:
210、根据用户的敏感查询语句构建主题词库。
220、根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量。
230、根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中。
在本实施例中,优选的,根据与所述主题词对应的上下文词向量对所述主题词进行聚类,可以采用K-means(K均值)聚类算法对所述主题词对应的上下文词向量进行聚类,将所述主题词对应的上下文词向量归为有限个类,并对每一个类做相应地标记,最后将属于同一个类的上下文词向量对应的主题词存储于同一类中,即同一敏感主题词集中,其中不对所述类的数量进行限定。
K-means聚类算法是一种典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象(如本实施例中的上下文词向量)的距离越近,其相似度就越大,算法过程具体如下:
(1)从N个对象(在本实施例中对象具体指上下文词向量)中随机选取K个作为质心,其中N、K为正整数;
(2)计算剩余的每个对象到每个质心之间的距离,并将每个对象归类到离其最近的那个质心的类中;
其中,在本实施例中,所述计算剩余的每个对象到每个质心之间的距离其实质是计算每个上下文词向量与随机选取的K个上下文词向量之间的欧氏距离,将每个上下文词向量归类到距离其最近的那个类中。
(3)重新计算已经得到的各类的质心;
此步骤的实质是计算属于同一个类中的几个上下文词向量的均方差,将所述均方差作为新的类质心。
(4)迭代步骤(2)-(3),直至每个类的新的质心与原质心相等,或与原质心之间的距离小于阈值,算法结束。
例如,对主题词“图片”对应的上下文词向量进行聚类得到的聚类簇中包括的主题词为“激情”、以及“男女”,且聚类簇的标记为s,则表示s聚类簇中的词属于同一主题类别——色情主题1,并且具有上下文关系。
240、基于所述各主题词以及对应的主题类别,生成敏感主题词集。
本发明实施例通过根据用户的敏感查询语句构建主题词库,然后根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量,并根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中,最后基于所述各主题词以及对应的主题类别,生成敏感主题词集的技术手段,得到了各属于相同主题且具有上下文关系的主题词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
第三实施例
图3是本发明第三实施例的一种敏感主题词集的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,具体对根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量的操作进行了优化,优化的好处是能够准确地得到各主题词对应的上下文词向量,使得属于相同主题的各主题词之间同时具有上下文关系。相应的,本实施例的方法具体包括:
310、根据用户的敏感查询语句构建主题词库。
320、获取主题词库中的一个主题词,作为当前操作词。
330、分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值,其中,所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值。
例如,假设所述当前操作词为i,Cij表示主题词j出现在主题词i前后(即主题词i与主题词j是上下文关系)的频率,即主题词i的上下文权值,其中,i为大于1的整数,j为大于1的整数,具体的上下文权值对应关系参见如图4所示的各主题词之间的相邻矩阵的示意图。
340、根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量。
示例性地,上述步骤优选为:按照各主题词在所述主题词库中的排列顺序,将计算得到的各所述上下文权值进行排序;
将排序结果进行归一化处理,并将归一化处理后的结果作为与所述当前操作词对应的上下文词向量。
具体地,对上述主题词之间的相邻矩阵中的第i行进行归一化处理,就得到当前操作词i对应的上下文词向量。
例如,主题词库中包括的,顺序排列的主题词为:W1、W2以及W3,当前操作词为W2,与当前操作词W2对应的上下文权值分别为C21、C22以及C23,基于各主题词的顺序,构成的排序结果为[C21,C22,C23],通过对该排序结果进行归一化处理,可以得到与W2对应的上下文词向量其中,代表对数值A进行归一化处理后的结果。
350、判断是否完成对所述主题词库中包括的全部主题词的处理:若是,执行360,否则,返回执行320。
360、基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
本实施例通过根据用户的敏感查询语句构建主题词库,然后依次获取主题词库中的一个主题词,作为当前操作词,分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值,并根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量,最后基于所述各主题词及对应的上下文词向量,生成敏感主题词集的技术手段,实现了根据用户的查询语句对敏感词数量有限的敏感词表进行主题扩充,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
第四实施例
图5是本发明第四实施例的一种敏感词识别方法的流程图。本实施例的方法可以由敏感词识别装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器中,典型的,所述服务器优选可以为搜索引擎服务器。本实施例的方法具体包括:
410、获取用户输入的查询式。
所述用户的查询式可以是用户通过搜索引擎以文字形式输入的查询语句,所述查询式代表了用户想通过搜索引擎得到的内容,为了营造一个良好的网络环境,必须对用户输入的查询式进行过滤筛选。
420、根据所述查询式,以及上述第一实施例至第三实施例所述的方法生成的所述敏感主题词集,生成观测序列。
其中,所述敏感主题词集可以是以各主题词和各主题词对应的上下文词向量的形式存在的,还可以是以各主题词和各主题词对应的主题类别的形式存在的。
当获得用户的查询式时,首先对所述查询式进行分词,由各分词构成分词序列,例如所述查询式为“我要看XX电影”,对所述查询式经过分词后得到“我”、“要看”、“XX”和“电影”,进而得到分词序列(我、我看、XX、电影);然后从所述敏感主题词集中查找各分词对应的上下文词向量或者主题类别,得到上下文词向量序列或者主题类别序列;再由所述分词序列和上下文词向量序列构成观测序列,或者由所述分词序列和主题类别序列构成观测序列。
所述观测序列是用来表征所述查询式中各分词的词语特征的,所述词语特征具体可以是指各分词的主题色彩以及上下文关系。
430、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。
其中,所述敏感词识别模型可以是通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成的,也可以是通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成的,模型中的各种参数在模型训练完成后是一确定值。当所述观测序列是由分词序列和主题类别序列构成时,则将所述观测序列输入至通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成的敏感词识别模型中;当所述观测序列是由分词序列和上下文词向量序列构成时,则将所述观测序列输入至通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成的敏感词识别模型中。
440、根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,所述敏感词识别模型返回的结果中会明确标识出所述查询式中哪些分词是敏感词,哪些分词不是敏感词,例如可以用数字0或者1去标识,在相应分词的位置显示数字0的表示该分词不是敏感词,显示数字1的表示该分词是敏感词。
通过利用所述查询式中各分词的观测序列能够准确地识别出所述查询式中出现的新敏感词,利用所述各分词的上下文关系,可以正确地识别一些歧义敏感词。
例如网络新词“XX”,当通过敏感词识别模型对“XX”进行单独识别时,识别结果中会显示该词为非敏感词,因为所述敏感词识别模型中没有对新词“XX”的记忆,但是当用户的查询式中出现“XX激情图片”时,虽然所述敏感词识别模型中没有对“XX激情图片”的记忆,但是所述敏感词识别模型仍然能够识别出所述“XX”为敏感词,这是因为从通过第一实施例到第三实施例任一实施例提供的主题词集生成方法生成的主题词集中提取的“XX激情”的观测序列可以获知“XX”与“激情”属于同一主题类别,当“XX”与“激情”有上下文关系时,其会被识别为敏感词,从而实现对新词的识别。
再例如,在对所述敏感词识别模型进行训练时用了“男女图片”,但是没有用“激情图片”对其进行训练,对于所述敏感词识别模型来说“激情图片”为新词,但是通过对“激情图片”进行主题序列的提取,可知“激情”与“男女”属于同一主题类别,因此所述敏感词识别模型依然可以识别“激情图片”中“激情”为敏感词。
同样,在“工作激情”中“激情”不会被识别为敏感词,但是在“男女激情”中时,“激情”便被识别为敏感词,这是因为“男女”与“激情”属于同一主题类别,当同一主题类别的词有上下文关系时会被识别,实现了对多义词、歧义词的正确识别。
本实施例的技术方案通过获取用户输入的查询式,并根据所述查询式,从利用第一实施例一至第三实施例三提供的敏感主题词集的生成方法生成的主题词集中提取所述查询式中各分词对应的主题,生成观测序列,然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词,实现了高效地识别查询式中的敏感词,并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。
第五实施例
图6是本发明第五实施例的一种敏感词识别方法的流程图。本实施例以上述实施例为基础,具体对根据所述查询式,以及所述敏感主题词集,生成观测序列进行优化,优化的好处是能够准确、快速地查找到用户的查询语句中各词语对应的观测序列,相应的,本实施例的方法具体包括:
510、获取用户输入的查询式。
520、将所述查询式进行分词,并将分词结果构成分词序列。
530、从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别,并将与所述各分词对应的主题类别构成主题序列。
540、将所述分词序列和所述主题类别序列作为所述观测序列。
550、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。
优选的,所述敏感词识别模型可以包括:
隐条件随机场、最大熵模型或者隐马尔可夫模型。
需要说明的是,在本实施例中,所述敏感词识别模型是通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。
560、根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
例如,对于查询式“我要看激情图片”进行分词,得到“我”、“要看”、“激情”、“图片”,可以用数值形式对所述各分词进行表示,构成分词序列,如[1,2,3,4]。通过对所述主题词集进行查找,得到“我”对应的主题为0,“要看”对应的主题为0,“激情”对应的主题为1,“图片”对应的主题为1,因此主题序列为[0,0,1,1]。将所述分词序列和所述主题序列作为所述观测序列,因此所述观测序列可以是二维的矩阵,如将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,所述敏感词识别模型的返回结果具体可以是[0,0,1,0],则表示分词“激情”为敏感词。
本实施例的技术方案通过获取用户输入的查询式,并根据所述查询式,将所述查询式进行分词,并将分词结果构成分词序列,从利用第一实施例至第三实施例提供的敏感主题词集的生成方法生成的主题词集中查找与所述分词序列中各分词对应的主题类别,并将与所述各分词对应的主题类别构成主题类别序列;然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词,实现了高效地识别查询式中的敏感词,并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。
第六实施例
图7是本发明第六实施例的一种敏感词识别方法的流程图。本实施例以上述实施例为基础,具体对根据所述查询式,以及所述敏感主题词集,生成观测序列进行优化,优化的好处是能够准确、快速地查找到用户的查询语句中各词语对应的观测序列,相应的,本实施例的方法具体包括:
810、获取用户输入的查询式。
820、将所述查询式进行分词,并将分词结果构成分词序列。
830、从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量,并将与所述各分词对应的上下文词向量构成上下文词向量序列。
840、将所述分词序列和所述上下文词向量序列作为所述观测序列。
850、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。
优选的,所述敏感词识别模型可以包括:
隐条件随机场、最大熵模型或者隐马尔可夫模型。
需要说明的是,在本实施例中,所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。
860、根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
典型的,本实施例的技术方案可适用于识别一些歧义词,所述歧义词是指与第一特定词语搭配出现时不是敏感词,而与第二特定的词语搭配出现时才是敏感词的词语。例如“激情”与“工作”搭配出现时,则不是敏感词,而与“男女”搭配出现时,则是敏感词。此类歧义词的识别过程可以通过从所述敏感词主题词集中查找与各分词对应的上下文词向量,然后判断各分词对应的上下文词向量之间是否满足设定条件,例如所述设定条件具体可以是指各分词对应的上下文词向量之间的距离是否小于设定值,当所述距离小于设定值时则认为所述各分词具有上下文关系,是以上下文的形式搭配出现的,进而可以减少敏感词误识别和漏识别的概率。
本实施例的技术方案通过获取用户输入的查询式,将所述查询式进行分词,并将分词结果构成分词序列,并从利用第一实施例至第三实施例提供的敏感主题词集的生成方法生成的主题词集中查找与所述分词序列中各分词对应的上下文词向量,并将与所述各分词对应的上下文词向量构成上下文词向量序列;将所述分词序列和所述上下文词向量序列作为所述观测序列,然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词,实现了高效地识别查询式中的敏感词,并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。
第七实施例
在图8中示出了本发明第七实施例的一种敏感主题词集的生成装置的结构图。如图8所示,所述装置包括:主题词库构建模块610,上下文词向量计算模块620和敏感主题词集生成模块630,其中,
主题词库构建模块610,用于根据用户的敏感查询语句构建主题词库;
上下文词向量计算模块620,用于根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
敏感主题词集生成模块630,用于基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
本实施例通过根据用户的敏感查询语句构建主题词库,然后根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量,并基于所述各主题词及对应的上下文词向量,生成敏感主题词集的技术手段,实现了对敏感词数量有限的敏感词表进行主题扩充,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
进一步地,所述装置还可以包括:
聚类模块,用于根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中;以及
敏感主题词集生成模块630具体可以用于:
基于所述各主题词以及对应的主题类别,生成敏感主题词集。
可选的,主题词库构建模块610可以包括:
分词单元,用于对所述敏感查询语句进行分词;
构建单元,用于根据分词结果构建所述主题词库。
进一步地,所述构建单元具体可以用于:
计算所述分词结果中包括的分词总数量;
在所述分词结果中,统计各分词的词频数;
分别计算各分词的词频数与所述分词总数量的权重比值;
将权重比值满足设定阈值条件的分词,确定为所述主题词库中的主题词。
进一步地,所述装置还可以包括:
敏感查询语句获取模块,用于基于预先构建的敏感种子词表,从用户历史查询语句中获取所述敏感查询语句。
进一步地,上下文词向量计算模块620可以包括:
主题词获取单元,用于获取主题词库中的一个主题词,作为当前操作词;
上下文权值计算单元,用于分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值,其中,所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值;
上下文词向量构成单元,用于根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量;
其中,在未完成对所述主题词库中包括的全部主题词的处理时,所述主题词获取单元用于获取所述主题词库中的下一个主题词,作为当前操作词来计算上下文词向量。
进一步地,所述上下文词向量构成单元具体可以用于:
按照各主题词在所述主题词库中的排列顺序,将计算得到的各所述上下文权值进行排序;
将排序结果进行归一化处理,并将归一化处理后的结果作为与所述当前操作词对应的上下文词向量。
本发明实施例所提供的敏感主题词集生成装置可用于执行本发明第一实施例至第三实施例提供的敏感主题词集生成方法,具备相应的功能模块,实现相同的有益效果。
第八实施例
在图9中示出了本发明第八实施例的一种敏感词识别装置的结构图。如图9所示,所述装置包括:查询式获取模块710,观测序列生成模块720,观测序列输入模块730和敏感词识别模块740,其中,
查询式获取模块710,用于获取用户输入的查询式;
观测序列生成模块720,用于根据所述查询式,以及通过本发明第七实施例所述的敏感主题词集的生成装置生成的所述敏感主题词集,生成观测序列;
观测序列输入模块730,用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
敏感词识别模块740,用于根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
本实施例的技术方案通过获取用户输入的查询式,并根据所述查询式,从利用第七实施例提供的敏感主题词集的生成装置生成的主题词集生成观测序列,然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中,根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词,实现了高效地识别查询式中的敏感词,并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。
在上述技术方案的基础上,进一步地,所述敏感词识别模型可以通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。
对应的,所述观测序列包括分词序列和上下文词向量序列,观测序列生成模块720具体用于:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量,并将与所述各分词对应的上下文词向量构成上下文词向量序列;
将所述分词序列和所述上下文词向量序列作为所述观测序列。
进一步地,所述敏感词识别模型还可以通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。
对应的,所述观测序列包括分词序列和主题类别序列,观测序列生成模块720具体用于:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别,并将与所述各分词对应的主题类别构成主题类别序列;
将所述分词序列和所述主题类别序列作为所述观测序列。
本发明实施例所提供的敏感词识别装置可用于执行本发明第四实施例至第六实施例提供的敏感词识别方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (25)

1.一种敏感主题词集的生成方法,其特征在于,包括:
根据用户的敏感查询语句构建主题词库;
根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中;以及
基于所述各主题词及对应的上下文词向量,生成敏感主题词集包括:
基于所述各主题词以及对应的主题类别,生成敏感主题词集。
3.根据权利要求1或2所述的方法,其特征在于,根据用户的敏感查询语句构建主题词库,包括:
对所述敏感查询语句进行分词;
根据分词结果构建所述主题词库。
4.根据权利要求3所述的方法,其特征在于,根据分词结果构建所述主题词库,包括:
计算所述分词结果中包括的分词总数量;
在所述分词结果中,统计各分词的词频数;
分别计算各分词的词频数与所述分词总数量的权重比值;
将权重比值满足设定阈值条件的分词,确定为所述主题词库中的主题词。
5.根据权利要求1到4中任一权利要求所述的方法,其特征在于,所述方法还包括:
基于预先构建的敏感种子词表,从用户历史查询语句中获取所述敏感查询语句。
6.根据权利要求1到5中任一权利要求所述的方法,其特征在于,根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量,包括:
获取主题词库中的一个主题词,作为当前操作词;
分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值,其中,所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值;
根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量;
返回执行获取主题词库中包括的下一个主题词的操作,直至完成对所述主题词库中包括的全部主题词的处理。
7.根据权利要求6所述的方法,其特征在于,根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量,包括:
按照各主题词在所述主题词库中的排列顺序,将计算得到的各所述上下文权值进行排序;
将排序结果进行归一化处理,并将归一化处理后的结果作为与所述当前操作词对应的上下文词向量。
8.一种敏感词识别方法,其特征在于,包括:
获取用户输入的查询式;
根据所述查询式,以及如权利要求1-7任一项所述的方法生成的所述敏感主题词集,生成观测序列;
将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
9.根据权利要求8所述的方法,其特征在于,所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。
10.根据权利要求9所述的方法,其特征在于,所述观测序列包括分词序列和上下文词向量序列,根据所述查询式,以及所述敏感主题词集,生成观测序列包括:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量,并将与所述各分词对应的上下文词向量构成上下文词向量序列;
将所述分词序列和所述上下文词向量序列作为所述观测序列。
11.根据权利要求8所述的方法,其特征在于,所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。
12.根据权利要求11所述的方法,其特征在于,所述观测序列包括分词序列和主题类别序列,根据所述查询式,以及所述敏感主题词集,生成观测序列包括:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别,并将与所述各分词对应的主题类别构成主题类别序列;
将所述分词序列和所述主题类别序列作为所述观测序列。
13.根据权利要求8到12中任一权利要求所述的方法,其特征在于,所述敏感词识别模型包括:
隐条件随机场、最大熵模型或者隐马尔可夫模型。
14.一种敏感主题词集的生成装置,其特征在于,包括:
主题词库构建模块,用于根据用户的敏感查询语句构建主题词库;
上下文词向量计算模块,用于根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
敏感主题词集生成模块,用于基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
聚类模块,用于根据与所述主题词对应的上下文词向量对所述主题词进行聚类,将属于同一聚类簇中的主题词归集于同一主题类别中;以及
所述敏感主题词集生成模块具体用于:
基于所述各主题词以及对应的主题类别,生成敏感主题词集。
16.根据权利要求14或15所述的装置,其特征在于,所述主题词库构建模块,包括:
分词单元,用于对所述敏感查询语句进行分词;
构建单元,用于根据分词结果构建所述主题词库。
17.根据权利要求16所述的装置,其特征在于,所述构建单元,具体用于:
计算所述分词结果中包括的分词总数量;
在所述分词结果中,统计各分词的词频数;
分别计算各分词的词频数与所述分词总数量的权重比值;
将权重比值满足设定阈值条件的分词,确定为所述主题词库中的主题词。
18.根据权利要求14到17中任一权利要求所述的装置,其特征在于,所述装置还包括:
敏感查询语句获取模块,用于基于预先构建的敏感种子词表,从用户历史查询语句中获取所述敏感查询语句。
19.根据权利要求14到18中任一权利要求所述的装置,其特征在于,所述上下文词向量计算模块,包括:
主题词获取单元,用于获取主题词库中的一个主题词,作为当前操作词;
上下文权值计算单元,用于分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值,其中,所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值;
上下文词向量构成单元,用于根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量;
其中,在未完成对所述主题词库中包括的全部主题词的处理时,所述主题词获取单元用于获取所述主题词库中的下一个主题词,作为当前操作词来计算上下文词向量。
20.根据权利要求19所述的装置,其特征在于,所述上下文词向量构成单元,具体用于:
按照各主题词在所述主题词库中的排列顺序,将计算得到的各所述上下文权值进行排序;
将排序结果进行归一化处理,并将归一化处理后的结果作为与所述当前操作词对应的上下文词向量。
21.一种敏感词识别装置,其特征在于,包括:
查询式获取模块,用于获取用户输入的查询式;
观测序列生成模块,用于根据所述查询式,以及如权利要求14-20任一项所述的装置生成的所述敏感主题词集,生成观测序列;
观测序列输入模块,用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
敏感词识别模块,用于根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
22.根据权利要求21所述的装置,其特征在于,所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。
23.根据权利要求22所述的装置,其特征在于,所述观测序列包括分词序列和上下文词向量序列,所述观测序列生成模块,具体用于:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量,并将与所述各分词对应的上下文词向量构成上下文词向量序列;
将所述分词序列和所述上下文词向量序列作为所述观测序列。
24.根据权利要求21所述的装置,其特征在于,所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。
25.根据权利要求24所述的装置,其特征在于,所述观测序列包括分词序列和主题类别序列,所述观测序列生成模块,具体用于:
将所述查询式进行分词,并将分词结果构成分词序列;
从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别,并将与所述各分词对应的主题类别构成主题类别序列;
将所述分词序列和所述主题类别序列作为所述观测序列。
CN201610431062.7A 2016-06-16 2016-06-16 敏感主题词集的生成方法和装置 Active CN107515877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610431062.7A CN107515877B (zh) 2016-06-16 2016-06-16 敏感主题词集的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610431062.7A CN107515877B (zh) 2016-06-16 2016-06-16 敏感主题词集的生成方法和装置

Publications (2)

Publication Number Publication Date
CN107515877A true CN107515877A (zh) 2017-12-26
CN107515877B CN107515877B (zh) 2021-07-20

Family

ID=60721215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610431062.7A Active CN107515877B (zh) 2016-06-16 2016-06-16 敏感主题词集的生成方法和装置

Country Status (1)

Country Link
CN (1) CN107515877B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537682A (zh) * 2018-03-26 2018-09-14 国家电网公司客户服务中心 基于改进熵值法的计划停电敏感客户识别方法
CN108563696A (zh) * 2018-03-22 2018-09-21 阿里巴巴集团控股有限公司 一种发掘潜在风险词的方法、装置及设备
CN109829043A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 词性确认方法、装置、电子设备及存储介质
CN110110044A (zh) * 2019-04-11 2019-08-09 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110209818A (zh) * 2019-06-04 2019-09-06 南京邮电大学 一种面向语义敏感词句的分析方法
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN110516053A (zh) * 2019-08-15 2019-11-29 出门问问(武汉)信息科技有限公司 对话处理方法、设备及计算机存储介质
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN111079029A (zh) * 2019-12-20 2020-04-28 珠海格力电器股份有限公司 敏感账号的检测方法、存储介质和计算机设备
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN111324701A (zh) * 2020-02-24 2020-06-23 腾讯科技(深圳)有限公司 内容补充方法、装置、计算机设备和存储介质
CN111428498A (zh) * 2020-04-02 2020-07-17 北京明略软件系统有限公司 专名词典的词条过滤方法及装置
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111723280A (zh) * 2019-03-20 2020-09-29 北京字节跳动网络技术有限公司 信息的处理方法、装置、存储介质及电子设备
CN112364637A (zh) * 2020-11-30 2021-02-12 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
US11538465B1 (en) * 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
US11615783B2 (en) 2019-11-08 2023-03-28 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US20110161311A1 (en) * 2009-12-28 2011-06-30 Yahoo! Inc. Search suggestion clustering and presentation
CN102214189A (zh) * 2010-04-09 2011-10-12 腾讯科技(深圳)有限公司 基于数据挖掘获取词用法知识的系统及方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103177126A (zh) * 2013-04-18 2013-06-26 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
CN103577432A (zh) * 2012-07-26 2014-02-12 阿里巴巴集团控股有限公司 一种商品信息搜索方法和系统
US20140122062A1 (en) * 2007-08-01 2014-05-01 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
CN104102662A (zh) * 2013-04-10 2014-10-15 阿里巴巴集团控股有限公司 一种用户兴趣偏好相似度确定方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122062A1 (en) * 2007-08-01 2014-05-01 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US20110161311A1 (en) * 2009-12-28 2011-06-30 Yahoo! Inc. Search suggestion clustering and presentation
CN102214189A (zh) * 2010-04-09 2011-10-12 腾讯科技(深圳)有限公司 基于数据挖掘获取词用法知识的系统及方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN103577432A (zh) * 2012-07-26 2014-02-12 阿里巴巴集团控股有限公司 一种商品信息搜索方法和系统
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN104102662A (zh) * 2013-04-10 2014-10-15 阿里巴巴集团控股有限公司 一种用户兴趣偏好相似度确定方法及装置
CN103177126A (zh) * 2013-04-18 2013-06-26 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴永清等: "一种基于文本倾向性的不良文本识别方法", 《计算机应用与软件》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563696A (zh) * 2018-03-22 2018-09-21 阿里巴巴集团控股有限公司 一种发掘潜在风险词的方法、装置及设备
CN108563696B (zh) * 2018-03-22 2021-05-25 创新先进技术有限公司 一种发掘潜在风险词的方法、装置及设备
CN108537682A (zh) * 2018-03-26 2018-09-14 国家电网公司客户服务中心 基于改进熵值法的计划停电敏感客户识别方法
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110162769B (zh) * 2018-07-05 2024-01-02 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN109829043A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 词性确认方法、装置、电子设备及存储介质
CN111563276B (zh) * 2019-01-25 2024-04-09 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111723280B (zh) * 2019-03-20 2023-06-16 北京字节跳动网络技术有限公司 信息的处理方法、装置、存储介质及电子设备
CN111723280A (zh) * 2019-03-20 2020-09-29 北京字节跳动网络技术有限公司 信息的处理方法、装置、存储介质及电子设备
CN110110044B (zh) * 2019-04-11 2020-05-05 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110110044A (zh) * 2019-04-11 2019-08-09 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110209818A (zh) * 2019-06-04 2019-09-06 南京邮电大学 一种面向语义敏感词句的分析方法
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN110516053A (zh) * 2019-08-15 2019-11-29 出门问问(武汉)信息科技有限公司 对话处理方法、设备及计算机存储介质
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
US11538465B1 (en) * 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
US11615783B2 (en) 2019-11-08 2023-03-28 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain
CN111079029A (zh) * 2019-12-20 2020-04-28 珠海格力电器股份有限公司 敏感账号的检测方法、存储介质和计算机设备
CN111079029B (zh) * 2019-12-20 2023-11-21 珠海格力电器股份有限公司 敏感账号的检测方法、存储介质和计算机设备
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111143884B (zh) * 2019-12-31 2022-07-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111324701B (zh) * 2020-02-24 2023-04-07 腾讯科技(深圳)有限公司 内容补充方法、装置、计算机设备和存储介质
CN111324701A (zh) * 2020-02-24 2020-06-23 腾讯科技(深圳)有限公司 内容补充方法、装置、计算机设备和存储介质
CN111428498A (zh) * 2020-04-02 2020-07-17 北京明略软件系统有限公司 专名词典的词条过滤方法及装置
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
CN112364637A (zh) * 2020-11-30 2021-02-12 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN112364637B (zh) * 2020-11-30 2024-02-09 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN107515877B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN107515877A (zh) 敏感主题词集的生成方法和装置
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111767403B (zh) 一种文本分类方法和装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN103559504A (zh) 图像目标类别识别方法及装置
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN110232373A (zh) 人脸聚类方法、装置、设备和存储介质
WO2015165372A1 (en) Method and apparatus for classifying object based on social networking service, and storage medium
CN111523831B (zh) 风险团伙的识别方法、装置、存储介质和计算机设备
CN107291895B (zh) 一种快速的层次化文档查询方法
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN106778880B (zh) 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN110457481A (zh) 一种分类模型训练的方法、装置、设备以及存储介质
CN103778206A (zh) 一种网络服务资源的提供方法
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN108733791A (zh) 网络事件检测方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN103699612A (zh) 一种图像检索排序的方法及装置
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN106570167A (zh) 基于融合知识的主题模型的微博话题发现方法
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant