CN111859013A - 数据处理方法、装置、终端和存储介质 - Google Patents

数据处理方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN111859013A
CN111859013A CN202010696676.4A CN202010696676A CN111859013A CN 111859013 A CN111859013 A CN 111859013A CN 202010696676 A CN202010696676 A CN 202010696676A CN 111859013 A CN111859013 A CN 111859013A
Authority
CN
China
Prior art keywords
word
sensitive
preset
target
sensitive word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010696676.4A
Other languages
English (en)
Inventor
张亮
邓冬瑞
李冰涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010696676.4A priority Critical patent/CN111859013A/zh
Publication of CN111859013A publication Critical patent/CN111859013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、终端和存储介质,其中,方法包括,获取预设敏感词,获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词;获得每个候选扩展敏感词的释义信息;根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;从预设曲库中查询目标扩展敏感词对应的敏感内容。通过实施上述方法,可以对敏感词进行扩展并基于扩展内容进行敏感数据查询,提升了对敏感内容的查验全面性。

Description

数据处理方法、装置、终端和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置、终端和存储介质。
背景技术
随着互联网技术的发展,终端(手机、电脑、平板电脑等)已被大众广泛使用,人们可以使用终端中的音乐软件上传音乐、搜索歌曲、播放曲目等,然而,由于人们可以上传音乐到音乐软件的曲库中,导致了现有的曲库中存在一些敏感内容,人们在使用音乐软件进行歌曲搜索过程中容易误搜索出敏感内容,影响用户体验。
当前,音乐软件的管理人员可以基于一些关键词在曲库中查验出敏感内容,并进行删除,然而,由于敏感内容的形式多样,以及关键词数量的局限性,导致对敏感内容的查验全面性较低,因此,如何提高对曲库中敏感内容的查验全面性,成为亟待解决的问题。
发明内容
本发明实施例提供了一种数据处理方法、装置、终端和存储介质,可以对敏感词进行扩展并基于扩展内容进行敏感数据查询,提升了对敏感内容的查验全面性。
第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
获得每个所述候选扩展敏感词的释义信息;
根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
从预设曲库中查询所述目标扩展敏感词对应的敏感内容。
第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
所述获取模块,还用于获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
所述获取模块,还用于获得每个所述候选扩展敏感词的释义信息;
筛选模块,用于根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
查询模块,用于从预设曲库中查询所述目标扩展敏感词对应的敏感内容。
第三方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。
本发明实施例中,终端获取预设敏感词,并获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词;终端获得每个候选扩展敏感词的释义信息,并根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;终端从预设曲库中查询目标扩展敏感词对应的敏感内容。通过实施上述方法,可以对敏感词进行扩展并基于扩展内容进行查询数据查询,提升了对敏感内容的查验全面性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图2是本发明实施例提供的另一种数据处理方法的流程示意图;
图3是本发明实施例提供的又一种数据处理方法的交互流程示意图;
图4是本发明实施例提供的一种数据处理装置的结构示意图;
图5是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的方案进行清楚、完整的描述。
请参见图1,为本发明实施例提供一种数据处理方法的流程示意图,该数据处理过程可包括以下步骤S101-S105。
S101、终端获取预设敏感词。
本发明实施例中,预设敏感词为敏感词库中的任意一个敏感词,该敏感词库中存储了至少一个已被确认的敏感词。
在一种实现方式中,终端构建敏感词库的具体方式为,人为对敏感词进行标注,具体实现中,终端可以从网络中收集各个词组,并获取到用户对于词组的标注,终端将被标注为敏感词的词组放入敏感词库中,因词组对应的语种不同,终端接收到被标注的敏感词之后,可以对敏感词进行语言翻译处理,即将各个敏感词翻译为同一目标语种,并将翻译后的敏感词存入敏感词库中。
在一种实现方式中,终端构建敏感词库的具体方式为,终端基于预设规则从网络中收集词组,并将满足预设规则的词组确定为敏感词,终端将确定的敏感词加入至敏感词库中。
需要说明的是,终端建立敏感词库后,可以采用步骤S101-S105对敏感词库中的每个敏感词进行处理,本发明实施例在此以终端对一个预设敏感词(即敏感词库中的任意一个敏感词)的处理过程为示例,来对终端处理敏感词的方法进行详细说明。
S102、终端获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词。
本发明实施例中,终端获取到预设敏感词之后,可以获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词。
在一种实现方式中,终端获取候选扩展敏感词的具体方式可以为,终端获取到预设敏感词之后,可以对预设敏感词进行词向量化处理,得到目标词向量,并基于词向量之间的距离确定目标词向量的相似词向量,终端将相似词向量对应的敏感词确定为预设敏感词的候选扩展敏感词。其中,词向量化处理得到的词向量称为目标词向量,词向量化即将词组转化为向量。
具体地,终端可以预先建立字典,字典中存储了词向量与词组之间的对应关系,需要说明的是,字典中词组的词义相近,则词组的词向量之间的距离也是相近的。终端基于字典对预设敏感词进行词向量化处理。具体实现中,终端可以预先获取网络中的N个词组,并基于N个词组建立N维向量字典,其中,词义相近的词组距离相近,N具体可以为网络中所有词组的数量,或者由研发人员进行确定。例如,针对5个词组“开心”、“平静”、“悲伤”、“平静”、“绝望”,“开心”和“快乐”词义较近,“快乐”和“平静”较近,“平静”和“悲伤”词义较近,“悲伤”和“绝望”词义较近,则终端可以基于上述5 个词组得到字典,其中“开心”对应的词向量为“10000”,“快乐”对应的词向量为“01000”,“平静”对应的词向量为“00100”,“悲伤”对应的词向量为“00010”,“绝望”对应的词向量为“00001”。终端获取到预设敏感词之后,将基于字典查询到预设敏感词对应的词向量,为了便于描述,将查询到的词向量称为目标词向量,例如,预设敏感词为“平静”,则终端可以确定“平静”对应的目标词向量为“00100”。
或者,可以使用word2vec工具构建词向量模型,并对词向量模型进行训练,使得训练后的词向量模型可以输出每个词组对应的词向量,且词义越相近的词组对应的词向量距离越近,终端将预设敏感词输入至训练完成的词向量模型中,由词向量模型输出预设敏感词对应的目标词向量。
进一步地,终端获取到目标词向量之后,将基于词向量之间的距离确定目标词向量的相似词向量。
终端基于词向量之间的距离确定相似词向量的一种具体方式为,终端将与目标词向量之间的距离小于预设距离的词向量确定为目标词向量的相似词向量,例如,字典中包括上述“10000”、“01000”、“00100”、“00010”、“00001” 5个词向量,“10000”与“01000”之间的距离1,“10000”和“00100”之间的距离2,“10000”与“00010”之间的距离3,“10000”与“00001”之间的距离4,若预设距离为2,目标词向量为“10000”,则终端找出距离小于2 的相似词向量“01000”作为目标词向量“10000”的相似词向量。
终端基于词向量之间的距离确定相似词向量的另一种具体方式为,终端获取预置数据库中存储的K个词向量,并计算K个词向量中每个词向量与目标词向量之间的距离,终端将K个词向量中与目标词向量之间距离最小的N个词向量确定为目标词向量的相似词向量,其中,K和N均为正整数,N小于或等于 K。例如,预置数据库中存储了3个词向量,分别为“100000”,“001000”和“000010”,目标词向量为“000001”,N为1,则终端可以将词向量“000010”确定为目标词向量“000001”的相似词向量。需要说明的是,该预置数据库中还可以存储每个词向量对应的词组。
进一步地,终端根据相似词向量获取预设敏感词的至少一个候选扩展敏感词。具体地,每个相似词向量可以对应一个候选扩展敏感词,其对应的候选扩展敏感词可以从字典中查询得到,例如,终端确定了目标词向量“10000”的相似词向量“01000”,则可以通过字典查询到该相似词向量对应的候选扩展敏感词为“快乐”。或者,终端基于词向量与词组的对应关系在预置数据库中查询到相似词向量对应的候选扩展敏感词。终端将各个相似词向量对应的候选扩展敏感词作为该预设敏感词的至少一个候选扩展敏感词。
在一种实现方式中,终端获取候选扩展敏感词的具体方式可以为,终端检测预设敏感词是否为实体数据的名称,实体数据包括文章、书籍和多媒体数据中的至少一种;若是,则终端基于预设提取规则从实体数据中提取出至少一个关键词作为预设敏感词的候选扩展敏感词。其中,预设提取规则可以为名词提取,则终端可以将预设敏感词对应的实体数据中所有的名词作为候选扩展敏感词。或者,预设提取规则也可以为基于预设字段提取,终端将预设敏感词对应的实体数据中所有包含预设字段的词组作为候选扩展敏感词。
需要说明的是,在一个实施例中,可以应用以上两种获得候选扩展敏感词的方式中的任意一种或两种,来获得预设敏感词的候选扩展敏感词。
S103、终端获得每个候选扩展敏感词的释义信息。
本发明实施例中,终端获取到至少一个候选扩展敏感词之后,将查询每个候选扩展敏感词的释义信息,释义信息具体可以为对于候选扩展敏感词的解释。释义信息可以通过网络在百科软件中查询,或者在预先构建的释义信息数据库中进行查询。
S104、终端根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词。
本发明实施例中,终端获取到候选扩展敏感词以及候选扩展敏感词的释义信息之后,将根据每个候选扩展敏感词的释义信息对上述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词。
在一种实现方式中,终端根据释义信息对候选扩展敏感词进行筛选的具体过程可以为,终端检测释义信息中是否存在与敏感词库中存储的字段相匹配的内容,若存在,则终端将候选扩展敏感词确定为目标扩展敏感词。
在一种实现方式中,终端根据释义信息对敏感词进行筛选的具体过程可以为,终端对候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组,终端检测至少一个分词词组中是否存在与敏感词库中的敏感词相匹配的分词词组;若存在,则将该候选扩展敏感词作为目标扩展敏感词。
在一种实现方式中,终端根据释义信息对敏感词进行筛选的过程也可以为,终端对候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组,并计算每个分词词组与敏感词库中词组的相似度,终端获取分词词组中与敏感词库中词组相似度大于预设相似度的词组的数量,若数量大于预设数量,则终端将候选扩展敏感词确定为目标扩展敏感词。其中,分词词组与敏感词的相似度的计算方式可以为,对分词词组和敏感词组进行词向量化处理,得到分词词向量和敏感词向量,终端计算分词词向量与敏感词词向量之间的距离,并基于距离与相似度的对应关系确定分词词组与敏感词的相似度,其中,距离越大,相似度越小,如距离与相似度可以为反比关系。
进一步地,终端筛选得到目标扩展敏感词之后,可以将上述目标扩展敏感词加入至敏感词库中,以实现对敏感词库的更新。
S105、终端从预设曲库中查询目标扩展敏感词对应的敏感内容。
本发明实施例中,终端获取到目标扩展敏感词之后,可以基于目标扩展敏感词从预设曲库中查询目标扩展敏感词对应的敏感内容。具体地,终端可以将目标扩展敏感词作为搜索关键字输入至预设曲库中,以查询相应的敏感曲目。进一步地,若终端查询到各个目标扩展敏感词对应的敏感曲目后,获取敏感曲目对应的背景音乐,并依据背景音乐对预设曲库中的各个敏感曲目进行优先级排序,使得优先级高的敏感曲目优先得到查验。通过上述方式,可以提高对于数据的敏感内容的查验效率。
在一种实现方式中,终端从预设曲库中查询目标扩展敏感词对应的敏感内容的具体方式可以为,终端对目标扩展敏感词进行翻译,得到至少一个与目标扩展敏感词的语种不同的其他语种目标扩展敏感词,终端以目标扩展敏感词以及其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
本发明实施例中,终端获取预设敏感词,并获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词;终端获得每个候选扩展敏感词的释义信息,并根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词,进一步地,终端从预设曲库中查询目标扩展敏感词对应的敏感内容。通过实施上述方法,可以对敏感词进行扩展并基于扩展内容进行查询数据查询,提升了对敏感内容的查验全面性。
基于上述数据处理方法的实施例的描述,本发明实施例提供另一种数据处理方法,该数据处理过程可包括以下步骤S201-S211。
S201、终端获取采用不同语种编写的多个敏感词。
本发明实施例中,终端基于预设规则从网络中收集词组,并将满足预设规则的词组确定为敏感词,终端将确定的敏感词加入至敏感词库中。
或者,终端获取到人为标注的敏感词,因敏感词存在多样性,所以敏感词对应的语种可以不同。
S202、终端将多个敏感词进行语言翻译,得到同一目标语种的敏感词,并将同一目标语种的多个敏感词添加到敏感词库中。
本发明实施例中,终端获取到采用不同语种编写的多个敏感词之后,可以对多个敏感词进行语言翻译,得到同一目标语种的敏感词,即将各个敏感词翻译为同一目标语种,进一步地,终端将翻译后的敏感词存入敏感词库中。
S203、终端从敏感词库中选取出任一个敏感词作为预设敏感词。
S204、终端检测预设敏感词是否为实体数据的名称,若是,则基于预设提取规则从实体数据中提取至少一个关键词作为预设敏感词的候选扩展敏感词。
本发明实施例中,终端获取到预设敏感词之后,可以检测预设敏感词是否为实体数据的名称,实体数据包括文章、书籍和多媒体数据中的至少一种;若是,则终端基于预设提取规则从实体数据中提取至少一个关键词作为预设敏感词的候选扩展敏感词。其中,预设提取规则可以为名词提取,则终端可以将预设敏感词对应的实体数据中所有的名词作为候选扩展敏感词。预设提取规则可以为名词提取,则终端可以将预设敏感词对应的实体数据中所有的名词作为候选扩展敏感词。或者,预设提取规则也可以为基于预设字段提取,终端将预设敏感词对应的实体数据中所有包含预设字段的词组作为候选扩展敏感词。
S205、终端获取目标语种对应的词向量化规则,并采用词向量化规则对预设敏感词进行向量化处理,得到目标词向量。
本发明实施例中,终端获取到预设敏感词之后,将获取到预设敏感词对应的目标语种,并获取目标语种对应的词向量化规则,其中,不同语种的预设敏感词可以对应不同的词向量化规则,例如,目标语种为中文,其对应的词向量化规则为,基于预先建立的字典查找到对应的目标词向量。具体实现中,终端可以预先建立字典,该字典中词义相近词组距离相近,字典中每个词组可以对应一个向量,终端获取到中文编写的预设敏感词之后,将基于字典查找到对应的目标词向量,又如,目标语种为英文,则终端可以将英文编写的预设敏感词输入训练完成的词向量模型中,由词向量模型输出预设敏感词对应的目标词向量。
S206、终端基于词向量之间的距离确定目标词向量的相似词向量。
本发明实施例中,终端获取到目标词向量之后,将基于词向量之间的距离确定相似词向量。
终端基于词向量之间的距离确定相似词向量的一种具体方式为,终端将与目标词向量之间的距离小于预设距离的词向量确定为目标词向量的相似词向量,例如,字典中包括上述“10000”、“01000”、“00100”、“00010”、“00001” 5个词向量,“10000”与“01000”之间的距离1,“10000”和“00100”之间的距离2,“10000”与“00010”之间的距离3,“10000”与“00001”之间的距离4,若预设距离为2,目标词向量为“10000”,则终端找出距离小于2 的相似词向量“01000”作为目标词向量“10000”的相似词向量。
终端基于词向量之间的距离确定相似词向量的另一种具体方式为,终端获取预置数据库中存储的K个词向量,并计算K个词向量中每个词向量与目标词向量之间的距离,终端将K个词向量中与目标词向量之间距离最小的N个词向量确定为目标词向量的相似词向量,其中,K和N均为正整数,N小于或等于 K。例如,预置数据库中存储了3个词向量,分别为“100000”,“001000”和“000010”,目标词向量为“000001”,则N为1,则终端可以将词向量“000010”确定为目标词向量“000001”的相似词向量。需要说明的是,该预置数据库中还可以存储每个词向量对应的词组。
S207、终端将相似词向量对应的敏感词确定为预设敏感词的候选扩展敏感词。
本发明实施例中,终端确定目标词向量的相似词向量之后,将根据相似词向量获取预设敏感词的至少一个候选扩展敏感词。
在一种实现方式中,每个相似词向量可以对应一个候选扩展敏感词,其对应的候选扩展敏感词可以从字典中查询得到,例如,终端确定了目标词向量“10000”的相似词向量“01000”,则可以通过字典查询到该相似词向量对应的候选扩展敏感词为“快乐”,或者,终端基于词向量与词组的对应关系在预置数据库中查询到相似词向量对应的候选扩展敏感词,终端将各个相似词向量对应的候选扩展敏感词作为该预设敏感词的至少一个候选扩展敏感词。
通过上述方式,可以基于相似词向量进行一次候选敏感词扩展之后,再基于实体数据名称进行二次候选敏感词扩展,可以得到更多的候选扩展敏感词。
S208、终端获取每个候选扩展敏感词的释义信息。
本发明实施例中,终端获取到至少一个候选扩展敏感词之后,将查询每个候选扩展敏感词的释义信息,释义信息具体可以为对于候选扩展敏感词解释,每个候选扩展敏感词的释义信息可以在通过网络在百科软件中查询,或者在预先构建的释义信息数据库中进行查询,其中,该至少一个候选扩展敏感词具体可以为步骤S204中从目标扩展敏感词对应的实体数据中抽取出的候选扩展敏感词以及步骤S205-S207中基于相似词向量得到的候选扩展敏感词。
S209、终端根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词。
本发明实施例中,终端获取到候选扩展敏感词以及候选扩展敏感词的释义信息之后,将根据每个候选扩展敏感词的释义信息对上述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词。
在一种实现方式中,终端根据释义信息对候选扩展敏感词进行筛选的具体过程可以为,终端检测释义信息中是否存在与敏感词库中存储的字段相匹配的内容,若存在,则终端将候选扩展敏感词确定为目标扩展敏感词。
在一种实现方式中,终端根据释义信息对敏感词进行筛选的具体过程可以为,终端对候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组,终端检测至少一个分词词组中是否存在与敏感词库中的敏感词相匹配的分词词组;若存在,则将该候选扩展敏感词作为目标扩展敏感词。
在一种实现方式中,终端根据释义信息对敏感词进行筛选的过程也可以为,终端对候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组,并计算每个分词词组与敏感词库中词组的相似度,终端获取分词词组中与敏感词库中词组相似度大于预设相似度的词组的数量,若数量大于预设数量,则终端将候选扩展敏感词确定为目标扩展敏感词。其中,分词词组与敏感词的相似度的计算方式可以为,对分词词组合敏感词组进行词向量化处理,得到分词词向量和敏感词向量,终端计算分词词向量与敏感词词向量之间的距离,并基于距离与相似度的对应关系确定分词词组与敏感词的相似度,其中,距离越大,相似度越小,如距离与相似可以为反比关系。
进一步地,终端筛选得到目标扩展敏感词之后,可以将上述目标扩展敏感词加入至敏感词库中,以实现对敏感词库的更新。
S210、终端对目标扩展敏感词进行翻译,得到至少一个与目标扩展敏感词的语种不同的其他语种目标扩展敏感词。
本发明实施例中,终端获取到目标扩展敏感词之后,将对目标扩展敏感词进行翻译,得到至少一个与目标扩展敏感词的语种不同的其他语种目标扩展敏感词。
S211、终端以目标扩展敏感词以及其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
本发明实施例中,终端得到至少一个翻译词组之后,将以目标扩展敏感词以及其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
本发明实施例中,终端得到少量敏感词之后,可以对敏感词进行语言翻译后存储,实现了敏感词的语种的统一,方便后续处理,进一步地,终端基于敏感词的相似词向量或敏感词对应的实体数据得到候选扩展敏感词,并基于候选扩展敏感词的释义信息对候选扩展敏感词进行自动筛选,实现对敏感词的扩展的同时,也提升了敏感词扩展的准确性,最后,终端将扩展后的敏感词再次进行语言翻译处理,将扩展的敏感词翻译成不同语种后检索,使得检索得到的内容更为丰富,提升了检索的全面性。
在一种实施场景中,如图3所示,为本发明实施例提供的又一种数据处理方法的流程示意图,该数据处理过程可包括以下步骤S301-S305。
301、终端获取多个不同语种的预设敏感词,并对预设敏感词进行语言翻译处理。
302、终端基于构建的词向量模型对预设敏感词进行扩展,得到至少一个候选扩展敏感词。具体可以为,终端获取敏感词对应的目标词向量,并将与该目标词向量之间距离小于预设距离的词向量确定为目标词向量的相似词向量,终端将每个相似词向量对应的词组确定为候选扩展敏感词。
303、终端基于预设敏感词对应的实体数据对敏感词进行扩展,并从实体数据中抽取出至少一个候选扩展敏感词。其中,实体数据具体可以为文章、书籍和多媒体数据(音乐、视频等),具体可以为终端检测敏感词是否为实体数据的名称,若是,则基于预设提取规则从实体数据中提取出至少一个候选扩展敏感词。
304、终端基于候选扩展敏感词的释义信息对候选扩展敏感词进行筛选,得到目标扩展敏感词。具体地,终端可以基于百科工具查询到候选扩展敏感词的释义信息,并检测候选扩展敏感词的释义信息中是否存在与敏感词库中存储的词组相匹配的内容,若存在,则将候选扩展敏感词确定为目标扩展敏感词。进一步地,终端可以将上述目标扩展敏感词加入至敏感词库中,实现对敏感词库的更新。
305、终端利用目标扩展敏感词进行内容检索。具体地,终端基于预设敏感词确定出多个目标扩展敏感词之后,可以基于该多个目标扩展敏感词在预设曲库进行检索,得到敏感的音乐内容。通过上述方式,可以基于少量预设敏感词检索得到更多的敏感内容,使得检索更为全面。
下面将结合附图4对本发明实施例提供的数据处理装置进行详细介绍。需要说明的是,附图4所示的数据处理装置,用于执行本发明图1-图3所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图3所示的实施例。
请参见图4,为本发明提供的一种数据处理装置的结构示意图,该数据处理装置40可包括:获取模块401、筛选模块402和查询模块403。
获取模块401,用于获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
所述获取模块401,还用于获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
所述获取模块401,还用于获得每个所述候选扩展敏感词的释义信息;
筛选模块404,用于根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
查询模块405,用于从预设曲库中查询所述目标扩展敏感词对应的敏感内容。在一种实现方式中,所述获取模块401,具体用于:
对所述预设敏感词进行词向量化处理,得到目标词向量;
基于词向量之间的距离确定所述目标词向量的相似词向量;
将所述相似词向量对应的敏感词确定为所述预设敏感词的候选扩展敏感词。在一种实现方式中,所述获取模块401,具体用于:
获取预置数据库中存储的K个词向量,所述K为正整数;
计算所述K个词向量中每个词向量与所述目标词向量之间的距离;
将所述K个词向量中与所述目标词向量之间距离最小的N个词向量确定为所述目标词向量的相似词向量,所述N为正整数。
在一种实现方式中,所述获取模块401,具体用于:
检测所述预设敏感词是否为实体数据的名称,所述实体数据包括文章、书籍和多媒体数据中的至少一种;
若是,则基于预设提取规则从所述实体数据中提取至少一个关键词作为所述预设敏感词的候选扩展敏感词。
在一种实现方式中,所述筛选模块402,具体用于:
对所述候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组;
检测所述至少一个分词词组中是否存在与所述敏感词库中的敏感词相匹配的分词词组;
若存在,则将所述候选扩展敏感词作为目标扩展敏感词。
在一种实现方式中,所述获取模块401,具体用于:
获取采用不同语种编写的多个敏感词;
将所述多个敏感词进行语言翻译,得到同一目标语种的敏感词;
将所述同一目标语种的多个敏感词添加到敏感词库中。
在一种实现方式中,所述查询模块403,具体用于:
对所述目标扩展敏感词进行翻译,得到至少一个与所述目标扩展敏感词的语种不同的其他语种目标扩展敏感词;
以所述目标扩展敏感词以及所述其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
本发明实施例中,获取模块401获取预设敏感词,并获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词;以及获得每个候选扩展敏感词的释义信息;筛选模块402根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;查询模块403从预设曲库中查询目标扩展敏感词对应的敏感内容。通过实施上述方法,可以对敏感词进行扩展并基于扩展内容进行查询数据查询,提升了对敏感内容的查验全面性。
请参见图5,为本发明实施例提供的一种终端的结构示意图。如图5所示,该终端包括:至少一个处理器501,输入接口503,输出接口504,存储器505,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,输入接口503可以是控制面板或者麦克风等,输出接口504可以是显示屏等。其中,存储器505可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图5 所描述的装置,存储器505中存储一组程序代码,且处理器501,输入接口503,输出接口504调用存储器505中存储的程序代码,用于执行以下操作:
处理器501,用于获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
处理器501,获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
处理器501,获得每个所述候选扩展敏感词的释义信息;
处理器501,根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
处理器501,从预设曲库中查询所述目标扩展敏感词对应的敏感内容。获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
在一种实现方式中,处理器501,具体用于:
对所述预设敏感词进行词向量化处理,得到目标词向量;
基于词向量之间的距离确定所述目标词向量的相似词向量;
将所述相似词向量对应的敏感词确定为所述预设敏感词的候选扩展敏感词。
在一种实现方式中,处理器501,具体用于:
获取预置数据库中存储的K个词向量,所述K为正整数;
计算所述K个词向量中每个词向量与所述目标词向量之间的距离;
将所述K个词向量中与所述目标词向量之间距离最小的N个词向量确定为所述目标词向量的相似词向量,所述N为正整数。
在一种实现方式中,处理器501,具体用于:
检测所述预设敏感词是否为实体数据的名称,所述实体数据包括文章、书籍和多媒体数据中的至少一种;
若是,则基于预设提取规则从所述实体数据中提取至少一个关键词作为所述预设敏感词的候选扩展敏感词。
在一种实现方式中,处理器501,具体用于:
对所述候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组;
检测所述至少一个分词词组中是否存在与所述敏感词库中的敏感词相匹配的分词词组;
若存在,则将所述候选扩展敏感词作为目标扩展敏感词。
在一种实现方式中,处理器501,具体用于:
获取采用不同语种编写的多个敏感词;
将所述多个敏感词进行语言翻译,得到同一目标语种的敏感词;
将所述同一目标语种的多个敏感词添加到敏感词库中。在一种实现方式中,处理器501,具体用于:
对所述目标扩展敏感词进行翻译,得到至少一个与所述目标扩展敏感词的语种不同的其他语种目标扩展敏感词;
以所述目标扩展敏感词以及所述其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
本发明实施例中,处理器501获取预设敏感词,处理器501获得与预设敏感词具有词义关联关系的至少一个候选扩展敏感词;处理器501获得每个候选扩展敏感词的释义信息;处理器501根据每个候选扩展敏感词的释义信息对至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;处理器501从预设曲库中查询目标扩展敏感词对应的敏感内容。通过实施上述方法,可以对敏感词进行扩展并基于扩展内容进行查询数据查询,提升了对敏感内容的查验全面性。
应当理解,在本发明实施例中,所称处理器501可以是中央处理模块 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线502可以是工业标准体系结构(Industry Standard Architecture,ISA) 总线、外部设备互联(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等,该总线502可以分为地址总线、数据总线、控制总线等,为便于表示,图5仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
获得每个所述候选扩展敏感词的释义信息;
根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
从预设曲库中查询所述目标扩展敏感词对应的敏感内容。
2.根据权利要求1所述的方法,其特征在于,所述获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词,包括:
对所述预设敏感词进行词向量化处理,得到目标词向量;
基于词向量之间的距离确定所述目标词向量的相似词向量;
将所述相似词向量对应的敏感词确定为所述预设敏感词的候选扩展敏感词。
3.根据权利要求2所述的方法,其特征在于,所述基于词向量之间的距离确定所述目标词向量的相似词向量,包括:
获取预置数据库中存储的K个词向量,所述K为正整数;
计算所述K个词向量中每个词向量与所述目标词向量之间的距离;
将所述K个词向量中与所述目标词向量之间距离最小的N个词向量确定为所述目标词向量的相似词向量,所述N为正整数。
4.根据权利要求1所述的方法,其特征在于,所述获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词,包括:
检测所述预设敏感词是否为实体数据的名称,所述实体数据包括文章、书籍和多媒体数据中的至少一种;
若是,则基于预设提取规则从所述实体数据中提取至少一个关键词作为所述预设敏感词的候选扩展敏感词。
5.根据权利要求1所述的方法,其特征在于,所述根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词,包括:
对所述候选扩展敏感词的释义信息进行分词处理,得到至少一个分词词组;
检测所述至少一个分词词组中是否存在与所述敏感词库中的敏感词相匹配的分词词组;
若存在,则将所述候选扩展敏感词作为目标扩展敏感词。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述敏感词库的生成方式包括:
获取采用不同语种编写的多个敏感词;
将所述多个敏感词进行语言翻译,得到同一目标语种的敏感词;
将所述同一目标语种的多个敏感词添加到敏感词库中。
7.根据权利要求6所述的方法,其特征在于,所述从预设曲库中查询所述目标扩展敏感词对应的敏感内容,包括:
对所述目标扩展敏感词进行翻译,得到至少一个与所述目标扩展敏感词的语种不同的其他语种目标扩展敏感词;
以所述目标扩展敏感词以及所述其他语种目标扩展敏感词为检索词,从预设曲库中检索敏感内容。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取预设敏感词,所述预设敏感词为敏感词库中的任意一个敏感词;
所述获取模块,还用于获得与所述预设敏感词具有词义关联关系的至少一个候选扩展敏感词;
所述获取模块,还用于获得每个所述候选扩展敏感词的释义信息;
筛选模块,用于根据每个所述候选扩展敏感词的释义信息对所述至少一个候选扩展敏感词进行筛选,得到目标扩展敏感词;
查询模块,用于从预设曲库中查询所述目标扩展敏感词对应的敏感内容。
9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202010696676.4A 2020-07-17 2020-07-17 数据处理方法、装置、终端和存储介质 Pending CN111859013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010696676.4A CN111859013A (zh) 2020-07-17 2020-07-17 数据处理方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010696676.4A CN111859013A (zh) 2020-07-17 2020-07-17 数据处理方法、装置、终端和存储介质

Publications (1)

Publication Number Publication Date
CN111859013A true CN111859013A (zh) 2020-10-30

Family

ID=73001002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010696676.4A Pending CN111859013A (zh) 2020-07-17 2020-07-17 数据处理方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN111859013A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364637A (zh) * 2020-11-30 2021-02-12 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN112417103A (zh) * 2020-12-02 2021-02-26 百度国际科技(深圳)有限公司 用于检测敏感词的方法、装置、设备和存储介质
CN112988977A (zh) * 2021-04-25 2021-06-18 成都索贝数码科技股份有限公司 基于近似词的模糊匹配媒资内容库检索方法
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置
CN101436205A (zh) * 2008-11-28 2009-05-20 无敌科技(西安)有限公司 通过释义查询单字的方法与装置
US20100076957A1 (en) * 2008-09-10 2010-03-25 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
CN102110174A (zh) * 2011-04-11 2011-06-29 重庆大学 一种基于关键词的web服务器扩展检索方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103853720A (zh) * 2012-11-28 2014-06-11 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
KR20140091375A (ko) * 2013-01-11 2014-07-21 한남대학교 산학협력단 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
WO2016173449A1 (zh) * 2015-04-28 2016-11-03 阿里巴巴集团控股有限公司 群组消息处理方法及装置
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN109657250A (zh) * 2018-12-12 2019-04-19 科大讯飞股份有限公司 一种文本翻译方法、装置、设备及可读存储介质
CN109885830A (zh) * 2019-01-29 2019-06-14 金蝶软件(中国)有限公司 语句释义方法、装置、计算机设备
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN110909539A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 语料库的词语生成方法、系统、计算机设备和存储介质
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076957A1 (en) * 2008-09-10 2010-03-25 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置
CN101436205A (zh) * 2008-11-28 2009-05-20 无敌科技(西安)有限公司 通过释义查询单字的方法与装置
CN102110174A (zh) * 2011-04-11 2011-06-29 重庆大学 一种基于关键词的web服务器扩展检索方法
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103853720A (zh) * 2012-11-28 2014-06-11 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
KR20140091375A (ko) * 2013-01-11 2014-07-21 한남대학교 산학협력단 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
WO2016173449A1 (zh) * 2015-04-28 2016-11-03 阿里巴巴集团控股有限公司 群组消息处理方法及装置
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN109299453A (zh) * 2017-07-24 2019-02-01 华为技术有限公司 一种用于构建词典的方法和装置
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN109657250A (zh) * 2018-12-12 2019-04-19 科大讯飞股份有限公司 一种文本翻译方法、装置、设备及可读存储介质
CN109885830A (zh) * 2019-01-29 2019-06-14 金蝶软件(中国)有限公司 语句释义方法、装置、计算机设备
CN110457428A (zh) * 2019-06-26 2019-11-15 北京印刷学院 一种敏感词检测过滤方法、装置与电子设备
CN110909539A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 语料库的词语生成方法、系统、计算机设备和存储介质
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN111241389A (zh) * 2019-12-30 2020-06-05 陕西数字基地出版传媒集团有限公司 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏松,林荣蓉,刘勘: "网络谣言敏感词库的构建研究——以新浪微博谣言为例", 知识管理论坛, vol. 4, no. 5, 28 October 2019 (2019-10-28), pages 267 - 275 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364637A (zh) * 2020-11-30 2021-02-12 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN112364637B (zh) * 2020-11-30 2024-02-09 北京天融信网络安全技术有限公司 一种敏感词检测方法、装置,电子设备及存储介质
CN112417103A (zh) * 2020-12-02 2021-02-26 百度国际科技(深圳)有限公司 用于检测敏感词的方法、装置、设备和存储介质
CN112988977A (zh) * 2021-04-25 2021-06-18 成都索贝数码科技股份有限公司 基于近似词的模糊匹配媒资内容库检索方法
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统
CN113569566B (zh) * 2021-07-30 2022-08-09 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统
CN115221872A (zh) * 2021-07-30 2022-10-21 苏州七星天专利运营管理有限责任公司 一种基于近义扩展的词汇扩展方法和系统

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
KR101913191B1 (ko) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
US10585924B2 (en) Processing natural-language documents and queries
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
US20130060769A1 (en) System and method for identifying social media interactions
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US20220261545A1 (en) Systems and methods for producing a semantic representation of a document
US8204736B2 (en) Access to multilingual textual resources
US20040186706A1 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
WO2021042084A1 (en) Systems and methods for retreiving images using natural language description
Nguyen et al. Named entity disambiguation: A hybrid statistical and rule-based incremental approach
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
JP2004070636A (ja) 概念検索装置
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
JP2002251402A (ja) 文書検索方法及び文書検索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination