CN105512300A - 信息过滤方法及系统 - Google Patents
信息过滤方法及系统 Download PDFInfo
- Publication number
- CN105512300A CN105512300A CN201510919717.0A CN201510919717A CN105512300A CN 105512300 A CN105512300 A CN 105512300A CN 201510919717 A CN201510919717 A CN 201510919717A CN 105512300 A CN105512300 A CN 105512300A
- Authority
- CN
- China
- Prior art keywords
- word
- keyword
- user
- information
- universal database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种信息过滤方法及系统,其方法包括:设置一通用数据库,通用数据库中预存有多个文本信息;采集特定站点上的用户特有信息;从用户特有信息中过滤出具有分类能力的词;分别计算过滤出的每一个词在用户特有信息中的出现次数以及在通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从具有分类能力的词中筛选出与用户相关的关键词;利用关键词计算通用数据库中的每一个文本信息与用户的相关性;根据计算出的相关性对通用数据库中的文本信息进行过滤。本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,不存在冷启动问题,且不需要人工干预,人力成本低,分析效率高,通用性强。
Description
技术领域
本发明涉及互联网信息处理技术,特别涉及一种信息过滤方法及系统。
背景技术
在个性化搜索、定制新闻服务、舆情服务等个性化很突出的互联网信息服务中,很困难的是如何描述每个用户所关心的信息。一般的解决方法是预先设置关键词,然后不断优化关键词的组合,来定义包含或者排除的文章集合,从而描述用户所关心的信息。本申请中,所述的用户是指特定的网站,例如政府部门、医院、学校学习的官方网站、公益组织的网站等,用户特有信息,是指这些特定站点上公开的信息。是否能够利用这些用户特有信息,构造智能的信息过滤器,以实现用户个性化信息的自动化描述是目前需要解决的技术问题。例如,在为某特定公益组织提供互联网信息服务中,我们需要从整个互联网中搜索出该公益组织感兴趣的相关信息。那么,如何利用该公益组织自身网站上已经公开的内容(比如,组织宗旨、活动开展、友情链接、新闻报道等),去整个互联网上找出其需要的相关信息,是目前需要解决的一个技术问题。
现有的描述用户需求的方法通常有三种方法:
(1)关键词过滤。通过用户或者客服人员设置不同的关键词组合来过滤和筛选舆情信息。这个过程需要用户和客服人员不断交流、磨合、尝试,最终达到一个可接受的效果。
(2)预设文本分类。通过设定一些固定的类别信息,将文本预先分成不同的类别。用户的舆情需求通过选取不同的文本类别来实现。
(3)在获取用户的点击或者阅读行为之后,自动根据用户行为进行推荐。如百度新闻、今日头条等新闻站点都是采用这种做法。
但是,现有的描述用户需求的方法存在如下缺点:
(1)需要大量的人工干预。因为最开始无论是用户还是客服人员对于准确的舆情需求都不清楚,更不清楚如何通过关键词的设置来满足这些需求。要达到一个能够接受的状态往往需要一个很长的磨合时间。
(2)不能准确描述用户需求。关键词的设置往往需要在有效信息和垃圾信息之间做一个权衡。如果关键词设置太多,那么有效信息会更多,但是垃圾信息也越多;反之亦然。由于关键词的组合不计其数,对于复杂的用户需求,很难通过人工的方式将最优的关键词组合照出来。因此,仅仅通过关键词过滤的方法不能完全满足实际需求。
(3)不能满足用户的独特需求。预设文本分类的方法只能设置一些通用的分类,比如通常新闻的分类。这些分类往往不能满足不同用户的独特需求。
(4)冷启动问题。在初始没有用户点击、阅读行为的情况下,基于用户行为的新闻推荐方法无法采用。在部分应用场景下,用户行为数据很难定义或不能获得,例如为一个政府部门提供的个性化舆情服务。
发明内容
本发明实施例的目的是提供一种信息过滤方法及系统,以解决现有的对用户特有信息的分析方式存在的人工干预过多、准确性低、通用性低的问题。
本发明实施例提出一种信息过滤方法,包括:
设置一通用数据库,所述通用数据库中预存有多个文本信息;
采集特定站点上的用户特有信息;
从所述用户特有信息中过滤出具有分类能力的词;
分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词;
利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性;
根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
依照本发明较佳实施例所述的信息过滤方法,所述从所述用户特有信息中过滤出具有分类能力的词的步骤包括:
对所述用户特有信息进行分词;
去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。
依照本发明较佳实施例所述的信息过滤方法,所述根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词的步骤中,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
所述A为过滤出的每一个词在所述用户特有信息中的出现次数,所述B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,所述c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。
依照本发明较佳实施例所述的信息过滤方法,所述根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词的步骤之后进一步包括:
利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量;
根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离;
根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。
依照本发明较佳实施例所述的信息过滤方法,所述计算任意一个关键词与任意一个非关键词之间的距离的步骤包括:计算任意一个关键词与任意一个非关键词之间的余弦距离:
dist(w,u)=cosine(w,u)
所述根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词的步骤中,
所述预设条件依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
本发明还提出一种信息过滤系统,包括:
通用数据库,用于预存有多个文本信息;
采集模块,用于采集特定站点上的用户特有信息;
特有信息过滤模块,用于从所述用户特有信息中过滤出具有分类能力的词;
关键词筛选模块,用于分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词;
相关性计算模块,用于利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性;
通用文本过滤模块,用于根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
依照本发明较佳实施例所述的信息过滤系统,所述特有信息过滤模块进一步包括:
分词单元,用于对所述用户特有信息进行分词;
停用词去除单元,用于去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。
依照本发明较佳实施例所述的信息过滤系统,所述关键词筛选模块根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词时,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
所述A为过滤出的每一个词在所述用户特有信息中的出现次数,所述B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,所述c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。
依照本发明较佳实施例所述的信息过滤系统,所述信息过滤系统还包括:
向量换算模块,用于利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量;
距离计算模块,用于根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离;
关键词扩展模块,用于根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。
依照本发明较佳实施例所述的信息过滤系统,所述距离计算模块计算任意一个关键词与任意一个非关键词之间的距离为余弦距离:
dist(w,u)=cosine(w,u)
所述关键词扩展模块添加关键词时的预设条件依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,所述关键词扩展模块将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
相对于现有技术,本发明的有益效果是:本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,不存在冷启动问题,且不需要人工干预,人力成本低,分析效率高,通用性强。
附图说明
图1为本发明实施例的一种信息过滤方法的流程图;
图2为本发明实施例的一种从用户特有信息中过滤出具有分类能力的词时的流程图;
图3为本发明实施例的另一种信息过滤方法的流程图;
图4为本发明实施例的一种信息过滤系统的结构图;
图5为本发明实施例的一种特有信息过滤模块的结构图;
图6为本发明实施例的另一种信息过滤系统的结构图。
具体实施方式
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
请参见图1,其为本发明实施例的一种信息过滤方法的流程图,其包括以下步骤:
S11,设置一通用数据库,所述通用数据库中预存有多个文本信息。
S12,采集特定站点上的用户特有信息。
S13,从所述用户特有信息中过滤出具有分类能力的词。
S14,分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词。
S15,利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性。
S16,根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
步骤S11中,所述通用数据库中存放的文本信息即为需要进行分析过滤的信息,通用数据库中的数据可以预先采集于各种互联网站点。
步骤S12中,所述用户特有信息是指特定站点上公开的信息。所述特定站点可以根据需要来设定,例如,特定站点可以是诸如政府网站,医院、学校的官方网站等用户网站,特定站点也可以是诸如政府报告、产品手册等用户公开的其它文件,特定站点或者也可以是用户的公共微信和官方微博等。
所述用户特有信息优选文本信息,本申请主要是针对文本进行信息过滤,当然,如果用户特有信息也可以是除文本之外的其它形式的信息,例如,当用户特有信息是图片时,则可以通过图片分析方法从图片上提取出文字信息,然后再进入后续的步骤。
步骤S13中,本申请的目的是对通用数据库中的信息进行过滤,找出哪些信息是用户关心的,因此,用来过滤的关键词必须要具备分类能力,从而才能区分出信息与用户之间的相关性。例如,“的”、“不能”等没有实际意义的词不属于具有分类能力的词,不能作为关键词。具体来说,请参见图2,步骤S13又可以进一步包括以下步骤:
S131,对所述用户特有信息进行分词。
S132,去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据时会过滤掉某些词,这些词即被称为停用词(StopWords)。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。可以预先设置一停用词表,将需要去除的词设置在停用词表中,并对用户特有信息分词后的词进行遍历,去除其中停用词表中的停用词,从而获得剩余的具有分类能力的词。
步骤S14中,本步骤的目的是进一步地从具有分类能力的词中选出与用户相关性高的关键词。一个词在用户特有信息中的出现次数越多,则表示这个词与用户的相关性越高,反之,如果一个词在用户特有信息中的出现次数越少,则表示这个词与用户的相关性越低。当然,除了在用户特有信息中的出现次数,还需要考虑在通用数据库的文本信息中的出现次数,因为即使一个词在用户特有信息中的出现次数很多,但是如果这个词完全没有在通用数据库的文本信息中出现过,那么这个词就没有了对通用数据库中文本信息的过滤意义。一个词在通用数据库的文本信息中的出现次数越多,则说明这个词相对于通用数据库的文本信息更加具有过滤的意义,更具备代表性,反之如果一个词在通用数据库的文本信息中的出现次数越少,则说明这个词相对于通用数据库的文本信息更加不具备代表性。
所述预设的规则是指结合具有分类能力的词分别在用户特有信息以及通用数据库的文本信息中的出现次数,给出一个筛选的公式,以达到确定关键词的目的。所述预设的规则可以根据实际需要来设定,例如,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
其中,A为过滤出的每一个词在所述用户特有信息中的出现次数,B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。平滑常数c优选取1,一个词相关性得分S得分越高,则说明这个词与用户的相关性越高。最后选取所有相关性得分S在1以上的词,作为当前用户的关键词列表W,假设关键词列表W中每个关键词w的得分为S(w)。W和S(w)即为用户需求的一个量化描述。
步骤S15中,相关性的计算方式可以根据需要来设定。例如,可以根据前述的相关性得分S对每一个关键词赋予权重,然后统计通用数据库中的每一个文本信息中,每一个关键词的出现次数,然后结合关键词的出现次数、关键词的权重,得出这个文本信息与用户的相关性得分。
步骤S16中,可以根据文本信息与用户的相关性得分对通用数据库中所有文本信息进行排序,并设置一个过滤阈值,例如1000,最终输出排序结果中前过滤阈值个文本信息。
本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,不需要人工干预,大大节约了人力成本。
本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,关键词的设定准确高效,可以充分满足用户的实际需求。
本发明以用户特有信息为标本,实现信息的自动化过滤,用户针对性强,可以各类用户的独特需求,通用性高。
本发明不需要初始的点击、阅读行为,不存在冷启动问题。
请参见图3,其为本发明实施例的另一种信息过滤方法的流程图,其包括以下步骤:
S31,设置一通用数据库,所述通用数据库中预存有多个文本信息。
S32,采集特定站点上的用户特有信息。
S33,从所述用户特有信息中过滤出具有分类能力的词。
S34,分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词。
S35,利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量。
S36,根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离。
S37,根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。
S38,利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性。
S39,根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
相对于图1的实施例相比,本实施例的信息过滤方法增加了S35、S36及S37三个步骤。
其中,步骤S35中,要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,所述词向量就是用来将语言中的词进行数学化的一种方式。本申请中,优选采用分布式表示每一个词的词向量,所述分布式表示是一种是用无监督的方法得到的稠密的、实值的、低维的词向量。当然,除了采用分布式表示每一个词的词向量,也可以采用其它的词语向量化的工具和方法。比如,word2vec、GloVe、以及任何可以实现词语向量化的工具和方法。
步骤S36中,可以计算任意一个关键词与任意一个非关键词之间的余弦距离,即:
dist(w,u)=cosine(w,u)
其中,dist(w,u)为任意一个关键词与任意一个非关键词之间的余弦距离,w表示关键词,u表示非关键词。
当然,也可以采用其它的计算两个词向量距离的方法。比如欧式距离,Lp(p>=1)距离等。
步骤S37中,所述预设条件可以根据实际需要来设定。以前述余弦距离为例,所述预设条件可以依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,不存在冷启动问题,且不需要人工干预,人力成本低,分析效率高,通用性强。而且,本发明可以利用关键词与非关键词之间的距离,实现对关键词的扩展,可以使过滤结果更加全面和准确。
本发明还提出一种信息过滤系统,请参见图4,图4为本发明实施例的一种信息过滤系统的结构图,此信息过滤系统包括:通用数据库41、采集模块42、特有信息过滤模块43、关键词筛选模块44、相关性计算模块45以及通用文本过滤模块46。特有信息过滤模块43与采集模块42相连,关键词筛选模块44分别与特有信息过滤模块43及通用数据库41相连,相关性计算模块45分别与关键词筛选模块44及通用数据库41相连,通用文本过滤模块46分别与相关性计算模块45及通用数据库41相连。
通用数据库41用于预存有多个文本信息。所述通用数据库41中存放的文本信息即为需要进行分析过滤的信息,通用数据库中的数据可以预先采集于各种互联网站点。
采集模块42用于采集特定站点上的用户特有信息。所述用户特有信息是指特定站点上公开的信息。所述特定站点可以根据需要来设定,例如,特定站点可以是诸如政府网站,医院、学校的官方网站等用户网站,特定站点也可以是诸如政府报告、产品手册等用户公开的其它文件,特定站点或者也可以是用户的公共微信和官方微博等。所述用户特有信息优选文本信息,本申请主要是针对文本进行信息过滤,当然,如果用户特有信息也可以是除文本之外的其它形式的信息,例如,当用户特有信息是图片时,则可以通过图片分析方法从图片上提取出文字信息,然后再将文字信息传输给特有信息过滤模块43。
特有信息过滤模块43用于从所述用户特有信息中过滤出具有分类能力的词。本申请的目的是对通用数据库中的信息进行过滤,找出哪些信息是用户关心的,因此,用来过滤的关键词必须要具备分类能力,从而才能区分出信息与用户之间的相关性。例如,“的”、“不能”等没有实际意义的词不属于具有分类能力的词,不能作为关键词。
请参见图5,特有信息过滤模块43又可以进一步包括:分词单元431和停用词去除单元432。分词单元431用于对所述用户特有信息进行分词。停用词去除单元432用于去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。可以预先设置一停用词表,将需要去除的词设置在停用词表中,并对用户特有信息分词后的词进行遍历,去除其中停用词表中的停用词,从而获得剩余的具有分类能力的词。
关键词筛选模块44用于分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词。所述预设的规则是指结合具有分类能力的词分别在用户特有信息以及通用数据库的文本信息中的出现次数,给出一个筛选的公式,以达到确定关键词的目的。所述预设的规则可以根据实际需要来设定,例如,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
其中,A为过滤出的每一个词在所述用户特有信息中的出现次数,B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。平滑常数c优选取1,一个词相关性得分S得分越高,则说明这个词与用户的相关性越高。最后选取所有相关性得分S在1以上的词,作为当前用户的关键词列表W,假设关键词列表W中每个关键词w的得分为S(w)。W和S(w)即为用户需求的一个量化描述。
相关性计算模块45用于利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性。相关性的计算方式可以根据需要来设定。例如,可以根据前述的相关性得分S对每一个关键词赋予权重,然后统计通用数据库中的每一个文本信息中,每一个关键词的出现次数,然后结合关键词的出现次数、关键词的权重,得出这个文本信息与用户的相关性得分。
通用文本过滤模块46用于根据计算出的相关性对所述通用数据库中的文本信息进行过滤。可以根据文本信息与用户的相关性得分对通用数据库中所有文本信息进行排序,并设置一个过滤阈值,例如1000,最终输出排序结果中前过滤阈值个文本信息。
请参见图6,其为本发明实施例的另一种信息过滤系统的结构图,相对于图4的实施例,本实施例的信息过滤系统除了包括通用数据库41、采集模块42、特有信息过滤模块43、关键词筛选模块44、相关性计算模块45以及通用文本过滤模块46,还包括:向量换算模块61、距离计算模块62以及关键词扩展模块63。特有信息过滤模块43与采集模块42相连,关键词筛选模块44分别与特有信息过滤模块43及通用数据库41相连,向量换算模块61与通用数据库41相连,距离计算模块62分别与关键词筛选模块44及向量换算模块61相连,关键词扩展模块63与距离计算模块62相连,相关性计算模块45分别与关键词筛选模块44及通用数据库41相连,通用文本过滤模块46分别与相关性计算模块45及通用数据库41相连。
其中,向量换算模块61用于利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量。所述词向量是用来将语言中的词进行数学化的一种方式。本申请中,优选采用分布式表示每一个词的词向量,所述分布式表示是一种是用无监督的方法得到的稠密的、实值的、低维的词向量。当然,除了采用分布式表示每一个词的词向量,也可以采用其它的词语向量化的工具和方法。比如,word2vec、GloVe、以及任何可以实现词语向量化的工具和方法。
距离计算模块62用于根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离。距离计算模块62可以计算任意一个关键词与任意一个非关键词之间的余弦距离,即:
dist(w,u)=cosine(w,u)
其中,dist(w,u)为任意一个关键词与任意一个非关键词之间的余弦距离,w表示关键词,u表示非关键词。
当然,也可以采用其它的计算两个词向量距离的方法。比如欧式距离,Lp(p>=1)距离等。
关键词扩展模块63用于根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。所述预设条件可以根据实际需要来设定。以前述余弦距离为例,所述预设条件可以依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
本发明以用户特有信息为标本,实现信息的自动化过滤,关键词完全从特定站点获取,不存在冷启动问题,且不需要人工干预,人力成本低,分析效率高,通用性强。而且,本发明可以利用关键词与非关键词之间的距离,实现对关键词的扩展,可以使过滤结果更加全面和准确。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种信息过滤方法,其特征在于,包括:
设置一通用数据库,所述通用数据库中预存有多个文本信息;
采集特定站点上的用户特有信息;
从所述用户特有信息中过滤出具有分类能力的词;
分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词;
利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性;
根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
2.如权利要求1所述的信息过滤方法,其特征在于,所述从所述用户特有信息中过滤出具有分类能力的词的步骤包括:
对所述用户特有信息进行分词;
去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。
3.如权利要求1所述的信息过滤方法,其特征在于,所述根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词的步骤中,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
所述A为过滤出的每一个词在所述用户特有信息中的出现次数,所述B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,所述c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。
4.如权利要求1所述的信息过滤方法,其特征在于,所述根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词的步骤之后进一步包括:
利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量;
根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离;
根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。
5.如权利要求4所述的信息过滤方法,其特征在于,
所述计算任意一个关键词与任意一个非关键词之间的距离的步骤包括:计算任意一个关键词与任意一个非关键词之间的余弦距离:
dist(w,u)=cosine(w,u)
所述根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词的步骤中,
所述预设条件依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
6.一种信息过滤系统,其特征在于,包括:
通用数据库,用于预存有多个文本信息;
采集模块,用于采集特定站点上的用户特有信息;
特有信息过滤模块,用于从所述用户特有信息中过滤出具有分类能力的词;
关键词筛选模块,用于分别计算过滤出的每一个词在所述用户特有信息中的出现次数以及在所述通用数据库的文本信息中的出现次数,并根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词;
相关性计算模块,用于利用所述关键词计算所述通用数据库中的每一个文本信息与用户的相关性;
通用文本过滤模块,用于根据计算出的相关性对所述通用数据库中的文本信息进行过滤。
7.如权利要求6所述的信息过滤系统,其特征在于,所述特有信息过滤模块进一步包括:
分词单元,用于对所述用户特有信息进行分词;
停用词去除单元,用于去除分词结果中预设的停用词,并将剩余的词作为具有分类能力的词。
8.如权利要求6所述的信息过滤系统,其特征在于,所述关键词筛选模块根据计算结果以及预设的规则从所述具有分类能力的词中筛选出与用户相关的关键词时,所述预设的规则依照以下公式:
S=log(A+c)-log(B+c)
所述A为过滤出的每一个词在所述用户特有信息中的出现次数,所述B为过滤出的每一个词在所述通用数据库的文本信息中的出现次数,所述c为预设的平滑常数,S为所述具有分类能力的词与用户的相关性得分。
9.如权利要求6所述的信息过滤系统,其特征在于,所述信息过滤系统还包括:
向量换算模块,用于利用所述通用数据库,计算所述用户特有信息以及所述通用数据库中的文本信息中的每个词的词向量;
距离计算模块,用于根据计算出的每个词的词向量,计算任意一个关键词与任意一个非关键词之间的距离;
关键词扩展模块,用于根据计算出的任意一个关键词与任意一个非关键词之间的距离,将满足预设条件的非关键词添加为关键词。
10.如权利要求9所述的信息过滤系统,其特征在于,
所述距离计算模块计算任意一个关键词与任意一个非关键词之间的距离为余弦距离:
dist(w,u)=cosine(w,u)
所述关键词扩展模块添加关键词时的预设条件依照以下公式:
S(u)=avg(w∈W|S(w)*(1-dist(w,u))
并,所述关键词扩展模块将S(u)>1的非关键词添加为关键词;
其中,w表示关键词,u表示非关键词,W|S(w)表示关键词的词向量集合,S(u)表示关键词与非关键词之间的相关性得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919717.0A CN105512300B (zh) | 2015-12-11 | 2015-12-11 | 信息过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919717.0A CN105512300B (zh) | 2015-12-11 | 2015-12-11 | 信息过滤方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512300A true CN105512300A (zh) | 2016-04-20 |
CN105512300B CN105512300B (zh) | 2019-01-22 |
Family
ID=55720281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510919717.0A Active CN105512300B (zh) | 2015-12-11 | 2015-12-11 | 信息过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512300B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484795A (zh) * | 2016-09-22 | 2017-03-08 | 天津大学 | 一种基于非结构化网页数据的兴趣推荐方法 |
CN107948576A (zh) * | 2018-01-02 | 2018-04-20 | 西安兖矿科技研发设计有限公司 | 一种对讲机显示系统及方法 |
CN108897734A (zh) * | 2018-06-13 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN112732895A (zh) * | 2018-03-26 | 2021-04-30 | 广州虎牙信息科技有限公司 | 审核文本的方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546328A (zh) * | 2008-03-27 | 2009-09-30 | 株式会社东芝 | 检索关键词改进装置、服务器及方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102855282A (zh) * | 2012-08-01 | 2013-01-02 | 北京百度网讯科技有限公司 | 一种文档推荐方法及装置 |
CN104199965A (zh) * | 2014-09-22 | 2014-12-10 | 吴晨 | 一种语义信息检索方法 |
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
-
2015
- 2015-12-11 CN CN201510919717.0A patent/CN105512300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546328A (zh) * | 2008-03-27 | 2009-09-30 | 株式会社东芝 | 检索关键词改进装置、服务器及方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102855282A (zh) * | 2012-08-01 | 2013-01-02 | 北京百度网讯科技有限公司 | 一种文档推荐方法及装置 |
WO2015162719A1 (ja) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | 情報提供装置、情報提供方法、プログラム、及び記録媒体 |
CN104199965A (zh) * | 2014-09-22 | 2014-12-10 | 吴晨 | 一种语义信息检索方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484795A (zh) * | 2016-09-22 | 2017-03-08 | 天津大学 | 一种基于非结构化网页数据的兴趣推荐方法 |
CN107948576A (zh) * | 2018-01-02 | 2018-04-20 | 西安兖矿科技研发设计有限公司 | 一种对讲机显示系统及方法 |
CN112732895A (zh) * | 2018-03-26 | 2021-04-30 | 广州虎牙信息科技有限公司 | 审核文本的方法、装置、电子设备和存储介质 |
CN112732895B (zh) * | 2018-03-26 | 2024-01-19 | 广州虎牙信息科技有限公司 | 审核文本的方法、装置、电子设备和存储介质 |
CN108897734A (zh) * | 2018-06-13 | 2018-11-27 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN108897734B (zh) * | 2018-06-13 | 2023-08-22 | 康键信息技术(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105512300B (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
CN108170692B (zh) | 一种热点事件信息处理方法和装置 | |
CN106547871B (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
CN105512300A (zh) | 信息过滤方法及系统 | |
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
Ha et al. | MapReduce functions to analyze sentiment information from social big data | |
US20130006975A1 (en) | System and method for matching entities and synonym group organizer used therein | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
KR20150096295A (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
WO2014206151A1 (en) | System and method for tagging and searching documents | |
CN103823849A (zh) | 词条的获取方法及装置 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN105574030A (zh) | 一种信息搜索方法及装置 | |
Alshehri et al. | Think before your click: Data and models for adult content in arabic twitter | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
CN103714120A (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
KR20190109628A (ko) | 개인화된 기사 컨텐츠 제공 방법 및 장치 | |
US20110264683A1 (en) | System and method for managing information map | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
KR101780237B1 (ko) | 온라인 상에 공개된 질의응답 데이터를 기초로 한 사용자 질의에 대한 응답 방법 및 장치 | |
CN110825954A (zh) | 关键词推荐方法、装置和电子设备 | |
Hu et al. | Embracing information explosion without choking: Clustering and labeling in microblogging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |