CN106294744A - 兴趣识别方法及系统 - Google Patents

兴趣识别方法及系统 Download PDF

Info

Publication number
CN106294744A
CN106294744A CN201610652621.7A CN201610652621A CN106294744A CN 106294744 A CN106294744 A CN 106294744A CN 201610652621 A CN201610652621 A CN 201610652621A CN 106294744 A CN106294744 A CN 106294744A
Authority
CN
China
Prior art keywords
semantic entity
word
text
user
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610652621.7A
Other languages
English (en)
Inventor
万顷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mobile Cloud Mdt Infotech Ltd
Original Assignee
Shanghai Mobile Cloud Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mobile Cloud Mdt Infotech Ltd filed Critical Shanghai Mobile Cloud Mdt Infotech Ltd
Priority to CN201610652621.7A priority Critical patent/CN106294744A/zh
Publication of CN106294744A publication Critical patent/CN106294744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种兴趣识别方法及系统,通过收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取和归并,并形成知识图谱;根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;若有,将所述侧重的语义实体作为该用户的兴趣标签,能够帮助提升对于内容的搜索及推荐的精准度。

Description

兴趣识别方法及系统
技术领域
本发明涉及一种兴趣识别方法及系统。
背景技术
随着互联网的迅猛发展及普及,互联网用户的使用习惯已从最初的自己寻找内容转变为依赖服务方给予的内容推送,因此精确地了解每个用户兴趣点,能有效帮助服务方提供个性化的服务,提高用户的使用体验。
现有的用户兴趣识别主要有以下几种方式:
1. 通过用户及其他用户的描述;
2. 通过用户的浏览交互行为,人为定义;
3. 通过对用户访问内容预设标签,统计得出。
上述几种方式存在以下的缺陷:
1. 兴趣标签的不规范,当将设定兴趣的权利给予用户时,用户对于同一件事物的描述往往不尽相同,导致大量相同的标签被异化,加大识别难度并影响精度;
2. 同语义或相近语义标签无法归并,降低了兴趣识别的精准度;
3. 网络爬虫、水军等非正常访问用户会对识别造成干扰;
4. 用户的兴趣是变化的,系统对于陈旧数据无法做到合理滤除,导致识别精度下降;
5. 随着各年龄段的用户涌入,同样的内容对于不同年龄段的用户的意义是不同的,系统无法结合人口基本属性进行识别。
发明内容
本发明的目的在于提供一种兴趣识别方法及系统,能够帮助提升对于内容的搜索及推荐的精准度。
为解决上述问题,本发明提供一种兴趣识别方法,包括:
收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;
对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;
对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;
将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;
根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;
若有,将所述侧重的语义实体作为该用户的兴趣标签。
进一步的,在上述方法中,将所述侧重的语义实体作为该用户的兴趣标签,包括:
获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;
将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。
进一步的,在上述方法中,所述一定时间范围内为最近一定时间范围内。
进一步的,在上述方法中,通过统计学判断每个用户访问时是否有侧重的语义实体之后,还包括:
若无,判断用户是否访问量过高,若是,判断该用户可能是爬虫。
进一步的,在上述方法中,通过统计学判断每个用户访问时是否有侧重的语义实体之后,还包括:
判断用户访问的语义实体是否相悖,且互动量较高,若是,则判断该用户是水军。
进一步的,在上述方法中,将所述侧重的语义实体作为该用户的兴趣标签之后,还包括根据用户的兴趣标签向用户推荐内容。
进一步的,在上述方法中,对所述文本内容进行处理,包括:
对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理。
进一步的,在上述方法中,对所述文本内容进行分词包括:
对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词。
进一步的,在上述方法中,所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词。
进一步的,在上述方法中,所述基于类的隐马分词之后还包括进行词性标注。
进一步的,在上述方法中,未登录词识别之后,还包括将识别到的未登录词更新补充入所述分词词典和歧义词词典。
进一步的,在上述方法中,嵌套未登录词识别之后,还包括将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。
根据本发明的另一面,提供一种兴趣识别系统,包括:
收集处理模块,用于收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;
抽取模块,用于对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;
归并模块,用于对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;
知识图谱形成模块,用于将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;
第一判断模块,用于根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;
兴趣标签模块,用于若有所述侧重的语义实体,将所述侧重的语义实体作为该用户的兴趣标签。
进一步的,在上述系统中,所述兴趣标签模块,用于获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。
进一步的,在上述系统中,所述一定时间范围内为最近一定时间范围内。
进一步的,在上述系统中,还包括:
第二判断模块,用于若无侧重的语义实体,判断用户是否访问量过高,若是,判断该用户可能是爬虫。
进一步的,在上述系统中,还包括:
第三判断模块,用于若无侧重的语义实体,判断用户访问的语义实体是否相悖,且互动量较高,若是,则判断该用户是水军。
进一步的,在上述系统中,还包括推荐模块,用于根据用户的兴趣标签向用户推荐内容。
进一步的,在上述系统中,所述收集处理模块,用于对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理。
进一步的,在上述系统中,所述收集处理模块,用于对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词。
进一步的,在上述系统中,所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词。
进一步的,在上述系统中,所述收集处理模块,用于在所述基于类的隐马分词之后进行词性标注。
进一步的,在上述系统中,所述收集处理模块,用于在未登录词识别之后,将识别到的未登录词更新补充入所述分词词典和歧义词词典。
进一步的,在上述系统中,所述收集处理模块,用于在嵌套未登录词识别之后,将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。
与现有技术相比,本发明使用用户浏览的文本内容构建知识图谱,并从中抽取用户兴趣点,能够帮助提升对于内容的搜索及推荐的精准度。
附图说明
图1是本发明一实施例的兴趣识别方法的原理示意图;
图2是本发明一实施例的知识图谱构建的原理图;
图3是本发明一实施例的对文本内容进行分词的原理图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1和2所示,本发明提供一种兴趣识别方法,包括:
步骤S1,收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;具体的,所述文本内容为用户浏览的文本内容;
步骤S2,对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;具体的,名词、人名、机构名是天然的语义实体,每一篇新闻、每一个帖子则是一个文本实体,如果对非结构化的带顺序的词组集合进行语义实体间的关系抽取,比如:在大量的文本中,科比/nr 和 瓦妮莎/nr 这两个人名同时出现,并且另外两个词 丈夫/n和妻子/n共现的概率也较高,因此可以判断“科比”这个实体和“瓦妮莎”这个实体的关系是夫妻关系;如果对结构化数据进行语义实体间的关系抽取,比如:已知 湖人/nt 这个实体在NBA球队表中,因此这个词的其中一个属性为“NBA球队”,科比/nr 这个词在NBA球员表中,因此这个词其中一个属性为“NBA球员”。而在业务数据库中两个词在关系型数据库中是关联的(“科比”这条记录的球队ID对应是“湖人”),因此可以知道 科比/nr 和 湖人/nt 之前的关系是“效力于”,即:“科比”->“效力于”->“湖人”;详细的,文本实体与语义实体间的关系抽取,具体如下:
先将每个文本实体与它内容中的每个语义实体建立关系,再根据每个语义实体与文本实体间的关系数,确定每个语义实体的重要程度;
根据上一步得到的每个语义实体的重要程度,对每个文本实体内所包含的文本实体排序,每个文本实体保留3-5个与最重要的语义实体间的关系,将其他关系剔除;
步骤S3,对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;具体的,在此计算每个文本实体与其他文本实体以及同属性语义实体间关系的重合度,将重合度高的语义实体归并,从而避免了现有技术中兴趣标签的不规范,当将设定兴趣的权利给予用户时,用户对于同一件事物的描述往往不尽相同,导致大量相同的标签被异化,加大识别难度并影响精度的问题,同时,也解决了现有技术中同语义或相近语义标签无法归并,降低了兴趣识别的精准度的问题;
步骤S4,如图2所示,将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;具体的,在此形成一个基于语义实体、语义实体间关系、语义实体与文本实体间关系组成的一个知识图谱;
步骤S5,根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;具体的,网页端可通过JS代码、APP端可通过采集SDK,收集用户的浏览行为数据,例如用户A在时间x访问了一个新闻,新闻ID为100,并且点了赞;通过业务数据库中发帖、回复表,来收集访问行为数据,例如用户B在时间y发布了一个帖子,帖子ID是200;
步骤S6, 若有,将所述侧重的语义实体作为该用户的兴趣标签。
优选的,将所述侧重的语义实体作为该用户的兴趣标签,包括:
获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;
将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。具体的,所述基本标签可以来自一用户图谱系统中现有的标签,在此,可对用户根据用户的基本标签进行分组,比如按照年龄段或者性别进行分组,以便于后续分析区别不同年龄段或者性别的用户对于同一语义实体的不同理解。举例来说“王朝”这个名词的语义实体,对于年龄较大的球迷,他们访问和互动的新闻、帖子在包含“王朝”这个语义实体的同时,大部分还包含“公牛”这个语义实体;而对于年龄稍轻一些的球迷,他们访问和互动新闻、帖子在包含“王朝”这个语义实体的同时,大部分还包含“湖人”这个语义实体。说明对于两个不同年龄段的用户来说“王朝”分别代表了“公牛”“王朝”和“湖人”“王朝”。
优选的,所述一定时间范围内为最近一定时间范围内,由于每次计算都是使用最近一定时间范围内的用户访问行为数据和互动行为数据,因此能避免历史数据造成的误差。
优选的,步骤S7,若无,判断用户是否访问量过高,若是,判断该用户可能是爬虫。
优选的,步骤S8,若无,判断用户访问的语义实体是否相悖,且互动量较高,若是,则判断该用户是水军。
优选的,将所述侧重的语义实体作为该用户的兴趣标签之后,还包括根据用户的兴趣标签向用户推荐内容。具体如:
1.内容推荐:一篇新的新闻或者新的帖子,推送给兴趣点为与其相关联的语义实体一致的用户。
2.商品推荐:如果一个用户对于“篮球鞋”和“科比”这两个语义实体感兴趣,那么当电商平台上出现一件商品同样与“篮球鞋”和“科比”这两个语义实体存在关联时,将这件商品推荐给这个用户。
3.智能搜索:如果用户搜索“科比的妻子”,则根据知识图谱“科比”语义实体以及“妻子”这个关系实体,关联到“瓦妮莎”这个语义实体,并将于这个语义实体相关的文本实体作为结果返回给用户。
详细的,例如将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体(如文本实体ID)关联到对应的语义实体,通过统计学获得每个用户访问时侧重的语义实体,作为其兴趣标签。若用户无明显访问重点,且访问量较高,则说明这个用户可能是爬虫,若用户访问重点通常相悖,且互动量较高,则说明其可能是水军。
优选的,对所述文本内容进行处理,包括:
对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理。例如,输入的文本内容为“学校的学费要一次性交一千元”,经过本步骤后,输出的处理结果为“学校/n, 学费/n, 要/v, 一次性/d, 交/v, 一千元/m”。
详细的,歧义词处理如下:
对于一些特殊的句式比如“林书豪比萨克雷强”,正向匹配结果为:林书豪/比萨/克雷/强,逆向匹配结果为:林书豪/比/萨克雷/强。
实际上萨克雷是一个人名,但是由于正常情况下“比萨”这个词比“萨克雷”这个词出现的概率大,导致正向分词结果从统计学上比逆向分词更好,但实际这是一个错误的分词结果。
因此会通过歧义词处理来纠正这个错误,即存在一个歧义词词典,当出现“比萨克雷”这样的组合是系统强制分词为“比/萨克雷”结果。
歧义词由人工在日常对分词结果的随机抽检中发现分词错误后添加进词典。
详细的,词性识别如下:
中文中同一个词会有不同的词性,比如“统计”即是一个名词又是一个动词。
系统在识别词性时,会根据多词性词的前后词的词性来判断这个词属于什么词性。
比如:我是一个学统计的学生。系统发现“统计”前面的词“学”是一个动词,因此“统计”这个词再这边属于名词的概率更大。
又如:领导叫我统计总数。这边的“统计”前面是一个主语,且是一个人称代词,后面是一个名词,因此这边的“统计”是一个动词的概率更大。
详细的,去除停用词如下:
根据停用词典,将分词结果中的无用的停用词滤除,停用词如:“的”、“了”、“地”等。
详细的,消除脏数据如下:
脏数据主要是水军发布的包含敏感词的分词结果、整个句子中存在较少词,较多单字的分词结果。
优选的,如图3所示,对所述文本内容进行分词包括:
对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词。具体的,基于类的隐马科夫分词是对于多个分词结果选择最优分词结果的一个过程,通过对每个分词结果,计算其整个结果出现的概率值,取其概率值最大的分词结果作为输出结果,该模型已被证明在语音识别、行为识别等领域非常适用。
较佳的,所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词。
详细的,正向最大匹配法如下:
例句:中华民族从此站起来了
算法逻辑:
1.取出第一个字“中”,去词典匹配发现这不是一个词,但存在一些词以“中”字开头,因此需要继续匹配;
2.取出前两个字“中华”,去词典匹配发现这是一个词,但同样存在词以“中华”开头,因此继续匹配;
3.取出前三个字“中华民”,去词典匹配发现这不是一个词,但同样存在词以“中华民”开头,因此继续匹配;
4.取出前四个字“中华民族”,去词典匹配发现是一个词,并且没有其他词以“中华民族”开头,因此将“中华民族”切分出来;
5.将整个句子中去除“中华民族”,继续按照逻辑从第1点开始同样的匹配,直至整个句子匹配完毕。
最后得到结果:中华民族/从此/站起来/了
详细的,逆向最大匹配法如下:
例句:我们在野生动物园玩
算法逻辑:
1.整个句子去词典匹配,发现不是一个词;
2.去掉第一个字,即用“们在野生动物园玩”去词典匹配,发现不是一个词;
3.再去掉第一个字,用“在野生动物园玩”去词典匹配,发现不是一个词;
最后得到第一个分词结果“玩”;
整个句子去掉“玩”字,继续按照逻辑从第1点开始匹配,直至整个句子匹配完毕。
最后得到结果:我们/在/野生动物园/玩
由于字典在匹配时会动态的计数,没当1个词出现1次,就会在其权重上加1,当文本正向和逆向匹配完成后,计算哪种分词结果出现的概率更大。
两种分词结果中,每个词出现的概率相乘,计算得到的概率更大的分词结果作为实际的输出结果。
详细的,统计分词如下:
将整个文本以每个字为单位切分,计算所有文本中每个字出现的次数n,以及整个文本的总字数N。
每个字出现的概率为p=n/N。
将整个文本以2个字为单位切分,计算这两个字连续情况下在整个文本中出现的次数n1,以及整个文本中2个字的总次数N1,
这两个字在整个文本中出现的概率为p1=n1/N1。
比如一个词:“统计”,如果“统”字出现的概率为1%,“计”字出现的概率为2%,则如果“统计”这两个字连续出现的概率为1%*2%。
若实际在文本中计算得到“统计”这个词组实际出现的概率远大于1%*2%(一般为50到100倍),则说明实际上“统计”这是一个词,而非是两个无关的字。
统计分词主要用来发现新词,即字典中没有的词,但是通过统计后发现其应该是一个词,之后在后台上列出,由人工审核后决定是否添加入词典。
较佳的,所述基于类的隐马分词之后还包括进行词性标注。具体的,词性标注主要用以在构建知识图谱时能很快找出名词、人名等语义实体。
较佳的,未登录词识别之后,还包括将识别到的未登录词更新补充入所述分词词典和歧义词词典。相应的,嵌套未登录词识别之后,还包括将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。具体的,将未登陆词及嵌套未登录词更新入分词词典以及歧义词词典,是为了下一次分词时能直接识别出这些词,而不是再一次去识别未登录词,以提高分词效率。
实施例二
本发明还提供另一种兴趣识别系统,包括:
收集处理模块,用于收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;
抽取模块,用于对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;
归并模块,用于对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;
知识图谱形成模块,用于将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;
第一判断模块,用于根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体;
兴趣标签模块,用于若有所述侧重的语义实体,将所述侧重的语义实体作为该用户的兴趣标签。
优选的,所述兴趣标签模块,用于获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。
优选的,所述一定时间范围内为最近一定时间范围内。
优选的,所述系统还包括:
第二判断模块,用于若无侧重的语义实体,判断用户是否访问量过高,若是,判断该用户可能是爬虫。
优选的,所述系统,还包括:
第三判断模块,用于若无侧重的语义实体,判断用户访问的语义实体是否相悖,且互动量较高,若是,则判断该用户是水军。
优选的,所述系统还包括推荐模块,用于根据用户的兴趣标签向用户推荐内容。
优选的,所述收集处理模块,用于对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理。
优选的,所述收集处理模块,用于对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词。
优选的,所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词。
优选的,所述收集处理模块,用于在所述基于类的隐马分词之后进行词性标注。
优选的,所述收集处理模块,用于在未登录词识别之后,将识别到的未登录词更新补充入所述分词词典和歧义词词典。
优选的,所述收集处理模块,用于在嵌套未登录词识别之后,将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。
实施例二的其它详细内容,具体可参见实施例一的对应部分,在此不再赘述。
综上所述,本发明使用用户浏览的文本内容构建知识图谱,并从中抽取用户兴趣点,能够帮助提升对于内容的搜索及推荐的精准度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种兴趣识别方法,其特征在于,包括:
收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;
对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;
对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;
将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;
根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体,其中, 所述一定时间范围内为最近一定时间范围内;
若有,将所述侧重的语义实体作为该用户的兴趣标签。
2.如权利要求1所述的兴趣识别方法,其特征在于,将所述侧重的语义实体作为该用户的兴趣标签,包括:
获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;
将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。
3.如权利要求1所述的兴趣识别方法,其特征在于,对所述文本内容进行处理,包括:
对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理,其中,对所述文本内容进行分词包括:
对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词,其中, 所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词;所述基于类的隐马分词之后还包括进行词性标注。
4.如权利要求4所述的兴趣识别方法,其特征在于,未登录词识别之后,还包括将识别到的未登录词更新补充入所述分词词典和歧义词词典。
5.如权利要求4所述的兴趣识别方法,其特征在于,嵌套未登录词识别之后,还包括将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。
6.一种兴趣识别系统,其特征在于,包括:
收集处理模块,用于收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;
抽取模块,用于对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;
归并模块,用于对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;
知识图谱形成模块,用于将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;
第一判断模块,用于根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体,其中,所述一定时间范围内为最近一定时间范围内;
兴趣标签模块,用于若有所述侧重的语义实体,将所述侧重的语义实体作为该用户的兴趣标签。
7.如权利要求6所述的兴趣识别系统,其特征在于,所述兴趣标签模块,用于获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。
8.如权利要求6所述的兴趣识别系统,其特征在于,所述收集处理模块,用于对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理,其中,对所述文本内容进行分词包括:
对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词,其中, 所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词;所述基于类的隐马分词之后还包括进行词性标注。
9.如权利要求8所述的兴趣识别系统,其特征在于,所述收集处理模块,用于在未登录词识别之后,将识别到的未登录词更新补充入所述分词词典和歧义词词典。
10.如权利要求8所述的兴趣识别系统,其特征在于,所述收集处理模块,用于在嵌套未登录词识别之后,将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。
CN201610652621.7A 2016-08-11 2016-08-11 兴趣识别方法及系统 Pending CN106294744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610652621.7A CN106294744A (zh) 2016-08-11 2016-08-11 兴趣识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610652621.7A CN106294744A (zh) 2016-08-11 2016-08-11 兴趣识别方法及系统

Publications (1)

Publication Number Publication Date
CN106294744A true CN106294744A (zh) 2017-01-04

Family

ID=57667858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610652621.7A Pending CN106294744A (zh) 2016-08-11 2016-08-11 兴趣识别方法及系统

Country Status (1)

Country Link
CN (1) CN106294744A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN109033101A (zh) * 2017-06-08 2018-12-18 华为软件技术有限公司 标签推荐方法及装置
CN109389182A (zh) * 2018-10-31 2019-02-26 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109460516A (zh) * 2018-11-16 2019-03-12 广东小天才科技有限公司 一种学习内容推荐方法及系统
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质
CN110263226A (zh) * 2019-05-10 2019-09-20 平安科技(深圳)有限公司 针对药品的数据库更新方法、装置及电子装置
CN110263248A (zh) * 2019-05-21 2019-09-20 平安科技(深圳)有限公司 一种信息推送方法、装置、存储介质和服务器
CN110555112A (zh) * 2019-08-22 2019-12-10 桂林电子科技大学 一种基于用户正负偏好学习的兴趣点推荐方法
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN112988774A (zh) * 2021-03-23 2021-06-18 汪威 一种基于大数据采集的用户信息更新方法及信息服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706794A (zh) * 2009-11-24 2010-05-12 上海显智信息科技有限公司 基于语义实体关系模型和可视化推荐的信息浏览检索方法
CN102622445A (zh) * 2012-03-15 2012-08-01 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
CN104216881A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种个性化标签的推荐方法及装置
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706794A (zh) * 2009-11-24 2010-05-12 上海显智信息科技有限公司 基于语义实体关系模型和可视化推荐的信息浏览检索方法
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
CN102622445A (zh) * 2012-03-15 2012-08-01 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN104216881A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种个性化标签的推荐方法及装置
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033101A (zh) * 2017-06-08 2018-12-18 华为软件技术有限公司 标签推荐方法及装置
CN109033101B (zh) * 2017-06-08 2021-08-20 华为技术有限公司 标签推荐方法及装置
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108363698B (zh) * 2018-03-13 2021-05-14 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN108733798B (zh) * 2018-05-17 2021-11-19 电子科技大学 一种基于知识图谱的个性化推荐方法
CN109389182A (zh) * 2018-10-31 2019-02-26 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109472032A (zh) * 2018-11-14 2019-03-15 北京锐安科技有限公司 一种实体关系图的确定方法、装置、服务器及存储介质
CN109460516A (zh) * 2018-11-16 2019-03-12 广东小天才科技有限公司 一种学习内容推荐方法及系统
CN109558479A (zh) * 2018-11-29 2019-04-02 北京羽扇智信息科技有限公司 一种规则匹配方法、装置、设备及存储介质
CN109558479B (zh) * 2018-11-29 2022-12-02 出门问问创新科技有限公司 一种规则匹配方法、装置、设备及存储介质
CN110263226A (zh) * 2019-05-10 2019-09-20 平安科技(深圳)有限公司 针对药品的数据库更新方法、装置及电子装置
CN110263248A (zh) * 2019-05-21 2019-09-20 平安科技(深圳)有限公司 一种信息推送方法、装置、存储介质和服务器
CN110263248B (zh) * 2019-05-21 2023-11-28 平安科技(深圳)有限公司 一种信息推送方法、装置、存储介质和服务器
CN110555112A (zh) * 2019-08-22 2019-12-10 桂林电子科技大学 一种基于用户正负偏好学习的兴趣点推荐方法
CN110555112B (zh) * 2019-08-22 2022-07-15 桂林电子科技大学 一种基于用户正负偏好学习的兴趣点推荐方法
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN112988774B (zh) * 2021-03-23 2021-10-15 宝嘉德(上海)文化发展有限公司 一种基于大数据采集的用户信息更新方法及信息服务器
CN112988774A (zh) * 2021-03-23 2021-06-18 汪威 一种基于大数据采集的用户信息更新方法及信息服务器

Similar Documents

Publication Publication Date Title
CN106294744A (zh) 兴趣识别方法及系统
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
US9535911B2 (en) Processing a content item with regard to an event
CN106709040B (zh) 一种应用搜索方法和服务器
CN103164454B (zh) 关键词分组方法及系统
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及系统
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN104978314B (zh) 媒体内容推荐方法及装置
CN103425635A (zh) 一种答案推荐方法和装置
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN104598588A (zh) 基于双聚类的微博用户标签自动生成算法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
US8428933B1 (en) Usage based query response
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
KR101319413B1 (ko) 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN109885776A (zh) 开源社区pr评审者可解释推荐模型
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104

WD01 Invention patent application deemed withdrawn after publication