CN107330124A - 内容推荐方法 - Google Patents

内容推荐方法 Download PDF

Info

Publication number
CN107330124A
CN107330124A CN201710592538.XA CN201710592538A CN107330124A CN 107330124 A CN107330124 A CN 107330124A CN 201710592538 A CN201710592538 A CN 201710592538A CN 107330124 A CN107330124 A CN 107330124A
Authority
CN
China
Prior art keywords
keyword
file
hyphenation
word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710592538.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cao Huacheng
Original Assignee
Cao Huacheng
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cao Huacheng filed Critical Cao Huacheng
Priority to CN201710592538.XA priority Critical patent/CN107330124A/zh
Publication of CN107330124A publication Critical patent/CN107330124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种内容推荐方法,其特征在于,该方法包括:断词步骤:对资料库的文件断词;提取步骤:过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度为依据提取文件的关键词;统计步骤:统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选用户的兴趣关键词;及检索步骤:根据用户的兴趣关键词进行检索,并以兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。

Description

内容推荐方法
本申请是申请号为2013100761474、申请日为2013年03月11 日、发明创造名称为“内容推荐系统”的专利的分案申请。
技术领域
本发明涉及文字信息检索技术,尤其涉及一种内容推荐方法。
背景技术
信息技术的不断发展极大提高了人们获取信息的便利性。无论是通过互联网的各大门户网站、电子商务系统还是通过企业内部的各种资源共享系统的方式,海量的信息开放给用户自由查阅。
目前信息量的日益庞大,很大程度上增加了用户获取有效信息的繁重性和复杂度。如何根据用户在网络上查阅文件的行为,分析用户阅读兴趣并检索有效信息提供给用户是信息检索中一个重要的课题。
发明内容
鉴于以上内容,有必要提供一种内容推荐系统及方法,可以有效利用用户网络上的检索行为,统计并分析用户阅读兴趣,获取有效的文件信息提供给用户。
所述的内容推荐系统包括:断词模块,用于对资料库中的文件进行断词;提取模块,用于过滤断词结果,并计算过滤结果中词的重要程度,以重要程度为依据,提取出文件的关键词;统计模块,用于统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据,筛选出用户的兴趣关键词;及检索模块,用于根据用户的兴趣关键词从资料库中检索文件,并根据兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。
所述的内容推荐方法包括:对资料库的文件断词;过滤断词结果,并计算过滤结果中词的重要程度,以重要程度为依据提取文件的关键词;统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选出用户的兴趣关键词;及根据用户的兴趣关键词从资料库中检索文件,并根据兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。
本发明可以提取文字信息的关键词借以分析用户检索行为并统计用户的兴趣关键词,获取符合用户自身特点的信息推送给用户,降低了用户检索和信息过滤的复杂度和繁重性。
附图说明
图1是本发明内容推荐系统较佳实施例的应用环境图。
图2是本发明内容推荐系统较佳实施例的功能模块图。
图3是本发明内容推荐方法较佳实施例的方法流程图。
图4是本发明内容推荐系统较佳实施例中文件汇总记录的示意图。
图5是本发明内容推荐系统较佳实施例中文件关键词记录的示意图。
图6是本发明内容推荐系统较佳实施例中用户兴趣关键词记录的示意图。
主要元件符号说明
服务器 1
用户终端 2
内容推荐系统 10
处理器 11
资料库 12
解析模块 100
断词模块 101
提取模块 102
统计模块 103
检索模块 104
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
参阅图1所示,是本发明内容推荐系统的较佳实施例的应用环境图。所述的内容推荐系统10应用于服务器1中。所述服务器1通过国际互联网络或企业内部网络和一个用户终端2进行通讯连接。在本较佳实施例中仅以1个用户终端2进行说明,在本发明其他实施例中服务器1可以与多个用户终端2进行连接。所述用户终端2可以是个人电脑、平板电脑、移动通讯设备(例如手机)等。
所述内容推荐系统10的程序代码由处理器11控制执行,并与资料库12进行数据存取传输。所述资料库12存储开放给用户终端2检索的文件、断词词库以及常用词词库、内容推荐系统10处理产生的数据记录等。所述断词词库以及常用词词库提供给内容推荐系统10在断词和提取文件关键词时使用。所述资料库12可以是内置在服务器1的存储器也可以是外接服务器1的存储器。
图1仅为示例,在实际应用中,所述的内容推荐系统10的应用并不局限于此。
参阅图2所示,是本发明内容推荐系统的较佳实施例的功能模块图。所述内容推荐系统10包括解析模块100、断词模块101、提取模块102、统计模块103及检索模块104。
所述解析模块100用于将文件解析为具有标题及文字正文的结构性的文字信息。所述文件可以是网页内容、含图片的Word文件、Text 文本信息等。本发明其他实施例中可根据文件类型以及文件来源等适当取舍解析模块100。当文件为网页时,解析模块主要是利用网页拆解技术,剔除网页原始码中的HTML语法(Hyper Text Markup Language,超文本标记语言)、JavaScript语法和一些无意义的图片或链接等。当文件为Word文件时,解析模块主要是用来剔除文字无关的图片等。当文件为Text文本信息,则无需解析模块对文件进行解析。
所述断词模块101用于对解析后的文字信息进行断词。所述断词是将文字信息的文句断开成可赋予词类的词。
因为中文不似英文有明显的空白符号作为断词的判断,常见的中文断词技术有词库式断词法(Word Identification)、统计式断词法 (Statistical WordIdentification)及混合式断词法(Hybrid Word Identification)。词库式断词法对文件断词主要是比对文件中出现的词汇与词库中的词汇进行断词,断词的结果主要受词库大小、品质的影响,一些专有名词或是新生词汇则由于词库的限制而无法正确断出。对于词库式断词加上构词规则的分析即为规则式词库断词法。统计式断词法对文件断词是由一定的统计公式统计临近字元同时出现的频率,以频率的高低作为断词的依据,断词结果不依赖词库品质而是以频率高低决定词汇,可能得到没有意义的词汇。混合式断词法是将词库式断词法和统计式断词法整合,首先利用词库式断词法对文字信息断词,可配合使用构词规则简化断词,再以统计公式列出所有可能结果。混合式断词法结合两种断词法的优点,一定程度上规避了两种断词法的缺点从而优化了断词过程。
在本发明的较佳实施例中采取了混合式断词法对中文文字信息进行 断词。首先根据资料库12中的断词词库并配合词库小组提出的六条断 词规则即采用规则式词库断词法对文字信息进行第一阶段的断词,其中 断词词库可以根据本发明不同实施例的适用范围而进行建制;其次利用 统计分析法的统计公式对第一阶段断词后的断词结果进行频率统计,列 出所有可能的词。
本较佳实施例中统计式断词法的主要统计公式如下:
F[i]>1………………(公式1-1)
TF[i]>1………………(公式1-2)
F[i]=TF[i]……………(公式1-3)
F[i]表示的某个字、词在文字信息中单独出现的次数;
TF[i]表示F[i]记录的该字、词其后的字、词在文字信息中单独出现的次数;
F[i]=TF[i]表示某个字、词出现的次数和该字、词其后的字、词出现的次数一致,则表明这两者每次在文字信息中都是一起出现,故认为两者可以合并为一个词。
现以一段节选自东方早报网站上的题为《破解“春运购票难”需要系统性方案》的内容为例,对本较佳实施例的断词法进行详细说明。节选内容如下:
近年来,铁路春运压力始终居高不下,虽然铁道部努力改善车票购买办法,采取了诸如网络和电话订票、推行实名制、打击“黄牛”等措施,尽量让乘客顺利出行,并取得了一定成效。但今年春运,从艰难的购票到倒票现象依然存在,无不说明诸多乱象的存在。这显示,破解春运购票难,绝对不是单纯票务管理的问题,而是铁路内部涉及利益、理念和技术等各方面的系统工程。
以上文字内容经本实施例的第一阶段断词,断词结果为:
“近年来铁路春运压力始终居高不下虽然铁道部努力改善车票购买方法采取了诸如网络和电话订票推行实名制打击黄牛等措施尽量让乘客顺利出行并取得了一定成效但今年春运从艰难的倒票现象依然存在这显示破解春运购票难绝对不是单纯票务管理的问题而是铁路内部涉及利益理念技术等各方面的系统工程”。
本发明其他实施例中采用不同的断词词库以及断词规则,第一阶段的断词结果则不尽相同。若本实施例的断词词库无“春运”这个词,则第一阶段的断词结果中“春”、“运”是两个独立的字,且“运”字有出现在“春”字之后。
对第一阶段断词产生的词、字进行统计分析法断词,第二阶段的统计式断词仅以“春”、“运”这两个进行说明:“春”F[i]=3;“运” TF[i]=3;F[i]=TF[i]即3=3则“春”、“运”可以合并为一个词“春运”。
本较佳实施例为降低演算的时间复杂度、提高系统性能而采用以上统计公式进行快速断词,在本发明其他实施例中可以使用不同的统计公式计算临近字元出现的高低频率作为断词的依据。
本发明其他实施例中所述断词模块101对中文断词的方法不限定为本较佳实施例所使用的混合式断词法。
所述提取模块102用于从文件断词后的断词结果中提取出合适的词作为文件的关键词,并将所述关键词以图5所示的文件关键词记录的格式记录并储存至资料库12中。
本较佳实施例中,上述提取过程为:首先,根据资料库12中的常用词词库对断词模块101产生的断词结果进行过滤。断词结果的词不都与文件主题相关,在提取文件关键词之前需对断词结果中的词进行过滤,例如:一些无意义的词“的”、“吗”、“是”或是如“虽然”、“但是”、“并且”等表示句子成分关系的词或是如“一些”、“很多”、“非常”等表示数量及程度的词或是一些“我们”、“大家”等人称代词或是“今天”、“明天”等表示时间的词。其次,加权法计算过滤后的词的重要程度并根据重要程度进行降序排列,取前m个词作为文件的关键词。一篇文件往往针对一个特定主题,那么在文字信息中必定会反复提及一些与主题相关的词,本较佳实施例以此为依据进行计算。本较佳实施例中指定文字正文权重为1,标题权重为3,则一个词的重要程度=该词在文字正文出现次数×正文权重+该词在标题中出现次数×标题权重。例如,一篇文件中“高铁”在文字正文出现了5次,在标题中出现1次,则“高铁”在该文件的重要程度=5×1+1×3=8。
本较佳实施例中,服务器1设定每日排程,在每天人均访问量较少的几个时间段上传新的文件至资料库12,同时,为每个新文件分配文件ID,并将文件ID、路径、标题、大小等内容以图4所示文件汇总记录的格式记录并存储至资料库12。解析模块100、断词模块101和提取模块102按照排程,对资料库12新增的文件进行解析、断词以及提取关键词,提取的关键词以图5所示的文件关键词记录的格式记录并将该文件关键词记录表储存至资料库12,以便后续统计模块103根据历史记录内文件ID快速从该文件关键词记录表中取得文件的关键词并从中筛选出用户的兴趣关键词。如图5所示,所述文件关键词记录表的栏位包括:文件ID、项次、关键词、重要程度等。
本发明其他实施例中提取模块102可以计算断词结果中词的词频,以此作为提取关键词的依据。权重计算可以采用TF-IDF(Term Frequency-Inverse documentFrequency,词频-逆向文件频率)加权算法或是单独的TF(Term Frequency,词频)加权算法计算词在文件中的词频,根据词频进行降序排序,提取前m个词作为关键词。
所述统计模块103用于根据用户查阅文件的历史记录和图5所示的文件关键词记录,统计筛选出用户的兴趣关键词,并将所述兴趣关键词以图6所示的用户兴趣关键词记录的格式记录并储存至资料库12中。所述历史记录包含有用户ID、日期、文件ID等内容,用户终端2在查阅资料库12中的文件时,服务器1会将用户查阅行为储存至资料库12 中。
本较佳实施例中,上述统计筛选的过程如下:首先,从资料库12 中获取用户最近的某个时间范围的历史记录,该历史记录中包含有用户 ID、检索日期、文件ID等内容。其次,根据历史记录内文件ID从资料库12中查询图5所示的文件关键词记录表,汇总查询结果的关键词以及每个关键词的重要程度。最后,根据公式2-1计算出每个关键词的适合度,以适合度对关键词降序排序,取前r个关键词作为兴趣关键词。所述兴趣关键词是从用户历史记录内的文件的关键词中获取的,能够反映用户兴趣的关键词。所述适合度用于衡量关键词是否可作为兴趣关键词的标准。历史记录内的文件的关键词汇总后的重要程度越高,则表明该关键词是兴趣关键词的可能性越高;但是若该关键词在历史记录内的每个文件出现,则该关键词能够区别其他关键词作为兴趣关键词的辨识度反而降低,鉴于以上考量,本较佳实施例中设计公式2-1用于计算关键词的适合度。计算关键词能否作为兴趣关键词的适合度的公式见下:
Feq:汇总后的关键词的重要程度;
K:k天内标题出现该关键词的文件篇数;
N:n天内的文件总篇数。
在本发明的其他实施例中可以创建不同的公式用于合理选取历史记录内文件的关键词作为用户的兴趣关键词。
所述统计模块103是基于事后分析的策略,根据用户查阅文件的历史记录,分析出用户的兴趣,以便检索模块104可以根据用户的兴趣关键词,检索出符合用户特点的最新资讯推送给用户。本较佳实施例中,服务器1设定周期性排程,例如在每周一的某个时间段根据用户上一周查阅的文件,从以上文件的关键词中重新筛选出用户的兴趣关键词,将兴趣关键词以图6所示的用户兴趣关键词记录的格式记录并存储在资料库12中。历史记录的周期选择影响到兴趣关键词选取的实时性,在其他实施例中可以根据不同用户层面来制定不同的周期。
所述检索模块104用于根据资料库12中图4所示文件汇总记录和图6所示的兴趣关键词检索文件,并计算检索结果中文件的关注度,以关注度为依据选取文件返回给用户终端2,推荐用户查阅。
本较佳实施例中,上述检索及计算过程为:首先,根据资料库12 中图4所示的文件汇总记录和图6所示的兴趣关键词检索文件,若文件标题与用户的某个兴趣关键词匹配,则检索出该文件。其次,根据图6 所示的兴趣关键词及适合度,计算出检索结果中各文件标题中兴趣关键词的比重即文件的关注度,以关注度进行降序排序,获取前s个文件返回给用户。所述文件的关注度是指兴趣关键词在文件标题中的比重,是衡量文件可能被用户关注的程度。本较佳实施例的文件关注度=Σ(兴趣关键词在文件标题出现次数×该兴趣关键词的适合度),所述兴趣关键词的适合度即为统计模块103筛选兴趣关键词的依据,由公式2-1计算得到。
例如,用户一周内的兴趣关键词为“春运、高铁、西安、深圳、广州”,各兴趣关键词的适合度分别为1、2、5、4、3,若文件1的标题为“2013年春运广州高铁预售期公布”,文件2的标题为“西安到深圳列车时刻及票价查询”,因为文件1标题匹配了兴趣关键词“春运”、“广州”、“高铁”,文件2标题匹配了兴趣关键词“西安”、“深圳”,所以这两个文件会被检索出来,文件1标题和文件2标题中匹配的兴趣关键词出现的次数都为1,文件1的关注度=1×1(“春运”的适合度)+1×3(“广州”的适合度)+1×2(“高铁”的适合度)即文件1的关注度为6,文件2的关注度=1×5(“西安”的适合度)+1×4(“深圳”的适合度)即文件2的关注度为9,则两个文件相比的话优先选择关注度较高的文件2返回给用户。
需要指出的是,为提高系统运行速度、降低运算复杂度,所述检索模块104检索文件和计算文件关注度都限定在文件标题范围。本发明其他实施例也可以根据图5所示文件的关键词和重要程度结合图6所示的兴趣关键词和适合度,制定和设计出其他的检索标准和文件关注度计算公式。
参阅图3所示,是本发明内容推荐方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S01,解析模块100将文件解析为具有标题及文字正文的结构性的文字信息。所述文件可以是网页内容、含图片的Word文件、Text 文本信息等。其他实施例中可根据文件类型以及文件来源等可以适当取舍解析模块100。当文件为网页时,解析模块主要是利用网页拆解技术,剔除网页原始码中的HTML语法(Hyper Text Markup Language,超文本标记语言)、JavaScript语法和一些无意义的图片或链接等。当文件为Word文件时,解析模块主要是用来剔除文字无关的图片等。当文件为Text文本信息时,步骤S01可以省略,无需对文件解析。
步骤S02,断词模块101根据混合式断词法对解析后的文字信息进 行断词。因为中文不似英文以空白将词区分,在本发明的较佳实施例中 采取了混合式断词法对中文文字信息进行断词。首先根据资料库12中 的断词词库并配合词库小组提出的六条断词规则即规则式词库断词法对 文字信息进行第一阶段的断词,其中断词词库可以根据本发明不同实施 例的适用范围而进行建制;其次利用统计分析法的统计公式对第一阶段 断词后的断词结果进行频率统计。
本较佳实施例中统计分析法断词的主要统计公式见前文所述的公式1-1、公式1-2、公式1-3。
步骤S03,提取模块102从断词结果中提取合适的词作为文件的关键词。首先,利用资料库12中的常用词词库过滤断词结果,剔除常见的诸如“今天”、“我们”、“并且”等词汇;其次,根据加权法计算过滤后的断词结果中每个词的重要程度并以重要程度降序排列,取前 m个词作为文件的关键词。一篇文件内容往往针对一个特定主题,那么在文件内容中必定会反复提及一些与主题相关的词,本较佳实施例以此为依据进行计算词的重要程度。本较佳实施例中指定文字正文权重为1,标题权重为3,则一个词的重要程度=该词在文字正文出现次数×正文权重+该词在标题中出现次数×标题权重。例如一篇文件中“高铁”在文字正文出现了5次,在标题中出现1次,则“高铁”在该文件的重要程度=5×1+1×3=8。
本较佳实施例中服务器1设定每日排程,在每天人均访问量较少的时间段上传新的文件至资料库12中,所述步骤S01至S03按照排程对新增的文件进行解析、断词及提取关键词,将提取的关键词存储在图5 所示的文件关键词记录表中,以便后续步骤能够根据该表记录的文件 ID快速取得文件关键词并从中筛选出用户的兴趣关键词。
步骤S04,统计模块103根据用户查阅文件的历史记录,统计筛选出用户的兴趣关键词。所述历史记录包含有用户ID、日期、文件ID等内容,用户终端2在查阅资料库12中的文件时,服务器1会将用户查阅行为储存至资料库12中。
首先,从资料库12中获取用户最近的某个时间范围的历史记录。其次,根据历史记录内的文件ID从资料库12中查询图5所示的文件关键词记录表,汇总查询结果的关键词以及每个关键词的重要程度。最后,根据公式2-1计算出关键词的适合度,以适合度对关键词降序排序,取前r个关键词作为兴趣关键词,将筛选的兴趣关键词存储在图6 所示的用户兴趣关键词记录表中,以便检索步骤可以根据表中的兴趣关键词检索资料库12中的文件。
所述步骤S04按照周期性排程,在某个时间段从用户上次查阅文件的关键词中重新筛选出用户的兴趣关键词。
步骤S05,检索模块104根据统计得到的兴趣关键词对文件进行检索,计算出检索结果中文件的关注度,以关注度为依据选取文件返回给用户。
本较佳实施例中,上述检索及计算过程为:首先,根据资料库12 中图4所示文件汇总记录和图6所示的兴趣关键词检索文件,若文件标题与用户的某个兴趣关键词匹配,则检索出该文件。其次,根据图6所示的兴趣关键词及适合度,计算出检索结果中各文件标题中兴趣关键词的比重即文件的关注度,以关注度进行降序排序,获取前s个文件返回给用户。所述文件的关注度是指兴趣兴趣关键词在文件标题中的比重,衡量文件可能被用户关注的程度。本较佳实施例的文件关注度=Σ (兴趣关键词在文件标题出现次数×该兴趣关键词的适合度),所述兴趣关键词的适合度即为统计模块103筛选兴趣关键词的依据,由公式 2-1计算得到。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。

Claims (6)

1.一种内容推荐方法,其特征在于,该方法包括:
断词步骤:对资料库的文件断词;
提取步骤:过滤断词结果,并计算过滤结果中词的重要程度,并以重要程度为依据提取文件的关键词;
统计步骤:统计用户查阅的历史记录内文件的关键词及重要程度,并计算出关键词的适合度,以适合度为依据筛选用户的兴趣关键词;及
检索步骤:根据用户的兴趣关键词进行检索,并以兴趣关键词在文件中的比重来计算文件的关注度,以关注度为依据选取文件返回给用户。
2.如权利要求1所述的内容推荐方法,其特征在于,在断词步骤前还包括:解析步骤,将资料库中的文件解析为具有标题及文字正文的结构性的文字信息以便断词。
3.如权利要求1所述的内容推荐方法,其特征在于,所述断词步骤在对中文文字信息断词时采用混合式断词法,即先用规则式词库断词法对文字信息进行第一阶段的断词,再用统计式断词法对第一阶段断词后的断词结果进行频率统计,列出所有可能的词。
4.如权利要求1所述的内容推荐方法,其特征在于,所述提取步骤包括:
根据常用词词库对断词结果进行过滤;
利用加权法计算过滤后的词的重要程度,计算公式为:词的重要程度=该词在文字正文出现的次数×正文权重+该词在标题中出现次数×标题权重;
根据每个词的重要程度进行降序排列,取前m个词作为文件的关键词;
将提取的关键词记录在文件关键词记录表中,该文件关键词记录表的栏位包括文件ID、项次、关键词、重要程度。
5.如权利要求4所述的内容推荐方法,其特征在于,所述统计步骤包括:
获取用户最近的一个时间范围的历史记录;
根据历史记录内文件ID查询文件关键词记录,汇总查询结果的关键词以及每个关键词的重要程度;
根据汇总的重要程度计算出每个关键词的适合度,所述关键词的适合度是筛选兴趣关键词的依据,根据以下公式计算:
<mrow> <mi>F</mi> <mi>i</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mfrac> <mrow> <mn>100</mn> <mo>&amp;times;</mo> <mi>log</mi> <mi> </mi> <mi>F</mi> <mi>e</mi> <mi>q</mi> </mrow> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mo>|</mo> <mi>K</mi> <mo>-</mo> <mi>N</mi> <mo>/</mo> <mn>2</mn> <mo>|</mo> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,Feq为汇总查询结果的关键词的重要程度,K为k天内标题出现该关键字的文件篇数,N为n天内的文件总篇数;
根据适合度对关键词降序排序,取前r个关键词作为兴趣关键词。
6.如权利要求5所述的内容推荐方法,其特征在于,所述检索步骤包括:
从资料库中检索出文件标题与兴趣关键词匹配的文件;
根据兴趣关键词及适合度计算出检索结果中各文件的关注度,所述文件的关注度是指兴趣关键词在文件标题中的比重,计算公式为:文件关注度=Σ(兴趣关键词在文件标题出现次数×该兴趣关键词的适合度);
根据关注度对各文件降序排序,获取前s个文件返回给用户。
CN201710592538.XA 2013-03-11 2013-03-11 内容推荐方法 Pending CN107330124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710592538.XA CN107330124A (zh) 2013-03-11 2013-03-11 内容推荐方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310076147.4A CN104050163B (zh) 2013-03-11 2013-03-11 内容推荐系统
CN201710592538.XA CN107330124A (zh) 2013-03-11 2013-03-11 内容推荐方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201310076147.4A Division CN104050163B (zh) 2013-03-11 2013-03-11 内容推荐系统

Publications (1)

Publication Number Publication Date
CN107330124A true CN107330124A (zh) 2017-11-07

Family

ID=51489191

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710592538.XA Pending CN107330124A (zh) 2013-03-11 2013-03-11 内容推荐方法
CN201310076147.4A Expired - Fee Related CN104050163B (zh) 2013-03-11 2013-03-11 内容推荐系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201310076147.4A Expired - Fee Related CN104050163B (zh) 2013-03-11 2013-03-11 内容推荐系统

Country Status (3)

Country Link
US (1) US20140258283A1 (zh)
CN (2) CN107330124A (zh)
TW (1) TWI506460B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561211A (zh) * 2018-11-27 2019-04-02 维沃移动通信有限公司 一种信息显示方法及移动终端
CN110851709A (zh) * 2019-10-17 2020-02-28 浙江大搜车软件技术有限公司 资讯推送方法、装置、计算机设备和存储介质

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI550420B (zh) * 2015-02-12 2016-09-21 國立雲林科技大學 資訊取得系統與方法、以及儲存裝置
CN105989120B (zh) * 2015-02-12 2019-08-13 Oppo广东移动通信有限公司 一种个性化内容推荐方法及个性化内容推荐系统
CN104952009A (zh) * 2015-04-23 2015-09-30 阔地教育科技有限公司 资源管理方法、系统、资源管理服务器及互动教学终端
CN105159936A (zh) * 2015-08-06 2015-12-16 广州供电局有限公司 文件分类装置及方法
CN105320770A (zh) * 2015-10-30 2016-02-10 江苏省电力公司电力科学研究院 基于web页面关键字的即时援助搜索系统
CN106250360A (zh) * 2016-01-22 2016-12-21 众德迪克科技(北京)有限公司 一种辅助写作式机器人装置及机器人辅助写作方法
CN105976222B (zh) * 2016-04-27 2020-09-11 腾讯科技(深圳)有限公司 信息推荐方法、终端及服务器
CN106096415B (zh) * 2016-06-24 2019-05-21 康佳集团股份有限公司 一种基于深度学习的恶意代码检测方法及系统
WO2018023684A1 (zh) * 2016-08-05 2018-02-08 吴晓敏 识别用户兴趣时的信息推送方法和识别系统
WO2018023683A1 (zh) * 2016-08-05 2018-02-08 吴晓敏 兴趣点捕捉技术的使用数据统计方法和识别系统
CN106446087A (zh) * 2016-09-12 2017-02-22 福建中金在线信息科技有限公司 专题信息获取方法及装置
CN106254904A (zh) * 2016-09-29 2016-12-21 北京赢点科技有限公司 一种基于用户热词的媒体节目素材推荐方法及系统
CN106780036A (zh) * 2016-11-16 2017-05-31 硕橙(厦门)科技有限公司 一种基于互联网数据采集的情绪指数构建方法
TWI642024B (zh) * 2017-06-20 2018-11-21 宏碁股份有限公司 推薦服務的方法及相關資料處理系統
TWI660279B (zh) * 2017-09-06 2019-05-21 品原顧問有限公司 網路文章推薦方法及應用其的系統
CN108509511A (zh) * 2018-03-08 2018-09-07 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108415903B (zh) * 2018-03-12 2021-09-07 武汉斗鱼网络科技有限公司 判断搜索意图识别有效性的评价方法、存储介质和设备
CN108416055B (zh) * 2018-03-20 2021-05-25 北京三快在线科技有限公司 建立拼音数据库的方法、装置、电子设备及存储介质
CN110598086B (zh) * 2018-05-25 2020-11-24 腾讯科技(深圳)有限公司 文章推荐方法、装置、计算机设备及存储介质
CN109241263A (zh) * 2018-08-31 2019-01-18 重庆水利电力职业技术学院 一种大数据统计分析系统及其工作流程
CN109543113B (zh) * 2018-12-21 2022-02-01 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备
CN109670183B (zh) * 2018-12-21 2023-03-24 北京锐安科技有限公司 一种文本重要性的计算方法、装置、设备和存储介质
US20220027419A1 (en) * 2018-12-28 2022-01-27 Shenzhen Sekorm Component Network Co., Ltd Smart search and recommendation method for content, storage medium, and terminal
CN109783740A (zh) * 2019-01-24 2019-05-21 北京字节跳动网络技术有限公司 关注页面的排序方法及装置
US11429620B2 (en) 2020-06-29 2022-08-30 Western Digital Technologies, Inc. Data storage selection based on data importance
US11429285B2 (en) * 2020-06-29 2022-08-30 Western Digital Technologies, Inc. Content-based data storage
US11379128B2 (en) 2020-06-29 2022-07-05 Western Digital Technologies, Inc. Application-based storage device configuration settings
CN112631752B (zh) * 2020-12-28 2024-04-19 中金数据(武汉)超算技术有限公司 一种基于操作优先度的列表操作方法及装置
CN113343024B (zh) * 2021-08-04 2021-12-07 北京达佳互联信息技术有限公司 对象推荐方法、装置、电子设备及存储介质
CN114706953B (zh) * 2022-04-07 2023-01-10 武汉博晟安全技术股份有限公司 安全生产知识智能推荐方法及系统、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477528B1 (en) * 1999-07-29 2002-11-05 Kabushiki Kaisha Toshiba File management system, electronic filing system, hierarchical structure display method of file, computer readable recording medium recording program in which function thereof is executable
US20050216454A1 (en) * 2004-03-15 2005-09-29 Yahoo! Inc. Inverse search systems and methods
CN1991829A (zh) * 2005-12-29 2007-07-04 陈亚斌 一种搜索引擎系统的搜索方法
US20070299815A1 (en) * 2006-06-26 2007-12-27 Microsoft Corporation Automatically Displaying Keywords and Other Supplemental Information
TW200807346A (en) * 2006-07-17 2008-02-01 Hamastar Technology Co Ltd Knowledge framework system and method for integrating a knowledge management system with an e-learning system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999027469A1 (en) * 1997-11-24 1999-06-03 British Telecommunications Public Limited Company Information management and retrieval
US7653654B1 (en) * 2000-09-29 2010-01-26 International Business Machines Corporation Method and system for selectively accessing files accessible through a network
US6920448B2 (en) * 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
CN1902928A (zh) * 2003-12-29 2007-01-24 皇家飞利浦电子股份有限公司 一种内容推荐方法及系统
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
JP4717871B2 (ja) * 2007-11-06 2011-07-06 シャープ株式会社 コンテンツ視聴装置及びコンテンツ推薦方法
US8180630B2 (en) * 2008-06-06 2012-05-15 Zi Corporation Of Canada, Inc. Systems and methods for an automated personalized dictionary generator for portable devices
TW201142767A (en) * 2010-05-28 2011-12-01 Hamastar Technology Co Ltd Tool and method for creating teaching material

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477528B1 (en) * 1999-07-29 2002-11-05 Kabushiki Kaisha Toshiba File management system, electronic filing system, hierarchical structure display method of file, computer readable recording medium recording program in which function thereof is executable
US20050216454A1 (en) * 2004-03-15 2005-09-29 Yahoo! Inc. Inverse search systems and methods
CN1991829A (zh) * 2005-12-29 2007-07-04 陈亚斌 一种搜索引擎系统的搜索方法
US20070299815A1 (en) * 2006-06-26 2007-12-27 Microsoft Corporation Automatically Displaying Keywords and Other Supplemental Information
TW200807346A (en) * 2006-07-17 2008-02-01 Hamastar Technology Co Ltd Knowledge framework system and method for integrating a knowledge management system with an e-learning system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵英环 等: "基于主题词迭代提取的信息检索算法", 《华南理工大学学报( 自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561211A (zh) * 2018-11-27 2019-04-02 维沃移动通信有限公司 一种信息显示方法及移动终端
CN110851709A (zh) * 2019-10-17 2020-02-28 浙江大搜车软件技术有限公司 资讯推送方法、装置、计算机设备和存储介质
CN110851709B (zh) * 2019-10-17 2022-10-14 浙江大搜车软件技术有限公司 资讯推送方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US20140258283A1 (en) 2014-09-11
TW201435628A (zh) 2014-09-16
TWI506460B (zh) 2015-11-01
CN104050163B (zh) 2017-08-25
CN104050163A (zh) 2014-09-17

Similar Documents

Publication Publication Date Title
CN104050163B (zh) 内容推荐系统
Ahmed et al. Detection of online fake news using n-gram analysis and machine learning techniques
US20190095419A1 (en) Apparatus, systems and methods for scoring and distributing the reliablity of online information
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
Kuzey et al. Extraction of temporal facts and events from Wikipedia
KR20170004165A (ko) 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
US11263523B1 (en) System and method for organizational health analysis
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
Ilyas et al. Analyzing Brexit’s impact using sentiment analysis and topic modeling on Twitter discussion
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN101609450A (zh) 基于训练集的网页分类方法
WO2015044179A1 (en) Apparatus, systems and methods for scoring and distributing the reliability of online information
KR20120108095A (ko) 소셜 데이터 분석 시스템
Bharathi et al. Sentiment Analysis of Twitter and RSS News Feeds and Its Impact on Stock Market Prediction.
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN104834739B (zh) 互联网信息存储系统
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
Kartal et al. TrClaim-19: The first collection for Turkish check-worthy claim detection with annotator rationales
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Hsieh et al. Ranking online customer reviews with the SVR model
Wegrzyn-Wolska et al. Tweets mining for French presidential election
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
Kane et al. Do the communities we choose shape our political beliefs? A study of the politicization of topics in online social groups
Thorleuchter et al. Extracting consumers needs for new products-a web mining approach
CN118153964A (zh) 基于大数据技术的供应商企业风险评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107