CN108415895B - 媒体内容纠错方法和装置 - Google Patents

媒体内容纠错方法和装置 Download PDF

Info

Publication number
CN108415895B
CN108415895B CN201710071111.5A CN201710071111A CN108415895B CN 108415895 B CN108415895 B CN 108415895B CN 201710071111 A CN201710071111 A CN 201710071111A CN 108415895 B CN108415895 B CN 108415895B
Authority
CN
China
Prior art keywords
word
media content
comment
words
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710071111.5A
Other languages
English (en)
Other versions
CN108415895A (zh
Inventor
高雪峰
王秀亭
张舒言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710071111.5A priority Critical patent/CN108415895B/zh
Publication of CN108415895A publication Critical patent/CN108415895A/zh
Application granted granted Critical
Publication of CN108415895B publication Critical patent/CN108415895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种媒体内容纠错方法,该方法包括:从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息;根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字;当确定一媒体内容可能出现错别字时,执行如下处理:根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语;根据该媒体内容的信息获取该媒体内容;在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语。本申请还公开了相应的装置。

Description

媒体内容纠错方法和装置
技术领域
本申请涉及互联网领域,尤其涉及一种媒体内容纠错方法和装置。
背景技术
目前,新闻、快报文章、音视频播放页面等媒体内容中出现错别字会影响用户的浏览体验,这一直是编辑部门较为头痛的问题,也是用户关注较多的点,但是当前的技术水平和人力对媒体内容的错别字实行全面监控并不现实也很不高效。
发明内容
本申请实例提供一种媒体内容纠错方法,该方法包括:从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息;根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字;当确定一媒体内容可能出现错别字时,执行如下处理:根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语;根据该媒体内容的信息获取该媒体内容;在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语。
本申请实例提供一种媒体内容纠错装置,该装置包括:读取模块,从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息;第一确定模块,根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字;第二确定模块,根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语;获取模块,根据该媒体内容的信息获取该媒体内容;替换模块,在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语。
采用本申请提出的上述技术方案,能够实现智能修改媒体内容错别字,最大程度的提升媒体内容质量和用户评价。
附图说明
为了更清楚地说明本申请实例中的技术方案,下面将对实例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请涉及的一种系统构架示意图;
图2为本申请一实例的方法流程图;
图3为本申请涉及的媒体内容纠错过程的交互图;
图4为本申请涉及的媒体内容纠错数据展示示意图;
图5是本申请一实例的装置结构图;及
图6是本申请一实例的设备结构图。
具体实施方式
下面将结合本申请实例中的附图,对本申请实例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅是本申请一部分实例,而不是全部的实例。基于本申请中的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本申请保护的范围。
在一些实例中,依靠编辑、运营等工作人员在发表的媒体内容(如:新闻、小说等文章,广告、音视频页面中的文本)中观察发现错别字进行反馈修改,然而这种人工审核的方案存在很大缺陷:首先是人力成本很高,该方案中并没有专门的人员进行审核,即使有,也是很耗费人力物力且收效甚微的一项工作;其次人工审核必然存在纰漏,由于每天海量文章、视频等媒体内容会被发表,单纯依靠人工审核很难全部覆盖;最后人工审核不好定位热点内容,很难从海量内容中快速发现关注度高的热点内容,并对其进行优先处理。
在一些实例中,在媒体内容发表之前对其中文本与错别字词库中的词进行比对,然而该方案并不能全面的杜绝错别字,对漏网的错别字并没有处理方案;并且错别字词库的维护成本较高,需要长时间的积累完善。
因此,基于上述技术问题,本申请提出一种媒体内容纠错方法,该方法可应用于图1所示的系统构架中。如图1所示,该系统包括:发布者客户端101、应用服务器102、后台服务器103、第一数据库104。该方法具体的可应用于后台服务器103。该系统可进一步包括第二数据库105。其中,后台服务器103可以包括自动抓取模块106。后台服务器103可以将纠错处理得到的相关数据存入第二数据库105,媒体内容平台的管理人员可以利用这些数据可以对已发生的纠错处理进行统计和监控。发布者客户端101、应用服务器102、后台服务器103、第一数据库104可以通过互联网107进行通信。
应用服务器102将发布者客户端101实时发表的评论及其相关信息(该相关信息可以包括评论内容,发表评论的用户信息,评论相关的媒体内容的信息等)写入第一数据库104(该数据库可以为如redis数据库),从而后台服务器103可以通过互联网从第二数据库105读取包含上述评论及其相关信息的评论数据。
后台服务器103预先配置用于发现错别字的第一关键词,如“错别字”、“错字”、“写错”或“写错字”等。后台服务器103从第一数据库中获取多条评论数据,并将评论数据中的评论内容与所述第一关键词进行匹配,确定该评论内容相关的媒体内容(文章等)是否可能出现错别字。比如:当某个评论内容中出现了“错别字”、“写错”等第一关键词时,则可以确定该评论内容相关的媒体内容可能出现了错别字。
当确定一媒体内容可能出现错别字时,后台服务器103首先利用用于发现正确词语的第二关键词对该媒体内容相关联的各评论内容进行匹配,所述第二关键词可以如“不是”、“而是”、“应该是”、“写成”等肯定词和/或否定词,若有评论内容匹配成功(即该评论内容中出现了任一第二关键词),则进一步从该评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语。之后,后台服务器103可根据评论数据中该媒体内容的信息(比如文章或视频等的链接地址)获取该媒体内容,后台服务器103可以利用自动抓取模块106对媒体内容中的第一词语进行抓取和定位,用第二词语进行替换。
进一步的,后台服务器103可将上述替换的结果发送给发布者客户端101(如负责该媒体内容校对的编辑使用的客户端)进行确认。发布者客户端101确认后,后台服务器103还可以将包含错别字的第一词语及其对应的代表正确表达的第二词语均存入错别字词库,这样下次发布某一媒体内容前就可以利用所述错别字词库对媒体内容进行错别字的对比检索,提前完成纠错处理。
图2示出了本申请提出的媒体内容纠错方法流程图,该方法应用于后台服务器103。如图2所示,该方法包括如下步骤:
步骤201:从第一数据库104中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息。
这里,后台服务器103通过互联网可以定时从第一数据库104读取评论数据,该评论数据可包括评论内容,发表评论的用户信息,评论相关的文章或视频的网址等信息,且该评论数据可以为应用服务器102写入到第一数据库104的。其中,后台服务器103可以基于node.js搭建的框架。
在一些实例中,后台服务器103将评论数据根据不同频道分组,开放给编辑人员订阅,使得订阅一个或多个频道的编辑人员能够对该频道的媒体内容及评论数据进行关注,以达到对所有用户关注文章进行实时监控的效果。
步骤202:根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字。
这里,后台服务器103预先配置用于发现错别字的第一关键词,其中,第一关键词可以为提示文章中出现错别字的词语,如“错别字”、“错字”或“写错字”等,后台服务器103可以将这些第一关键词配置成一个第一关键词列表。
在一些实例中,将各条评论内容与所述第一关键词列表中的每一个第一关键词进行匹配,如果某条评论内容中出现任一第一关键词,如“错别字”,则说明该条评论内容与此第一关键词列表匹配成功,该条评论内容关联的媒体内容可能出现了错别字,比如:文章标题或文章内容中可能出现了错别字。
例如,某篇文章的评论中出现“小编没有用心,第四图xxx这错别字”,以及“老是看到xx新闻有错别字”,这说明读取的评论内容与关键词列表匹配成功,此篇文章中可能出现了错别字。
在一些实例中,当确定一媒体内容可能出现错别字时,后台服务器103向该媒体内容的所述发布者客户端101发送通知消息,以告知该媒体内容可能存在错别字。
在一些实例中,后台服务器103可预先配置发布者列表,以方便发送上述通知消息。该发布者列表中包含各个发布者(如编辑人员)的用户标识等信息,以及各发布者的用户标识与各媒体内容之间的对应关系。这样,当发现一媒体内容可能出现错别字时,可以从该发布者列表中提取该媒体内容对应的发布者的用户标识,之后,根据该用户标识将上述通知消息发送给对应的发布者客户端。这里,用户标识可以是QQ号码/微信号码等即时通讯号码、E-mail地址、手机号码等能够用于接收通知消息的用户标识。
在一些实例中,可将各媒体内容所属的频道ID(如新闻频道、财经频道、体育频道或娱乐频道等)与负责各频道的编辑人员的用户标识对应保存在此发布者列表中。这样,当发现一媒体内容可能出现错别字时,根据该媒体内容的频道ID,从该发布者列表中提取对应的用户标识。
具体地,将所述评论内容与所述第一关键词列表进行匹配,一旦匹配成功(即发送一媒体内容可能出现错别字),则利用通讯插件(如微信插件)给上述发布者列表中相应的用户标识发送通知消息,该通知消息可以携带相关的媒体内容的相关信息,比如标题、链接、频道,还可以携带包含第一关键词的评论内容的相关信息,比如:发表评论的用户信息(即评论来源)、出现第一关键词的评论数量及这些评论内容。这样,即使经过后续步骤后台服务器103没有发现错别字或者没有得到错别字词的正确表达(即第二词语)时,收到此通知消息的发布者(如订阅相应频道的编辑人员)也可以通过此通知消息准确定位媒体内容,进行人工修改。
当确定一媒体内容可能出现错别字时,执行如下步骤203-步骤205。
此时,后台服务器103可继续在评论内容中得到错别字词及其正确表达,即执行步骤203。
步骤203:根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语。
在一些实例中,所述第二关键词包括:肯定词和/或否定词;所述从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语,包括:查找各条评论数据中的所述评论内容中的所述肯定词和/或否定词;及对于查找到的每个评论内容中的每个肯定词或否定词,执行如下处理:获取该肯定词或该否定词附近的词语;通过对该评论内容做语义分析,判断所获取所述附近的词语是否存在错别字;及当确定存在错别字时,从所述附近的词语中确定所述第一词语和所述第二词语。
例如,所述第二关键词可以为特定词语:“不是”、“而是”、“应该是”、“写成”等,当某一评论内容中出现一特定词语时,通常此特定词语附近会有包含错别字的第一词及其对应的代表正确表达的第二词语。因此,可以从这种特定词语附近的词语中得出所述第一词语和所述第二词语。
步骤204:根据该媒体内容的信息获取该媒体内容。
在一些实例中,所述媒体内容的信息包括:所述媒体内容的链接地址;所述根据该媒体内容的信息获取该媒体内容,包括:根据该媒体内容的所述链接地址获取该媒体内容的页面数据。
步骤205:在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语。
在一些实例中,所述在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语,包括:从所述网页数据中抓取各个网页位置上的文本,并将抓取到的各文本与所述第一词语进行匹配;当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。
具体的,可以将媒体内容中的文本与所述第一词语进行比对。为了实现该技术方案,本申请可以采用各种信息抓取技术,例如网络爬虫技术,来从媒体内容的文本中抓取到第一词语。
例如,上述抓取处理可以利用node.js搭建的框架来实现,首先,利用node.js的插件superagent对上述媒体内容的链接地址(URL)发起get网络请求,以获取该链接对应的网页数据,并将获取到的网页数据(可以是html形式)传给后台服务器103(node.js搭建的框架)中的自动抓取模块106(如cheerio工具包),自动抓取模块106可以对该网页数据中各个网页位置上的文本进行抓取,比如:可以分别抓取(使用css selector来抓取)标题文本和正文部分各段、各章节的文本,将抓取到的各网页位置文本与第一词语进行比较,以定位网页中错别字出现的位置。当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。这里,根据网页数据,可以确定网页中各个区域以及其中展示的文本,此区域就是网页位置。
在一些实例中,将上述替换的结果发送给该媒体内容的发布者客户端,以供所述发布者客户端确认。
在一些实例中,预先配置各媒体内容的各发布者的用户标识;其中,根据预先配置的该媒体内容的发布者的所述用户标识,将所述替换的结果发给该媒体内容的所述发布者客户端。这里,具体配置用户标识的处理,与之前发送通知消息时配置发布者列表的处理可以相同,这里不再赘述。
在一些实例中,接收来自所述发布者客户端的确认响应;根据所述确认响应,判断所述第一词语和所述第二词语是否被发布者确认;当确定所述第一词语和所述第二词语已被确认时,将所述第一词语和所述第二词语保存到错别字词库。
在一些实例中,经过编辑确认后,后台服务器103还将这对词语(第一词语和第二词语)存入错别字词库,从而逐渐丰富错别字词库,以便下次发文前就可以直接利用这个错别字词库检验错别字词了。进一步的,还可省去从评论内容中寻找错别字词的正确表达的步骤,即在步骤203中,如果找到第一词语,则不必根据第二关键词找第二词语,直接从错别字词库中查找该第一词语相应的代表正确表达的第二词语即可,从而能够提高处理效率。
在一些实例中,当从包含该媒体内容的信息的各条评论数据中的评论内容中确定所述第一词语和所述第二词语时,将与所述第一词语相关的纠错信息存入第二数据库105,以供管理者客户端访问。
在一些实例中,所述第一词语相关的所述纠错信息包括以下至少一者:所述第一词语、所述第一词语所在的评论内容、所述评论内容关联的媒体内容的信息、发表所述评论内容的用户信息、所述第二词语、所述第一词语存入错别字词库的时间。
具体的,当从包含该媒体内容的信息的各条评论数据中的评论内容中确定所述第一词语和所述第二词语时,后台服务器103将与所述第一词语相关的纠错信息存入第二数据库105(如本地数据库,可以是mongo数据库),以供管理者客户端访问,以便管理者展示上述纠错信息,并对纠错数据进行监控。
本申请通过从评论内容中判断媒体内容中是否出现错别字词,并从评论内容中获得该错别字对应的代表正确表达的第二词语,然后用所述第二词语替换所述第一词语,这样能够自动对媒体内容进行纠错处理,提高了处理效率,改善了媒体内容的投放效果。
因关注度越高的内容出现错别字时,评论中反馈的声音越多,因此可以根据评论数量判断文章关注热度,对关注度高的文章进行优先纠错处理,能进一步提高效率。具体的,在上述步骤202中,当发现若干媒体内容可能出现错别字时,可以进一步根据这些媒体内容的评论数量进行优先级排序,评论数量越大优先级越高,之后,可以按此优先级顺序对这些媒体内容执行上述步骤203~205的纠错处理。这样就能使热度较高的媒体内容优先得到纠错,进一步改善了媒体内容的投放效果。
采用上述技术方案,不仅对内容实现了较为全面的监控,还可以通过当确定一媒体内容可能出现错别字时,向该媒体内容的所述发布者客户端发送通知消息的方式告警订阅该媒体内容的编辑人员。对于可能存在错别字的媒体内容而言,可能针对每一条发现第一关键词的评论内容都发送一条通知消息,此媒体内容的用户关注度越高,后台服务器103发送通知消息的次数就越多,因此,可以根据通知消息的次数多少来确定各可能存在错别字的媒体内容的热度高低,进而可以优先对热度较高的媒体内容进行纠错处理。或者,对于可能存在错别字的媒体内容而言,可能针对各个包含第一关键词的评论内容统一发送一条通知消息,此媒体内容的用户关注度越高,包含第一关键词的评论内容的数量就越多,因此,可以根据包含第一关键词的评论内容的数量多少来确定各可能存在错别字的媒体内容的热度高低,进而可以优先对热度较高的媒体内容进行纠错处理,同时也可通过通知消息进行不同程度的告警,从而可以根据用户的关注度高低进行不同程度的告警。本申请还利用信息抓取技术自动抓取媒体内容中的错别字,并用错别字的正确表达替换该错别字,从而实现智能修改媒体内容错别字,最大程度的提升了媒体内容质量和用户评价。
图3示出了本申请提出的媒体内容纠错过程的交互图。如图3所示,媒体内容纠错的过程包括如下步骤:
步骤301:后台服务器103从第一数据库逐条读取预定时间段的评论数据,如每天所有新生成的评论。
步骤302:后台服务器103预先配置关键词列表(关键词如“错别字”、“错字”等),以及预先配置发布者列表,该发布者列表中包含各个发布者(如编辑人员)的用户标识等信息,以及各发布者的用户标识与各媒体内容之间的对应关系。
步骤303:将读取的多条评论数据中的评论内容与关键词列表中的“错别字”等关键词进行匹配。
步骤304:一旦某一评论内容匹配成功(即出现了一关键词),利用微信插件等给发布者列表中编辑人员相应的微信帐号发送通知消息。这里,发布者列表可为一个企业级的即时通讯平台的用户名单,比如实时交互(RTX,Real Time eXchange)名单。
步骤305:将第二关键词,如“不是”、“而是”、“应该是”、“写成”等与包含可能出现错别字的媒体内容信息的各条评论数据中的评论内容进行匹配,若匹配成功,则得出包含错别字的第一词语及其对应的代表正确表达的第二词语。
步骤306:利用node.js的插件superagent对出现错别字词的评论相关的文章网址(URL)发起get网络请求,获取该链接对应的网页数据,并将获取到的网页(可以是html形式)数据传给后台服务器103(node.js搭建的框架)中的自动抓取模块(如cheerio工具包)。
步骤307:自动抓取模块对该网页数据中各个网页位置上的文本进行抓取,比如:分别抓取(使用css selector来抓取)标题文本和正文部分各段、各章节的文本,将抓取到的各网页位置文本与第一词语进行比较,以定位文章中错别字词的位置。当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。
步骤308:将上述替换的结果发送给对应编辑人员的客户端,以供其进行确认。这里,所发送的替换的结果可以包括:第一词语及其所在的各网页位置(如截图)、替换此第一词语的第二词语、网页中出现此第一词语的次数等。
步骤309:编辑人员的客户端将确认信息返回给后台服务器,以确认上述修改。
步骤310:在收到来自编辑人员的客户端的确认响应后,后台服务器103将这对词语(第一词语和第二词语)存入错别字词库。
步骤311:将与所述第一词语相关的纠错信息存入mongo数据库,用于编辑管理人员的前端页面的数据展示。例如,图4示出了这种前端页面数据展示的界面实例。图4中给出了一个各频道出现的错别字的数量的柱状图,通过该图,管理者可以加强对出现错别字数量较多的频道进行监控,以提高该频道中文章的质量。管理人员还可通过自己的客户端访问mongo数据库,获得其它各种统计结果的数据展示,以更好的对于媒体内容纠错处理进行监控和管理。
基于上述实例提供的方法,本申请还提出了一种媒体内容纠错装置500,该装置可应用于上述的后台服务器103。如图5所示,所述装置包括:
读取模块501,从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息。
第一确定模块502,根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字。
第二确定模块503,根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中确定包含错别字的第一词语及其对应的代表正确表达的第二词语。
获取模块504,根据该媒体内容的信息获取该媒体内容。
替换模块505,在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语。
在一些实例中,所述装置进一步包括:第一发送模块506,将所述替换的结果发送给该媒体内容的发布者客户端,以供所述发布者客户端确认。
在一些实例中,所述媒体内容的信息包括:所述媒体内容的链接地址;所述获取模块504根据该媒体内容的所述链接地址获取该媒体内容的页面数据;所述替换模块505包括:抓取单元5051,从所述网页数据中抓取各个网页位置上的文本,并将抓取到的各文本与所述第一词语进行匹配;替换单元5052,当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。
在一些实例中,所述第二关键词包括:肯定词和/或否定词;所述第二确定模块503包括:查找单元5031、获取单元5032、判断单元5033和确定单元5034;其中,所述查找单元5031,查找各条评论数据中的所述评论内容中的所述肯定词和/或否定词;对于所述查找单元5031查找到的每个评论内容中的每个肯定词或否定词,所述获取单元5032、所述判断单元5033和所述确定单元5034执行如下处理:所述获取单元5032,获取该肯定词或该否定词附近的词语;所述判断单元5033,通过对该评论内容做语义分析,判断所获取所述附近的词语是否存在错别字;及所述确定单元5034,当确定存在错别字时,从所述附近的词语中确定所述第一词语和所述第二词语。
在一些实例中,所述装置进一步包括:接收模块507,接收来自所述发布者客户端的确认响应;判断模块508,根据所述确认响应,判断所述第一词语和所述第二词语是否被发布者确认;第一保存模块509,当确定所述第一词语和所述第二词语已被确认时,将所述第一词语和所述第二词语保存到错别字词库。
上述各模块/单元功能的具体实现原理在前文已有描述,这里不再赘述。
另外,在本申请各个实例中的媒体内容纠错方法和媒体内容纠错装置以及其中的各模块/单元可以集成在一个处理单元中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上装置或模块/单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
在一实例中,上述的媒体内容纠错装置可运行在各种可基于互联网而进行用户信息处理的计算设备中,并加载在该计算设备的存储器中。
图6示出了媒体内容纠错装置所在的计算设备的组成结构图。如图6所示,该计算设备包括一个或者多个处理器(CPU)602、通信模块604、存储器606、用户接口610,以及用于互联这些组件的通信总线608。
处理器602可通过通信模块604接收和发送数据以实现网络通信和/或本地通信。
用户接口610包括一个或多个输出设备612,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口610也包括一个或多个输入设备614,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器606可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器606存储处理器602可执行的指令集,包括:
操作系统616,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用618,包括用于实现媒体内容纠错的各种程序,这种程序能够实现上述各实例中的处理流程,比如可以包括图5所示的媒体内容纠错装置500。在一些实例中,媒体内容纠错装置500可包括图5所示的各模块501~509、5031~5034、5051~5052,各模块501~509、5031~5034、5051~5052可以存储有机器可执行指令。处理器602通过执行存储器606中各模块501~509、5031~5034、5051~5052中的机器可执行指令,进而能够实现上述各模块501~509、5031~5034、5051~5052的功能。
另外,本申请的每一个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还公开了一种非易失性存储介质,其中存储有数据处理程序,该数据处理程序用于执行本申请上述方法的任何一种实例。
另外,本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。
以上所述仅为本申请的较佳实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (16)

1.一种媒体内容纠错方法,其特征在于,该方法包括:
从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息;
根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字;
当确定一媒体内容可能出现错别字时,执行如下处理:
根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中,确定包含错别字的第一词语及其对应的代表正确表达的第二词语;
根据该媒体内容的信息,获取该媒体内容;
在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语;
根据预先配置的该媒体内容的发布者的用户标识,将所述替换的结果发送给该媒体内容的发布者客户端,以供所述发布者客户端确认。
2.根据权利要求1所述的方法,其中,所述第二关键词包括:“不是”、“而是”、“应该是”、“写成”中的任一项或任几项。
3.根据权利要求1所述的方法,进一步包括:
当确定一媒体内容可能出现错别字时,向所述发布者客户端发送通知消息,以告知该媒体内容可能存在错别字。
4.根据权利要求1所述的方法,进一步包括:
预先配置各媒体内容的各发布者的用户标识。
5.根据权利要求1所述的方法,其中,所述媒体内容的信息包括:所述媒体内容的链接地址;
所述根据该媒体内容的信息,获取该媒体内容,包括:
根据该媒体内容的所述链接地址,获取该媒体内容的网页数据;
所述在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语,包括:
从所述网页数据中抓取各个网页位置上的文本,并将抓取到的各文本与所述第一词语进行匹配;
当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。
6.根据权利要求1所述的方法,其中,所述第二关键词包括:肯定词和/或否定词;
所述从包含该媒体内容的信息的各条评论数据中的评论内容中,确定包含错别字的第一词语及其对应的代表正确表达的第二词语,包括:
查找各条评论数据中的所述评论内容中的所述肯定词和/或否定词;及
对于查找到的每个评论内容中的每个肯定词或否定词,执行如下处理:
获取该肯定词或该否定词附近的词语;
通过对该评论内容做语义分析,判断所获取所述附近的词语是否存在错别字;及
当确定存在错别字时,从所述附近的词语中确定所述第一词语和所述第二词语。
7.根据权利要求1所述的方法,进一步包括:
接收来自所述发布者客户端的确认响应;
根据所述确认响应,判断所述第一词语和所述第二词语是否被发布者确认;
当确定所述第一词语和所述第二词语已被确认时,将所述第一词语和所述第二词语保存到错别字词库。
8.根据权利要求1所述的方法,进一步包括:
当从包含该媒体内容的信息的各条评论数据中的评论内容中确定所述第一词语和所述第二词语时,将与所述第一词语相关的纠错信息存入第二数据库,以供管理者客户端访问。
9.根据权利要求8所述的方法,其中,所述第一词语相关的所述纠错信息包括以下至少一者:所述第一词语、所述第一词语所在的评论内容、所述评论内容关联的媒体内容的信息、发表所述评论内容的用户信息、所述第二词语、所述第一词语存入错别字词库的时间。
10.一种媒体内容纠错装置,其特征在于,该装置包括:
读取模块,从第一数据库中读取对于已发布的各媒体内容的多条评论数据,其中,每条评论数据包含评论内容及其关联的媒体内容的信息;
第一确定模块,根据预先配置的用于发现错别字的第一关键词以及所述多条评论数据中的评论内容,确定各媒体内容是否可能出现错别字;
第二确定模块,当确定一媒体内容可能出现错别字时,根据用于发现正确词语的第二关键词,从包含该媒体内容的信息的各条评论数据中的评论内容中,确定包含错别字的第一词语及其对应的代表正确表达的第二词语;
获取模块,根据该媒体内容的信息,获取该媒体内容;
替换模块,在所获取的该媒体内容中查找到所述第一词语,并用所述第二词语替换所述第一词语;
第一发送模块,根据预先配置的该媒体内容的发布者的用户标识,将所述替换的结果发送给该媒体内容的发布者客户端,以供所述发布者客户端确认。
11.根据权利要求10所述的装置,其中,所述第二关键词包括:“不是”、“而是”、“应该是”、“写成”中的任一项或任几项。
12.根据权利要求10所述的装置,其中,所述媒体内容的信息包括:所述媒体内容的链接地址;
所述获取模块根据该媒体内容的所述链接地址,获取该媒体内容的网页数据;
所述替换模块包括:
抓取单元,从所述网页数据中抓取各个网页位置上的文本,并将抓取到的各文本与所述第一词语进行匹配;
替换单元,当在一网页位置上的文本中匹配到所述第一词语,则在该网页位置上用所述第二词语替换该文本中的所述第一词语。
13.根据权利要求10所述的装置,其中,所述第二关键词包括:肯定词和/或否定词;
所述第二确定模块包括:查找单元、获取单元、判断单元和确定单元;其中,
所述查找单元,查找各条评论数据中的所述评论内容中的所述肯定词和/或否定词;对于所述查找单元查找到的每个评论内容中的每个肯定词或否定词,所述获取单元、所述判断单元和所述确定单元执行如下处理:
所述获取单元,获取该肯定词或该否定词附近的词语;
所述判断单元,通过对该评论内容做语义分析,判断所获取所述附近的词语是否存在错别字;及
所述确定单元,当确定存在错别字时,从所述附近的词语中确定所述第一词语和所述第二词语。
14.根据权利要求10所述的装置,进一步包括:
接收模块,接收来自所述发布者客户端的确认响应;
判断模块,根据所述确认响应,判断所述第一词语和所述第二词语是否被发布者确认;
第一保存模块,当确定所述第一词语和所述第二词语已被确认时,将所述第一词语和所述第二词语保存到错别字词库。
15.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-9中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的方法。
CN201710071111.5A 2017-02-09 2017-02-09 媒体内容纠错方法和装置 Active CN108415895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710071111.5A CN108415895B (zh) 2017-02-09 2017-02-09 媒体内容纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710071111.5A CN108415895B (zh) 2017-02-09 2017-02-09 媒体内容纠错方法和装置

Publications (2)

Publication Number Publication Date
CN108415895A CN108415895A (zh) 2018-08-17
CN108415895B true CN108415895B (zh) 2023-04-07

Family

ID=63125036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710071111.5A Active CN108415895B (zh) 2017-02-09 2017-02-09 媒体内容纠错方法和装置

Country Status (1)

Country Link
CN (1) CN108415895B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705213A (zh) * 2021-03-01 2021-11-26 腾讯科技(深圳)有限公司 错别字识别方法、装置、设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW432300B (en) * 1999-04-12 2001-05-01 Iqchina Technology Inc Classification method, database, database establishment method, and input query system of mispronounced Chinese characters
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101420483A (zh) * 2008-11-28 2009-04-29 深圳华为通信技术有限公司 错别字检测方法及移动终端
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及系统
CN103927297A (zh) * 2014-04-13 2014-07-16 北京工业大学 基于证据理论的中文微博可信度评估方法
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN104462054A (zh) * 2013-09-23 2015-03-25 镇江诺尼基智能技术有限公司 一种基于种子的错别字混淆集生成方法
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN105824795A (zh) * 2016-04-19 2016-08-03 智者四海(北京)技术有限公司 文本中的错误信息的显示方法及装置
CN105930401A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 一种剧集评论信息的筛选方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073335A1 (en) * 2011-09-20 2013-03-21 Ebay Inc. System and method for linking keywords with user profiling and item categories
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW432300B (en) * 1999-04-12 2001-05-01 Iqchina Technology Inc Classification method, database, database establishment method, and input query system of mispronounced Chinese characters
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101420483A (zh) * 2008-11-28 2009-04-29 深圳华为通信技术有限公司 错别字检测方法及移动终端
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN104462054A (zh) * 2013-09-23 2015-03-25 镇江诺尼基智能技术有限公司 一种基于种子的错别字混淆集生成方法
CN103678560A (zh) * 2013-12-06 2014-03-26 乐视网信息技术(北京)股份有限公司 多媒体资源纠错检索方法、多媒体资源服务器及系统
CN103927297A (zh) * 2014-04-13 2014-07-16 北京工业大学 基于证据理论的中文微博可信度评估方法
CN105573979A (zh) * 2015-12-10 2016-05-11 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
CN105930401A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 一种剧集评论信息的筛选方法及装置
CN105824795A (zh) * 2016-04-19 2016-08-03 智者四海(北京)技术有限公司 文本中的错误信息的显示方法及装置

Also Published As

Publication number Publication date
CN108415895A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
US20200363949A1 (en) Advanced keyboard based search
US11886402B2 (en) Systems, methods, and media for dynamically generating informational content
US10326715B2 (en) System and method for updating information in an instant messaging application
US10362340B2 (en) Techniques for creation of auto-montages for media content
CN102880601B (zh) 机器翻译反馈
US10878044B2 (en) System and method for providing content recommendation service
CN103678487A (zh) 一种网页快照的生成方法和装置
CN102693270A (zh) 用于内容管理和组件测试的可发布元数据
CN104660635A (zh) 消息同步方法、装置及系统
US20230216770A1 (en) Activity stream based collaboration
US20200082344A1 (en) Activity stream based interaction
WO2014176896A1 (en) System and method for updating information in an instant messaging application
CN108415895B (zh) 媒体内容纠错方法和装置
CN108073638B (zh) 数据诊断方法及装置
CN110941752B (zh) 信息搜索方法、数据处理方法及设备
CN111400581A (zh) 用于标注样本的系统、方法和装置
US10331786B2 (en) Device compatibility management
CN112601129B (zh) 视频交互系统、方法和接收端
WO2016127888A1 (zh) 一种多媒体文件下载的方法与装置
TWI627545B (zh) Online community media instant news screening and notification method
WO2020219476A1 (en) Advanced keyboard based search
KR101862178B1 (ko) 맞춤형 포스팅 방법 및 이를 운용하는 서버
CN105450510A (zh) 用于社交网络平台的好友管理方法、装置及服务器
US20180089450A1 (en) Taxonomy-facilitated actions for content
EP3374887A1 (en) Publisher tool for controlling content quality across mediation platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant