CN108090043A

CN108090043A - 基于人工智能的纠错举报处理方法、装置及可读介质

Info

Publication number: CN108090043A
Application number: CN201711238103.1A
Authority: CN
Inventors: 肖求根; 张玉东; 黄华; 方晓敏; 陈杰; 杨风光; 杨宏生; 费晓旭; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-05-29
Anticipated expiration: 2037-11-30
Also published as: CN108090043B

Abstract

本发明提供一种基于人工智能的纠错举报处理方法、装置及可读介质。其方法包括：获取用户从内容服务器前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中疑似错别字的位置；根据目标语句和疑似错别字、以及置信度打分模型，预测疑似错别字的真实错误置信度；若疑似错别字的真实错误置信度大于或等于预设置信度阈值，向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。本发明的技术方案，能够有效地提高内容服务器的纠错效率。

Description

基于人工智能的纠错举报处理方法、装置及可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于人工智能的纠错举报处理方法、装置及可读介质。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

内容分发是现有移动互联网公司的一个重要战场，优质的内容往往能够带来用户停留时长和品牌美誉度的提升。错别字作为内容的硬伤，可能以一定概率出现在任何一篇文章中。错别字在内容分发平台竞争中影响大，导致用户体验明显下降，所以现有的很多内容提供商特别注意内容的纠错。例如可以人工采集一些经常出错的错别字以及对应的上下文，并将每个错别字、对应的上下文以及对应的正确字作为词对，加入在纠错词表中。纠错时，由内容服务器根据纠错词表对所有的内容进行检查，若发现纠错词表中的错别字，将错别字纠正为正确字，实现对内容服务器中的所有内容进行纠错处理。

现有技术的纠错方式多成为内容服务器侧的主动纠错，对于内容服务器未发现的错误无法进行纠错，受限于汉字组合方式多，语句中出现的纠错类型复杂，导致主动纠错具有一定的局限性。

【发明内容】

本发明提供了一种基于人工智能的纠错举报处理方法、装置及可读介质，用于丰富内容服务器的纠错方式，扩大纠错范围。

本发明提供一种基于人工智能的纠错举报处理方法，所述方法包括：

获取用户从内容服务器的前端举报的目标语句的错误信息，所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置；

根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型，预测所述疑似错别字的真实错误置信度；

若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时，向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度，以供所述内容服务器根据所述疑似错别字的真实错误置信度，对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。

进一步可选地，如上所述的方法中，所述错误信息中还包括所述目标语句的位置信息；所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。

进一步可选地，如上所述的方法中，若所述疑似错别字的真实错误置信度小于预设置信度阈值时，所述方法还包括：

获取所述目标语句中的所述疑似错别字被举报的次数；

获取所述目标语句所在的文章被浏览的次数；

根据所述疑似错别字被举报的次数与所述文章被浏览的次数，获取所述疑似错别字的错误举报比例；

若所述疑似错别字的错误举报比例大于或者等于第一预设比例阈值时，向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的错误举报比例，以供所述内容服务器根据所述疑似错别字的错误举报比例，对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。

进一步可选地，如上所述的方法中，所述方法还包括：

获取所述目标语句所在的文章中的所有疑似错别字被举报的次数；

根据所述所有疑似错别字被举报的次数与所述文章被浏览的次数，获取所述文章的错误举报比例；

若所述文章的错误举报比例大于或者等于第二预设比例阈值时，向所述内容服务器举报所述文章标识以及所述文章的错误举报比例，以供所述内容服务器根据所述文章的错误举报比例，对所述文章标识对应的所述文章进行纠错处理。

进一步可选地，如上所述的方法中，所述方法还包括：

获取所述文章的来源中的所有文章中发生过错别字纠错的文章的数目；

获取所述文章的来源中的所有文章的数目；

根据所述文章的来源中的所有文章中发生过错别字纠错的文章的数目以及所述文章的来源中的所有文章的数目，获取所述文章的来源的错误举报比例；

若所述文章的来源的错误举报比例大于或者等于第三预设比例阈值时，向所述内容服务器举报所述文章的来源标识以及所述文章的来源的错误举报比例，以供所述内容服务器根据所述文章的来源的错误举报比例，对所述文章的来源的所有文章进行纠错处理。

本发明提供一种基于人工智能的纠错举报处理装置，所述装置包括：

获取模块，用于获取用户从内容服务器的前端举报的目标语句的错误信息，所述错误信息中还包括所述目标语句所在的文章标识以及所述目标语句中的疑似错别字的位置；

预测模块，用于根据所述目标语句和所述疑似错别字、以及预先训练的置信度打分模型，预测所述疑似错别字的真实错误置信度；

举报模块，用于若所述疑似错别字的真实错误置信度大于或者等于预设置信度阈值时，向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的真实错误置信度，以供所述内容服务器根据所述疑似错别字的真实错误置信度，对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。

进一步可选地，如上所述的装置中，所述错误信息中还包括所述目标语句的位置信息；所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。

进一步可选地，如上所述的装置中，所述获取模块，还用于：

若所述疑似错别字的真实错误置信度小于预设置信度阈值时，获取所述目标语句中的所述疑似错别字被举报的次数；

获取所述目标语句所在的文章被浏览的次数；

所述举报模块，还用于若所述疑似错别字的错误举报比例大于或者等于第一预设比例阈值时，向所述内容服务器举报所述目标语句所在的文章标识、所述目标语句、所述目标语句中所述疑似错别字的位置以及所述疑似错别字的错误举报比例，以供所述内容服务器根据所述疑似错别字的错误举报比例，对所述文章标识对应的文章中的所述目标语句中的所述疑似错别字进行纠错处理。

所述举报模块，还用于若所述文章的错误举报比例大于或者等于第二预设比例阈值时，向所述内容服务器举报所述文章标识以及所述文章的错误举报比例，以供所述内容服务器根据所述文章的错误举报比例，对所述文章标识对应的所述文章进行纠错处理。

获取所述文章的来源中的所有文章的数目；

所述举报模块，还用于若所述文章的来源的错误举报比例大于或者等于第三预设比例阈值时，向所述内容服务器举报所述文章的来源标识以及所述文章的来源的错误举报比例，以供所述内容服务器根据所述文章的来源的错误举报比例，对所述文章的来源的所有文章进行纠错处理。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于人工智能的纠错举报处理方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于人工智能的纠错举报处理方法。

本发明的基于人工智能的纠错举报处理方法、装置及可读介质，通过获取用户从内容服务器的前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中的疑似错别字的位置；根据目标语句和疑似错别字、以及预先训练的置信度打分模型，预测疑似错别字的真实错误置信度；若疑似错别字的真实错误置信度大于或者等于预设置信度阈值，向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，以供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。本发明的技术方案，可以对用户的错误举报进行分析，对错误概率较大的错误进行举报，以便于内容服务器根据举报的错误进行纠错，从而能够丰富内容服务器的纠错方式，能够扩大内容服务器纠错处理的纠错范围，有效地提高内容服务器的纠错效率。

【附图说明】

图1为本发明的基于人工智能的纠错举报处理方法实施例一的流程图。

图2为本发明的基于人工智能的纠错举报处理方法实施例二的流程图。

图3为本发明的基于人工智能的纠错举报处理方法实施例三的流程图。

图4为本发明的基于人工智能的纠错举报处理方法实施例四的流程图。

图5为本发明的基于人工智能的纠错举报处理装置实施例的结构图。

图6为本发明的计算机设备实施例的结构图。

图7为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于人工智能的纠错举报处理方法实施例一的流程图。如图1所示，本实施例的基于人工智能的纠错举报处理方法，具体可以包括如下步骤：

100、获取用户从内容服务器的前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中的疑似错别字的位置；

本实施例的基于人工智能的纠错举报处理方法的执行主体为基于人工智能的纠错举报处理装置，该纠错处理装置可以为一个独立于内容服务器的实体，可以基于用户从内容服务器的前端举报的错误信息进行处理，并将处理后最可能的错误举报给内容服务器，以供内容服务器进行纠错处理。

具体地，内容服务器提供的内容较为丰富，可以实现分发、推荐各种形式内容处理，以推广内容服务器中的内容。但是内容服务器中的内容即各个文章的编辑难免会有错别字的问题，现有技术中内容服务器在发布文章之前、甚至发布文章之后都会内文章进行纠错处理。但是现有的内容服务器主动纠错时，采用的纠错词表是固定的，对于某些根据纠错词表发现不了的错别字，仍然无法进行纠错。基于此问题，本实施例中，可以在内容服务器的前端增加用户举报错别字的功能，例如，用户在内容服务器的前端查看内容时，如发现存在疑似错别字，可以按照预设的方式，例如长按选择该疑似错别字，点右键举报该疑似错别字。或者也可以采用其他方式举报疑似错别字的错误信息。用户举报的错误信息中可以记录当前疑似错别字所在的目标语句以及目标语句中的疑似错别字的位置，以及目标语句所在的文章的标识。这样，才能对该疑似错别字进行准确定位。

本实施例中，内容服务器的前端采集到用户举报的错误信息之后，可以直接发送给本实施例的基于人工智能的纠错举报处理装置。或者也可以发送给内容服务器，由本实施例的基于人工智能的纠错举报处理装置从内容服务器中获取。

101、根据目标语句和疑似错别字、以及预先训练的置信度打分模型，预测疑似错别字的真实错误置信度；

由于本实施例的疑似错别字为用户举报的，但是由于用户举报时也可能是该用户在试用新功能导致举报错误；或者该用户操作错误，本来举报的是后一个字为错别字，而误操作点击了前一个字。所以，本实施例中还需要对用户举报的目标语句中的疑似错别字的真实错误置信度进行预测。

本实施例中预先训练有置信度打分模型，根据疑似错别字以及疑似错别字所在的目标语句，为该疑似错别字的真实错误置信度打分。打分越高，表示该疑似错别字是真实错误的概率越大，打分越低，表示该疑似错别字是真实错误的概率越小。

本实施例的置信度打分模型在打分时，可以先对目标语句进行分词，获取该疑似错别字所在的词语，称为目标词语；需要说明的是，如果用户举报的目标语句中的疑似错别字为连续的两个或者多个字，连续的两个或者多个字分词后可以作为目标词语。如果目标语句中包括有多个错别字，而多个错别字在目标语句中又不能划分在同一个目标词语时，需要对每个错别字单独进行真实置信度打分。

然后从目标语句中获取目标词语的上下文词语，例如可以取一个上文词语，一个下文词语；也可以同时取两个上文词语和两个下文词语。

接着，从内容服务器中该目标语句所在的文章对应的语料库中获取目标词语的词频、目标词语与上下文词语的组合的词频；并将目标词语的词频、目标词语与上下文词语的组合的词频一起输入到预先训练的置信度打分模型中，由该置信度打分模型预测该目标词语中的疑似错别字的真实错误置信度。如果目标词语的词频、以及目标词语与上下文词语的组合的词频都很低，则表示该疑似错别字错误的概率较大，对应的真实错误置信度越高；而目标词语的词频、以及目标词语与上下文词语的组合的词频都很高，则表示该疑似错别字错误的概率较小，对应的真实错误置信度越低。

对应地，本实施例的置信度打分模型在训练时，需要采集多个标识有错别字的目标语句以及多个没有错别字的目标语句，按照上述方式，分别获取多个标识有错别字的目标语句中的目标词语的词频以及该目标词语与上下文词语的组合的词频，作为训练数据的正例。并获取没有错别字的目标语句中的某个目标词语的词频以及该目标词语与上下文词语的组合的词频，作为训练数据的负例；其中正负例的比例大于1，如4:1或者5:1，训练数据的总数可以达到几十万条，训练数据越多，训练的置信度打分模型预测越准确。

上述实施例为置信度打分模型的一种实现方式，实际应用中，该置信度打分模型还可以根据错别字，以及错别字的上下文字的一起出现的频率来实现对疑似错别字的真实错误置信度进行打分。或者还可以根据疑似错别字的其他信息以及目标语句中该错别字相关的其他信息，来实现对疑似错别字的真实错误置信度进行打分，在此不再一一举例赘述。

102、判断疑似错别字的真实错误置信度是否大于或者等于预设置信度阈值；若是，执行步骤103；否则，不进行错误举报。

103、向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，以供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。

本实施例中，可以预先设置有置信度阈值，若置信度打分模型预测的真实错误置信度大于或者等于该置信度阈值，则说明，该疑似错别字的错误概率非常高，可以举报给内容服务器。此时基于人工智能的纠错举报处理装置向内容服务器发送目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，这样内容服务器先根据该疑似错别字的真实错误置信度，发现该疑似错别字的真实错误置信度确实很高，错误概率太大，可以根据接收到的目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置，对文章标识对应的文章中的该目标语句中的疑似错别字进行纠错处理。例如，具体纠错时可以反馈给工作人员，由工作人员审核并纠错。

而对于置信度打分模型预测的真实错误置信度小于该置信度阈值时，可以认为是用户在试用新功能或者用户操作错误，此时不进行错误举报。

可选地，本实施例的获取的错误信息中还可以包括目标语句的位置信息；例如，目标语句的位置信息包括目标语句为对应的文章的标题、目标语句为对应的文章的句首、或者目标语句为对应的文章的非句首。对应地，在向内容服务器举报信息时，也需要将目标语句的位置信息一起举报给内容服务器。这样内容服务器根据目标语句的位置选择是否处理纠错，例如若该目标语句为标题或者文章的句首，用户体验会非常不好，此时内容服务器可以对该疑似错别字进行纠错处理。而若该目标语句为正文中的非句首，内容服务器检测发现该文章中仅出现该一个错别字的举报，内容服务器为了节省不必要的资源浪费，可以暂时忽略该处错误。

本实施例的基于人工智能的纠错举报处理方法，通过获取用户从内容服务器的前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中的疑似错别字的位置；根据目标语句和疑似错别字、以及预先训练的置信度打分模型，预测疑似错别字的真实错误置信度；若疑似错别字的真实错误置信度大于或者等于预设置信度阈值，向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，以供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。本实施例的技术方案，可以对用户的错误举报进行分析，对错误概率较大的错误进行举报，以便于内容服务器根据举报的错误进行纠错，从而能够丰富内容服务器的纠错方式，能够扩大内容服务器纠错处理的纠错范围，有效地提高内容服务器的纠错效率。而且本实施例的技术方案不仅可以实现对高频错别字的纠错，对于出现严重的低频错别字，也能够及时发现，能够有效地提高纠错效率。

图2为本发明的基于人工智能的纠错举报处理方法实施例二的流程图。如图2所示，本实施例的基于人工智能的纠错举报处理方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。如图2所示，本实施例的基于人工智能的纠错举报处理方法，具体可以包括如下步骤：

200、获取用户从内容服务器的前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中的疑似错别字的位置；

201、根据目标语句和疑似错别字、以及预先训练的置信度打分模型，预测疑似错别字的真实错误置信度；

202、判断疑似错别字的真实错误置信度是否大于或者等于预设置信度阈值；若是，执行步骤203；否则，执行204；

203、向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，以供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理；结束。

上述步骤200-203的实施详细可以参考上述图1所示实施例中的步骤100-103的实施，在此不再赘述。

204、获取目标语句中的疑似错别字被举报的次数；执行步骤205；

205、获取目标语句所在的文章被浏览的次数；执行步骤206；

206、根据疑似错别字被举报的次数与文章被浏览的次数，获取疑似错别字的错误举报比例；执行步骤207；

例如，可以通过采集内容服务器的所有前端侧用户的所有错别字举报信息，获取该文章的目标语句中该疑似错别字被举报的次数。并可以从内容服务器中获取该文章被浏览的次数。然后将疑似错别字被举报的次数除以文章被浏览的次数，得到疑似错别字的错误举报比例。

207、判断疑似错别字的错误举报比例是否大于或者等于第一预设比例阈值；若是，执行步骤208；否则，不进行错误举报。

208、向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的错误举报比例，以供内容服务器根据疑似错别字的错误举报比例，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。

同理，当疑似错别字的错误举报比例大于或者等于第一预设比例阈值，向内容服务器发送目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的错误举报比例。这样内容服务器先根据疑似错别字的错误举报比例，发现该疑似错别字的错误概率很高，可以根据接收到的目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置，对文章标识对应的文章中的该目标语句中的疑似错别字进行纠错处理。同理具体纠错时可以反馈给工作人员，由工作人员审核并纠错。

同理，对于疑似错别字的错误举报比例小于该第一预设比例阈值时，可以认为是用户在试用新功能或者用户操作错误，此时不进行错误举报。

本实施例的基于人工智能的纠错举报处理方法，通过采用上述技术方案，可以对用户的错误举报进行分析，对错误概率较大的错误进行举报，以便于内容服务器根据举报的错误进行纠错，从而能够丰富内容服务器的纠错方式，能够扩大内容服务器纠错处理的纠错范围，有效地提高内容服务器的纠错效率。

图3为本发明的基于人工智能的纠错举报处理方法实施例三的流程图。如图3所示，本实施例的基于人工智能的纠错举报处理方法，在上述图1或者图2所示实施例的技术方案的基础上，还可以包括如下技术方案。

300、获取目标语句所在的文章中的所有疑似错别字被举报的次数；

301、获取目标语句所在的文章被浏览的次数；

302、根据所有疑似错别字被举报的次数与文章被浏览的次数，获取文章的错误举报比例；

根据上述实施例可以得知目标语句所在的文章的标识，然后采集内容服务器的所有前端侧用户的所有错别字举报信息，获取该文章的中的所有疑似错别被举报的次数。同理，从内容服务器中可以获取该文章被浏览的次数。然后将所有疑似错别字被举报的次数除以文章被浏览的次数，得到文章的错误举报比例。

303、判断文章的错误举报比例是否大于或者等于第二预设比例阈值；若是，执行步骤304；否则，不进行错误举报。

304、向内容服务器举报文章标识以及文章的错误举报比例，以供内容服务器根据文章的错误举报比例，对文章标识对应的文章进行纠错处理。

同理，若文章的错误举报比例大于或者等于第二预设比例阈值，向内容服务器发送文章标识以及文章的错误举报比例。这样，内容服务器根据文章的错误举报比例，便得知该文章被错误举报的概率较高，该文章的错误较多。然后根据文章标识对该文章整体进行纠错处理，例如让工作人员重新审核并纠错。或者为了不影响用户的体验，直接将该文章下线，由内容发布者重新修改。

图4为本发明的基于人工智能的纠错举报处理方法实施例四的流程图。如图4所示，本实施例的基于人工智能的纠错举报处理方法，在上述图1、图2或者图3所示实施例的技术方案的基础上，还可以包括如下技术方案。

400、获取文章的来源中的所有文章中发生过错别字纠错的文章的数目；

401、获取文章的来源中的所有文章的数目；

402、根据文章的来源中的所有文章中发生过错别字纠错的文章的数目以及文章的来源中的所有文章的数目，获取文章的来源的错误举报比例；

用户在举报的每一处错误时，都可以确定到该错误所在的文章。并进一步可以获取到该文章的来源信息，例如某文章的来源信息可以为某作者，或者某个自传媒等等。实际应用中，内容服务器会收纳该文章来源的很多文章。此时本实施例中，还可以在整个文章来源的错误举报比例较大时，向内容服务器发送错误举报。

例如，首先采集内容服务器的所有前端侧用户的所有错别字举报信息，获取文章的来源中的所有文章中发生过错别字纠错的文章的数目；并可以从服务器中获取该文章的来源中的所有文章的数目。然后将文章的来源中的所有文章中发生过错别字纠错的文章的数目除以文章的来源中的所有文章的数目，得到文章的来源的错误举报比例。

403、判断文章的来源的错误举报比例是否大于或者等于第三预设比例阈值；若是，执行步骤404；否则，不进行错误举报。

404、向内容服务器举报文章的来源标识以及文章的来源的错误举报比例，以供内容服务器根据文章的来源的错误举报比例，对文章的来源的所有文章进行纠错处理。

同理，若文章的来源的错误举报比例大于或者等于第三预设比例阈值，向内容服务器发送文章的来源标识以及文章的来源的错误举报比例，这样，内容服务器根据文章的来源的错误举报比例，便得知该文章来源的文章被错误举报的概率较高，该文章来源的文章质量较差。然后根据文章的来源标识，对该来源的所有文章进行纠错处理。例如，为了不影响用户的体验，直接将该文章来源的所有文章下线，由内容发布者重新修改。

图5为本发明的基于人工智能的纠错举报处理装置实施例的结构图。如图5所示，本实施例的基于人工智能的纠错举报处理装置，具体可以包括：

获取模块10用于获取用户从内容服务器的前端举报的目标语句的错误信息，错误信息中还包括目标语句所在的文章标识以及目标语句中的疑似错别字的位置；

预测模块11用于根据获取模块10获取的目标语句和疑似错别字、以及预先训练的置信度打分模型，预测疑似错别字的真实错误置信度；

举报模块12用于若预测模块11预测的疑似错别字的真实错误置信度大于或者等于预设置信度阈值时，向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的真实错误置信度，以供内容服务器根据疑似错别字的真实错误置信度，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。

本实施例的基于人工智能的纠错举报处理装置，通过采用上述模块实现基于人工智能的纠错举报处理的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

进一步地，本实施例的基于人工智能的纠错举报处理装置中，获取模块10获取的错误信息中还包括目标语句的位置信息；目标语句的位置信息包括目标语句为对应的文章的标题、目标语句为对应的文章的句首、或者目标语句为对应的文章的非句首。

进一步地，本实施例的基于人工智能的纠错举报处理装置中，获取模块10还用于：

若疑似错别字的真实错误置信度小于预设置信度阈值时，获取目标语句中的疑似错别字被举报的次数；

获取目标语句所在的文章被浏览的次数；

根据疑似错别字被举报的次数与文章被浏览的次数，获取疑似错别字的错误举报比例；

举报模块12还用于若获取模块10获取的疑似错别字的错误举报比例大于或者等于第一预设比例阈值时，向内容服务器举报目标语句所在的文章标识、目标语句、目标语句中疑似错别字的位置以及疑似错别字的错误举报比例，以供内容服务器根据疑似错别字的错误举报比例，对文章标识对应的文章中的目标语句中的疑似错别字进行纠错处理。

获取目标语句所在的文章中的所有疑似错别字被举报的次数；

根据所有疑似错别字被举报的次数与文章被浏览的次数，获取文章的错误举报比例；

举报模块12还用于若获取模块10获取的文章的错误举报比例大于或者等于第二预设比例阈值时，向内容服务器举报文章标识以及文章的错误举报比例，以供内容服务器根据文章的错误举报比例，对文章标识对应的文章进行纠错处理。

获取文章的来源中的所有文章中发生过错别字纠错的文章的数目；

获取文章的来源中的所有文章的数目；

根据文章的来源中的所有文章中发生过错别字纠错的文章的数目以及文章的来源中的所有文章的数目，获取文章的来源的错误举报比例；

举报模块12还用于若获取模块10获取的文章的来源的错误举报比例大于或者等于第三预设比例阈值时，向内容服务器举报文章的来源标识以及文章的来源的错误举报比例，以供内容服务器根据文章的来源的错误举报比例，对文章的来源的所有文章进行纠错处理。

上述实施例的基于人工智能的纠错举报处理装置，通过采用上述模块实现基于人工智能的纠错举报处理的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图6为本发明的计算机设备实施例的结构图。如图6所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图4所示实施例的基于人工智能的纠错举报处理方法。图6所示实施例中以包括多个处理器30为例。

例如，图7为本发明提供的一种计算机设备的示例图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图7显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的基于人工智能的纠错举报处理方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的基于人工智能的纠错举报处理方法。

本实施例的计算机可读介质可以包括上述图7所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的纠错举报处理方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述错误信息中还包括所述目标语句的位置信息；所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。

3.根据权利要求1所述的方法，其特征在于，若所述疑似错别字的真实错误置信度小于预设置信度阈值时，所述方法还包括：

获取所述目标语句中的所述疑似错别字被举报的次数；

获取所述目标语句所在的文章被浏览的次数；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述文章的来源中的所有文章的数目；

6.一种基于人工智能的纠错举报处理装置，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述错误信息中还包括所述目标语句的位置信息；所述目标语句的位置信息包括所述目标语句为对应的文章的标题、所述目标语句为对应的文章的句首、或者所述目标语句为对应的文章的非句首。

8.根据权利要求6所述的装置，其特征在于，所述获取模块，还用于：

获取所述目标语句所在的文章被浏览的次数；

9.根据权利要求8所述的装置，其特征在于，所述获取模块，还用于：

10.根据权利要求8所述的装置，其特征在于，所述获取模块，还用于：

获取所述文章的来源中的所有文章的数目；

11.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。