CN111797614A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN111797614A
CN111797614A CN201910267704.8A CN201910267704A CN111797614A CN 111797614 A CN111797614 A CN 111797614A CN 201910267704 A CN201910267704 A CN 201910267704A CN 111797614 A CN111797614 A CN 111797614A
Authority
CN
China
Prior art keywords
text
error correction
user
candidate
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910267704.8A
Other languages
English (en)
Other versions
CN111797614B (zh
Inventor
刘恒友
李辰
包祖贻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910267704.8A priority Critical patent/CN111797614B/zh
Publication of CN111797614A publication Critical patent/CN111797614A/zh
Application granted granted Critical
Publication of CN111797614B publication Critical patent/CN111797614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本处理方法及装置。在本申请中,对第一用户输入的第一文本纠错得到候选纠错文本,且在得到每一个候选纠错文本的正确度之后,再基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度,该反馈信息包括在历史过程中第一用户对至少一个候选纠错文本的反馈信息,从而可以使得候选纠错文本的正确度对于第一用户而言更加准确,之后选择预设数量个按照正确度由高到低排列的候选纠错文本,可以增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。

Description

文本处理方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法及装置。
背景技术
随着技术的不断发展,用户可以通过搜索引擎搜索用户需要的网络资源。当用户需要搜索某一资源时,用户可以在通过搜索引擎的搜索框中输入搜索词汇查找资源,搜索引擎会在数据库中搜寻与搜索词关联的资源,并将与搜索词关联的资源返回给用户。
然而,用户在搜索框中输入搜索词的过程中,有时候可能存在输入错误的情况,例如,在通过拼音输入汉字时混淆了一些拼音的发音,造成输入错误,如将“l”输入成“n”,或者,用户混淆了一些字型的写法造成输入错误,如将“荠菜”输入为"齐菜”等。如此,用户在搜索框中输入的是错误的搜索词,这样搜索引擎就会在数据库中搜寻与错误的搜索词关联的资源,并将与错误的搜索词关联的资源返回给用户。但是,与错误的搜索词关联的资源并不是用户想要的资源。
发明内容
本申请实施例示出了一种文本处理方法及装置。
第一方面,本申请实施例示出了一种文本处理方法,所述方法包括:
获取第一用户输入的第一文本;
对所述第一文本纠错,得到多个候选纠错文本;
获取每一个候选纠错文本的正确度;
基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
选择预设数量个按照正确度由高到低排列的候选纠错文本。
在一个可选的实现方式中:
对于每一个候选纠错文本,获取所述候选纠错文本的语言模型分值,获取所述候选纠错文本的转移概率,基于所述语言模型分值和所述转移概率获取所述候选纠错文本的正确度。
在一个可选的实现方式中:
获取所述候选纠错文本的拼音以及第一文本的拼音;
在所述候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对,获取每一个字母对对应的转移概率;
获取在历史过程中的输入的文本的拼音中的字母输错的概率;
计算每一个字母对对应的转移概率之间的乘积,并计算所述乘积与所述字母输错的概率之间的乘积,得到所述候选纠错文本的转移概率。
在一个可选的实现方式中:
获取字母对与转移概率之间的第一对应关系;
在所述第一对应关系中分别查找与每一个字母对相对应的转移概率。
在一个可选的实现方式中:
获取在历史过程中的纠错语料,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;
根据所述纠错语料生成平行语料,所述平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;
获取所述平行语料中的词汇的拼音;
在所述平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将所述字母对中的正确的词汇的字母输入成所述字母对中的错误的词汇的字幕的转移概率,将所述字母对与所述转移概率组成对应表项,并存储在所述第一对应关系中。
在一个可选的实现方式中:
所述纠错语料包括所述第一用户在历史过程中的纠错语料。
在一个可选的实现方式中:
所述纠错语料包括第二用户在历史过程中的纠错语料,其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户。
在一个可选的实现方式中:
将所述纠错语料中的所有纠错前文本分词,得到多个词汇;
在所述多个词汇中,将词频大于预设词频的词汇确定为正确的词汇。
对于每一个正确的词汇,获取所述正确的词汇分别与所述多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,将与所述正确的词汇之间的相似度大于预设相似度的词汇作为所述正确的词汇的候选错误词汇,将所述正确的词汇与候选错误词汇组成平行语料中。
在一个可选的实现方式中:
如果所述正确的词汇在所述多个词汇中的词频与所述候选错误词汇在所述多个词汇中的词频之间的比值大于第一预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:
在所述正确的词汇与所述候选错误词汇均所在的相同的上下文环境中,如果所述正确的词汇在所述相同的上下文环境中的词频与所述候选错误词汇在所述相同的上下文环境中的词频之间的比值大于第二预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:
获取第二对应关系,所述第二对应关系用于记录在历史过程中输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
在所述第二对应关系中查找与所述第一文本和至少一个纠错候选文本相对应的正确度调整量;
基于所述正确度调整量调整至少一个候选纠错文本的正确度。
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第一用户输入的纠错前文本纠错为纠错后文本之后,所述第一用户对纠错后文本的反馈操作对应的正确度调整量;
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第二用户输入的纠错前文本纠错为纠错后文本之后,所述第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在一个可选的实现方式中:
获取所述第一用户在输入所述第一文本之前的预设时长内输入的第二文本;
获取第三对应关系,所述第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入所述第一历史文本之后的预设时长输入的第二历史文本;
以所述第二文本作为第一历史文本,在所述第三对应关系中查找与所述第二文本相对应的第二历史文本;
增加与查找到的第二历史文本相同的候选纠错文本的准确度,然后执行所述选择预设数量个按照正确度由高到低排列的候选纠错文本的步骤。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第一用户在历史过程中输入的第一历史文本以及所述第一用户在输入所述第一历史文本之后的预设时长输入的第二历史文本。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第二用户在历史过程中输入的第一历史文本以及所述第二用户在输入所述第一历史文本之后的预设时长输入的第二历史文本;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
第二方面,本申请实施例示出了一种文本处理装置,所述装置包括:
第一获取模块,用于获取第一用户输入的第一文本;
纠错模块,用于对所述第一文本纠错,得到多个候选纠错文本;
第二获取模块,用于获取每一个候选纠错文本的正确度;
调整模块,用于基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
选择模块,用于选择预设数量个按照正确度由高到低排列的候选纠错文本。
在一个可选的实现方式中:所述第二获取模块包括:
第一获取单元,用于对于每一个候选纠错文本,获取所述候选纠错文本的语言模型分值,第二获取单元,用于获取所述候选纠错文本的转移概率,第三获取单元,用于基于所述语言模型分值和所述转移概率获取所述候选纠错文本的正确度。
在一个可选的实现方式中:所述第二获取单元包括:
第一获取子单元,用于获取所述候选纠错文本的拼音以及第一文本的拼音;
确定子单元,用于在所述候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对;
第二获取子单元,用于获取每一个字母对对应的转移概率;
第三获取子单元,用于获取在历史过程中的输入的文本的拼音中的字母输错的概率;
计算子单元,用于计算每一个字母对对应的转移概率之间的乘积,并计算所述乘积与所述字母输错的概率之间的乘积,得到所述候选纠错文本的转移概率。
在一个可选的实现方式中:所述第二获取子单元具体用于:获取字母对与转移概率之间的第一对应关系;在所述第一对应关系中分别查找与每一个字母对相对应的转移概率。
在一个可选的实现方式中:所述第二获取子单元还用于:
获取在历史过程中的纠错语料,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;根据所述纠错语料生成平行语料,所述平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;获取所述平行语料中的词汇的拼音;在所述平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将所述字母对中的正确的词汇的字母输入成所述字母对中的错误的词汇的字幕的转移概率,将所述字母对与所述转移概率组成对应表项,并存储在所述第一对应关系中。
在一个可选的实现方式中:
所述纠错语料包括所述第一用户在历史过程中的纠错语料。
在一个可选的实现方式中:
所述纠错语料包括第二用户在历史过程中的纠错语料,其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户。
在一个可选的实现方式中:第二获取子单元还用于:
将所述纠错语料中的所有纠错前文本分词,得到多个词汇;在所述多个词汇中,将词频大于预设词频的词汇确定为正确的词汇。对于每一个正确的词汇,获取所述正确的词汇分别与所述多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,将与所述正确的词汇之间的相似度大于预设相似度的词汇作为所述正确的词汇的候选错误词汇,将所述正确的词汇与候选错误词汇组成平行语料中。
在一个可选的实现方式中:第二获取子单元还用于:
如果所述正确的词汇在所述多个词汇中的词频与所述候选错误词汇在所述多个词汇中的词频之间的比值大于第一预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:第二获取子单元还用于:
在所述正确的词汇与所述候选错误词汇均所在的相同的上下文环境中,如果所述正确的词汇在所述相同的上下文环境中的词频与所述候选错误词汇在所述相同的上下文环境中的词频之间的比值大于第二预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:所述调整模块包括:
第四获取单元,用于获取第二对应关系,所述第二对应关系用于记录在历史过程中输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
查找单元,用于在所述第二对应关系中查找与所述第一文本和至少一个纠错候选文本相对应的正确度调整量;
调整单元,用于基于所述正确度调整量调整至少一个候选纠错文本的正确度。
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第一用户输入的纠错前文本纠错为纠错后文本之后,所述第一用户对纠错后文本的反馈操作对应的正确度调整量;
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第二用户输入的纠错前文本纠错为纠错后文本之后,所述第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在一个可选的实现方式中:所述装置还包括:
第三获取模块,用于获取所述第一用户在输入所述第一文本之前的预设时长内输入的第二文本;
第四获取模块,用于获取第三对应关系,所述第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入所述第一历史文本之后的预设时长输入的第二历史文本;
查找模块,用于以所述第二文本作为第一历史文本,在所述第三对应关系中查找与所述第二文本相对应的第二历史文本;
增加模块,用于增加与查找到的第二历史文本相同的候选纠错文本的准确度。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第一用户在历史过程中输入的第一历史文本以及所述第一用户在输入所述第一历史文本之后的预设时长输入的第二历史文本。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第二用户在历史过程中输入的第一历史文本以及所述第二用户在输入所述第一历史文本之后的预设时长输入的第二历史文本;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
第三方面,本申请实施例示出了一种电子设备,所述电子设备包括:
处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如第一方面所述的文本处理方法。
第四方面,本申请实施例示出了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如第一方面所述的文本处理方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请中,对第一用户输入的第一文本纠错得到候选纠错文本,且在得到每一个候选纠错文本的正确度之后,再基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度,该反馈信息包括在历史过程中第一用户对至少一个候选纠错文本的反馈信息,从而可以使得候选纠错文本的正确度对于第一用户而言更加准确,之后选择预设数量个按照正确度由高到低排列的候选纠错文本,可以增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
附图说明
图1是根据一示例性实施例示出的一种文本处理方法的流程图。
图2是根据一示例性实施例示出的一种获取正确度的方法的流程图。
图3是根据一示例性实施例示出的一种调整正确度的方法的流程图。
图4是根据一示例性实施例示出的一种第二对应关系的获取方法的流程图。
图5是根据一示例性实施例示出的一种调整正确度的方法的流程图。
图6是根据一示例性实施例示出的一种第三对应关系的获取方法的流程图。
图7是根据一示例性实施例示出的一种文本处理方法的流程图。
图8是根据一示例性实施例示出的一种文本处理装置的框图。
图9是根据一示例性实施例示出的一种文本处理装置的框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1是根据一示例性实施例示出的一种文本处理方法的流程图,如图1所示,该方法用于电子设备中,电子设备包括终端或服务器等,该方法包括以下步骤。
在步骤S101中,获取第一用户输入的第一文本;
在本申请中,第一文本包括第一用户在电子设备中输入的文字,例如,第一用户在与好友对话过程中,第一用户在电子设备中输入的用于向好友发送的文字消息等,或者,还可以包括第一用户在网页上的搜索框中输入的搜索关键词等,本申请对此不加以限定。
在步骤S102中,对第一文本纠错,得到多个候选纠错文本;
在本申请中,在得到一个用户输入的文本时,就可以对用户输入的文本纠错,例如,在得到一个用户在特定输入框中输入的文本时,对用户输入的文本纠错,例如,特定输入框包括搜索框等,或者,在搜索场景中,在得到一个用户输入的文本之后,可以先查找该文本对应的资源,如果查找到该文本对应的资源,则不对用户输入的文本纠错,如果未查找到该文本对应的资源,则再对用户输入的文本纠错。
在本申请中,可以使用现有技术中的任意一中文本纠错方法对第一文本纠错,得到多个候选纠错文本,本申请对具体的纠错方法不做限定。
在一个示例中,使用基于神经网络的文本纠错模型对第一文本纠错,例如,将第一文本输入基于神经网络的文本纠错模型中,得到基于神经网络的文本纠错模型输出的多个候选纠错文本。
其中,文本纠错模型可以通过如下方式训练得到:获取样本文本集合,样本文本集合中包括至少一个标注有正确文本的样本错误文本;使用样本文本集合中的样本错误文本对预设的神经网络模型进行训练,直至预设的神经网络模型中的权重均收敛,得到基于神经网络的文本纠错模型。
在步骤S103中,获取每一个候选纠错文本的正确度;
对于任意一个候选纠错文本,该纠错文本的正确度用于表明该候选纠错文本为第一用户本来实际想要输入的文本的概率。该候选纠错文本的正确度可以基于该候选纠错文本的语言模型分值、在历史过程中输入的历史文本以及对历史文本纠错得到的纠错文本来获取,具体可参见之后图2所示的实施例,在此不做详述。
对于其他每一个候选纠错文本,同样如此。
在步骤S104中,基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
在历史过程中,用户可能会对多个候选纠错文本中的某些候选纠错文本进行反馈,该用户包括第一用户,从而可以得到对多个候选纠错文本中的某些候选纠错文本的反馈信息,因此,可以基于这些候选纠错文本的反馈信息调整这些候选纠错文本的正确度。具体可参见之后图3所示的实施例,在此不做详述。
在步骤S105中,选择预设数量个按照正确度由高到低排列的候选纠错文本。
其中,可以将多个候选纠错文本按照正确度由高至低的顺序排序,然后在该排序顺序上,从正确度最高的候选纠错文本开始依次选择预设数量个候选纠错文本。
在本申请中,预设数量可以为1,当然,也可以为大于1的数,技术人员事先可以根据实际求来设置预设数量,本申请对预设数量的具体数值不做限定。
之后,就可以使用选择出的候选纠错文本,例如,在会话场景中,将选择出的候选纠错文本发送给会话中的其他用户,或者,在搜索场景中,搜索选择出的候选纠错文本对应的资源,并可以向用户返回搜索出的资源。
在本申请中,对第一用户输入的第一文本纠错得到候选纠错文本,且在得到每一个候选纠错文本的正确度之后,再基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度,该反馈信息包括在历史过程中第一用户对至少一个候选纠错文本的反馈信息,从而可以使得候选纠错文本的正确度对于第一用户而言更加准确,之后选择预设数量个按照正确度由高到低排列的候选纠错文本,可以增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
在本申请一个实施例中,在步骤S103中,对于任意一个候选纠错文本,可以通过如下流程来获取该候选纠错文本的正确度,对于其他每一个候选纠错文本,同样如此。
其中,参见图2,具体流程包括:包括:
在步骤S201中,获取该候选纠错文本的语言模型分值;
在一个示例中,可以使用基于神经网络的语言模型获取该候选文本语言模型分值。
其中,语言模型可以通过如下方式训练得到:获取样本文本集合,样本文本集合中包括至少一个标注有语言模型分值的样本文本;使用样本文本集合中的样本文本对神经网络模型进行训练,直至神经网络模型中的权重均收敛,得到基于神经网络的语言模型。例如,Ken Language Model等。
在步骤S202中,获取该候选纠错文本的转移概率;
其中,本步骤可以通过如下流程实现,包括:
2021、获取该候选纠错文本的拼音以及第一文本的拼音;
2022、在该候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对,并获取每一个字母对对应的转移概率;
字母对中包括两个字母,一个字母位于该候选纠错文本的拼音中,另一个字母位于第一文本的拼音中,且该一个字母在该候选纠错文本的拼音中的位置与该另一个字母在第一文本的拼音中的位置对应,例如,该一个字母在该候选纠错文本的拼音中的位置与该另一个字母在第一文本的拼音中的位置相同。
字母对对应的转移概率包括:将字母对中的位于该候选纠错文本中的字母输入为字母对中的位于第一文本中的字母的概率。
例如,该候选纠错文本的拼音为liu,第一文本的拼音为niu,在两个拼音中都为首位的字母分别为l和n,位于第二位的字母均为i,位于末位的字母均为u,因此,l和n可以组成字母对,可以获取将字母l输入为字母n的概率,并作为该字母对对应的转移概率。
在本申请中,在获取每一个字母对对应的转移概率时,可以获取字母对与转移概率之间的第一对应关系,然后在第一对应关系中分别查找与每一个字母对相对应的转移概率。
其中,第一对应关系可以通过如下方式获得,包括:
11)、获取在历史过程中的该纠错语料,该纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;
在本申请一个实施例中,纠错语料包括第一用户在历史过程中的纠错语料。
在本申请另一个实施例中,纠错语料包括第二用户在历史过程中的纠错语料,其中,第二用户包括第一用户和第三用户,第三用户包括纠错语料与第一用户的纠错语料之间的相似度大于预设阈值的用户。
例如,可以获取多个用户在历史过程中的纠错语料,每一个纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;例如,对于任意一个用户,可以获取该用户在历史过程中输入的纠错前文本,然后对纠错前文本纠错,得到纠错后文本,将每一个纠错前文本与其对应的纠错后文本分别组成对应表项,将组成的对应表项组成该用户的纠错语料,对于其他每一个用户,同样如此。然后,确定与第一用户的纠错语料之间的相似度大于预设阈值的纠错语料;对于除第一用户以外的任意一个用户,统计该用户的纠错语料中与第一用户的纠错语料中相同的对应表项的数量,并作为该用户的纠错语料与第一用户的纠错语料之间的相似度;其中,任意两个对应表项相同意味着该两个对应表项中各自的纠错前文本相同,且该两个对应表项中各自的纠错后文本相同。之后,将第一用户的纠错语料与确定出的纠错语料可以组成为一个新的纠错语料。
12)、根据该纠错语料生成平行语料,该平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;
在本申请中,可以将纠错语料中的所有纠错前文本分词,得到多个词汇;在多个词汇中,将词频大于预设词频的词汇确定为正确的词汇。
对于任意一个正确的词汇,获取正确的词汇分别与多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,例如计算两个词汇之间的编辑距离,并作为两个词汇之间的相似度,或者计算两个词汇之间的Jaccard相似系数,并作为两个词汇之间的相似度,将与正确的词汇之间的相似度大于预设相似度的词汇作为正确的词汇的候选错误词汇,将正确的词汇与候选错误词汇组成平行语料中。
或者在另一示例中,通常情况下,大部分用户输入的词汇为正确的词汇的数量远远大于为错误的词汇的数量,因此,如果该正确的词汇在多个词汇中的词频与候选错误词汇在多个词汇中的词频之间的比值大于第一预设比值,则再将该正确的词汇与候选错误词汇添加在平行语料中。第一预设比值可以为10、15或20等,本申请对此不加以限定。
或者,在又一示例中,通常情况下,在同一个上下文环境中,大部分用户输入的词汇为正确的词汇的数量远远大于为错误的词汇的数量,因此,在该正确的词汇与候选错误词汇均所在的相同的上下文环境中,如果该正确的词汇在相同的上下文环境中的词频与候选错误词汇在相同的上下文环境中的词频之间的比值大于第二预设比值,则再将该正确的词汇与候选错误词汇添加在平行语料中。第二预设比值可以为10、15或20等,本申请对此不加以限定。
对于其他每一个正确的词汇,同样执行上述操作。如此平行语料中就存储了多个对应表项。
13)、获取平行语料中的词汇的拼音;
14)、在平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将该字母对中的正确的词汇的字母输入成该字母对中的错误的词汇的字母的转移概率,将该字母对与该转移概率组成对应表项,并存储在第一对应关系中。
其中,该平行语料包括正确的词汇和正确的词汇对应的候选错误词汇之间的对应关系。该对应关系中包括多个对应表项,每一个对应表项中都包括一个正确的词汇和一个候选错误词汇。
在任意一个对应表项中的正确的词汇的拼音以及错误的词汇的拼音中,确定位置相同但内容不同的字母对,
字母对中包括两个字母,一个字母位于正确的词汇的拼音中,另一个字母位于错误的词汇的拼音中,且该一个字母在正确的词汇的拼音中的位置与该另一个字母在错误的词汇的拼音中的位置对应,例如,该一个字母在正确的词汇的拼音中的位置与该另一个字母在错误的词汇的拼音中的位置相同。
字母对对应的转移概率包括:将字母对中的位于正确的词汇的拼音中的字母输入为字母对中的位于正确的词汇的拼音中的字母的概率。
2023、获取在历史过程中的输入的文本的拼音中的字母输错的概率;
其中,可以统计在历史过程中,第一用户输入的字母的总数量,以及第一用户输入的错误字母的总数量,然后计算输入的错误字母的总数量与输入的字母的总数量之间的比值,并作为在历史过程中的输入的文本的拼音中的字母输错的概率。
例如,在历史过程中,第一用户输入过10000个字母,但是有500个字母输入错误,则字母输错的概率为0.05,
2024、计算每一个字母对对应的转移概率之间的乘积,并计算该乘积与字母输错的概率之间的乘积,得到该候选纠错文本的转移概率。
在步骤S203中,基于该语言模型分值和该转移概率获取该候选纠错文本的正确度。
在本申请中,可以计算该语言模型分值与该转移概率之间的乘积,并作为该候选纠错文本的正确度。
在本申请另一实施例中,参见图3,步骤S104包括:
在步骤S301中,获取第二对应关系,第二对应关系用于记录在历史过程中将输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
在步骤S302中,在第二对应关系中查找与第一文本和至少一个纠错候选文本相对应的正确度调整量;
在步骤S303中,基于正确度调整量调整至少一个候选纠错文本的正确度。
在本申请中,对于至少一个纠错候选文本中的任意一个纠错候选文本,可以在第二对应关系中,将第一文本作为纠错前文本,将该纠错候选文本作为纠错后文本,来查找与第一文本和该纠错候选文本相对应的正确度调整量,然后根据该正确度调整量调整该候选纠错文本的正确度。
对于至少一个纠错候选文本中的其他每一个纠错候选文本,同样执行上述操作。
在本申请一个实施例中,第二对应关系用于记录在历史过程中将第一用户输入的纠错前文本纠错为纠错后文本之后,第一用户对纠错后文本的反馈操作对应的正确度调整量;
在本申请中,第二对应关系可以通过如下方式得到:
在历史过程中,第一用户输入一个文本,电子设备对输入的该文本纠错得到纠错后文本,纠错后文本可能是第一用户本来实际想输入的文本,即正确度较高的文本,也可能不是第一用户本来实际想输入的文本,即正确度较低的文本。
如果纠错后文本是第一用户本来想输入的文本,则第一用户可能会对纠错后文本或者纠错后文本对应的资源进行后续反馈操作,例如,点击纠错后文本或者纠错后文本对应的资源,将纠错后文本对应的资源加入购物车或购买纠错后文本对应的资源等。
如果纠错后文本不是第一用户本来想输入的文本,则第一用户往往不会对纠错后文本或者纠错后文本对应的资源进行后续反馈操作。
也即,如果第一用户对纠错后文本或者纠错后文本对应的资源进行后续反馈操作,则说明纠错后文本的正确度较高,如果第一用户对纠错后文本或者纠错后文本对应的资源没有进行后续反馈操作,则说明纠错后文本的正确度较低。
因此,可以根据第一用户是否对纠错后文本或者纠错后文本对应的资源进行后续反馈操作和/或后续反馈操作的操作次数,来确定将纠错前文本纠错得到的纠错后文本的正确度调整量,并将纠错前文本、纠错后文本以及确定出的该正确度调整量组成对应表项,并存储在第二对应关系中。
例如,如果第一用户对纠错后文本或者纠错后文本对应的资源未进行反馈操作,则可以将纠错前文本纠错得到的纠错后文本的正确度调整量确定为0等,如果第一用户对纠错后文本或者纠错后文本对应的资源进行的反馈操作包括点击、加入购物车或购买等,则可以将纠错前文本纠错得到的纠错后文本的正确度调整量确定为大于0的数值等。
进一步地,之后如果继续对第一用户再次输入的纠错前文本纠错得到纠错后文本,则可以对在第二对应关系中的确定出的该正确度调整量更新。
其次,为了进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率,在本申请另一个实施例中,第二对应关系用于记录在历史过程中将第二用户输入的纠错前文本纠错为纠错后文本之后,第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,第二用户包括第一用户和第三用户,第三用户包括纠错语料与第一用户的纠错语料之间的相似度大于预设阈值的用户,纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在本申请中,参见图4,第二对应关系可以通过如下方式得到,包括:
在步骤S401中,获取每一个用户在历史过程中的纠错语料,纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;
对于任意一个用户,可以获取该用户在历史过程中输入的纠错前文本,然后对纠错前文本纠错,得到纠错后文本,将每一个纠错前文本与其对应的纠错后文本分别组成对应表项,将组成的对应表项组成该用户的纠错语料。
对于其他每一个用户,同样如此。
在步骤S402中,根据每一个用户的纠错语料,确定纠错语料与第一用户的纠错语料之间的相似度大于预设阈值的第三用户;
对于除第一用户以外的任意一个用户,统计该用户的纠错语料中与第一用户的纠错语料中相同的对应表项的数量,并作为该用户的纠错语料与第一用户的纠错语料之间的相似度,然后确定该相似度是否大于预设阈值,如果该相似度大于预设阈值,则将该用户确定为第三用户。
对于除第一用户以外的其他每一个用户,同样执行上述操作。
其中,任意两个对应表项相同意味着该两个对应表项中各自的纠错前文本相同,且该两个对应表项中各自的纠错后文本相同。
在步骤S403中,获取第一候选对应关系,第一候选对应关系用于记录在历史过程中将第一用户输入的纠错前文本纠错为纠错后文本之后,第一用户对纠错后文本的反馈操作对应的正确度调整量;
在步骤S404中,获取第二候选对应关系,第二候选对应关系用于记录在历史过程中将第三用户输入的纠错前文本纠错为纠错后文本之后,第三用户对纠错后文本的反馈操作对应的正确度调整量;
在步骤S405中,将第一候选对应关系与第二候选对应关系合并为第二对应关系。
如果第一候选对应关系中与第二候选对应关系中存在包括的纠错前文本与纠错后文本相同的对应表项,则可以将该两个对应表项中的正确度调整量相加,并作为在第二对应关系中该纠错前文本与该纠错后文本对应的新的正确度调整量。
通过本申请,由于第一用户的输入习惯或输出错误的方式与第三用户的输入习惯或输出错误的方式之间的相似度较大,因此,第三用户对候选纠错文本的反馈信息往往也可能是第一用户对候选纠错文本的反馈信息,即使第一用户对候选纠错文本的反馈信息较少或没有,也可以结合第三用户对候选纠错文本的反馈信息来调整候选纠错文本的正确度,从而可以进一步使得每一个候选纠错文本的正确度对于第一用户而言更加准确,进而可以进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
在本申请中,有时候第一用户在短时间内会连续输入多个文本,例如在搜索场景中,为了连续搜索多个资源,第一用户会在搜索框中连续输入多个文本,对于第一用户而言,如果在不同的预设时长内,在搜索框中均连续输入多个文本,则该多个文本在先后顺序上相关联。
例如,在历史过程中,第一用户经常在不同的预设时长内先搜索了“啤酒”,然后搜索了“饮料”,对于第一用户而言,“啤酒”和“饮料”在先后顺序上相关联。如果第一用户在输入第一文本之前的预设时长内输入了“啤酒”,则第一用户输入的第一文本为“啤酒”的可能性较大,因此,为了进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率,参见图5,在步骤S105之前,该方法还包括:
在步骤S501中,获取第一用户在输入第一文本之前的预设时长内输入的第二文本;
在步骤S502中,获取第三对应关系,第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入第一历史文本之后的预设时长输入的第二历史文本;
在步骤S503中,以第二文本作为第一历史文本,在第三对应关系中查找与第二文本相对应的第二历史文本;
在步骤S504中,增加与查找到的第二历史文本相同的候选纠错文本的准确度,然后执行步骤S105。
由于查找到的第二历史文本与第一文本对于第一用户在先后顺序上相关联,如此可以增加与查找到的第二历史文本相同的候选纠错文本的相关度,从而可以进一步使得每一个候选纠错文本的正确度对于第一用户而言更加准确,进而可以进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
在本申请一个实施例中,第三对应关系用于记录第一用户在历史过程中输入的第一历史文本以及第一用户在输入第一历史文本之后的预设时长输入的第二历史文本。
在本申请中,第三对应关系可以通过如下方式得到:
在历史过程中,第一用户在一个预设时长内可能输入了多个历史文本,多个历史文本组成了频繁项集合,例如,第一用户在一个预设时长内先输入了历史文本A,后输入了历史文本B,则历史文本A和历史文本B组成了频繁项集合,在历史过程中得到的第一用户的多个频繁项集合中,将包括的历史文本相同且包括的历史文本之间的顺序也相同的频繁项集合归为一类,如果某一类频繁项集合的数量与所有的频繁项集合的数量之间的比值大于预设阈值,则说明一类频繁项集合包括的多个历史文本基于其之间的相互顺序相关联,将该一类频繁项集合中的在先输入的历史文本作为第一历史文本且将该一类频繁项集合中的在后输入的历史文本作为第二历史文本,组成对应表项,并存储在第三对应关系中。
预设阈值可以为0.2、0.25或0.3等,本申请对此不加以限定。
其次,为了更进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率,
在本申请另一实施例中,第三对应关系用于记录第二用户在历史过程中输入的第一历史文本以及第二用户在输入第一历史文本之后的预设时长输入的第二历史文本;
其中,第二用户包括第一用户和第三用户,第三用户包括纠错语料与第一用户的纠错语料之间的相似度大于预设阈值的用户,纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在本申请中,参见图6,第三对应关系可以通过如下方式得到,包括:
在步骤S601中,获取第一用户在输入第一文本之前的预设时长内输入的第二文本;
在步骤S602中,获取第一用户对应的第三候选对应关系,第三候选对应关系用于记录第一用户在历史过程中输入的第一历史文本以及第一用户在输入第一历史文本之后的预设时长输入的第二历史文本;
在历史过程中,第一用户在一个预设时长内可能输入了多个历史文本,多个历史文本组成了频繁项集合,例如,第一用户在一个预设时长内先输入了历史文本A,后输入了历史文本B,则历史文本A和历史文本B组成了频繁项集合,在历史过程中得到的第一用户的多个频繁项集合中,将包括的历史文本相同且包括的历史文本之间的顺序也相同的频繁项集合归为一类,如果某一类频繁项集合的数量与所有的频繁项集合的数量之间的比值大于预设阈值,则说明一类频繁项集合包括的多个历史文本基于其之间的相互顺序相关联,将该一类频繁项集合中的在先输入的历史文本作为第一历史文本且将该一类频繁项集合中的在后输入的历史文本作为第二历史文本,组成对应表项,并存储在第三候选对应关系中。
预设阈值可以为0.2、0.25或0.3等,本申请对此不加以限定。
在步骤S603中,获取每一个用户在历史过程中的纠错语料,纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;
对于任意一个用户,可以获取该用户在历史过程中输入的纠错前文本,然后对纠错前文本纠错,得到纠错后文本,将每一个纠错前文本与其对应的纠错后文本分别组成对应表项,将组成的对应表项组成该用户的纠错语料。
对于其他每一个用户,同样如此。
在步骤S604中,根据每一个用户的纠错语料,确定纠错语料与第一用户的纠错语料之间的相似度大于预设阈值的第三用户;
对于除第一用户以外的任意一个用户,统计该用户的纠错语料中与第一用户的纠错语料中相同的对应表项的数量,并作为该用户的纠错语料与第一用户的纠错语料之间的相似度,然后确定该相似度是否大于预设阈值,如果该相似度大于预设阈值,则将该用户确定为第三用户。
对于除第一用户以外的其他每一个用户,同样执行上述操作。
其中,任意两个对应表项相同意味着该两个对应表项中各自的纠错前文本相同,且该两个对应表项中各自的纠错后文本相同。
在步骤S605中,获取第三用户的第四候选对应关系,第四候选对应关系用于记录第三用户在历史过程中输入的第一历史文本以及第三用户在输入第一历史文本之后的预设时长输入的第二历史文本;
在历史过程中,第三用户在一个预设时长内可能输入了多个历史文本,多个历史文本组成了频繁项集合,例如,第三用户在一个预设时长内先输入了历史文本A,后输入了历史文本B,则历史文本A和历史文本B组成了频繁项集合,在历史过程中得到的第三用户的多个频繁项集合中,将包括的历史文本相同且包括的历史文本之间的顺序也相同的频繁项集合归为一类,如果某一类频繁项集合的数量与所有的频繁项集合的数量之间的比值大于预设阈值,则说明一类频繁项集合包括的多个历史文本基于其之间的相互顺序相关联,将该一类频繁项集合中的在先输入的历史文本作为第一历史文本且将该一类频繁项集合中的在后输入的历史文本作为第二历史文本,组成对应表项,并存储在第四候选对应关系中。
预设阈值可以为0.2、0.25或0.3等,本申请对此不加以限定。
在步骤S606中,将第三候选对应关系与第四候选对应关系合并为第三对应关系;
通过本申请,由于第一用户的输入习惯与第三用户的输入习惯之间的相似度较大,因此,第三用户的输入的在先后顺序上相关联的文本往往对第一用户也是在先后顺序上相关联的,即使第一用户在先后顺序上相关联的较少或没有,也可以结合第三用户在先后顺序上相关联的文本来调整候选纠错文本的正确度,可以增加与查找到的第二历史文本相同的候选纠错文本的相关度,从而可以进一步使得每一个候选纠错文本的正确度对于第一用户而言更加准确,进而可以进一步地增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
图7是根据一示例性实施例示出的一种文本处理方法的流程图,如图7所示,该方法用于电子设备中,电子设备包括终端或服务器等,该方法包括以下步骤。
在步骤S701中,获取第一用户输入的第一文本;
在步骤S702中,对第一文本纠错,得到多个候选纠错文本;
在步骤S703中,获取该候选纠错文本的语言模型分值;获取该候选纠错文本的转移概率;基于该语言模型分值和该转移概率获取该候选纠错文本的正确度。
在步骤S704中,基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
在步骤S705中,获取第一用户在输入第一文本之前的预设时长内输入的第二文本;
在步骤S706中,获取第三对应关系,第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入第一历史文本之后的预设时长输入的第二历史文本;
在步骤S707中,以第二文本作为第一历史文本,在第三对应关系中查找与第二文本相对应的第二历史文本;
在步骤S708中,增加与查找到的第二历史文本相同的候选纠错文本的准确度;
在步骤S709中,选择预设数量个按照正确度由高到低排列的候选纠错文本。
在本申请中,可以先执行步骤S704,再执行步骤S705~步骤S708,然后执行步骤S709。或者,也可以先执行步骤S705~步骤S708,在执行步骤S704,然后执行步骤S709。
在本申请中,对第一用户输入的第一文本纠错得到候选纠错文本,且在得到每一个候选纠错文本的正确度之后,再基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度,该反馈信息包括在历史过程中第一用户对至少一个候选纠错文本的反馈信息,从而可以使得候选纠错文本的正确度对于第一用户而言更加准确,之后选择预设数量个按照正确度由高到低排列的候选纠错文本,可以增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
图8是根据一示例性实施例示出的一种文本处理装置的框图,如图8所示,该装置包括:
第一获取模块11,用于获取第一用户输入的第一文本;
纠错模块12,用于对所述第一文本纠错,得到多个候选纠错文本;
第二获取模块13,用于获取每一个候选纠错文本的正确度;
调整模块14,用于基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
选择模块15,用于选择预设数量个按照正确度由高到低排列的候选纠错文本。
在一个可选的实现方式中:所述第二获取模块13包括:
第一获取单元,用于对于每一个候选纠错文本,获取所述候选纠错文本的语言模型分值,第二获取单元,用于获取所述候选纠错文本的转移概率,第三获取单元,用于基于所述语言模型分值和所述转移概率获取所述候选纠错文本的正确度。
在一个可选的实现方式中:所述第二获取单元包括:
第一获取子单元,用于获取所述候选纠错文本的拼音以及第一文本的拼音;
确定子单元,用于在所述候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对;
第二获取子单元,用于获取每一个字母对对应的转移概率;
第三获取子单元,用于获取在历史过程中的输入的文本的拼音中的字母输错的概率;
计算子单元,用于计算每一个字母对对应的转移概率之间的乘积,并计算所述乘积与所述字母输错的概率之间的乘积,得到所述候选纠错文本的转移概率。
在一个可选的实现方式中:所述第二获取子单元具体用于:获取字母对与转移概率之间的第一对应关系;在所述第一对应关系中分别查找与每一个字母对相对应的转移概率。
在一个可选的实现方式中:所述第二获取子单元还用于:
获取在历史过程中的纠错语料,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;根据所述纠错语料生成平行语料,所述平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;获取所述平行语料中的词汇的拼音;在所述平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将所述字母对中的正确的词汇的字母输入成所述字母对中的错误的词汇的字幕的转移概率,将所述字母对与所述转移概率组成对应表项,并存储在所述第一对应关系中。
在一个可选的实现方式中:
所述纠错语料包括所述第一用户在历史过程中的纠错语料。
在一个可选的实现方式中:
所述纠错语料包括第二用户在历史过程中的纠错语料,其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户。
在一个可选的实现方式中:第二获取子单元还用于:
将所述纠错语料中的所有纠错前文本分词,得到多个词汇;在所述多个词汇中,将词频大于预设词频的词汇确定为正确的词汇。对于每一个正确的词汇,获取所述正确的词汇分别与所述多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,将与所述正确的词汇之间的相似度大于预设相似度的词汇作为所述正确的词汇的候选错误词汇,将所述正确的词汇与候选错误词汇组成平行语料中。
在一个可选的实现方式中:第二获取子单元还用于:
如果所述正确的词汇在所述多个词汇中的词频与所述候选错误词汇在所述多个词汇中的词频之间的比值大于第一预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:第二获取子单元还用于:
在所述正确的词汇与所述候选错误词汇均所在的相同的上下文环境中,如果所述正确的词汇在所述相同的上下文环境中的词频与所述候选错误词汇在所述相同的上下文环境中的词频之间的比值大于第二预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
在一个可选的实现方式中:所述调整模块14包括:
第四获取单元,用于获取第二对应关系,所述第二对应关系用于记录在历史过程中输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
查找单元,用于在所述第二对应关系中查找与所述第一文本和至少一个纠错候选文本相对应的正确度调整量;
调整单元,用于基于所述正确度调整量调整至少一个候选纠错文本的正确度。
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第一用户输入的纠错前文本纠错为纠错后文本之后,所述第一用户对纠错后文本的反馈操作对应的正确度调整量;
在一个可选的实现方式中:
所述第二对应关系用于记录在历史过程中将所述第二用户输入的纠错前文本纠错为纠错后文本之后,所述第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在一个可选的实现方式中:所述装置还包括:
第三获取模块,用于获取所述第一用户在输入所述第一文本之前的预设时长内输入的第二文本;
第四获取模块,用于获取第三对应关系,所述第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入所述第一历史文本之后的预设时长输入的第二历史文本;
查找模块,用于以所述第二文本作为第一历史文本,在所述第三对应关系中查找与所述第二文本相对应的第二历史文本;
增加模块,用于增加与查找到的第二历史文本相同的候选纠错文本的准确度。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第一用户在历史过程中输入的第一历史文本以及所述第一用户在输入所述第一历史文本之后的预设时长输入的第二历史文本。
在一个可选的实现方式中:
所述第三对应关系用于记录所述第二用户在历史过程中输入的第一历史文本以及所述第二用户在输入所述第一历史文本之后的预设时长输入的第二历史文本;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
在本申请中,对第一用户输入的第一文本纠错得到候选纠错文本,且在得到每一个候选纠错文本的正确度之后,再基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度,该反馈信息包括在历史过程中第一用户对至少一个候选纠错文本的反馈信息,从而可以使得候选纠错文本的正确度对于第一用户而言更加准确,之后选择预设数量个按照正确度由高到低排列的候选纠错文本,可以增大选择出的候选纠错文本为第一用户实际想要输入的文本的概率。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的文本处理方法。本申请实施例中,所述电子设备包括服务器、网关、子设备等,子设备为物联网设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。
图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。
对于一个实施例,图9示出了示例性装置1300,该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310,以及被耦合到控制模块1306的网络接口1312。
处理器1302可包括一个或多个单核或多核处理器,处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1300能够作为本申请实施例中所述网关或控制器等服务器设备。
在一些实施例中,装置1300可包括具有指令1314的一个或多个计算机可读介质(例如,存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
对于一个实施例,控制模块1304可包括任意适当的接口控制器,以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
控制模块1304可包括存储器控制器模块,以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例,存储器1306可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1304可包括一个或多个输入/输出控制器,以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
例如,NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信,输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信,装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1300可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
本申请实施例提供了一种电子设备,包括:一个或多个处理器;和,其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述处理器执行如本申请实施例中一个或多个所述的文本处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本处理方法装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (32)

1.一种文本处理方法,其特征在于,所述方法包括:
获取第一用户输入的第一文本;
对所述第一文本纠错,得到多个候选纠错文本;
获取每一个候选纠错文本的正确度;
基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
选择预设数量个按照正确度由高到低排列的候选纠错文本。
2.根据权利要求1所述的方法,其特征在于:
对于每一个候选纠错文本,获取所述候选纠错文本的语言模型分值,获取所述候选纠错文本的转移概率,基于所述语言模型分值和所述转移概率获取所述候选纠错文本的正确度。
3.根据权利要求2所述的方法,其特征在于:
获取所述候选纠错文本的拼音以及第一文本的拼音;
在所述候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对,获取每一个字母对对应的转移概率;
获取在历史过程中的输入的文本的拼音中的字母输错的概率;
计算每一个字母对对应的转移概率之间的乘积,并计算所述乘积与所述字母输错的概率之间的乘积,得到所述候选纠错文本的转移概率。
4.根据权利要求3所述的方法,其特征在于:
获取字母对与转移概率之间的第一对应关系;
在所述第一对应关系中分别查找与每一个字母对相对应的转移概率。
5.根据权利要求4所述的方法,其特征在于:
获取在历史过程中的纠错语料,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;
根据所述纠错语料生成平行语料,所述平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;
获取所述平行语料中的词汇的拼音;
在所述平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将所述字母对中的正确的词汇的字母输入成所述字母对中的错误的词汇的字幕的转移概率,将所述字母对与所述转移概率组成对应表项,并存储在所述第一对应关系中。
6.根据权利要求5所述的方法,其特征在于:
所述纠错语料包括所述第一用户在历史过程中的纠错语料。
7.根据权利要求5所述的方法,其特征在于:
所述纠错语料包括第二用户在历史过程中的纠错语料,其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户。
8.根据权利要求5所述的方法,其特征在于:
将所述纠错语料中的所有纠错前文本分词,得到多个词汇;
在所述多个词汇中,将词频大于预设词频的词汇确定为正确的词汇;
对于每一个正确的词汇,获取所述正确的词汇分别与所述多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,将与所述正确的词汇之间的相似度大于预设相似度的词汇作为所述正确的词汇的候选错误词汇,将所述正确的词汇与候选错误词汇组成平行语料中。
9.根据权利要求8所述的方法,其特征在于:
如果所述正确的词汇在所述多个词汇中的词频与所述候选错误词汇在所述多个词汇中的词频之间的比值大于第一预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
10.根据权利要求9所述的方法,其特征在于:
在所述正确的词汇与所述候选错误词汇均所在的相同的上下文环境中,如果所述正确的词汇在所述相同的上下文环境中的词频与所述候选错误词汇在所述相同的上下文环境中的词频之间的比值大于第二预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
11.根据权利要求1-10任一项所述的方法,其特征在于:
获取第二对应关系,所述第二对应关系用于记录在历史过程中输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
在所述第二对应关系中查找与所述第一文本和至少一个纠错候选文本相对应的正确度调整量;
基于所述正确度调整量调整至少一个候选纠错文本的正确度。
12.根据权利要求11所述的方法,其特征在于:
所述第二对应关系用于记录在历史过程中将所述第一用户输入的纠错前文本纠错为纠错后文本之后,所述第一用户对纠错后文本的反馈操作对应的正确度调整量。
13.根据权利要求11所述的方法,其特征在于:
所述第二对应关系用于记录在历史过程中将所述第二用户输入的纠错前文本纠错为纠错后文本之后,所述第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
14.根据权利要求1-10任一项所述的方法,其特征在于:
获取所述第一用户在输入所述第一文本之前的预设时长内输入的第二文本;
获取第三对应关系,所述第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入所述第一历史文本之后的预设时长输入的第二历史文本;
以所述第二文本作为第一历史文本,在所述第三对应关系中查找与所述第二文本相对应的第二历史文本;
增加与查找到的第二历史文本相同的候选纠错文本的准确度,然后执行所述选择预设数量个按照正确度由高到低排列的候选纠错文本的步骤。
15.根据权利要求14所述的方法,其特征在于:
所述第三对应关系用于记录所述第一用户在历史过程中输入的第一历史文本以及所述第一用户在输入所述第一历史文本之后的预设时长输入的第二历史文本。
16.根据权利要求14所述的方法,其特征在于:
所述第三对应关系用于记录所述第二用户在历史过程中输入的第一历史文本以及所述第二用户在输入所述第一历史文本之后的预设时长输入的第二历史文本;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
17.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一用户输入的第一文本;
纠错模块,用于对所述第一文本纠错,得到多个候选纠错文本;
第二获取模块,用于获取每一个候选纠错文本的正确度;
调整模块,用于基于在历史过程中对至少一个候选纠错文本的反馈信息,调整至少一个候选纠错文本的正确度;
选择模块,用于选择预设数量个按照正确度由高到低排列的候选纠错文本。
18.根据权利要求17所述的装置,其特征在于,所述第二获取模块包括:
第一获取单元,用于对于每一个候选纠错文本,获取所述候选纠错文本的语言模型分值,第二获取单元,用于获取所述候选纠错文本的转移概率,第三获取单元,用于基于所述语言模型分值和所述转移概率获取所述候选纠错文本的正确度。
19.根据权利要求18所述的装置,其特征在于,所述第二获取单元包括:
第一获取子单元,用于获取所述候选纠错文本的拼音以及第一文本的拼音;
确定子单元,用于在所述候选纠错文本的拼音以及第一文本的拼音中,确定位置相同但内容不同的字母对;
第二获取子单元,用于获取每一个字母对对应的转移概率;
第三获取子单元,用于获取在历史过程中的输入的文本的拼音中的字母输错的概率;
计算子单元,用于计算每一个字母对对应的转移概率之间的乘积,并计算所述乘积与所述字母输错的概率之间的乘积,得到所述候选纠错文本的转移概率。
20.根据权利要求19所述的装置,其特征在于,所述第二获取子单元具体用于:获取字母对与转移概率之间的第一对应关系;在所述第一对应关系中分别查找与每一个字母对相对应的转移概率。
21.根据权利要求20所述的装置,其特征在于,所述第二获取子单元还用于:
获取在历史过程中的纠错语料,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本;根据所述纠错语料生成平行语料,所述平行语料用于记录正确的词汇和正确的词汇对应的候选错误词汇;获取所述平行语料中的词汇的拼音;在所述平行语料中的词汇的拼音中,确定位置相同但内容不同的字母对,对于每一个字母对,统计将所述字母对中的正确的词汇的字母输入成所述字母对中的错误的词汇的字幕的转移概率,将所述字母对与所述转移概率组成对应表项,并存储在所述第一对应关系中。
22.根据权利要求21所述的装置,其特征在于,所述纠错语料包括所述第一用户在历史过程中的纠错语料。
23.根据权利要求21所述的装置,其特征在于,所述纠错语料包括第二用户在历史过程中的纠错语料,其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户。
24.根据权利要求21所述的装置,其特征在于,第二获取子单元还用于:
将所述纠错语料中的所有纠错前文本分词,得到多个词汇;在所述多个词汇中,将词频大于预设词频的词汇确定为正确的词汇;对于每一个正确的词汇,获取所述正确的词汇分别与所述多个词汇中的除所有正确的词汇以外的其他词汇之间的相似度,将与所述正确的词汇之间的相似度大于预设相似度的词汇作为所述正确的词汇的候选错误词汇,将所述正确的词汇与候选错误词汇组成平行语料中。
25.根据权利要求24所述的装置,其特征在于,第二获取子单元还用于:
如果所述正确的词汇在所述多个词汇中的词频与所述候选错误词汇在所述多个词汇中的词频之间的比值大于第一预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
26.根据权利要求25所述的装置,其特征在于,第二获取子单元还用于:
在所述正确的词汇与所述候选错误词汇均所在的相同的上下文环境中,如果所述正确的词汇在所述相同的上下文环境中的词频与所述候选错误词汇在所述相同的上下文环境中的词频之间的比值大于第二预设比值,则执行所述将所述正确的词汇与候选错误词汇组成平行语料中的步骤。
27.根据权利要求17-26任一项所述的装置,其特征在于,所述调整模块包括:
第四获取单元,用于获取第二对应关系,所述第二对应关系用于记录在历史过程中输入的纠错前文本纠错为纠错后文本之后,对纠错后文本的反馈操作对应的正确度调整量;
查找单元,用于在所述第二对应关系中查找与所述第一文本和至少一个纠错候选文本相对应的正确度调整量;
调整单元,用于基于所述正确度调整量调整至少一个候选纠错文本的正确度。
28.根据权利要求27所述的装置,其特征在于:所述第二对应关系用于记录在历史过程中将所述第一用户输入的纠错前文本纠错为纠错后文本之后,所述第一用户对纠错后文本的反馈操作对应的正确度调整量。
29.根据权利要求27所述的装置,其特征在于:所述第二对应关系用于记录在历史过程中将所述第二用户输入的纠错前文本纠错为纠错后文本之后,所述第二用户对纠错后文本的反馈操作对应的正确度调整量;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
30.根据权利要求17-26任一项所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取所述第一用户在输入所述第一文本之前的预设时长内输入的第二文本;
第四获取模块,用于获取第三对应关系,所述第三对应关系用于记录在历史过程中输入的第一历史文本以及在输入所述第一历史文本之后的预设时长输入的第二历史文本;
查找模块,用于以所述第二文本作为第一历史文本,在所述第三对应关系中查找与所述第二文本相对应的第二历史文本;
增加模块,用于增加与查找到的第二历史文本相同的候选纠错文本的准确度。
31.根据权利要求30所述的装置,其特征在于:
所述第三对应关系用于记录所述第一用户在历史过程中输入的第一历史文本以及所述第一用户在输入所述第一历史文本之后的预设时长输入的第二历史文本。
32.根据权利要求30所述的装置,其特征在于:
所述第三对应关系用于记录所述第二用户在历史过程中输入的第一历史文本以及所述第二用户在输入所述第一历史文本之后的预设时长输入的第二历史文本;
其中,所述第二用户包括所述第一用户和第三用户,所述第三用户包括纠错语料与所述第一用户的纠错语料之间的相似度大于预设阈值的用户,所述纠错语料包括至少一个纠错前文本与对纠错前文本纠错得到的纠错后文本。
CN201910267704.8A 2019-04-03 2019-04-03 文本处理方法及装置 Active CN111797614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910267704.8A CN111797614B (zh) 2019-04-03 2019-04-03 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910267704.8A CN111797614B (zh) 2019-04-03 2019-04-03 文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN111797614A true CN111797614A (zh) 2020-10-20
CN111797614B CN111797614B (zh) 2024-05-28

Family

ID=72804860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910267704.8A Active CN111797614B (zh) 2019-04-03 2019-04-03 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN111797614B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
CN112905775A (zh) * 2021-02-24 2021-06-04 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814068A (zh) * 2009-02-24 2010-08-25 日电(中国)有限公司 时序控制的基于评分预测的项目推荐方法和系统
CN105431834A (zh) * 2013-07-31 2016-03-23 谷歌公司 基于用户历史创建内容共享平台的个性化和连续播放列表
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
US20170262857A1 (en) * 2016-03-14 2017-09-14 International Business Machines Corporation Applying Entity Search Techniques to Expedite Entitlement Resolution in Support Services
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814068A (zh) * 2009-02-24 2010-08-25 日电(中国)有限公司 时序控制的基于评分预测的项目推荐方法和系统
CN105431834A (zh) * 2013-07-31 2016-03-23 谷歌公司 基于用户历史创建内容共享平台的个性化和连续播放列表
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
US20170262857A1 (en) * 2016-03-14 2017-09-14 International Business Machines Corporation Applying Entity Search Techniques to Expedite Entitlement Resolution in Support Services
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡熠;刘云峰;杨海松;张小鹏;段建勇;张梅;乔建秀;: "搜索引擎的一种在线中文查询纠错方法", 中文信息学报, no. 01, 15 January 2016 (2016-01-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
WO2022105083A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
CN112380840B (zh) * 2020-11-19 2024-05-07 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质
CN112905775A (zh) * 2021-02-24 2021-06-04 北京三快在线科技有限公司 文本处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111797614B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
US11122333B2 (en) User feature generation method and apparatus, device, and computer-readable storage medium
CN105989040B (zh) 智能问答的方法、装置及系统
US9176941B2 (en) Text inputting method, apparatus and system based on a cache-based language model and a universal language model
US20120330962A1 (en) Method and Apparatus of Providing Suggested Terms
CN111368506B (zh) 文本处理方法及装置
CN109597983A (zh) 一种拼写纠错方法及装置
US20210383491A1 (en) Patent text generating device, patent text generating method, and non-transitory computer-readable medium
CN109766422A (zh) 信息处理方法、装置及系统、存储介质、终端
CN111797614B (zh) 文本处理方法及装置
CN113836885A (zh) 文本匹配模型训练方法、文本匹配方法、装置和电子设备
CN112417848A (zh) 语料生成方法、装置及计算机设备
CN111241833A (zh) 一种文本数据的分词方法、装置及电子设备
CN105324768B (zh) 使用准确度简档的动态查询解析
US20180157744A1 (en) Comparison table automatic generation method, device and computer program product of the same
CN115981617A (zh) 代码语句推荐方法、装置、电子设备及存储介质
CN112308644A (zh) 一种描述信息的处理方法及装置
CN112651230B (zh) 融合语言模型生成方法和装置、单词纠错方法和电子设备
US20210097073A1 (en) Methods, apparatus, and computer program products for fuzzy term searching
CN115394295A (zh) 分段处理方法、装置、设备及存储介质
CN113900635B (zh) 一种代码推荐方法及装置
WO2020037071A1 (en) Reducing instances of inclusion of data associated with hindsight bias in a training set of data for a machine learning system
US20240248900A1 (en) Correcting Misspelled User Queries of in-Application Searches
EP3800562A1 (en) Methods, apparatus, and computer program products for fuzzy term searching
CN110007779B (zh) 输入法预测首选项的确定方法、装置、设备及存储介质
CN110457567B (zh) 查询项的纠错方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant