CN109800414A

CN109800414A - 语病修正推荐方法及系统

Info

Publication number: CN109800414A
Application number: CN201811526469.3A
Authority: CN
Inventors: 宋巍; 付瑞吉; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-24
Anticipated expiration: 2038-12-13
Also published as: CN109800414B

Abstract

本发明公开了一种语病修正推荐方法及系统，其中方法包括：识别待测文本的语病目标并确定语病信息，所述语病信息包括语病位置及语病类型；根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词；利用所述修正候选词生成语病修正推荐列表。相比现有技术，本发明能够实现检错和纠错相结合，为修正语病提供可靠的参考建议。

Description

语病修正推荐方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种语病修正推荐方法及系统。

背景技术

在文本输入(手写或人机接口)过程中经常由于各种原因导致输入的文本存在语病，例如由拼写别字、搭配不当、成分残缺等导致写作中产生语法错误、语义不明。而若需要对语病进行修正推荐通常需要经过两个阶段：检错和纠错。

现有对语病检错技术主要依靠词典或统计信息构建简单规则进行识别，例如下述处理过程：

1)词典构建，使用人工编撰的文学词典或在大规模文本语料上统计二元词串或三元词串等频次，将高频的词串补充进入词典。

2)分词，对待修正的文本进行分词，基于分词得到词序列。

3)匹配与校对，根据待修正文本中的词序列构建相应的词串，并将词串与已经构建好的词典中的词项进行一一比对；若无法匹配，则表明当前词串不常出现，判定为疑似错误。

4)将疑似错误作为最终结果，或人工对疑似错误进行判定后的结果返回。

但现有技术对表义文字的语病纠错(包括提供纠正建议)的具体实践和实现方式则相对较少。英文此类拼音文字经常出现的是拼写错误，对此可利用字符串匹配等技术提供错误纠正建议甚至直接纠错；但是表义文字，如汉语，其特点是多以字符为基本单位，从大概率而言，输入的字符本身几乎不存在拼写问题，汉语语病主要体现在选择型语病(错别字、搭配不当以及输入内容与输入意图不符等)和缺失型语病(丢字漏字)等方面，因而使得目前较为常见的文本编辑软件通常仅会对诸如汉语此类文本中疑似错误的字词进行标注，即仅仅侧重检错，而不能直接提供修改建议。

发明内容

本发明针对上述现有技术的弊端，提供了一种语病修正推荐方法及系统。

本发明采用的技术方案如下：

一种语病修正推荐方法，包括：

识别待测文本的语病目标并确定语病信息，所述语病信息包括语病位置及语病类型；

根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词；

利用所述修正候选词生成语病修正推荐列表。

可选地，所述根据所述语病目标的上下文内容，得到修正候选词包括：

根据所述语病位置以及预设的间距阈值，确定所述语病目标的邻近字词；

根据所述邻近字词与其他词汇的相关程度，得到所述修正候选词。

可选地，所述根据所述邻近字词与其他词汇的相关程度，得到所述修正候选词包括：

在包含所述邻近字词的预定场景中，根据词语间距获取所述邻近字词与其他词汇的精确互信息分值；

将所述其他词汇中符合预设标准的词汇，作为所述邻近字词的共现词；

根据所述共现词及相应的所述精确互信息分值，得到所述修正候选词。

可选地，所述根据所述共现词及相应的所述精确互信息分值，得到所述修正候选词包括：

根据预设的第一分值门限，确定单个所述邻近字词的共现词之中的高分值共现词；

将所述高分值共现词相应于每个所述邻近字词的精确互信息分值进行融合，得到每个所述高分值共现词的融合得分；

将所述融合得分符合预设的第二分值门限标准的所述高分值共现词，作为所述修正候选词。

可选地，所述根据所述语病目标的字符属性，得到修正候选词包括：

当所述语病类型为非缺失型语病时，获取所述语病目标中单个字符的笔画和/或拼音；

根据所述笔画和/或所述拼音，得到所述语病目标中单个字符的形近字和/或音近字；

将所述形近字和/或所述音近字作为修正候选词；或者，将多个所述形近字组合的合成词作为修正候选词和/或将多个所述音近字组合的合成词作为修正候选词。

可选地，所述利用所述修正候选词生成语病修正推荐列表包括：

逐个将所述修正候选词替换所述语病目标；

分别对每次替换后的语句的流畅度进行评价；

根据所述流畅度的评价结果，将所述修正候选词排序；

按照预设标准从排序中选取所述修正候选词，生成语病修正推荐列表。

可选地，所述识别待测文本的语病目标并确定语病信息包括：

获取待测文本的字符级特征；

根据所述字符级特征以及预先训练的语病识别模型，确定所述待测文本中的语病目标及语病信息。

可选地，所述获取待测文本的字符级特征包括：

获取所述待测文本的单个字符特征；

根据所述待测文本中各词语的词性，获取词语中每个字符的词性特征；

根据所述待测文本中各词语的精确互信息，获取词语中每个字符的精确互信息特征；

将获取到上述特征进行拼接，得到所述待测文本的字符级特征。

一种语病修正推荐系统，包括：

语病识别模块，用于识别待测文本的语病目标并确定语病信息，所述语病信息包括语病位置及语病类型；

修正候选词获取模块，用于根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词；

推荐列表生成模块，用于利用所述修正候选词生成语病修正推荐列表。

可选地，所述修正候选词获取模块包括上下文处理子模块；

所述上下文处理子模块具体包括：

邻近字词确定单元，用于根据所述语病位置以及预设的间距阈值，确定所述语病目标的邻近字词；

修正候选词第一获取单元，用于根据所述邻近字词与其他词汇的相关程度，得到所述修正候选词。

可选地，所述修正候选词第一获取单元具体包括：

精确互信息获取子单元，用于在包含所述邻近字词的预定场景中，根据词语间距获取所述邻近字词与其他词汇的精确互信息分值；

共现词选取子单元，用于将所述其他词汇中符合预设标准的词汇，作为所述邻近字词的共现词；

修正候选词获取子单元，用于根据所述共现词及相应的所述精确互信息分值，得到所述修正候选词。

可选地，所述修正候选词获取子单元具体包括：

高分值共现词确定组件，用于根据预设的第一分值门限，确定单个所述邻近字词的共现词之中的高分值共现词；

得分融合组件，用于将所述高分值共现词相应于每个所述邻近字词的精确互信息分值进行融合，得到每个所述高分值共现词的融合得分；

修正候选词确定组件，用于将所述融合得分符合预设的第二分值门限标准的所述高分值共现词，作为所述修正候选词。

可选地，所述修正候选词获取模块包括字符属性处理子模块；

所述字符属性处理子模块具体包括：

字符属性获取单元，用于当所述语病类型为非缺失型语病时，获取所述语病目标中单个字符的笔画和/或拼音；

近似字获取单元，用于根据所述笔画和/或所述拼音，得到所述语病目标中单个字符的形近字和/或音近字；

修正候选词第二获取单元，用于将所述形近字和/或所述音近字作为修正候选词；或者，将多个所述形近字组合的合成词作为修正候选词和/或将多个所述音近字组合的合成词作为修正候选词。

可选地，所述推荐列表生成模块具体包括：

替换单元，用于逐个将所述修正候选词替换所述语病目标；

流畅度评价单元，用于分别对每次替换后的语句的流畅度进行评价；

排序单元，用于根据所述流畅度的评价结果，将所述修正候选词排序；

推荐列表生成单元，用于按照预设标准从排序中选取所述修正候选词，生成语病修正推荐列表。

可选地，所述语病识别模块具体包括：

特征提取子模块，用于获取待测文本的字符级特征；

语病识别子模块，用于根据所述字符级特征以及预先训练的语病识别模型，确定所述待测文本中的语病目标及语病信息。

可选地，所述特征提取子模块具体包括：

单字特征获取单元，用于获取所述待测文本的单个字符特征；

单字词性特征获取单元，用于根据所述待测文本中各词语的词性，获取词语中每个字符的词性特征；

单字精确互信息特征获取单元，用于根据所述待测文本中各词语的精确互信息，获取词语中每个字符的精确互信息特征；

特征拼接单元，用于将获取到上述特征进行拼接，得到所述待测文本的字符级特征。

本发明通过识别出待测文本的语病目标，再根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词，最后利用所述修正候选词生成语病修正推荐列表。本发明根据上下文以及语病信息对语病进行修正推测的方法相比现有技术，能够实现检错和纠错相结合，为表义类文字的语病提供可靠的修正建议；

进一步地，本发明通过基于字符级的语病识别方法，能够有效提升语病识别准确度并大幅降低识别过程的计算量。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的语病修正推荐方法的实施例的流程图；

图2为本发明提供的语病修正推荐方法的具体实施例的流程图；

图3为本发明提供的步骤S3的一种实施例的流程图；

图4为本发明提供的步骤S32的第一实施例的流程图；

图5为本发明提供的步骤S32的第二实施例的流程图；

图6为本发明提供的步骤S3的另一种实施例的流程图；

图7a为本发明提供的步骤S4的一种实施例的流程图；

图7b为本发明提供的辨别式语言流畅度评分器的实施例的流程图；

图8为本发明提供的语病修正推荐系统的实施例的方框图。

附图标记说明：

1语病识别模块 2修正候选词获取模块 3推荐列表生成模块

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供了一种语病修正推荐方法的实施例，如图1所示，本发明主要包括：

步骤S1’、识别待测文本的语病目标并确定语病信息；

步骤S2’、根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词；

步骤S3’、利用所述修正候选词生成语病修正推荐列表。

可见，本发明一方面在于识别出语病及其信息，其中，语病信息可以是但不限于包括语病位置、语病类型等，当然，所称语病目标即是表明准确锁定语病，而非是识别出语病存在的区域或者某句话这类模糊的范围；另一方面本发明在于为改正语病提供选项，即针对存在的语病给出可能正确的修改建议供用户参考。本发明相比现有技术，能够实现检错和纠错相结合，为语病提供可靠的修正建议。

具体在实施过程中，可以参考图2所示，包括如下步骤：

步骤S0、预先训练基于字符级特征的语病识别模型。

具体而言，所称语病识别模型可以采用基于监督学习的神经网络框架，而对于该网络的输出期待可根据实际需要，例如对训练数据的采选及特定标注等进行控制。本发明适用于众多与类似汉语的表义文本(包括日语等)输入相关的场景，为后续说明方便，下述各实施例均以汉语指代，并以辅助教学场景为示例，但此非对本发明应用的限定。

在上述模型训练阶段，可以通过收集大量学生作文及课堂作业的语料，从教师的批改数据中检索出具有语病的样本，并通过人工标注得到期待的语病目标的信息，例如语病位置和语病类型等。结合实际经验，本实施例主要考察的语病类型可以包括：1)选择型语病(用S表示)：使用了错误的搭配或出现别字等，如“研究疑问”、“严究问题”，前者属于搭配不当(应为“研究问题”)，后者则将“研”误写为“严”；2)缺失型语病(用M表示)：句子中出现了成分缺失，如“我走家。”应为“我走回家。”，在“走”与“家”之间存在成分缺失。在对样本标注过程中，若句子中存在语病，则可以在相应字符位置标注语病类型，没有语病的字符位置标注O。例如，“放学后，我走家。”被标注为：

位置

1

2

3

4

5

6

7

8

标签

O

M

O

输入

放

学

后

，

我

走

家

。

词性

V-B

V-E

A

P

V

N

表示在位置7之前存在缺失型错误。示例中采用的前述标签集合示例，包括：S(选择型错误)，M(缺失型错误)，O(没有错误)。

而在将待测样本输入语病识别模型时，还可以通过约束特征的选型，进一步使模型输出趋于应用场景的期望。据此，本发明提出以文本中的单个字符的特征作为起始基础，这样既符合汉语以字符为单位的特点，又在处理的起始融入了其他条件，为后续识别和纠错的过程提供了更为可靠的前提。具体来说，除了可以获取常规的文本特征外，还可以采用如下策略构建文本特征：

1)获取待处理文本的单个字符特征；

具体在特征表达时，可以将每一个字符映射到一个对应的多维连续实数向量。该向量可采用随机初始化在训练过程中不断修正，也可以基于外部大规模数据采用与Word2Vec类似的技术学习到字符向量作为初始化，并可进一步在任务数据上进行微调。

2)根据待处理文本中各词语的词性，获取词语中每个字符的词性特征；

尽管上述模型建立在字符级别，但仍可利用分词结果丰富字符的表示。这也是需要指明的，本发明并非摒弃、排斥分词手段，而且强调字符级别和词语级别特征可以相互融合。以词性特征为例，可以首先对句子进行分词操作得到词语序列，根据词语序列中每一个词的词性得到每一个单字符的词性。对于分词后仅为单字词表征的名词(如：门、车、水...此类)，直接采用相应的词性标签作为该单字符的词性标签；而对于多字符词语，可采用B-I-E策略(分别表示开始Begin，中间Internal和结束End)，根据字符的位置在词性标签后增加相应后缀。例如，若为首字则标注为词性-B的形式，若为尾字则标注为词性-E的形式，中间字采用词性-I的形式。上表中已有示例工参考：“放学”的词性是动词(V)，那么单字符“放”的词性标签为(V-B)，单字符“学”的词性标签为(V-E)。同理，在表达时也可以与前述字符向量类似，将每一个采用B-I-E策略扩展过的词性标签也映射到一个向量。

3)根据待处理文本中各词语的精确互信息，获取词语中每个字符的精确互信息特征；

本领域技术人员均知，互信息(PMI)可以计算两个字词的相关程度，主要通过衡量两者的共现程度。基本计算公式为：

pmi(w，v)＝p(w，v)/p(w)p(v)

p(.)表示一个词出现的概率或某个词对共现的概率，通常转化为频率进行近似计算。传统的PMI采用固定大小的窗口来设定上下文，在同一窗口内出现的项目之间可视为彼此共现。然而，传统方式无法度量细致的词汇搭配，据此，本实施例提出采用精确互信息(exact PMI，ePMI)来度量：epmi(w_i，v_j|i-j)＝(p(w，v|i-j))/p(w)p(v)

＝(count(w，v|i-j))/count(w)count(v)

其中，i、j分别表示词语坐标，count(.)函数用于表示出现或共现的次数。可见，在本实施例中所述精确互信息强调了互信息与词语间距的相关性，也即是在计算互信息时可根据不同的实际需要，以预定的词语间距确定窗口的大小。在对精确互信息特征进行表达时，可以先将每一个epmi值离散化，再将实数映射到某个区间，所有属于同一个区间的epmi值被赋予一个相同的独特标记，并将该标记映射到一个实数向量，最后将多个实数向量拼接到一起作为最终的互信息表示。此处需说明，如前文提及的词性，通常互信息的计算对象是词语，但在本实施例中是将一个词语的每一个字符的互信息向量表示与其所在词语的精确互信息向量表示统一化。

4)最后，可以但不限于将以上各个特征向量进行拼接，构建为单个字符的字符级特征表示。

此外，前文提及语病识别模型可以采用基于监督学习的神经网络框架，例如采用BiLSTM-CRF框架的识别器。在该模型运行过程中，双向长短时记忆网络(BidirectionalLong short-term memory，BiLSTM)模型，用于捕捉字符序列间的语义关系。BiLSTM的隐含向量表示对应于每一个字符的表示，且在输出后继续提交给一个条件随机域层(Conditional Random Field，CRF)。CRF不仅考察每一个字符的特征表示，并且会考察前后标签之间的关联。最终，每一个字符对应一个输出层，输出层可以是示例标签(S、M、O)上的概率分布，概率最大的标签则可以作为针对该字符的输出结果；当然，识别结果中语病标签具体是针对单字符还是整个词语，则可由前述样本标注时所期待的方向来决定，即对于输出结果是不是单个字符并不限定。举例来说，将“天安门”误写为“天安们”，那么模型输出结果有可能仅在“们”字做语病标注，也有可能将“天安们”整体标注为语病，具体依需求而定。

接续上文，本方法实施例在实际操作中，还进而执行如下步骤：

步骤S1、获取待测文本的字符级特征。

此处获取的字符级特征以及具体的表示方式，已在上文说明，此处不再赘述；而提取待测文本特征的过程则可以借鉴多种现有技术，也非本发明讨论的重点。

步骤S2、根据所述字符级特征以及预先训练的语病识别模型，确定待测文本中的语病目标并确定语病信息。

将提取到的字符级特征输入至前述语病识别模型，对待测文本进行语病识别，例如使用前文提及的基于字符级BiLSTM-CRF的汉语语法识别器对输入的待测文本进行语病识别，若文本中出现语病且具有与模型训练时期待的语病信息，例如识别出选择型语病或缺失型语病，则获得该语病目标及其相关信息，如语病类型和语病位置。这里需再次说明的是，汉语的基本单元是词，多数语病的产生也是基于词语级别，但这与前述以字符级别特征构建该语病识别模型所强调的字符级别不存在冲突，将字符级别特征融入至识别模型的学习中，是为了使模型能够自动学习到字符的嵌入表示以及多种统计特征的嵌入表示，由此可以增强模型泛化能力及表示能力，进而提升识别准确度和可靠度。

步骤S3、根据语病目标的上下文内容和/或语病目标的字符属性，得到修正候选词。

本发明的目标是找到有效的推荐字词列表，因而在得到修正推荐列表之前首先求取修正候选词。而常规的思路是将词库中所有的字词作为候选，进行大量的匹配计算，不会考虑融入先验知识等手段；尤其是，传统的技术方案中对于纠错建议的技术实现方式仍为空缺。为此，本发明提供了具体的获得修正候选词的策略以弥补现有技术的不足。

这里所称语病目标的上下文内容，顾名思义是指结合语病目标所在位置，确定与语病目标的邻近的段落、语句或字词，并且所称上下文内容可以是指上下文的自身信息，也可以是指上下文与语病目标(例如针对选择型语病目标)的具有关联性的信息等等，针对不同的策略后续执行过程也会有相应差异。于此，本发明提供了一个较为优选的策略供具体实施参考，但不限定于此：可以根据语病目标的位置以及预先设定的间距阈值，确定该语病目标的邻近字词，并可根据邻近字词与其他词汇的相关程度，得到所需的修正候选词。本领域技术人员可以理解的是，与邻近字词相关的其他词汇，可以是指任何其他包含该邻近字词的应用场景中的词汇，即意味着该优选示例中所称“上下文内容”可以采用预先获得的外部先验知识，而并不一定局限在该邻近字词与当前待测文本(或与识别出的语病目标)的直接关联，因此既能够减少检索规模，又能够提升该技术手段的适用范围。对于该示例的更为具体的实施细节将在下文中阐明。

接着，所称语病目标的字符属性，是将语病目标做更为细致的剖析，从语病目标中的单个字符入手，由字符的字义、字形、字音、字符所在词语中的词性等属性，确定该语病目标的修正候选字词。该过程的构思来自于对选择型语病的分析，由于选择型语病的产生是由于用户输入了错误或不当的字词，那么从用户整体的输入意图角度，该错误的字词或许能够提供一条“顺藤摸瓜”的线索，借此可以推测出用户期待输入的正确字词，从而能够缩小查找范围、提升计算效率。为此，下文中提供了一种结合字形和/或字音属性的较佳方案。

此处，还需指出，针对不同的场景以及所涉及的语病类型，本实施例可以是单独依靠语病目标的上下文内容进行候选确定，也可以单独由语病目标的自身属性进行候选确定，还可以将二者相结合确定候选；举例来说，对于选择型语病，可以先通过上下文内容获得一定数量的“初始”修正候选词，再根据语病目标的字符属性，从“初始”修正候选词中进一步筛选出更为精准的修正候选词。

步骤S4、利用修正候选词生成语病修正推荐列表。

最后则可以直接将前述步骤中得到的修正候选词作为修正推荐列表，也可以在前述修正候选词的基础上进一步筛选出范围更小的字词作为语病修正推荐列表的组成部分。针对所称缩小范围的实施方式，本发明在下文中提供了一个具体的实施参考。

本实施例通过获取待测文本的字符级特征，再根据所述字符级特征以及预先训练的基于字符级特征的语病识别模型，确定待测文本中的语病目标的类型和位置，之后根据语病目标的上下文内容和/或语病目标的字符属性，得到修正候选词，最后利用所述修正候选词生成语病修正推荐列表。本实施例实质是提供了一种基于字符级语病识别方案并根据上下文以及语病信息对语病进行修正推测的方法；相比现有技术，本实施例不仅能够实现检错和纠错相结合，为语病提供可靠的修正建议，还可以提升语病识别准确度并大幅降低识别过程的计算量。

关于前述步骤中提及的由邻近字词与其他词汇的相关程度(所述上下文内容的一种情形)，得到所述修正候选词的方式，本发明提供了一个具体的实现方法，如图3所示，该过程可以包括：

步骤S30、在包含所述邻近字词的预定场景中，根据词语间距获取所述邻近字词与其他词汇的精确互信息分值；

实施时，可以预先利用外部数据对某特定场景应用中的所有词语进行统计，得到每个词语与所述邻近字词的精确互信息分值。当然，需指出的是如果采用预先统计方式，则实质上在统计时没有所谓“邻近字词”之分，可以是将场景中的所有词语之间的精确互信息分值计算出来，形成以矩阵形式表达的互信息词表，该词表中交点处可以指示出横纵词语之间的精确互信息分值。而本步骤所称根据词语间距获取所述邻近字词与其他词汇的精确互信息分值是承接了上述步骤中的表述，实际操作中可以是在已经构建的互信息词表中查询到该邻近字词以及与其相关的其他词汇，关于与词语间距相关的精确互信息，已在前文中阐明，此处不作赘述。

步骤S31、将所述其他词汇中符合预设标准的词汇，作为所述邻近字词的共现词；

作为后续步骤的基础，在本步骤中将前述“其他词汇”确定为共现词，这里所称符合预设可以来自于与场景相关的经验，将分值较低的“其他词汇”剔除，保留部分“其他词汇”作为共现词，但为了确保词汇的涵盖范围，可以使预设标准较为宽松，从而能够保留较多的“其他词汇”(如有需要，可以保留所有相关词汇)作为后续步骤中所需的共现词。以互信息词表为例，纵列或横排中的一个特定词语的共现词可以是指该表中该特定词语以外的所有词语(或部分词语)，只是每个词语相应于该特定词语的精确互信息分值可能各有差异。

步骤S32、根据所述共现词及相应的精确互信息分值，得到修正候选词。

利用获取到的共现词及相应的精确互信息分值，从中选出修正候选词的方式可有多种选择。如前所述，互信息可以体现两个词语的共现概率，共现概率越大表明词语之间的关联性越强，因此较为优选的方式即是从已确定的共现词中选出高分值的共现词作为修正候选词。本发明为了确保修正候选词的精准度，提出将语病目标的所有的相邻字词的整体共现程度，作为确定所述修正候选词的依据。

具体给出了如下两种实施示例：

实施例一如图4所示，根据所述共现词及相应的精确互信息分值，得到所述修正候选词具体包括：

步骤S320、根据预设的第一分值门限，确定单个邻近字词的共现词之中的高分值共现词；

对此无需多述，即划定一个筛除高分值标准，从所有共现词中筛选出高分值共现词。该过程是以所述邻近字词为单位，因此筛选出高分值共现词可能出现交集或并集，例如经前述步骤确定了两个邻近字词A和B且各自的高分值共现词为均为两个：例一，A的高分值共现词为α(0.91)和β(0.88)，B的高分值共现词为β(0.8)和γ(0.95)；例二，A的高分值共现词为α(0.91)和β(0.88)，B的高分值共现词为γ(0.95)和δ(0.85)。

步骤S321、将高分值共现词相应于每个邻近字词的精确互信息分值进行融合，得到每个高分值共现词的融合得分；

以例一而言，α并没有出现在B的高分值共现词之中，说明α与B的共现程度较低(假设为0.3)，不满足第一分值门限的要求；同理地，γ与A的精确互信息分值也较低(如0.6)。那么就此，可以得到以高分值共现词为单位的、相应于所有邻近字词的精确互信息分值：α(0.91和0.3)，β(0.88和0.8)，γ(0.6和0.95)。

而所述融合得分的由来即是将每个高分值共现词的精确互信息分值相融合，当然，融合手段是多样的，例如求和、求差或求平均等，以求和举例而言，例一中α的融合得分为1.21，β的融合得分为1.68，γ的融合得分为1.55。

步骤S322、将融合得分符合预设的第二分值门限标准的高分值共现词，作为修正候选词。

这里所称第二分值门限可以根据前述融合手段而定，以求和而言，则可以认为融合得分大于或等于该第二分值门限，即为符合标准；以求差而言，则可以认为融合得分小于或等于该第二分值门限，即为符合标准。对此本发明不作限定，但可以延续上例说明，如果设定的第二分值门限为1.5，那么β和γ就可以入选为修正候选词。

实施例二如图5所示，

步骤S3201、逐一将各共现词相应于每个邻近字词的精确互信息分值进行融合，得到各共现词的融合得分；

在该实施例中，是以共现词为单位，逐一获取到每个共现词相应于所有邻近字词的精确互信息分值。沿用上例，α(0.91和0.3)，β(0.88和0.8)，γ(0.6和0.95)，δ(0.4和0.85)……但需注意的是，在本实施例中不考虑是否为高分值，而是将所有共现词相对邻近字词的精确互信息分值列出再融合，因此包括了所有的情形如ε(0.25和0.45)，θ(0.98和0.1)……等。

而关于融合得分的由来可以借鉴前述“实施例一”，在此不予赘述。

步骤S3202、将融合得分符合预设的第三分值门限标准的共现词，作为修正候选词。

同样地，该步骤实现过程可借鉴前述“实施例一”在此不予赘述。但需要指出的是，由上述可知“实施例一”和“实施例二”由于关注的角度不一样，因此具有不同的技术效果以供不同需求而选。例如“实施例一”的计算速度较快，而“实施例二”的词汇覆盖面则较广；但无论何种实施方式，均比依赖词典、词库的运算体量要小。

关于前述步骤S3中提及的由语病目标的字符属性，得到修正候选词的方式，本发明提供了一个具体的实现方法，如图6所示，该过程可以包括：

步骤S300、当语病类型为非缺失型语病时，获取语病目标中单个字符的笔画和/或拼音；

如前文所述，对于选择型错误，还可以考虑由错用字词推测可能犯错的原因，推测方式之一是考察语病目标中的单个字符的字形或字音，当然也可以综合考虑此两项字符属性。

具体来说，汉字字形是由笔画作为基本单位所构建的字体结构，在实际操作中可以构建笔画资源，即将每一个汉字的笔画进行划分并保存。例如：

其中，表示上下结构，表示左右结构。并且为了便于后续步骤的执行，可以将每一个字符表示为笔画的词袋形式和相应的向量；

汉字字音是由拼音及相应的声调作为基本单位所构建的音律结构，在实际操作中可以构建拼音资源，即将每一个汉字的拼音信息保存下来，并将每一个字符表示为拼音的词袋集合和相应的向量。

步骤S301、根据笔画和/或所述拼音，得到所述语病目标中单个字符的形近字和/或音近字；

确定形近字、音近字的方式可采用常规的相似度比对方式，例如可以通过计算字符的笔画向量之间的余弦相似度来确定形近字，和/或通过计算字符的拼音向量之间的余弦相似度来确定音近字。对此本发明不作限定。

步骤S302、将所述形近字和/或所述音近字作为修正候选词；或者，将多个所述形近字组合的合成词作为修正候选词和/或将多个所述音近字组合的合成词作为修正候选词。

根据不同的应用场景以及实际识别出的语病目标，可以是以单个的形近字和/或所述音近字作为修正候选词；针对多个汉字出现错误或需要更正的情况，则针对每一个字符分别计算形近字(音近字)，然后可以将这些形近字(音近字)按顺序组合成词，再将合成词作为修正候选词列出。在其他实施例中，还可以进一步地，根据预设的标准从合成词中筛选出小范围的词语作为候选。对此本发明不作限定。

关于前述步骤S4中提及的利用所述修正候选词生成语病修正推荐列表的方式，本发明提供了一个在前述修正候选词的基础上作进一步筛选的具体实现方法，如图7a所示，该过程可以包括：

步骤S41、逐个将修正候选词替换语病目标；

当在前续步骤中确定了语病目标的位置后，可以将该位置空出，并在本步骤中将确定的修正候选词再逐一填入该位置。

步骤S42、分别对每次替换后的语句的流畅度进行评价；

为了进一步确定修正候选词的修正效果，在本步骤中采用对整体语句的流畅度进行评估。评估的方式同样可以借鉴多种现有技术，本发明在此提供一种实施参考：训练辨别式语言流畅度评分器，利用该评分器对替换后的语句打分。

辨别式语言流畅度评分器，如图7b所示，其具体实现方式如下：

先对语句进行分词，将词语映射为词嵌入表示，并将语句中词序列的表示输入一个循环神经网络语言模型。该循环神经网络的基本单元可选择LSTM、双向LSTM或层叠LSTM(Stacking LSTM)等变种；在得到句子表示后，与一个多层感知机网络(MLP)连接，并采用Sigmoid激活函数映射到一个0、1之间的分数(score)上。

关于图7b中辨别式语言流畅度评分器的注解：A B C为一个输入序列(词或字符)，在每一个时间步(如A，B，C分别对应一个时间步)输入当前字符(如A)经过循环神经网络单元得到隐含表示(方框表示)，利用该隐含表示预测下一个字符(如B)。<EOS>为句子结束标志符。<EOS>对应的隐含表示可视为句子的表示，该表示经过一个多层感知机网络(MLP)映射到一个分数，表明该句子的流畅度。所谓的辨别式训练是指总能够通过一定手段(如打乱原始句子)得到非规范的对抗文本。优化的目标即为使正常句子的分数高于对抗文本的分数，通过使该目标最大化来训练前述语言模型。

该语言模型可以包括两个主要任务，一是在每一个时间步上预测下一个词是什么，另外是得到一个语句流畅度的评分。该评分器的训练方法则可以是将一个正确的语句视为正例；对该正例进行随机替换、删除或调整部分词汇顺序等从而得到一系列反例；训练的目标是使正例语句的得分高于所有相应的反例语句的得分。还需说明，该评分器可以利用大规模数据自动构建训练数据，如利用百度百科中大规模的、较为规范的文本，或根据场景，使用诸如学生作文中的高分作文、作业等，目的是减少噪声的混入。

步骤S43、根据流畅度的评价结果，将修正候选词排序；

评价方式不同，排序的方式可能出现不同。以上述评分器而言，则是根据评分器打出的分数，将修正候选词进行排序。

步骤S44、按照预设标准从排序中选取修正候选词，生成语病修正推荐列表。

最后从排序中按照预设的分数、个数或其他标准，选出最终的输出结果，即语病修正推荐列表以供用户从中选择，当然，修正推荐列表中的字词的数量没有限定，可以是一个或多个。这里还需补充说明的是，本发明的目的是提供修正建议，最终是否进行修正则由用户判定，而非直接将语病目标更正。这是考虑到汉语表达的特殊性，因为在某些表达环境中，前述识别出的语病有可能是用户故意而为或有特殊语义内涵，因此，本发明输出的最终结果仅是修正推荐列表，具体可参考现有的文本编辑工具中对英文校正的推荐形式。

相应于前述各实施例及优选方案，本发明还提供了一种语病修正推荐系统，如图8所示，该系统可以包括至少一个用于存储相关指令的存储器以及至少一个用于执行下述各模块的处理器(在其他实施例中一个或多个处理器也可以直接执行相应的步骤动作，而无需通过下述模块执行，例如处理直接执行语病识别、获取信息、生成列表等操作)：

语病识别模块1，用于识别待测文本的语病目标并确定语病信息，所述语病信息包括语病位置及语病类型；

修正候选词获取模块2，用于根据所述语病目标的上下文内容和/或所述语病目标的字符属性，得到修正候选词；

推荐列表生成模块3，用于利用所述修正候选词生成语病修正推荐列表。

进一步地，所述修正候选词获取模块包括上下文处理子模块；

所述上下文处理子模块具体包括：

进一步地，所述修正候选词第一获取单元具体包括：

进一步地，所述修正候选词获取子单元具体包括：

进一步地，所述修正候选词获取模块包括字符属性处理子模块；

所述字符属性处理子模块具体包括：

进一步地，所述推荐列表生成模块具体包括：

替换单元，用于逐个将所述修正候选词替换所述语病目标；

进一步地，所述语病识别模块具体包括：

特征提取子模块，用于获取待测文本的字符级特征；

进一步地，所述特征提取子模块具体包括：

虽然上述系统实施例及优选方案的工作方式以及技术原理皆记载于前文，但仍需指出的是，本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，也可以把它们分成多个子模块或子单元或子组件予以实施。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种语病修正推荐方法，其特征在于，包括：

利用所述修正候选词生成语病修正推荐列表。

2.根据权利要求1所述的语病修正推荐方法，其特征在于，所述根据所述语病目标的上下文内容，得到修正候选词包括：

3.根据权利要求2所述的语病修正推荐方法，其特征在于，所述根据所述邻近字词与其他词汇的相关程度，得到所述修正候选词包括：

4.根据权利要求3所述的语病修正推荐方法，其特征在于，所述根据所述共现词及相应的所述精确互信息分值，得到所述修正候选词包括：

5.根据权利要求1所述的语病修正推荐方法，其特征在于，所述根据所述语病目标的字符属性，得到修正候选词包括：

6.根据权利要求1所述的语病修正推荐方法，其特征在于，所述利用所述修正候选词生成语病修正推荐列表包括：

逐个将所述修正候选词替换所述语病目标；

分别对每次替换后的语句的流畅度进行评价；

根据所述流畅度的评价结果，将所述修正候选词排序；

7.根据权利要求1～6任一项所述的语病修正推荐方法，其特征在于，所述识别待测文本的语病目标并确定语病信息包括：

获取待测文本的字符级特征；

8.根据权利要求7所述的语病修正推荐方法，其特征在于，所述获取待测文本的字符级特征包括：

获取所述待测文本的单个字符特征；

9.一种语病修正推荐系统，其特征在于，包括：

10.根据权利要求9所述的语病修正推荐系统，其特征在于，所述修正候选词获取模块包括上下文处理子模块；

所述上下文处理子模块具体包括：

11.根据权利要求9所述的语病修正推荐系统，其特征在于，所述修正候选词获取模块包括字符属性处理子模块；

所述字符属性处理子模块具体包括：

12.根据权利要求9所述的语病修正推荐系统，其特征在于，所述推荐列表生成模块具体包括：

替换单元，用于逐个将所述修正候选词替换所述语病目标；

13.根据权利要求9～12任一项所述的语病修正推荐系统，其特征在于，所述语病识别模块具体包括：

特征提取子模块，用于获取待测文本的字符级特征；