CN103678271A - 一种文本校正方法及用户设备 - Google Patents

一种文本校正方法及用户设备 Download PDF

Info

Publication number
CN103678271A
CN103678271A CN201210332263.3A CN201210332263A CN103678271A CN 103678271 A CN103678271 A CN 103678271A CN 201210332263 A CN201210332263 A CN 201210332263A CN 103678271 A CN103678271 A CN 103678271A
Authority
CN
China
Prior art keywords
text
model
corrected
character string
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210332263.3A
Other languages
English (en)
Other versions
CN103678271B (zh
Inventor
胡楠
杨锦春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210332263.3A priority Critical patent/CN103678271B/zh
Priority to PCT/CN2013/073382 priority patent/WO2014036827A1/zh
Publication of CN103678271A publication Critical patent/CN103678271A/zh
Application granted granted Critical
Publication of CN103678271B publication Critical patent/CN103678271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本校正方法及用户设备,涉及语言处理领域,能够减少校正错误,提高校正灵活性和正确性。该文本校正方法包括:获取待校正文本在预设文本分类标准中的两个以上文本类型;在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;将获取的两个以上待组合子语言模型组合成为混合语言模型;根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。本发明实施例提供的文本校正方法及用户设备用于错误文本的校正。

Description

一种文本校正方法及用户设备
技术领域
本发明涉及语言处理领域,尤其涉及一种文本校正方法及用户设备。
背景技术
随着数字化时代的到来,对错误的待校正文本进行修正的文本校正技术应用愈加广泛。在现有技术中,噪声信道理论中认为待校正文本的错误主要来源于手工输入过程中产生的输入错误,以及光学字符识别和语音识别中产生的输入错误。该噪声信道理论将这些待校正文本视为真实文本经过了一个混入噪声的信道后而产生。示例的,W为原字符串序列<W1,W2,...,Wn>,即完全正确的文本,经过噪声信道后产生噪声文本<O1,O2,...O3>,利用噪声信道理论进行文本校正的方法即为通过建立噪声信道概率模型,求某个字符串序列W’使得在观察到字符串序列O的情况下,W’的出现概率最大,字符串序列O为待校正文本,字符串序列W’为理想的校正文本,也可以称为理想字符串,但该理想的校正文本与正确文本W不一定完全相同。其中,字符串序列W’为使得P(W)P(O|W)概率最大的字符串,P(O|W)被称为信道概率或生成模型,概率P(W)为语言模型中字符串序列W出现的概率。
在利用噪声信道理论实现文本校正的方法中,需要根据语言模型获取使得P(W)P(O|W)概率最大的字符串W’,但是,当待校正文本的语言环境和主题背景等不同时,相同的词语或字符串可能表示不同的意思,因此需要不同的校正选择,但现有技术中的语言模型较为固定,对待校正文本只能采取固定的校正选择,因而容易出现校正错误,导致校正灵活性较差,正确性较低。
发明内容
本发明的实施例提供一种文本校正方法及用户设备,用于提高校正灵活性和正确性。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种文本校正方法,包括:
获取待校正文本在预设文本分类标准中的两个以上文本类型;
在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;
将获取的两个以上待组合子语言模型组合成为混合语言模型;
根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
所述方法还包括:
获取所述预设文本分类标准;
根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
所述将获取的两个以上待组合子语言模型组合成为混合语言模型包括:
获取所述待校正文本中各个文本类型的比重;
根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
在根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本之前,所述方法还包括:
获取所述校正知识库中的错误检测模型;
通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
所述根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本包括:
由所述错误位置生成待校正字符串序列;
由所述错误位置生成待校正字符串序列;
对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;
在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
一方面,提供一种用户设备,包括:
获取单元,用于获取待校正文本在预设文本分类标准中的两个以上文本类型;
所述获取单元还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型,并将获取的两个以上待组合子语言模型的信息发送至生成单元;
生成单元,用于接收所述获取单元发送的所述获取的两个以上待组合子语言模型的信息,并将所述获取的两个以上待组合子语言模型组合成为混合语言模型,将所述混合语言模型的信息发送至校正单元;
校正单元,用于接收所述生成单元发送的所述混合语言模型的信息,并根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
所述用户设备还包括:
所述获取单元,用于获取所述预设文本分类标准,并将所述预设文本分类标准发送至建立单元;
建立单元,用于接收所述获取单元发送的所述预设文本分类标准,根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
所述生成单元具体用于:
获取所述待校正文本中各个文本类型的比重;
根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
所述用户设备还包括:
模型获取单元,用于获取所述校正知识库中的错误检测模型,并将所述错误检测模型的信息发送给确定单元;
确定单元,用于接收所述模型获取单元发送的所述错误检测模型的信息,并通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
所述校正单元具体用于:
由所述错误位置生成待校正字符串序列;
对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;
在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
本发明实施例提供一种文本校正方法及用户设备,该文本校正方法包括:获取待校正文本在预设文本分类标准中的两个以上文本类型;在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;将获取的两个以上待组合子语言模型组合成为混合语言模型;根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。这样一来,通过将待校正文本进行分类,然后获取相应的混合语言模型,使得校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,当预设文本分类标准或待校正文本的文本类型不同时,对待校正文本可以提供不同的校正选择,因此能够减少校正错误,提高校正灵活性和正确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本校正方法流程示意图;
图2为本发明实施例提供的另一种文本校正方法流程示意图;
图3为本发明实施例提供的一种用户设备结构示意图;
图4为本发明实施例提供的另一种用户设备结构示意图;
图5为本发明实施例提供的又一种用户设备结构示意图;
图6为本发明实施例提供的再一种用户设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本校正方法,包括:
S101、获取待校正文本在预设文本分类标准中的两个以上文本类型。
上述预设文本分类标准可以包括:语言环境、主题背景、作者、写作风格和题材中的任意一项。示例的,按照主题背景可以将文本分为体育、经济、政治、科技等文本类型。
若用户预设的文本分类标准为主题背景,则用户设备可以在校正知识库中依据该主题背景的文本类型建立相应的子语言模型。在获取待校正文本的文本类型时,可以利用文本分类技术确定待校正文本所属的分类。
S102、在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型。
S103、将获取的两个以上待组合子语言模型组合成为混合语言模型。
例如,当输入一段包含有股市等经济方面内容的计算机科技咨询文本时,利用文本分类技术可以确定该文本所属的文本类型为科技类和经济类。在校正知识库中选择与待校正文本的文本类型对应的科技类与经济类子语言模型,然后将该科技类与经济类子语言模型组合成为混合语言模型。
S104、根据混合语言模型对待校正文本进行校正得到校正建议文本。
这样一来,通过将待校正文本进行分类,然后获取相应的混合语言模型,使得校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,因此能够减少校正错误,提高校正灵活性和正确性。
示例的,本发明另一个实施例提供一种文本校正的具体方法20,包括:
S201、用户设备根据预设文本分类标准将获取的语料按照文本类型归类至各子语言模型中。
首先,用户设备需要获取所述预设文本分类标准,该预设文本分类标准可以包括:语言环境、主题背景、作者、写作风格和题材中的任意一项,通常由用户根据具体情况进行预先设置。
然后,在校正知识库中,用户设备根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
示例的,按照语言环境可以获得以下类型的子语言模型,如商业环境、生活环境或官方环境等等。按照主题背景可以获得以下类型的子语言模型,如体育、政治、文学或历史等等。同时,子语言模型的实际种类也和语料的种类有关,示例的,若所述校正知识库中不存在历史类型的语料,则历史类子语言模型可以视为空闲或无效,当用户设备通过主动获取或用户输入等方法获得一定数量的历史类语料,则可以根据该历史类语料建立新的历史类子语言模型,该历史类子语言模型视为有效的子语言模型。
然后,根据所述预设文本分类标准,将获取的语料按照类型归入所述子语言模型中。
具体的,用户设备可以通过定期或不定期地获取语料来丰富校正知识库。该语料的获取方法可以是用户设备通过与互联网连接搜索、定期更新等方式主动获取,也可以是用户通过用户设备的配置管理接口等输入接口向用户设备提供经过分类的语料数据。然后,用户设备根据用户指示的该语料的类型将该语料归入已有类型的子语言模型中或建立新的子语言模型。示例的,如果语料库中缺少历史类语料数据,用户可以通过定期更新、互联网搜索甚至通过配置管理接口添加历史类语料集合,然后建立历史类子语言模型;如果已有历史类语料数据,也可通过上述方式添加新的历史类语料,以更新子语言模型。
但大多数时候,用户设备获取的语料是未分类的语料,用户设备需要根据所述预设文本分类标准,将获取的语料按照类型归入所述子语言模型中,即进行语料的归类。示例的,对于上面提及的包含股市等经济方面内容的计算机科技咨询文本,其部分内容为“戴尔公司估计,其第一季度收入约为142亿美元,每股收益33美分。此前公司预测当季收入为142亿至146亿美元,每股收益35至38美分,而分析师平均预测戴尔同期收入为145.2亿美元,每股收益38美分”。利用文本分类技术对未分类语料进行自动文本分类,该分类过程分为两个阶段:训练阶段和分类阶段。在训练阶段,对分类语料集合中的文本进行分词处理,该分词过程与现有技术相同,此处不再赘述。经过分词后上面的内容可表示为“戴/尔/公司/估计/,/其/第一/季度/收入/约/为...”,为了表示的方便,本发明实施例使用‘/’表示词之间的分割。对分词后的文本去除停用词,如:“地”,“的”等,然后根据文本中出现的词、词频与词总数的比例建立文本的词向量表示,不同的词在此向量中表示一维,词频与词总数的比例为该维对应的数值。将上述语料中不同文本的词向量的集合再通过降维等处理结合已知的分类标签训练分类器;在分类阶段,将待分类语料文本处理表示为向量,输入至分类器中对文本进行体育,财经等类型的分类。根据不同的分类将该语料归类于相应的子语言模型中,并更新相应子语言模型的概率。
特别的,语料中的文本建立字的2-Gram统计模型和3-Gram统计模型作为字接续模型,示例的,假设某语料文本中包含“知识库构建模块”这一文本,则建立的字2-Gram组分别为“知识”、“识库”、“库构”、“构建”、“建模”和“模块”,然后计算该文本所属分类语料中各2-Gram组出现的统计概率。进一步的,对于上面提及的包含股市等经济方面内容的计算机科技咨询文本,建立的字2-Gram组包含:“戴尔”、“而公”,“公司”,“司估”,“估计”,“其第”,“第一”,“一季”,“季度”等等。首先统计每个单字出现的次数并计算单字在整个语料中的比例,以此作为单字出现的概率。对于每个2-Gram组统计第一个字后出现的字的次数,如“戴尔”,表示“戴”字后面接“尔”字出现了一次,如果在整个语料包含的文本中“戴”字后面接“尔”字出现了1000次,则记录“戴”字后面为“尔”字的次数为1000,同样可统计出“戴”字后面为“帽”字的次数为10000次。而“戴”字后面出现的字有很多可能性而且出现的次数也不相同,统计所有“戴”字后接有其他字的次数,如500000次,然后计算各种可能性出现的概率。对于“戴”后接“尔”字的概率大致可以估算为1000/500000为0.2%,而“戴”后接“帽”字的概率大致可估算为10000/500000为2%。3-Gram统计模型的获取与所述2-Gram统计模型的获取方法相同,这里不再赘述,该2-Gram和3-Gram字接续模型便于在后续过程中待处理文本的错误位置。
进一步的,也可以对分词后的语料进行词性标注,再建立2元词性统计模型和3元词性统计模型作为词性接续模型,其中,2元词性统计模型中的“2元”表示为两个词组,或2个字符。示例的,假设语料包含“知识库构建模块”,分词后得到“知识库”、“构建”和“模块”三个词,标注的词性为名词、动词和名词,建立的2元词性统计模型分别为“知识库构建”和“构建模块”,词性分别为名词加动词、动词加名词,建立的3元词性统计模型为“知识库构建模块”,词性为名词加动词加名词,即在建立2元词性统计模型和3元词性统计模型时,相应的词性也需要标注。具体的统计模型的计算方法与上述字的2-Gram和3-Gram统计模型的建立方法类似,本发明对此不再赘述。
最后,可以利用拼音和五笔输入法等编码方法建立音近和形近字典。如“处”-“出”,“形”-“型”,“磬”-“罄”等。本发明对此不再详述。
S202、用户设备获取待校正文本在预设文本分类标准中的两个以上文本类型。
用户设备可以通过多种方式获取待校正文本,如用户通过用户界面直接录入到用户设备中,或用户通过配置管理接口等输入接口直接传输至用户设备。然后,用户设备利用文本分类技术对待校正文本进行自动文本分类,该分类过程分为两个阶段:训练阶段和分类阶段。在训练阶段,对待校正文本进行分词处理,该分词过程与现有技术相同,此处不再赘述。对分词后的文本去除停用词,如:“地”,“的”等,然后根据文本中出现的词、词频与词总数的比例建立文本的词向量表示,再通过降维等处理结合已知的分类标签训练分类器;在分类阶段,将待校正文本处理表示为向量,输入至分类器中对文本进行体育,财经等类型的分类。根据不同的分类将该待校正文本归类于相应的子语言模型中,并更新相应子语言模型的概率。
S203、用户设备获取混合语言模型。
首先,用户设备可以在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型。该校正知识库可以包括:子语言模型、字接续模型、词性接续模型、音近字典和形近字典等等。由于校正知识库中的文本类型较多,只需要选择与所述待校正文本的文本类型对应的子语言模型来组合获得混合语言模型。
然后,用户设备可以通过计算获取待校正文本中各子语言模型的比重。最后,根据所述各个子语言模型的比重,将获取的两个以上待组合子语言模型组合获得所述混合语言模型。具体的,可以利用期望最大化算法(EM算法)得到各个待组合子语言模型在混合语言模型中的比重,然后按照各个待组合子语言模型的在混合语言模型中的比重将待组合子语言模型组合获得混合语言模型。当然,各个子语言模型也可以乘以相应的权值来达到按照所述比重组合得到混合语言模型的效果。
具体的,该混合语言模型为各个子语言模型通过线性插值组合而成。对于N-Gram子语言模型,混合语言模型由各子语言模型具体表示如下:
P(Wi|W1,W2,...Wi-1)=λ1P1(Wi|W1,W2,...Wi-1)+λ2P2(Wi|W1,W2,...Wi-1)
+...+λkPk(Wi|W1,W2,...Wi-1)
其中,i为待校正的字符串长度,k为子语言模型的个数,λj为各个子语言模型的权值,Pj(Wi|W1,W2,...Wi-1)为子语言模型中字符串序列Wi出现的概率,1≤j≤k,Pj(Wi|W1,W2,...Wi-1)与现有技术中利用噪声信道理论求P(W)的方法相同,这里不再赘述。
根据期望最大化算法,对于上述混合语言模型,可以给定一个待处理文本的似然函数。根据该似然函数,需要求出子语言模型的权值λj使似然函数最大,则该λj即为该子语言模型的权重。假设某个文本类型的待处理文本中总共包含T个字,则该文本类型相应的权值λj的更新公式为:
&lambda; j t = t - 1 t &lambda; j t - 1 + 1 t &gamma; j t ;
&gamma; j t = &lambda; j t - 1 P ( w t | w , . . . w t - 1 : M j ) &Sigma; i = 1 k &lambda; k t - 1 P ( w t | w 1 , . . . , w t - 1 ; M i )
其中,t表示第t次权值估计值,在本发明实施例中t最终等于待处理文本中字的个数T,M表示语言模型,Mj表示在本发明实施例提供的混合语言模型中的第j个子语言模型,k是确定该文本涉及的子语言模型的个数。
示例的,假设对于待校正文本确定其子语言模型的组成为:科技和经济两个子语言模型,则k=2。在初始状态,设置
Figure BDA00002121012400103
或者其他较小的正数值;对于待处理文本的第一个字{w1},在科技和经济两个子语言模型中获得单字w1出现的概率作为P(w1;M1)和P(w1;M2),然后根据上述公式计算
Figure BDA00002121012400104
此时t=1,然后将第一个公式更新权重值得到
Figure BDA00002121012400105
值。对于文本中的第二个字{w2},在科技和经济两个子语言模型中计算w1出现的条件下w2出现的条件概率P(w2|w1;M1)和P(w2|w1;M2),然后按照上述同样的步骤更新权重值得到
Figure BDA00002121012400106
后续步骤与此类似。最后在经过T次更新得到最终权重。
S204、用户设备通过错误检测模型确定待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
在用户设备确定待处理文本的错误位置前,需要获取校正知识库中的错误检测模型。该错误检测模型可以包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种,特别的,该错误检测模型还可以包括其他模型,本发明不再赘述。在本实施例中,步骤S201已经得到了字接续模型、词性接续模型、音近字典和形近字典等等,用户设备可以根据预设的检测规则,从中获取一种或多种得到错误检测模型。
首先,用户设备可以对待处理文本进行分词和词性标注处理,具体过程可以参考步骤S201中相关解释,这里不再赘述。对分词后连续出现的单个字符或散乱的字符串可以用字接续模型来检查其接续是否正确。同时,可以利用词性接续模型来对词性的接续进行检查,具体过程可以参考现有技术。由于常见的文本错误可分为两类:“非多字词错误”和“真多字词错误”。“非多字词错误”指这类错误破坏了词表层结构而形成了单字串,导致原本一个多字词的词串在分词词典中找不到,如“忠耿耿”,其正确词语为“忠心耿耿”,但由于因在分词词典中无法找到,而被分词程序切分成多个单个的汉字或词语“忠”、“耿”、“耿”。从统计上来看“忠”后面出现“耿”的概率很小,通过设置适当的阈值可以检测该类错误,因此这类错误可通过对字接续模型进行检测。“真多字词错误”这类错误字串是分词词库中的多字词,通常不会出现词层面错误,而这种错误一般是语法结构或词性搭配上的错误,“我我的书”其正确字符串为“我的书”或者“处长时间”其正确的字符串为“延长时间”,对“处长时间”中“处长”是名词而后面的“时间”也是名词,从统计上名词后面接名词的概率较小;而正确的“延长时间”是动词加名词的搭配,从统计上看比较合理。因此这类错误可通过词性接续模型判断词性接续关系找到。通过音近字典和形近字典等等确定错误位置的方法可以参考现有技术。特别的,上述错误位置的检测方法只是示意性说明,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
需要说明的是,在现有技术中,利用噪声信道理论实现文本校正的方法可以包括:将待校正字符串序列中第一个字符设置为编辑位置,根据语言模型中的字接续关系对待校正字符串进行校正操作,生成新的N个字符串序列组合的集合,然后将新生成的字符串序列集合中的每个字符串序列的第二字符位置设为编辑位置重复上述操作。通过限制N的大小和每次编辑操作的深度可保证经过有限次的操作可以得到N个概率较大的校正字符串。但是该操作过程默认整个待校正文本中的字符串都存在错误,需要将待校正文本中近乎所有的位置进行校正操作,操作复杂,如果待校正文本的字符串序列较长,会出现状态爆炸的情况。本发明实施例中,在校正前先进行错误位置的筛选,有效减少了校正的次数,提高了校正的效率。
S205、用户设备根据混合语言模型对待校正文本进行校正得到校正建议文本。
首先,可以由所述错误位置生成待校正字符串序列。
然后,用户设备可以通过错误检测模型匹配或其他方法对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列,该至少一个校正字符串序列可以组成校正字符串序列集合,具体校正操作可以参考现有技术。
接着,用户设备可以在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列。其中,m和n为正整数或0,可以为预设值,也可以为动态值。这样,使得所述校正字符串序列与待校正文本的上下文联系更为紧密。示例,若判断获取错误位置为“声音断续续的”中“断续续”3个字符的位置,则待校正字符串序列为该“断续续”3个字符组成的字符串序列,则经过对待校正字符串序列校正得到校正字符串序列“断断续续”,获取所述错误位置前2个和后2个字符得到“声音断断续续的”作为一个筛选序列,利用统计语言模型可计算出“声音”后面出现“断断续续”的概率很大,则可说明这里产生的校正字符串是恰当的。当然,实际应用中,校正后得到的校正字符串序列可以有多个,这里只是示意性说明。
最后,用户设备可以根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。所述校正建议文本可以通过用户设备的人机交互界面提供给用户,供用户确认校正方案,在经过校正的字符串位置可以通过下划线等方式进行强调,对于不同类型的错误的校正也可以通过不同颜色的符号或底纹等标注出来。
需要说明的是,本发明实施例提供的文本校正方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,因此不再赘述。
本发明实施例提供的文本校正方法,通过将待校正文本进行分类,然后获取相应的混合语言模型,使得校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,该语言模型能较准确的反映该文本的语言现象。当预设文本分类标准或待校正文本的文本类型不同时,对待校正文本可以提供不同的校正选择,因此能够减少校正错误,提高校正灵活性和正确性。同时,由于进行了错误位置的筛选,有效减少了校正的次数,提高了校正的效率。
示例的,对于文本“戴尔公司估计,其第一季度收人(入)约为142亿美元,每股收益33美分。此前公司预测当季收人(入)为142亿至146亿美元,每股收益35至38美分,而分析师平均预测戴尔同期收入为145.2亿美元,每股收益38美分”。其中的“收入”被OCR(Optical CharacterRecognition,光学字符识别)软件识别为“人”从而产生错误。在利用现有技术校正时都能将“收人”校正为“收入”,但是“戴尔”这个名词被误认为是错误而被删除而得到“公司估计”的错误校正,利用本发明可以通过选择科技类子语言增加对“戴尔公司”这个名词的识别从而不会产生类似错误。同样,本发明也可以在校正之间辅以命名实体识别技术将可能导致分词和词性标注中产生的异常的命名实体进行识别而不进行校正处理。
本发明实施例提供一种用户设备30,如图3所示,包括:
获取单元301,用于获取待校正文本在预设文本分类标准中的两个以上文本类型。
示例的,所述预设文本分类标准可以为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
所述获取单元301还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型,并将获取的两个以上待组合子语言模型的信息发送至生成单元302。
生成单元302,用于接收所述获取单元302发送的所述获取的两个以上待组合子语言模型的信息,并将所述获取的两个以上待组合子语言模型组合成为混合语言模型,将所述混合语言模型的信息发送至校正单元303。
该生成单元302具体用于:获取所述待校正文本中各个文本类型的比重;根据各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
校正单元303,用于接收所述生成单元302发送的所述混合语言模型的信息,并根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
所述校正单元303具体可以用于:由所述错误位置生成待校正字符串序列;对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
这样一来,获取单元通过将待校正文本进行分类,然后生成单元获取相应的混合语言模型,使得校正单元进行校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,当预设文本分类标准或待校正文本的文本类型不同时,对待校正文本可以提供不同的校正选择,因此能够减少校正错误,提高校正灵活性和正确性。
进一步的,如图4所示,所述用户设备10还可以包括:
所述获取单元301,用于获取所述预设文本分类标准,并将所述预设文本分类标准发送至建立单元304;
建立单元304,用于接收所述获取单元301发送的所述预设文本分类标准,根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
模型获取单元305,用于获取所述校正知识库中的错误检测模型,并将所述错误检测模型的信息发送给确定单元306;
示例的,所述错误检测模型可以包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
确定单元306,用于接收所述模型获取单元305发送的所述错误检测模型的信息,并通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的用户设备的具体使用步骤,可以参考前述文本校正方法的实施例中的对应过程,在此不再赘述。
本发明实施例提供的用户设备,通过将待校正文本进行分类,然后获取相应的混合语言模型,使得校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,该语言模型能较准确的反映该文本的语言现象。当预设文本分类标准或待校正文本的文本类型不同时,对待校正文本可以提供不同的校正选择,因此能够减少校正错误,提高校正灵活性和正确性。同时,由于进行了错误位置的筛选,有效减少了校正的次数,提高了校正的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本发明实施例提供一种用户设备50,如图5所示,包括:
处理器501,用于获取待校正文本在预设文本分类标准中的两个以上文本类型。
示例的,所述预设文本分类标准可以为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
所述处理器501还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;将获取的两个以上待组合子语言模型组合成为混合语言模型;根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
所述处理器501具体用于:获取所述待校正文本中各个文本类型的比重;根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
所述处理器501具体用于:由所述错误位置生成待校正字符串序列;对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
这样一来,处理器通过将待校正文本进行分类,然后获取相应的混合语言模型,使得进行校正时所依据的混合语言模型能够根据待校正文本的文本类型动态变化,当预设文本分类标准或待校正文本的文本类型不同时,对待校正文本可以提供不同的校正选择,因此能够减少校正错误,提高校正灵活性和正确性。
进一步的,所述处理器501还用于:获取所述预设文本分类标准。
如图6所示,该用户设备50还包括:存储器502,用于根据所述预设文本分类标准中的类型建立两个以上的子语言模型,并将所述子语言模型的信息发送给处理器501。
处理器501还用于获取所述校正知识库中的错误检测模型。
示例的,所述错误检测模型可以包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
处理器501还用于通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的用户设备中存储器和处理器的具体使用步骤,可以参考前述文本校正方法的实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种文本校正方法,其特征在于,包括:
获取待校正文本在预设文本分类标准中的两个以上文本类型;
在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;
将获取的两个以上待组合子语言模型组合成为混合语言模型;
根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
2.根据权利要求1所述的方法,其特征在于,所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述预设文本分类标准;
根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
4.根据权利要求3所述的方法,其特征在于,所述将获取的两个以上待组合子语言模型组合成为混合语言模型包括:
获取所述待校正文本中各个文本类型的比重;
根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
5.根据权利要求1至4任意一项权利要求所述的方法,其特征在于,在根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本之前,所述方法还包括:
获取所述校正知识库中的错误检测模型;
通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
6.根据权利要求5所述的方法,其特征在于,所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
7.根据权利要求5或6所述的方法,其特征在于,所述根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本包括:
由所述错误位置生成待校正字符串序列;
对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;
在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
8.一种用户设备,其特征在于,包括:
获取单元,用于获取待校正文本在预设文本分类标准中的两个以上文本类型;
所述获取单元还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型,并将获取的两个以上待组合子语言模型的信息发送至生成单元;
生成单元,用于接收所述获取单元发送的所述获取的两个以上待组合子语言模型的信息,并将所述获取的两个以上待组合子语言模型组合成为混合语言模型,将所述混合语言模型的信息发送至校正单元;
校正单元,用于接收所述生成单元发送的所述混合语言模型的信息,并根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
9.根据权利要求8所述的用户设备,其特征在于,所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
10.根据权利要求9所述的用户设备,其特征在于,所述用户设备还包括:
所述获取单元,用于获取所述预设文本分类标准,并将所述预设文本分类标准发送至建立单元;
建立单元,用于接收所述获取单元发送的所述预设文本分类标准,根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
11.根据权利要求10所述的用户设备,其特征在于,所述生成单元具体用于:
获取所述待校正文本中各个文本类型的比重;
根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
12.根据权利要求8至11任意一项权利要求所述的用户设备,其特征在于,所述用户设备还包括:
模型获取单元,用于获取所述校正知识库中的错误检测模型,并将所述错误检测模型的信息发送给确定单元;
确定单元,用于接收所述模型获取单元发送的所述错误检测模型的信息,并通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
13.根据权利要求12所述的用户设备,其特征在于,所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
14.根据权利要求12或13所述的用户设备,其特征在于,所述校正单元具体用于:
由所述错误位置生成待校正字符串序列;
对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;
在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
CN201210332263.3A 2012-09-10 2012-09-10 一种文本校正方法及用户设备 Active CN103678271B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210332263.3A CN103678271B (zh) 2012-09-10 2012-09-10 一种文本校正方法及用户设备
PCT/CN2013/073382 WO2014036827A1 (zh) 2012-09-10 2013-03-28 一种文本校正方法及用户设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210332263.3A CN103678271B (zh) 2012-09-10 2012-09-10 一种文本校正方法及用户设备

Publications (2)

Publication Number Publication Date
CN103678271A true CN103678271A (zh) 2014-03-26
CN103678271B CN103678271B (zh) 2016-09-14

Family

ID=50236498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210332263.3A Active CN103678271B (zh) 2012-09-10 2012-09-10 一种文本校正方法及用户设备

Country Status (2)

Country Link
CN (1) CN103678271B (zh)
WO (1) WO2014036827A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN107729318A (zh) * 2017-10-17 2018-02-23 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法‑由中文词性判断
CN108628873A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本分类方法、装置和设备
CN111412925A (zh) * 2019-01-08 2020-07-14 阿里巴巴集团控股有限公司 一种poi位置的纠错方法及装置
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN115713934A (zh) * 2022-11-30 2023-02-24 中移互联网有限公司 一种语音转文本的纠错方法、装置、设备及介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093712B2 (en) 2018-11-21 2021-08-17 International Business Machines Corporation User interfaces for word processors
CN113051894A (zh) * 2021-03-16 2021-06-29 京东数字科技控股股份有限公司 一种文本纠错的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101031913A (zh) * 2004-09-30 2007-09-05 皇家飞利浦电子股份有限公司 自动文本校正
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
JP2011113099A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031913A (zh) * 2004-09-30 2007-09-05 皇家飞利浦电子股份有限公司 自动文本校正
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN102165435A (zh) * 2007-08-01 2011-08-24 金格软件有限公司 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
JP2011113099A (ja) * 2009-11-21 2011-06-09 Kddi R & D Laboratories Inc 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石洪波: "一种基于属性分割的产生式_判别式混合分类器", 《计算机应用研究》, 31 May 2012 (2012-05-31), pages 1654 - 1658 *
赵军: "命名实体识别、排歧和跨语言关联", 《中文信息学报》, 31 March 2009 (2009-03-31), pages 3 - 17 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262658B2 (en) 2014-11-28 2019-04-16 Shenzhen Skyworth-Rgb Eletronic Co., Ltd. Voice recognition method and system
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN105550173A (zh) * 2016-02-06 2016-05-04 北京京东尚科信息技术有限公司 文本校正方法和装置
CN108628873B (zh) * 2017-03-17 2022-09-27 腾讯科技(北京)有限公司 一种文本分类方法、装置和设备
CN108628873A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本分类方法、装置和设备
CN107729318B (zh) * 2017-10-17 2021-04-20 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法-由中文词性判断
CN107729318A (zh) * 2017-10-17 2018-02-23 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法‑由中文词性判断
CN111412925A (zh) * 2019-01-08 2020-07-14 阿里巴巴集团控股有限公司 一种poi位置的纠错方法及装置
CN111412925B (zh) * 2019-01-08 2023-07-18 阿里巴巴集团控股有限公司 一种poi位置的纠错方法及装置
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN115713934A (zh) * 2022-11-30 2023-02-24 中移互联网有限公司 一种语音转文本的纠错方法、装置、设备及介质
CN115713934B (zh) * 2022-11-30 2023-08-15 中移互联网有限公司 一种语音转文本的纠错方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2014036827A1 (zh) 2014-03-13
CN103678271B (zh) 2016-09-14

Similar Documents

Publication Publication Date Title
CN103678271A (zh) 一种文本校正方法及用户设备
US11367432B2 (en) End-to-end automated speech recognition on numeric sequences
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2021135444A1 (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
Qian et al. Disfluency detection using multi-step stacked learning
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN104021784A (zh) 基于大语料库的语音合成方法和装置
CN103020034A (zh) 中文分词方法和装置
CN109033085B (zh) 中文分词系统及中文文本的分词方法
CN104573099A (zh) 题目的搜索方法及装置
CN113343671B (zh) 一种语音识别后的语句纠错方法、装置、设备及存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
Alvarez et al. Improving the automatic segmentation of subtitles through conditional random field
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
CN114329112A (zh) 内容审核方法、装置、电子设备及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112530405A (zh) 一种端到端语音合成纠错方法、系统及装置
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant