CN112949261A - 文本还原方法、装置及电子设备 - Google Patents
文本还原方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112949261A CN112949261A CN202110158872.0A CN202110158872A CN112949261A CN 112949261 A CN112949261 A CN 112949261A CN 202110158872 A CN202110158872 A CN 202110158872A CN 112949261 A CN112949261 A CN 112949261A
- Authority
- CN
- China
- Prior art keywords
- target
- character group
- candidate word
- text
- confusion degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000000875 corresponding effect Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本还原方法、装置及电子设备,属于语言识别技术领域,能够解决现有电子设备还原文本不准确的问题。该方法包括:根据第一字符组,获取第一候选词和第二候选词;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。该方法应用于还原文本的场景中。
Description
技术领域
本申请属于语言识别技术领域,具体涉及一种文本还原方法、装置及电子设备。
背景技术
在编辑文本的过程中,若位于该文本的某一行行末的西文字符组(例如英文字符组)不能全部显示在该行时,则可以将该西文字符组从自动换行的位置断开,并在断行的位置添加一个分隔符,例如图1中的标记处1,标记处2,标记处3,标记处4,标记处5,标记处6。
目前,如果将上述文本复制到另外一个文件中,那么可以根据这些分隔符自动还原字符组。具体的,可以直接去掉位于该文本行末的分隔符,使得分隔符前后的字符组组成一个字符组,并显示在复制得到的文本中,例如图2所示的文本即为图1所示的文本复制之后得到的文本。
然而,在上述过程中,由于有的字符组是复合词,即该字符组本身是包括分隔符的,因此通过直接去掉分隔符的方式,可能会导致还原后的文本中的字符组有误,例如图2中的标记处3,标记处5,标记处6标记的字符组。因此,如何准确还原文本成为一个亟待解决的问题。
发明内容
本申请实施例的目的是提供一种文本还原方法、装置及电子设备,能够解决现有的电子设备还原文本不准确的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种文本还原方法,该方法包括:根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。
第二方面,本申请实施例提供了一种文本还原装置,该文本还原装置包括获取模块,确定模块和还原模块。获取模块,用于根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定模块,用于确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;还原模块,用于在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,该程序或指令被处理器执行时,实现如上述第一方面中的文本还原方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时,实现如上述第一方面中的文本还原方法的步骤。
第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如上述第一方面中的文本还原方法的步骤。
在本申请实施例中,可以根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。通过该方案,由于语句对应的困惑度越小,表示语句越流畅,即语句对应的困惑度越小,语句越准确,因此通过比较根据第一候选词得到的第一语句对应的困惑度和根据第二候选词得到的第二语句对应的困惑度,可以确定第一候选词和第二候选词哪个是正确地,即可以确定目标文本中的第一字符组和第二字符组组成的正确的词,从而可以准确地还原文本。
附图说明
图1为本申请实施例提供的一种待还原的文本示意图;
图2为本申请实施例提供的一种还原后的文本示意图;
图3为本申请实施例提供的文本还原方法的流程示意图;
图4为本申请实施例提供的文本还原装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图;
图6为本申请实施例提供的电子设备的硬件示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
下面结合附图,通过具体的实施例及其应用场景,对本申请实施例提供的文本还原方法进行详细地说明。
如图3所示,本申请实施例提供一种文本还原方法,该方法包括下述的步骤201-步骤204,或步骤201-步骤203和步骤205。
需要说明的是,本申请实施例提供的文本还原方法的执行主体可以为文本还原装置,或者该文本还原装置中的用于执行文本还原方法的控制模块,还可以为电子设备。下面将以文本还原装置为例,对本申请实施例提供的文本还原方法进行示例性的说明。
可选地,本申请实施例中,当本申请实施例提供的文本还原方法的执行主体为电子设备时,该电子设备可以包括本申请实施例提供的文本还原装置,或外接该文本还原装置。具体可以根据实际使用需求确定,本申请实施例不作限定。
步骤201,电子设备根据第一字符组,获取第一候选词和第二候选词。
其中,上述第一字符组可以为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组,N为正整数。
本申请实施例中,在电子设备获取上述待还原的目标文本之后,电子设备可以根据上述第一字符组,获取上述第一候选词和第二候选词,从而可以根据该第一候选词和第二候选词中正确地词,还原目标文本。
可选地,本申请实施例提供的文本还原方法可以应用于下述两种可能的场景中:
场景一:电子设备将目标文本从一个位置复制至另一个位置,例如将目标文本从一个文档复制至另一个文档。
场景二:目标文本为目标图像中的文本,电子设备通过光学字符(opticalcharacter recognition,OCR)技术识别该目标图像中的文本。
可选地,在上述场景二中,目标图像中的文本可以是横向排版,也可以是竖向排版。当目标图像中的文本是竖向排版时,上述第一字符组可以为待还原的目标文本中的第M列的列末、且以分隔符结尾的字符组,第二字符组为待还原的目标文本中的第M+1列的第一个字符组,M为正整数。
当然,实际实现时,本申请实施例提供的文本还原方法还可以应用于其他任意可能的场景中,具体可以根据实际使用需求确定,本申请实施例不作限定。
可选地,本申请实施例涉及的字符组可以为西文字符组,例如英文字符组、法文字符组、德文字符组、俄文字符组或葡萄牙文字符组等,具体可以根据实际使用需求确定,本申请实施例不作限定。其中,本申请实施例是以英文字符组为例进行示例性说明的。
本申请实施例中,在电子设备获得上述待还原的目标文本之后,电子设备可以逐行检测该目标文本中的每行文本的行末是否以分隔符或特定分割符(如“-”)结束,如果是,那么电子设备可以将包括该分隔符的字符组作为上述第一字符组。如果不是,那么电子设备可以继续检测下一行的文本。
可选地,本申请实施例中,电子设备获取上述第一候选词和第二候选词的方式可以为:
步骤1、电子设备将当前行的行末的分隔符之前的字符组(即上述第三字符组),分隔符(如“-”),以及当前行的下一行的第一个字符组组成一个单元(以下称为处理候选集)。
示例性地,以图1所示的文本为例,电子设备可以从第一行得到待处理候选集{representa,-,tion},从第四行得到待处理候选集{repre,-,sentation},从第六行得到待处理候选集{pre,-,train},从第九行得到待处理候选集{re,-,sult},从第十行得到待处理候选集{fine,-,tuned},从第十四行得到待处理候选集{task,-,specific}。
步骤2、对每个待处理候选集中的所有候选项,合并分隔符前后的字符组,得到候选词,例如{representation},{representation},{pretrain},{result},{finetuned}和{taskspecific},即可以得到第一候选词。
步骤3、]对每个待处理候选集中的所有候选项,生成保留分割符的复合词候,例如{representa-tion},{repre-sentation},{pre-train},{re-sult},{fine-tuned}和{task-specific},即可以得到上述第二候选词。
可以理解,本申请实施例中,第二候选词为复合词,如此电子设备可以采用分隔符前后字符组合并后的词和由该分隔符形成的复合词,分别进行词的合法性检测以及句子流畅度检测,从而可以保证还原后的目标文本的准确度。
步骤202,电子设备确定第一困惑度和第二困惑度。
其中,上述第一困惑度可以为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度。
本申请实施例中,在电子设备获取上述第一候选词和第二候选词之后,电子设备可以确定上述第一困惑度和第二困惑度,从而可以从上述第一候选词和第二候选词中确定正确的词,以还原上述目标文本。
可选地,本申请实施例中,对于上述步骤202,电子设备可以对上述第一候选词和第二候选词分别执行下述的步骤202a和步骤202b,从而可以确定上述第一困惑度和第二困惑度。
可以理解,下述的步骤202a和步骤202b是以上述第一候选词和第二候选词中的一个候选词(例如本申请实施例中的目标候选词)进行示例性说明的。
步骤202a,电子设备基于目标候选词中的每个字符在目标文本中出现的概率,确定目标参数。
其中,上述目标候选词可以为上述第一候选词或上述第二候选词。
步骤202b,电子设备根据目标参数,确定目标候选词对应的困惑度。
其中,上述目标参数可以包括:目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值。目标词组可以包括目标候选词、第四字符组和第五字符组,第四字符组可以为目标文本中位于第一字符组之前的字符组,第五字符组为目标文本中位于第二字符组之后的字符组。
本申请实施例中,电子设备可以基于目标候选词(第一候选词或第二候选词)中的每个字符在目标文本中出现的概率,确定目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值,从而可以得到上述目标参数,然后电子设备可以根据该目标参数,确定目标候选词对应的困惑度(例如上述第一困惑度或第二困惑度)。
本申请实施例中,电子设备可以将目标候选词(第一候选词或第二候选词)和目标文本输入语言模型,然后语言模型可以进行目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值的计算,从而可以得到上述目标参数。
本申请实施例中,上述目标候选词的合法性值可以为目标文本中,目标候选词在目标文本中出现的概率(记为Score_1)。
可选地,本申请实施例中,目标候选词的合法性值可以为目标候选词中的每个字符在目标文本中出现的概率之间的乘积。
其中,目标候选词中的第K个字符在目标文本中出现的概率是指:在目标文本中出现第六字符组的情况下出现第K个字符的概率,第六字符组由目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
需要说明的是,本申请实施例中涉及的“在出现某一字符组或字符(记为A)的情况下,出现另一字符(记为B)”是指:在文本中,B位于A之后,且A与B之间没有分隔符。
具体地,目标候选词的合法性值可以表示为:
P(W)=p(C1)×p(C2|C1)×…×p(CK|C1,C2,…CK-1);
其中,P(W)表示目标候选词的合法性值,p(C1)表示目标候选词中的第一个字符在目标文本中出现的概率,p(CK|C1,C2,…CK-1)表示在目标文本中出现第六字符组的情况下出现第K个字符的概率的乘积,第六字符组由目标候选词中的第1个字符至第(K-1)个字符组成。
示例性地,通过语言模型来判断,语言模型见下述公式(1)中,W表示一个候选词,C1表示候选词中的第一个字符,Ck表示候选词中的最后一个字符,通过计算由C1至Ck的字符组成候选词W的概率,判断W是否为一个合法的单词。其中,计算单词的概率公式见下述公式(2),其中p(C1)表示字符C1在目标文本中出现的概率,计算公式见下述公式(3)。示例性地,如果C1表示字符r,目标文本中的字符总数为100,字符r出现了10次,那么r出现的概率为10/100=0.1,即p(C1)=0.1。
公式(4)中,p(C2|C1)表示C2的出现与C1是相关的,即在出现C1的条件下出现C2的概率。示例性地,C1如果表示字符“w”,C2表示字符“e”,那么在出现字符“w”的条件下出现字符“e”的概率出现为:P(e|w)=P(we)/P(w)。
W=C1,C2,C3,…CK (1)
P(W)=P(C1,C2,C3,…CK)=p(C1)×p(C2|C1)×…×p(CK|C1,C2,…CK-1) (2)
p(Ck)=字符k出现的次数/文档总字符数 (3)
P(C2|C1)=P(C1C2)/P(C1) (4)
本申请实施例中,上述目标词组的流畅度值可以为目标候选词、第四字符组和第五字符组组成的词组在目标文本中出现的概率(记为Score_2)。
本申请实施例中,上述目标词组的流畅度值可以根据下述的公式(5)计算得到。
其中,S代表一个句子或词组,由单词W1…WN组成。一般困惑度越小,句子或词组越流畅。
示例性地,如图1中的标记1所示,假设上述目标候选词为“representation”,位于“representa-”之前的单词为“language”,位于“tion”之后的单词为“model”,那么通过公式(5)可以得到
本申请实施例中,上述目标语句的流畅度值可以为目标语句在目标文本中出现的概率(记为Score_3)。
本申请实施例中,上述目标语句的流畅度值可以根据上述公式(5)计算得到。
示例性地,如图1中的标记1所示,假设上述目标候选词为“representation”,“representa-”所在的语句为“We introduce a new language representation modelcalled BERT”,那么通过公式(5)可以得到:
可选地,本申请实施例中,上述步骤202b具体可以通过下述的步骤202b1实现。
步骤202b1,电子设备根据目标候选词的合法性值与第一系数的乘积、目标词组的流畅度值与第二系数的乘积、目标语句的流畅度值与第三系数的乘积之和,得到目标候选词对应的困惑度。
其中,上述第一系数、第二系数和第三系数之和等于1。
本申请实施例中,在电子设备确定上述目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值之后,电子设备可以法计算目标候选词的合法性值与第一系数(记为α)的乘积、目标词组的流畅度值与第二系数(记为β)的乘积、目标语句的流畅度值与第三系数(记为γ)的乘积之和,从而可以得到目标候选词对应的困惑度(记为Score)。
即,Score=α×Score_1+β×Score_2+γ×Score_3。
可选地,本申请实施例中,上述第一系数、第二系数和第三系数的取值可以为任意可能的正数,且第一系数、第二系数和第三系数之和等于1。
步骤203,电子设备确定第一困惑度是否小于第二困惑度。
本申请实施例中,在电子设备确定第一困惑度和第二困惑度之后,电子设备可以比较第一困惑度和第二困惑度的大小。从而确定上述第一候选词和第二候选词中的哪个候选词是正确的。
本申请实施例中,若第一困惑度小于第二困惑度,则电子设备可以根据第一候选词,得到还原后的目标文本,即在第一困惑度小于第二困惑度的情况下,电子设备可以执行下述的步骤204。若第二困惑度小于第一困惑度,则电子设备可以根据第二候选词,得到还原后的目标文本,即在第二困惑度小于第一困惑度的情况下,电子设备可以执行下述的步骤205。
可以理解,本申请实施例中,下述步骤204和步骤205是择一执行的。
步骤204,电子设备根据第一候选词,得到还原后的目标文本。
本申请实施例中,在第一困惑度小于第二困惑度的情况下,电子设备可以根据第一候选词,还原目标文本,从而可以得到还原后的目标文本。
一种可能的实现方式,电子设备可以直接采用第一候选词,替换目标文本中的第一字符组和第二字符组,从而可以得到还原后的目标文本。
另一种可能的实现方式,电子设备可以采用上述第一语句(第一语句包括第一候选词),替换目标文本中的目标语句,从而可以得到还原后的目标文本。
步骤205,电子设备根据第二候选词,得到还原后的目标文本。
本申请实施例中,在第二困惑度小于第一困惑度的情况下,电子设备可以根据第二候选词,还原目标文本,从而可以得到还原后的目标文本。
一种可能的实现方式,电子设备可以直接采用第二候选词,替换目标文本中的第一字符组和第二字符组,从而可以得到还原后的目标文本。
另一种可能的实现方式,电子设备可以采用上述第二语句(第二语句包括第二候选词),替换目标文本中的目标语句,从而可以得到还原后的目标文本。
本申请实施例提供的文本还原方法,由于语句对应的困惑度越小,表示语句越流畅,即语句对应的困惑度越小,语句越准确,因此通过比较根据第一候选词得到的第一语句对应的困惑度和根据第二候选词得到的第二语句对应的困惑度,可以确定第一候选词和第二候选词哪个是正确地,即可以确定目标文本中的第一字符组和第二字符组组成的正确的词,从而可以准确地还原文本。
可选地,本申请实施例中,在电子设备得到还原后的目标文本之后,本申请实施例提供的文本还原方法还可以包括下述的步骤206。
步骤206,电子设备基于关键词识别模型,获取还原后的目标文本的关键词。
其中,上述关键词的内容类型可以与关键词识别模型中预设的内容类型相同。
本申请实施例中,在电子设备得到还原后的目标文本之后,电子设备可以将还原后的目标文本输入关键词识别模型,从而可以基于该关键词识别模型,获取还原后的目标文本中的关键词,如此可以得到准确的关键词,进而可以提升关键词识别的准确率。
可选地,本申请实施例中,在关键词识别模型识别还原后的目标文本中的关键词之后,关键词识别模型可以向电子设备输出关键词列表。其中,该关键词列表中可以包括还原后的目标文本中的所有关键词。
示例性地,假设关键词识别模型中预设的关键词的内容类型为“地名”,那么在电子设备将还原后的目标文本输入关键词识别模型之后,关键词识别模型可以从还原后的目标文本中提取并输出所有与“地名”相关的词,从而得到上述关键词。
本申请实施例中,在电子设备将还原后的目标文本输入关键词识别模型之后,关键词识别模型可以对还原后的目标文本进行关键词识别,从而可以得到还原后的目标文本中的关键词,并向电子设备输出这些关键词的列表,从而可以准确得到目标文本中的关键词。
下面将以本申请实施例中以文本还原装置执行文本还原方法为例,说明本申请实施例提供的文本还原装置。
如图4所示,本申请实施例提供一种文本还原装置300,文本还原装置300包括获取模块301,确定模块302和还原模块303。获取模块301,用于根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定模块302,用于确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;还原模块303,用于在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。
可选地,确定模块,具体用于对第一候选词和第二候选词分别执行以下步骤:基于目标候选词中的每个字符在目标文本中出现的概率,确定目标参数,目标候选词为第一候选词或第二候选词;根据目标参数,确定目标候选词对应的困惑度;其中,目标参数包括:目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值;目标词组包括目标候选词、第四字符组和第五字符组,第四字符组为目标文本中位于第一字符组之前的字符组,第五字符组为目标文本中位于第二字符组之后的字符组。
可选地,确定模块,具体用于根据目标候选词的合法性值与第一系数的乘积、目标词组的流畅度值与第二系数的乘积、目标语句的流畅度值与第三系数的乘积之和,得到目标候选词对应的困惑度;其中,第一系数、第二系数和第三系数之和等于1。
可选地,目标候选词的合法性值为目标文本中,目标候选词在目标文本中出现的概率;目标词组的流畅度值为目标候选词、第四字符组和第五字符组组成的词组在目标文本中出现的概率;目标语句的流畅度值为目标语句在目标文本中出现的概率。
可选地,目标候选词的合法性值为目标候选词中的每个字符在目标文本中出现的概率之间的乘积;其中,目标候选词中的第K个字符在目标文本中出现的概率是指:在目标文本中出现第六字符组的情况下出现第K个字符的概率,第六字符组由目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
可选地,确定模块,还用于基于关键词识别模型,获取还原后的目标文本的关键词,该关键词的内容类型与关键词识别模型中预设的内容类型相同。
本申请实施例提供一种文本还原装置,由于语句对应的困惑度越小,表示语句越流畅,即语句对应的困惑度越小,语句越准确,因此通过比较根据第一候选词得到的第一语句对应的困惑度和根据第二候选词得到的第二语句对应的困惑度,可以确定第一候选词和第二候选词哪个是正确地,即可以确定目标文本中的第一字符组和第二字符组组成的正确的词,从而可以准确地还原文本。
本申请实施例中的文本还原装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的文本还原装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的文本还原装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501,存储器502,存储在存储器502上并可在处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述文本还原方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图6为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器110,可以用于根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;并确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;以及在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。
可选地,处理器110,具体用于对第一候选词和第二候选词分别执行以下步骤:基于目标候选词中的每个字符在目标文本中出现的概率,确定目标参数,目标候选词为第一候选词或第二候选词;根据目标参数,确定目标候选词对应的困惑度;其中,目标参数包括:目标候选词的合法性值、目标词组的流畅度值和目标语句的流畅度值;目标词组包括目标候选词、第四字符组和第五字符组,第四字符组为目标文本中位于第一字符组之前的字符组,第五字符组为目标文本中位于第二字符组之后的字符组。
可选地,处理器110,具体用于根据目标候选词的合法性值与第一系数的乘积、目标词组的流畅度值与第二系数的乘积、目标语句的流畅度值与第三系数的乘积之和,得到目标候选词对应的困惑度;其中,第一系数、第二系数和第三系数之和等于1。
可选地,目标候选词的合法性值为目标文本中,目标候选词在目标文本中出现的概率;目标词组的流畅度值为目标候选词、第四字符组和第五字符组组成的词组在目标文本中出现的概率;目标语句的流畅度值为目标语句在目标文本中出现的概率。
可选地,目标候选词的合法性值为目标候选词中的每个字符在目标文本中出现的概率之间的乘积;其中,目标候选词中的第K个字符在目标文本中出现的概率是指:在目标文本中出现第六字符组的情况下出现第K个字符的概率,第六字符组由目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
可选地,处理器110,还用于基于关键词识别模型,获取还原后的目标文本的关键词,该关键词的内容类型与关键词识别模型中预设的内容类型相同。
本申请实施例提供一种电子设备,由于语句对应的困惑度越小,表示语句越流畅,即语句对应的困惑度越小,语句越准确,因此通过比较根据第一候选词得到的第一语句对应的困惑度和根据第二候选词得到的第二语句对应的困惑度,可以确定第一候选词和第二候选词哪个是正确地,即可以确定目标文本中的第一字符组和第二字符组组成的正确的词,从而可以准确地还原文本。
需要说明的是,本申请实施例中,上述文本还原装置中的获取模块、确定模块、还原模块和输入模块均可以通过上述处理器110实现。
应理解的是,本申请实施例中,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。电子设备通过网络模块102为用户提供无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。音频输出单元103可以包括扬声器、蜂鸣器以及受话器等。输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,该可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本还原方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,上述处理器为上述实施例中的电子设备中的处理器。可读存储介质可以包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述文本还原方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (12)
1.一种文本还原方法,其特征在于,所述方法包括:
根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述确定第一困惑度和第二困惑度,包括:
对所述第一候选词和所述第二候选词分别执行以下步骤:
基于目标候选词中的每个字符在所述目标文本中出现的概率,确定目标参数,所述目标候选词为所述第一候选词或所述第二候选词;
根据所述目标参数,确定所述目标候选词对应的困惑度;
其中,所述目标参数包括:目标候选词的合法性值、目标词组的流畅度值和所述目标语句的流畅度值;所述目标词组包括所述目标候选词、第四字符组和第五字符组,所述第四字符组为所述目标文本中位于所述第一字符组之前的字符组,所述第五字符组为所述目标文本中位于所述第二字符组之后的字符组。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标参数,确定所述目标候选词对应的困惑度,包括:
根据所述目标候选词的合法性值与第一系数的乘积、所述目标词组的流畅度值与第二系数的乘积、所述目标语句的流畅度值与第三系数的乘积之和,得到所述目标候选词对应的困惑度;
其中,所述第一系数、第二系数和第三系数之和等于1。
4.根据权利要求2或3所述的方法,其特征在于,所述目标候选词的合法性值为所述目标文本中,所述目标候选词在所述目标文本中出现的概率;
所述目标词组的流畅度值为所述目标候选词、所述第四字符组和所述第五字符组组成的词组在所述目标文本中出现的概率;
所述目标语句的流畅度值为所述目标语句在所述目标文本中出现的概率。
5.根据权利要求4所述的方法,其特征在于,所述目标候选词的合法性值为目标候选词中的每个字符在所述目标文本中出现的概率之间的乘积;
其中,所述目标候选词中的第K个字符在所述目标文本中出现的概率是指:在所述目标文本中出现第六字符组的情况下出现第K个字符的概率,所述第六字符组由所述目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
6.一种文本还原装置,其特征在于,所述文本还原装置包括获取模块,确定模块和还原模块;
获取模块,用于根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定模块,用于确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
还原模块,用于在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于对所述第一候选词和所述第二候选词分别执行以下步骤:
基于目标候选词中的每个字符在所述目标文本中出现的概率,确定目标参数,所述目标候选词为所述第一候选词或所述第二候选词;
根据所述目标参数,确定所述目标候选词对应的困惑度;
其中,所述目标参数包括:目标候选词的合法性值、目标词组的流畅度值和所述目标语句的流畅度值;所述目标词组包括所述目标候选词、第四字符组和第五字符组,所述第四字符组为所述目标文本中位于所述第一字符组之前的字符组,所述第五字符组为所述目标文本中位于所述第二字符组之后的字符组。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于根据所述目标候选词的合法性值与第一系数的乘积、所述目标词组的流畅度值与第二系数的乘积、所述目标语句的流畅度值与第三系数的乘积之和,得到所述目标候选词对应的困惑度;
其中,所述第一系数、第二系数和第三系数之和等于1。
9.根据权利要求7或8所述的装置,其特征在于,所述目标候选词的合法性值为所述目标文本中,所述目标候选词在所述目标文本中出现的概率;
所述目标词组的流畅度值为所述目标候选词、所述第四字符组和所述第五字符组组成的词组在所述目标文本中出现的概率;
所述目标语句的流畅度值为所述目标语句在所述目标文本中出现的概率。
10.根据权利要求9所述的装置,其特征在于,所述目标候选词的合法性值为目标候选词中的每个字符在所述目标文本中出现的概率之间的乘积;
其中,所述目标候选词中的第K个字符在所述目标文本中出现的概率是指:在所述目标文本中出现第六字符组的情况下出现第K个字符的概率,所述第六字符组由所述目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或所述指令被所述处理器执行时实现如权利要求1-5中任一项所述的文本还原方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或所述指令被处理器执行时实现如权利要求1-5中任一项所述的文本还原方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158872.0A CN112949261A (zh) | 2021-02-04 | 2021-02-04 | 文本还原方法、装置及电子设备 |
PCT/CN2022/074583 WO2022166808A1 (zh) | 2021-02-04 | 2022-01-28 | 文本还原方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158872.0A CN112949261A (zh) | 2021-02-04 | 2021-02-04 | 文本还原方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949261A true CN112949261A (zh) | 2021-06-11 |
Family
ID=76244023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110158872.0A Pending CN112949261A (zh) | 2021-02-04 | 2021-02-04 | 文本还原方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112949261A (zh) |
WO (1) | WO2022166808A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166808A1 (zh) * | 2021-02-04 | 2022-08-11 | 维沃移动通信有限公司 | 文本还原方法、装置及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690806B (zh) * | 2022-10-11 | 2023-06-13 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899016A (zh) * | 2018-08-02 | 2018-11-27 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN111626065A (zh) * | 2019-02-26 | 2020-09-04 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN112269475A (zh) * | 2020-10-23 | 2021-01-26 | 维沃移动通信有限公司 | 文字显示方法、装置和电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402490B1 (en) * | 2015-08-14 | 2019-09-03 | Shutterstock, Inc. | Edit distance based spellcheck |
CN111401004B (zh) * | 2020-03-28 | 2023-12-22 | 苏州机数芯微科技有限公司 | 一种基于机器学习的文章断句方法 |
CN112949261A (zh) * | 2021-02-04 | 2021-06-11 | 维沃移动通信有限公司 | 文本还原方法、装置及电子设备 |
-
2021
- 2021-02-04 CN CN202110158872.0A patent/CN112949261A/zh active Pending
-
2022
- 2022-01-28 WO PCT/CN2022/074583 patent/WO2022166808A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899016A (zh) * | 2018-08-02 | 2018-11-27 | 科大讯飞股份有限公司 | 一种语音文本规整方法、装置、设备及可读存储介质 |
CN111626065A (zh) * | 2019-02-26 | 2020-09-04 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN112269475A (zh) * | 2020-10-23 | 2021-01-26 | 维沃移动通信有限公司 | 文字显示方法、装置和电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166808A1 (zh) * | 2021-02-04 | 2022-08-11 | 维沃移动通信有限公司 | 文本还原方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2022166808A1 (zh) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017045443A1 (zh) | 一种图像检索方法及系统 | |
CN106325488B (zh) | 一种输入方法、输入装置、服务器和输入系统 | |
WO2022166808A1 (zh) | 文本还原方法、装置及电子设备 | |
CN113518026B (zh) | 消息处理方法、装置和电子设备 | |
CN109948122A (zh) | 输入文本的纠错方法、装置及电子设备 | |
CN112099704A (zh) | 信息显示方法、装置、电子设备和可读存储介质 | |
US20230306765A1 (en) | Recognition method and apparatus, and electronic device | |
CN111538830B (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN112631437A (zh) | 信息推荐方法、装置及电子设备 | |
US11501504B2 (en) | Method and apparatus for augmented reality | |
CN116127062A (zh) | 预训练语言模型的训练方法、文本情感分类方法及装置 | |
CN111880668A (zh) | 输入显示方法、装置及电子设备 | |
CN114090766A (zh) | 视频文本筛选方法、装置及电子设备 | |
CN112148135A (zh) | 输入法处理方法、装置和电子设备 | |
CN112231507A (zh) | 识别方法、装置及电子设备 | |
CN116187341A (zh) | 语义识别方法及其装置 | |
CN112150486B (zh) | 图像处理方法及装置 | |
CN113849071A (zh) | 字符串处理方法和装置 | |
CN113190125A (zh) | 输入矫正方法和装置 | |
CN112328096A (zh) | 候选词显示方法、装置和电子设备 | |
CN112732100A (zh) | 信息处理方法、装置和电子设备 | |
CN111966267A (zh) | 应用评论方法、装置和电子设备 | |
CN112286613A (zh) | 界面显示方法及界面显示装置 | |
CN107665189B (zh) | 一种提取中心词的方法、终端以及设备 | |
CN111782060B (zh) | 对象显示方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |