CN113378541A - 文本标点预测方法、装置、系统及存储介质 - Google Patents

文本标点预测方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN113378541A
CN113378541A CN202110555504.XA CN202110555504A CN113378541A CN 113378541 A CN113378541 A CN 113378541A CN 202110555504 A CN202110555504 A CN 202110555504A CN 113378541 A CN113378541 A CN 113378541A
Authority
CN
China
Prior art keywords
punctuation
text
prediction
preset
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110555504.XA
Other languages
English (en)
Other versions
CN113378541B (zh
Inventor
何梦中
李秀林
吴本谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beibei (Qingdao) Technology Co.,Ltd.
Original Assignee
Databaker Beijng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Databaker Beijng Technology Co ltd filed Critical Databaker Beijng Technology Co ltd
Priority to CN202110555504.XA priority Critical patent/CN113378541B/zh
Publication of CN113378541A publication Critical patent/CN113378541A/zh
Application granted granted Critical
Publication of CN113378541B publication Critical patent/CN113378541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本标点预测方法、装置、系统及存储介质。方法包括:获取待处理文本;按照文本段对待处理文本进行划分,文本段是单个词或单个字符;将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果;基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果。有助于提高标点预测的准确率。

Description

文本标点预测方法、装置、系统及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种文本标点预测方法、装置、系统及存储介质。
背景技术
如今语音识别越来越普及,被广泛应用于各个领域。但是将音频识别成文本之后,文本中并没有准确的标点符号,甚至根本没有标点符号。这对于长语音识别之后的文本整理十分不方便,也不便于阅读。在现有技术中,通常基于常规的机器学习方法来给文本添加标点,现有的标点添加(即标点预测)方法的预测准确率往往难以保证。
发明内容
为了至少部分地解决现有技术中存在的问题,提供一种文本标点预测方法、装置、系统及存储介质。
根据本发明一个方面,提供一种文本标点预测方法,包括:获取待处理文本;按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符;将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果;基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果;其中,平滑处理包括:对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
示例性地,对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果包括:对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作,以获得与一个或多个调整操作一一对应的调整结果,经调整的预测结果为一个或多个调整操作中最后一个调整操作所对应的调整结果。
示例性地,对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第一调整操作以获得对应的第一调整结果:
Figure BDA0003077049550000021
Figure BDA0003077049550000022
其中,Pi(x1)表示第一调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示待调整结果中与第i个预设标点相对应的预测概率,Pi(c)表示与第i个预设标点相对应的先验概率,Qi表示在训练语料中第i个预设标点的出现次数,Q表示在训练语料中N个预设标点的总出现次数,i=1,2,3......N,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
示例性地,对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果:
Pi(x2)=αi*Pi(x);
其中,Pi(x2)表示第二调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示待调整结果中与第i个预设标点相对应的预测概率,αi表示与第i个预设标点相对应的预设系数,当第i个预设标点属于第一标点集合时,αi≥1,当第i个预设标点属于第二标点集合时,0<αi≤1,其中,i=1,2,3......N,第一标点集合中的每个预设标点所对应的预设系数均大于第二标点集合中的所有预设标点所对应的预设系数,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
示例性地,通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果的步骤在当前文本段属于预设文本段集合的情况下执行,其中,预设文本段集合包括在训练语料中出现在第一标点集合中的每个预设标点前面的所有文本段。
示例性地,在对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作之前,方法还包括:
对于第一标点集合中的特定预设标点l,统计训练语料中特定预设标点l前面出现特定文本段t的次数;
通过以下公式计算特定文本段t所对应的权重:
Figure BDA0003077049550000031
其中,w(t,l)表示特定文本段t所对应的权重,m(t,l)表示在训练语料中特定预设标点l前面出现特定文本段t的次数,Q(l)表示在训练语料中特定预设标点l的总出现次数;
对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
在当前文本段是特定文本段t的情况下,通过以下公式对待调整结果中的预测概率实施第三调整操作以获得对应的第三调整结果:
Pl(x3)=Pl(x)+w(t,l);
其中,Pl(x3)表示第三调整结果中与特定预设标点l相对应的预测概率,Pl(x)表示待调整结果中与特定预设标点l相对应的预测概率,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
示例性地,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现从当前有效标点开始向后经历第一预定数目的字符尚未出现任何有效标点,则:对于第一预定数目的字符包含的每个文本段,计算该文本段所对应的最终预测结果中第一预测概率与第二预测概率之间的差,以获得与该文本段相对应的概率差,其中,第一预测概率是空标点所对应的预测概率,第二预测概率是逗号所对应的预测概率;从第一预定数目的字符包含的所有文本段所对应的概率差中,找出最小且小于第一预设阈值的概率差,并将找出的概率差所对应的文本段后面的空标点修改为逗号。
示例性地,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现任意两个相邻的有效标点之间存在的字符的数目超过第二预定数目,则:对于两个相邻的有效标点之间存在的每个文本段,计算该文本段所对应的最终预测结果中第一预测概率与第二预测概率之间的差,以获得与该文本段相对应的概率差,其中,第一预测概率是空标点所对应的预测概率,第二预测概率是逗号所对应的预测概率;从两个相邻的有效标点之间存在的所有文本段所对应的概率差中,找出最小且小于第二预设阈值的概率差,并将找出的概率差所对应的文本段后面的空标点修改为逗号。
示例性地,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现任意两个连续的有效标点均为特定有效标点,则将两个连续的有效标点中的在先的特定有效标点修改为逗号。
示例性地,特定有效标点为问号。
示例性地,标点预测模型采用转换器模型实现。
示例性地,在基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点之后,方法还包括:根据标点预测结果在待处理文本中添加标点;将添加有标点的待处理文本输出。
根据本发明另一方面,还提供一种文本标点预测装置,包括:获取模块,用于获取待处理文本;划分模块,用于按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符;输入模块,用于将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;平滑模块,用于对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果;标点确定模块,用于基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果;其中,平滑模块包括:调整子模块,用于对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定子模块,用于确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
根据本发明另一方面,还提供一种文本标点预测系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述文本标点预测方法。
根据本发明另一方面,还提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述文本标点预测方法。
根据本发明实施例的文本标点预测方法、装置、系统及存储介质,可以对标点预测模型输出的初始预测结果进行平滑处理,提升在模型的训练语料中出现次数少的标点被预测出的可能性,抑制出现次数多的标点被预测出的可能性。这样可以降低训练样本不均衡所带来的影响,可以有效提升标点预测的准确率。
在发明内容中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
以下结合附图,详细说明本发明的优点和特征。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述,用来解释本发明的原理。在附图中,
图1示出根据本发明一个实施例的文本标点预测方法的示意性流程图;
图2示出了根据本发明一个实施例的文本标点预测装置的示意性框图;以及
图3示出了根据本发明一个实施例的文本标点预测系统的示意性框图。
具体实施方式
在下文的描述中,提供了大量的细节以便能够彻底地理解本发明。然而,本领域技术人员可以了解,如下描述仅示例性地示出了本发明的优选实施例,本发明可以无需一个或多个这样的细节而得以实施。此外,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行详细描述。
为了至少部分地解决上述技术问题,本发明实施例提供一种文本标点预测方法、装置、系统及存储介质。根据本发明实施例的文本标点预测技术可以降低训练样本不均衡所带来的影响,可以有效提升标点预测的准确率。该文本标点预测方法可以应用于任何需要进行文本标点预测的领域,包括但不限于语音识别等技术领域。
根据本发明一个方面,公开一种文本标点预测方法。图1示出根据本发明一个实施例的文本标点预测方法100的示意性流程图。如图1所示,文本标点预测方法100包括步骤S110-S150。
在步骤S110,获取待处理文本。
待处理文本可以是任何文本,其可以是但不限于是通过语音识别技术从特定语音中识别出的文本。
在步骤S120,按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符。
可以按照字符或者词对待处理文本进行划分。在一个示例中,可以采用任何现有或将来可能出现的分词技术对待处理文本进行分词,获得其分词结果(即文本划分结果)。在这种情况下,可以针对每个词预测跟随在该词后面的标点是什么。在另一个示例中,可以直接将待处理文本划分为一个个的字符。在这种情况下,可以针对每个字符预测跟随在该字符后面的标点是什么。
在步骤S130,将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数。
标点预测模型可以是任何合适的现有或将来可能出现的能够预测文本标点的模型,例如,其可以是卷积神经网络模型等。标点预测模型可以采用训练语料进行训练。训练语料可以包括若干训练文本,每个训练文本中包含的标点是已知的,这些标点可以预先标注出来,获得标注数据(ground truth)。利用上述训练语料及其标注数据就可以对标点预测模型进行训练。本领域技术人员可以理解训练语料的含义及标点预测模型的训练方式,本文不赘述。
N可以为任何合适的数目,其可以根据需要设定。N个预设标点也可以理解为是N种预设标点类别。示例性地,N可以为经验值。例如,N个预设标点可以包括常用的16种标点符号。这16种标点符号可以包括:3种句末点号,即句号、问号、叹号;4种句内点号,即逗号、顿号、分号、冒号;9种标号,即引号(包括单、双)、括号、破折号、省略号、着重号、连接号、间隔号、书名号(包括单、双)、专名号。示例性地,N还可以取决于训练样本。例如,在标点预测模型训练时,采用的训练语料中共出现10种标点符号,则可以将N确定为10,N个预设标点包括训练语料中出现的上述10种标点符号。在下文的描述中,将主要结合N=5,N个预设标点包括空标点、逗号、句号、问号、叹号这5种标点类别的示例来描述本发明的实施例。需注意,本文虽然将空标点归为预设标点中的一种,但是可以理解,所述空标点是指此处的标点符号为空,无需添加任何标点符号。除空标点以外,其他预设标点为有效标点,即实际存在的、可以添加在文本中的标点符号,例如逗号、句号、问号等。
示例性地,每个预设标点可以采用相应的标识符(id)表示。例如,可以采用id 0表示空标点,用id 1表示“,”,用id 2表示“。”,用id 3表示“?”,用id 4表示“!”。
待处理文本中的每个文本段具有与自己对应的初始预测结果。例如,如果待处理文本划分为100个词,则对应具有100个初始预测结果,每个初始预测结果包括N个(例如上述5个)预测概率。每个预测概率表示对应文本段后面的标点是对应预设标点的概率。例如,第50个词所对应的初始预测结果中与id4对应的预测概率表示该第50个词后面的标点是“!”的概率有多大。可以理解,本文描述的“文本段后面”是指与该文本段紧邻的、位于文本段后面的位置。类似地,本文描述的“标点前面”是指与该标点紧邻的、位于该标点前面的位置。
在步骤S140,对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果。平滑处理包括:对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
在一个示例中,可以对待处理文本中的所有文本段中的每个文本段所对应的初始预测结果均进行平滑处理。即,待处理文本中的所有文本段所对应的初始预测结果均被一一进行对应的平滑处理。在另一个示例中,可以对待处理文本中的部分文本段中的每个文本段所对应的初始预测结果进行平滑处理。例如,待处理文本共包含100个文本段,其中有40个文本段进行平滑处理,剩余60个文本段可以不进行平滑处理。
对于进行平滑处理的文本段来说,可以基于其所对应的经调整的预测结果找出预测概率最大的预设标点,进而获得与该文本段所对应的最终预测结果。对于未进行平滑处理的文本段来说,可以直接基于其所对应的初始预测结果找出预测概率最大的预设标点,进而获得与该文本段所对应的最终预测结果。
对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,也就是对待处理文本中的至少部分文本段中的每个文本段所对应的初始预测结果进行平滑处理。任一当前正在参与平滑处理的文本段称为当前文本段。平滑处理主要是对当前文本段所对应的初始预测结果中的至少部分预测概率进行调整,使这些预测概率的大小发生变化。
对于任一预设标点来说,其预测概率的变化量是指将经调整的预测结果中该预设标点所对应的预测概率与初始预测结果中该预设标点所对应的预测概率相减所获得差值。在本文的描述中,变化量可以是正的、负的或零。如果经过调整,某一预设标点所对应的预测概率增大了,则该预测概率的变化量是正的。反之,如果经过调整,某一预设标点所对应的预测概率减小了,则该预测概率的变化量是负的。此外,如果在调整前后,某一预设标点所对应的预测概率不变,则其变化量是零。在本文中,变化量之间的比较是将正负号考虑在内的,即,值为零或正数的变化量要比值为负数的变化量大。此外,对于两个值均为负数的变化量来说,绝对值相对更大的变化量被视为是小于绝对值相对更小的变化量的。
在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量。
第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点。M个预设标点属于N个预设标点的子集。M可以根据需要设定为任何合适的值,本发明不对此进行限制。例如,如果发现训练语料中问号非常少,大大少于其他几种标点,则可以通过调整,将问号所对应的预测概率提高(或保持不变),其他标点所对应的预测概率同步保持不变(或减小),使得问号所对应的预测概率与其他标点所对应的预测概率之间的差距减小,进而提升问号被预测出的可能性。在这一示例中,M=1。又例如,如果发现训练语料中问号和句号都比较少,其他标点相对较多,则可以通过调整,将问号和句号所对应的概率同步提高(或保持不变),其他标点所对应的预测概率同步保持不变(或减小),使得问号和句号所对应的预测概率与其他标点所对应的预测概率之间的差距减小,进而提升问号和句号被预测出的可能性。在这一示例中,M=2。在本文中,所谓多个标点的预测概率“同步”提高或减小并不意味着多个标点的预测概率的变化量必须一致,其可以一致,也可以不一致。例如,虽然问号和句号所对应的预测概率可以被同步提高,使得二者的变化量均大于其他标点所对应的预测概率的变化量,但是问号所对应的预测概率和句号所对应的预测概率彼此可以具有不同的变化量,一个变化大一些,一个变化小一些,这是完全可行的。
在标点预测模型的训练语料中,可能存在样本不均衡问题,即不同的预设标点出现次数不同,这导致标点预测模型在实际预测时出现倾向性。例如,在训练语料中出现次数较多的“强势”标点,标点预测模型在预测时会更偏向预测出这类标点;反之,在训练语料中出现次数较少的“弱势”标点,则不容易被标点预测模型预测出。这种样本不均衡问题会降低标点预测模型的预测准确率。
而在本申请中,在标点预测模型预测出初始预测结果之后,对该结果进行进一步平滑,使得训练语料中的“强势”标点被抑制,“弱势”标点被突出,从而有助于缓解上述样本不均衡问题的影响,进而可以有效提高标点预测的准确率。
在步骤S150,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果。
在一个示例中,可以直接将最终预测结果作为标点预测结果,即将最终预测结果所指示的每个文本段后面的标点作为最终预测出的标点。在另一个示例中,可以对最终预测结果进行进一步处理以获得标点预测结果,这将在下文描述。
根据本发明实施例的文本标点预测方法,可以对标点预测模型输出的初始预测结果进行平滑处理,提升在模型的训练语料中出现次数少的标点被预测出的可能性,抑制出现次数多的标点被预测出的可能性。这样可以降低训练样本不均衡所带来的影响,可以有效提升标点预测的准确率。
根据本发明实施例,对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果包括:对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作,以获得与一个或多个调整操作一一对应的调整结果,经调整的预测结果为一个或多个调整操作中最后一个调整操作所对应的调整结果。
对预测概率的调整可以连续进行一次或多次,即一个或多个调整操作可以是连续实施的。可以理解,对于上述一个或多个调整操作中的第一个调整操作来说,其是针对初始预测结果进行调整,而后续的每个调整操作则是针对前一调整操作所获得的调整结果进行进一步的调整。
根据本发明实施例,对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第一调整操作以获得对应的第一调整结果:
Figure BDA0003077049550000111
Figure BDA0003077049550000112
其中,Pi(x1)表示第一调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示待调整结果中与第i个预设标点相对应的预测概率,Pi(c)表示与第i个预设标点相对应的先验概率,Qi表示在训练语料中第i个预设标点的出现次数,Q表示在训练语料中N个预设标点的总出现次数,i=1,2,3……N,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
应注意,本文所述的“第一调整操作”、“第二调整操作”和“第三调整操作”中的“第一”、“第二”和“第三”仅用于区分目的,其并不表示顺序或者其他特殊含义。
在本实施例中,被调整的对象(即待调整结果)是当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。可以理解,如果第一调整操作是在标点预测模型后面执行的第一次调整操作,则待调整结果为当前文本段所对应的初始预测结果。如果第一调整操作是在其他调整操作后面执行的操作,则待调整结果为在第一调整操作之前的前一调整操作所对应的前一调整结果。
在本实施例中,可以计算每个预设标点的先验概率Pi(c)。任一标点的先验概率可以通过计算训练语料中该预设标点的出现次数在所有预设标点的总出现次数中所占的比重来获得(参见公式(2))。
计算获得各预设标点所对应的先验概率Pi(c)之后,可以根据贝叶斯定理,计算各预设标点所对应的新的预测概率(参见公式(1))。
计算先验概率并进而计算新的预测概率的方式在实现上会比较简单,计算量小。而且,每个预设标点可以根据自己的先验概率计算自己的新的预测概率,先验概率越大的预设标点所对应的预测概率减小得越多(但是其预测概率的变化量是越小的),反之先验概率越小的预设标点所对应的预测概率减小得越少(但是其预测概率的变化量是越大的)。因此,这种概率调整方式比较有针对性,每个预设标点均可以进行适应性的调整。
可选地,上述第一调整操作可以针对待处理文本中的所有文本段中的每个文本段实施。即,无论文本段包含的内容是什么,均可以统一进行上述第一调整操作。
根据本发明实施例,对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果:
Pi(x2)=αi*Pi(x); 公式(3)
其中,Pi(x2)表示第二调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示待调整结果中与第i个预设标点相对应的预测概率,αi表示与第i个预设标点相对应的预设系数,当第i个预设标点属于第一标点集合时,αi≥1,当第i个预设标点属于第二标点集合时,0<αi≤1,其中,i=1,2,3……N,第一标点集合中的每个预设标点所对应的预设系数均大于第二标点集合中的所有预设标点所对应的预设系数,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
在本实施例中,被调整的对象(即待调整结果)是当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。可以理解,如果第二调整操作是在标点预测模型后面执行的第一次调整操作,则待调整结果为当前文本段所对应的初始预测结果。如果第二调整操作是在其他调整操作后面执行的操作,则待调整结果为在第二调整操作之前的前一调整操作所对应的前一调整结果。
第一标点集合中的任意两个不同预设标点所对应的预设系数可以相同,也可以不同,其可以根据需要设定,本发明不对此进行限制。类似地,第二标点集合中的任意两个不同预设标点所对应的预设系数可以相同,也可以不同,其可以根据需要设定,本发明不对此进行限制。整体上,第一标点集合中的每个预设标点所对应的预设系数均大于第二标点集合中的所有预设标点所对应的预设系数。
对于第一标点集合中的任一预设标点来说,αi≥1,即该预设标点所对应的预测概率可以保持不变或者增大。对于第二标点集合中的任一预设标点来说,0<αi≤1,即该预设标点所对应的预测概率可以保持不变或者减小。第一标点集合中的任一预设标点所对应的预测概率与第二标点集合中的任一预设标点所对应的预测概率不会同时保持不变。
例如,可以将空标点以及标点符号“,”所对应的预设系数设置为0.75,将标点符号“。”所对应的预设系数设置为0.65,将标点符号“?”和“!”所对应的预设系数设置为1。其中,空标点以及标点符号“,”和“。”属于第二标点集合,标点符号“?”和“!”属于第一标点集合。在本示例中,模型输出初始预测结果之后,可以将初始预测结果中空标点以及标点符号“,”所对应的预测概率乘以0.75,将初始预测结果中标点符号“。”所对应的预测概率乘以0.65,将初始预测结果中标点符号“?”和“!”所对应的预测概率乘以1(即预测概率保持不变),获得各预设标点所对应的新的预测概率。通常在文本中“?”和“!”所占的比重较小,通过以上算法,可以使标点符号“?”和“!”所对应的预测概率不变,将其他标点符号所对应的预测概率减小,进而达到缓解样本不均衡问题的目的。
示例性地,上述预设系数可以通过训练获得。示例性而非限制性地,预设系数与标点预测模型可以分开训练。例如,可以在训练好标点预测模型之后,采用测试集对预设系数进行训练。测试集与上述训练语料类似,可以包括标点符号已知的若干文本。可以将测试集中的文本输入标点预测模型,并对模型输出的初始预测结果或者经过其他调整操作调整获得的调整结果进行第二调整操作,计算预测结果,并与测试集的标注数据进行比较,进而基于比较结果对各预设标点所对应的预设系数进行进一步的调整。例如,对于任一预设标点,可以将其所对应的预设系数αi从比较小(例如0.1)开始一直进行训练和测试,直至找到能够使预测效果达到最优的预设系数的值。通过训练获得的预设系数可以达到比较好的预测效果,有助于进一步提高标点预测的准确率。
可选地,上述第二调整操作可以针对待处理文本中的所有文本段中的每个文本段实施。即,无论文本段包含的内容是什么,均可以统一进行上述第二调整操作。可选地,上述第二调整操作可以在当前文本段包含的内容满足要求时才实施。
根据本发明实施例,通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果的步骤在当前文本段属于预设文本段集合的情况下执行,其中,预设文本段集合包括在训练语料中出现在第一标点集合中的每个预设标点前面的所有文本段。
上述第二调整操作可以仅针对特定文本段执行,该特定文本段可以是在训练语料中出现在第一标点集合中的任一预设标点前面的任一文本段。
例如,假设第一标点集合包括“?”和“!”这两个标点符号,如果在训练语料中“?”和“!”前面所出现的字符一共包括“啊,吗,呢,呀”这四个语气词,则确定预设文本段集合包括“啊,吗,呢,呀”四个字符(每个字符是一个文本段)。在对待处理文本进行标点预测的过程中,如果当前文本段不属于上述四个字符任何一个,则可以不对当前文本段实施上述第二调整操作。反之,如果当前文本段属于上述四个字符之一,则可以对当前文本段实施上述第二调整操作。
上述根据文本段内容调整预测概率的方案比较有针对性,可以重点在第一标点集合中的预设标点有可能出现的位置进行概率调整,而无需对所有文本段进行概率调整,这样可以有效节省计算量。
根据本发明实施例,在对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作之前,方法100还可以包括:
对于第一标点集合中的特定预设标点l,统计训练语料中特定预设标点l前面出现特定文本段t的次数;
通过以下公式计算特定文本段t所对应的权重:
Figure BDA0003077049550000151
其中,w(t,l)表示特定文本段t所对应的权重,m(t,l)表示在训练语料中特定预设标点l前面出现特定文本段t的次数,Q(l)表示在训练语料中特定预设标点l的总出现次数;
对当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
在当前文本段是特定文本段t的情况下,通过以下公式对待调整结果中的预测概率实施第三调整操作以获得对应的第三调整结果:
Pl(x3)=Pl(x)+w(t,l); 公式(5)
其中,Pl(x3)表示第三调整结果中与特定预设标点l相对应的预测概率,Pl(x)表示待调整结果中与特定预设标点l相对应的预测概率,其中,待调整结果为当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
假设标点符号“?”在训练语料中比重比较少,这会导致训练之后的标点预测模型对“?”的预测概率偏低。可以将“?”所对应的预测概率与一定的权重相加,获得新的预测概率。与“?”所对应的预测概率相加的权重可以进一步随“?”前面的文本段的情况而变化,训练语料中出现多的文本段所对应的权重可以比出现少的文本段所对应的权重更小。特定文本段t可以是训练语料中在特定预设标点l前面出现的任一文本段。可以针对训练语料中在特定预设标点l前面出现的所有文本段中的每一个,均计算其所对应的权重。这样,在对待处理文本进行预测时,遇到在训练语料中在特定预设标点l前面出现的任一文本段,就可以选择该文本段所对应的权重,并基于该权重实施第三调整操作。
例如,可以从训练语料中统计用“?”结尾的词的出现次数。如:“啊”出现m1次,“吗”出现m2次,“呢”出现m3次,“呀”出现m4次。“?”的总出现次数Q(l)=m1+m2+m3+m4。由此,“啊”所对应的权重为w1=1-m1/Q(l),“吗”所对应的权重为w2=1-m2/Q(l),“呢”所对应的权重为w3=1-m3/Q(l),“呀”所对应的权重为w4=1–m4/Q(l)。
当对待处理文本进行标点预测时,如果遇到文字段“啊”,则将该文本段所对应的预测结果中的标点符号“?”所对应的预测概率与w1相加,获得该文本段下“?”所对应的新的预测概率。文本段“啊”所对应的预测结果中除“?”以外的预设标点所对应的预测概率不实施第三调整操作。
通过以上权重计算方案可以看出,对于特定预设标点l来说,在训练语料中,在其前面出现次数越多的文本段所对应的权重越小,反之则权重越大。这与上述概率调整的逻辑类似,在训练语料中出现次数多的文本段会使得标点预测模型对其具有更大的倾向性,这同样属于样本不均衡问题,不利于标点预测模型对标点的准确预测。因此,在通过权重对特定预设标点l的预测概率进行加成时,可以对出现次数多的文本段下的特定预设标点l给予更少一些的加成,而对出现次数少的文本段下的特定预设标点l给予更多的加成。这有助于进一步缓解样本不均衡问题,进而有助于进一步提高标点预测的准确率。
可选地,第三调整操作、第二调整操作和第一调整操作中的任一者可以单独实施,即整个平滑处理仅包括其中的某一个调整操作。例如,可以仅对初始预测结果实施第一调整操作,并将对应的第一调整结果作为最终预测结果。可选地,第三调整操作、第二调整操作和第一调整操作中的任意两者或三者可以组合实施,例如,可以首先实施第一调整操作之后再继续实施第三调整操作,并将第三调整操作的结果作为最终预测结果。
如上所述,可以对最终预测结果进行进一步处理以获得标点预测结果。下面描述对最终预测结果进行进一步处理的示例性实施例。
根据本发明实施例,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现从当前有效标点开始向后经历第一预定数目的字符尚未出现任何有效标点,则执行以下步骤:对于第一预定数目的字符包含的每个文本段,计算该文本段所对应的最终预测结果中第一预测概率与第二预测概率之间的差,以获得与该文本段相对应的概率差,其中,第一预测概率是空标点所对应的预测概率,第二预测概率是逗号所对应的预测概率;从第一预定数目的字符包含的所有文本段所对应的概率差中,找出最小且小于第一预设阈值的概率差,并将找出的概率差所对应的文本段后面的空标点修改为逗号。
第一预定数目可以是任何合适的数目,其可以根据需要设定,本发明不对此进行限制。例如,如果一句话超过20个字符都没有出现标点可能会导致读者读起来不顺畅,则可以将第一预定数目设定为20。从当前预测出的有效标点开始向后数,发现超过20个字符时仍然未出现下一个有效标点,则可以对这中间的20个字符进行回溯。假设这20个字符划分为10个词,每个词对应有最终预测结果,该最终预测结果包含上述五种标点各自对应的预测概率。此时可以分别针对上述10个最终预测结果计算空标点的预测概率与“,”的预测概率之间的差值(即概率差),获得与10个词一一对应的10个概率差。可以从这10个概率差中找出最小的概率差,如果该概率差小于第一预设阈值,则可以将找出的这一概率差所对应的词作为目标文本段,将这一目标文本段后面的空标点修改为“,”。第一预设阈值可以是任何合适的值,其可以根据需要设定,本发明不对此进行限制。
句子太长时间不出现标点通常是不太合理的。这种情况有一定可能是标点预测误差造成的。通过以上方案,可以对过长的连续语句进行逗号的自动化、智能化添加,这有助于减少上述不合理情况的出现,有助于提高标点预测的准确率。此外,上述添加逗号的方案还有助于改善用户的阅读体验,用户体验比较好。由于逗号通常对文本的语义影响不大,因此选择添加逗号的方式可以避免添加的标点符号不合适而影响整个文本的断句和语义理解。
根据本发明实施例,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现任意两个相邻的有效标点之间存在的字符的数目超过第二预定数目,则执行以下步骤:对于两个相邻的有效标点之间存在的每个文本段,计算该文本段所对应的最终预测结果中第一预测概率与第二预测概率之间的差,以获得与该文本段相对应的概率差,其中,第一预测概率是空标点所对应的预测概率,第二预测概率是逗号所对应的预测概率;从两个相邻的有效标点之间存在的所有文本段所对应的概率差中,找出最小且小于第二预设阈值的概率差,并将找出的概率差所对应的文本段后面的空标点修改为逗号。
第二预定数目可以是任何合适的数目,其可以根据需要设定,本发明不对此进行限制。第二预设阈值可以是任何合适的值,其可以根据需要设定,本发明不对此进行限制。
下面以第二预定数目是30为例进行描述。可以首先根据待处理文本中的所有文本段所对应的最终预测结果确定待处理文本中包含的所有有效标点。如果发现任意两个相邻的有效标点之间存在的字符超过了30个,则可以在这两个有效标点之间查找目标文本段并将找到的目标文本段后面的空标点修改为逗号。目标本文段的查找方式可以参考上一实施例的描述,此处不再赘述。
根据本发明实施例,N个预设标点包括空标点和N-1个有效标点,基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点包括:如果基于待处理文本中的所有文本段所对应的最终预测结果发现任意两个连续的有效标点均为特定有效标点,则将两个连续的有效标点中的在先的特定有效标点修改为逗号。
某些特定的有效标点(例如问号)连续出现也有一定可能是预测误差导致的,并且会影响阅读体验。因此,如果发现连续的特定有效标点,则可以选择将前面的特定有效标点修改为逗号。将特定有效标点修改为逗号的方案有助于提高用户的阅读体验。
根据本发明实施例,特定有效标点可以为问号。特定有效标点可以根据需要设定,其也可以是诸如句号、冒号等其他标点符号。
根据本发明实施例,标点预测模型采用转换器(Transformer)模型实现。
现有的采用其他机器学习方法添加标点的方式,所添加的标点不够准确,响应速度不够快速。Transformer模型是端到端模型,采用该模型可以实现对标点的端到端预测,响应速度比较快。Transformer模型可以综合上下文的标点信息预测当前的标点,与其他现有的标点预测方法相比,这种采用Transformer模型进行的端到端标点预测方案可以进一步提高标点预测的准确率。
根据本发明实施例,在基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点(步骤S150)之后,方法100还可以包括:根据标点预测结果在待处理文本中添加标点;将添加有标点的待处理文本输出。
确定待处理文本包含的标点之后,可以通过输出装置将添加有标点的待处理文本输出。可选地,输出装置可以包括显示器和/或扬声器,可以通过文字、图像、视频、音频等形式中的一种或多种将添加有标点的待处理文本输出,以供用户查看。可选地,输出装置可以包括有线和/或无线通信装置,可以通过上述通信装置将添加有标点的待处理文本输出至其他装置进行进一步的处理,所述进一步的处理可以包括但不限于存储、参与语音合成等。
根据本发明另一方面,提供一种文本标点预测装置。图2示出了根据本发明一个实施例的文本标点预测装置200的示意性框图。
如图2所示,根据本发明实施例的文本标点预测装置200包括获取模块210、划分模块220、输入模块230、平滑模块240和标点确定模块250。所述各个模块可分别执行上文中结合图1描述的文本标点预测方法100的各个步骤/功能。以下仅对该文本标点预测装置200的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块210用于获取待处理文本。
划分模块220用于按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符。
输入模块230用于将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数。
平滑模块240用于对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果。平滑模块240包括:调整子模块,用于对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定子模块,用于确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
标点确定模块250用于基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果。
根据本发明另一方面,提供一种文本标点预测系统。图3示出了根据本发明一个实施例的文本标点预测系统300的示意性框图。文本标点预测系统300包括处理器310和存储器320。
所述存储器320存储用于实现根据本发明实施例的文本标点预测方法100中的相应步骤的计算机程序指令。
所述处理器310用于运行所述存储器320中存储的计算机程序指令,以执行根据本发明实施例的文本标点预测方法100的相应步骤。
在一个实施例中,所述计算机程序指令被所述处理器310运行时用于执行以下步骤:获取待处理文本;按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符;将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果;基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果;其中,平滑处理包括:对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
根据本发明另一方面,提供一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的文本标点预测方法100的相应步骤,并且用于实现根据本发明实施例的文本标点预测装置200中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
在一个实施例中,所述程序指令被计算机或处理器运行时用于执行以下步骤:获取待处理文本;按照文本段对待处理文本进行划分,以获得文本划分结果,其中,文本段是单个词或单个字符;将文本划分结果输入标点预测模型,以获得与待处理文本中的所有文本段一一对应的初始预测结果,初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与待处理文本中的所有文本段一一对应的最终预测结果;基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点,以获得标点预测结果;其中,平滑处理包括:对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,第一标点集合包括在标点预测模型的训练语料中出现次数最少的前M个预设标点,第二标点集合包括N个预设标点中除第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;确定经调整的预测结果中预测概率最大的预设标点为当前文本段后面的标点,以获得与当前文本段相对应的最终预测结果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本标点预测系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本标点预测方法,包括:
获取待处理文本;
按照文本段对所述待处理文本进行划分,以获得文本划分结果,其中,所述文本段是单个词或单个字符;
将所述文本划分结果输入标点预测模型,以获得与所述待处理文本中的所有文本段一一对应的初始预测结果,所述初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;
对所述待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与所述待处理文本中的所有文本段一一对应的最终预测结果;
基于所述待处理文本中的所有文本段所对应的最终预测结果确定所述待处理文本包含的标点,以获得标点预测结果;
其中,所述平滑处理包括:
对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,所述第一标点集合包括在所述标点预测模型的训练语料中出现次数最少的前M个预设标点,所述第二标点集合包括所述N个预设标点中除所述第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;
确定所述经调整的预测结果中预测概率最大的预设标点为所述当前文本段后面的标点,以获得与所述当前文本段相对应的最终预测结果。
2.根据权利要求1所述的方法,其中,所述对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果包括:
对所述当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作,以获得与所述一个或多个调整操作一一对应的调整结果,所述经调整的预测结果为所述一个或多个调整操作中最后一个调整操作所对应的调整结果。
3.根据权利要求2所述的方法,其中,所述对所述当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第一调整操作以获得对应的第一调整结果:
Figure FDA0003077049540000021
Figure FDA0003077049540000022
其中,Pi(x1)表示所述第一调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示所述待调整结果中与所述第i个预设标点相对应的预测概率,Pi(c)表示与所述第i个预设标点相对应的先验概率,Qi表示在所述训练语料中所述第i个预设标点的出现次数,Q表示在所述训练语料中所述N个预设标点的总出现次数,i=1,2,3......N,其中,所述待调整结果为所述当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
4.根据权利要求2所述的方法,其中,所述对所述当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果:
Pi(x2)=αi*Pi(x);
其中,Pi(x2)表示所述第二调整结果中与第i个预设标点相对应的预测概率,Pi(x)表示所述待调整结果中与所述第i个预设标点相对应的预测概率,αi表示与所述第i个预设标点相对应的预设系数,当所述第i个预设标点属于所述第一标点集合时,αi≥1,当所述第i个预设标点属于所述第二标点集合时,0<αi≤1,其中,i=1,2,3......N,所述第一标点集合中的每个预设标点所对应的预设系数均大于所述第二标点集合中的所有预设标点所对应的预设系数,其中,所述待调整结果为所述当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
5.根据权利要求4所述的方法,其中,所述通过以下公式对待调整结果中的预测概率实施第二调整操作以获得对应的第二调整结果的步骤在所述当前文本段属于预设文本段集合的情况下执行,其中,所述预设文本段集合包括在所述训练语料中出现在所述第一标点集合中的每个预设标点前面的所有文本段。
6.根据权利要求2至5任一项所述的方法,其中,
在所述对所述当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作之前,所述方法还包括:
对于所述第一标点集合中的特定预设标点l,统计所述训练语料中所述特定预设标点l前面出现特定文本段t的次数;
通过以下公式计算所述特定文本段t所对应的权重:
Figure FDA0003077049540000031
其中,w(t,l)表示所述特定文本段t所对应的权重,m(t,l)表示在所述训练语料中所述特定预设标点l前面出现所述特定文本段t的次数,Q(l)表示在所述训练语料中所述特定预设标点l的总出现次数;
所述对所述当前文本段所对应的初始预测结果中的预测概率实施一个或多个调整操作包括:
在所述当前文本段是所述特定文本段t的情况下,通过以下公式对待调整结果中的预测概率实施第三调整操作以获得对应的第三调整结果:
Pl(x3)=Pl(x)+w(t,l);
其中,Pl(x3)表示所述第三调整结果中与所述特定预设标点l相对应的预测概率,Pl(x)表示所述待调整结果中与所述特定预设标点l相对应的预测概率,其中,所述待调整结果为所述当前文本段所对应的初始预测结果或前一调整操作所对应的前一调整结果。
7.根据权利要求1至5任一项所述的方法,其中,所述N个预设标点包括空标点和N-1个有效标点,所述基于所述待处理文本中的所有文本段所对应的最终预测结果确定所述待处理文本包含的标点包括:
如果基于所述待处理文本中的所有文本段所对应的最终预测结果发现从当前有效标点开始向后经历第一预定数目的字符尚未出现任何有效标点,则:
对于所述第一预定数目的字符包含的每个文本段,计算该文本段所对应的最终预测结果中第一预测概率与第二预测概率之间的差,以获得与该文本段相对应的概率差,其中,所述第一预测概率是空标点所对应的预测概率,所述第二预测概率是逗号所对应的预测概率;
从所述第一预定数目的字符包含的所有文本段所对应的概率差中,找出最小且小于第一预设阈值的概率差,并将找出的概率差所对应的文本段后面的空标点修改为逗号。
8.一种文本标点预测装置,包括:
获取模块,用于获取待处理文本;
划分模块,用于按照文本段对所述待处理文本进行划分,以获得文本划分结果,其中,所述文本段是单个词或单个字符;
输入模块,用于将所述文本划分结果输入标点预测模型,以获得与所述待处理文本中的所有文本段一一对应的初始预测结果,所述初始预测结果包括与N个预设标点一一对应的N个预测概率,每个预测概率表示对应文本段后面的标点是对应预设标点的概率,N为大于1的正整数;
平滑模块,用于对所述待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理,以获得与所述待处理文本中的所有文本段一一对应的最终预测结果;
标点确定模块,用于基于所述待处理文本中的所有文本段所对应的最终预测结果确定所述待处理文本包含的标点,以获得标点预测结果;
其中,所述平滑模块包括:
调整子模块,用于对当前文本段所对应的初始预测结果中的预测概率进行调整,以获得经调整的预测结果,其中,在调整前后,第一标点集合中的每个预设标点所对应的预测概率的变化量均大于第二标点集合中的所有预设标点所对应的预测概率的变化量,其中,所述第一标点集合包括在所述标点预测模型的训练语料中出现次数最少的前M个预设标点,所述第二标点集合包括所述N个预设标点中除所述第一标点集合以外的预设标点,其中,M为大于或等于1的正整数且M<N;
确定子模块,用于确定所述经调整的预测结果中预测概率最大的预设标点为所述当前文本段后面的标点,以获得与所述当前文本段相对应的最终预测结果。
9.一种文本标点预测系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的文本标点预测方法。
10.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至7任一项所述的文本标点预测方法。
CN202110555504.XA 2021-05-21 2021-05-21 文本标点预测方法、装置、系统及存储介质 Active CN113378541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110555504.XA CN113378541B (zh) 2021-05-21 2021-05-21 文本标点预测方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110555504.XA CN113378541B (zh) 2021-05-21 2021-05-21 文本标点预测方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113378541A true CN113378541A (zh) 2021-09-10
CN113378541B CN113378541B (zh) 2023-07-07

Family

ID=77571496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110555504.XA Active CN113378541B (zh) 2021-05-21 2021-05-21 文本标点预测方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113378541B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113941A (zh) * 2023-10-23 2023-11-24 新声科技(深圳)有限公司 标点符号恢复方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291690A (zh) * 2017-05-26 2017-10-24 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
CN112712804A (zh) * 2020-12-23 2021-04-27 哈尔滨工业大学(威海) 语音识别方法、系统、介质、计算机设备、终端及应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
CN107291690A (zh) * 2017-05-26 2017-10-24 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
WO2020224219A1 (zh) * 2019-05-06 2020-11-12 平安科技(深圳)有限公司 中文分词方法、装置、电子设备及可读存储介质
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN112712804A (zh) * 2020-12-23 2021-04-27 哈尔滨工业大学(威海) 语音识别方法、系统、介质、计算机设备、终端及应用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113941A (zh) * 2023-10-23 2023-11-24 新声科技(深圳)有限公司 标点符号恢复方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113378541B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN106774975B (zh) 输入方法和装置
WO2017210634A1 (en) Iterative alternating neural attention for machine reading
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN108460098A (zh) 信息推荐方法、装置和计算机设备
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN112906348B (zh) 对文本自动添加标点符号的方法、系统、设备及介质
CN114861635A (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN108563713B (zh) 关键词规则生成方法及装置和电子设备
CN113378541A (zh) 文本标点预测方法、装置、系统及存储介质
CN106847273A (zh) 语音识别的唤醒词选择方法及装置
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN104866091A (zh) 一种用于在计算机设备中输出音效信息的方法和装置
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN116310994A (zh) 一种视频片段提取方法、装置、电子设备及介质
CN107656627B (zh) 信息输入方法和装置
CN108932228A (zh) 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN115759059A (zh) 文本处理方法、装置、电子设备和可读存储介质
KR20180094738A (ko) 감정 수치화 및 이를 이용한 클라이맥스 예측 장치 및 방법
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 1201, Building B, Phase 1, Innovation Park, No. 1 Keyuan Weiyi Road, Laoshan District, Qingdao City, Shandong Province, 266101

Patentee after: Beibei (Qingdao) Technology Co.,Ltd.

Address before: 100192 b303a, floor 3, building B-2, Zhongguancun Dongsheng science and Technology Park, No. 66, xixiaokou Road, Haidian District, Beijing

Patentee before: DATABAKER (BEIJNG) TECHNOLOGY Co.,Ltd.