CN109933799B - 语句拼接方法以及装置 - Google Patents
语句拼接方法以及装置 Download PDFInfo
- Publication number
- CN109933799B CN109933799B CN201910221066.6A CN201910221066A CN109933799B CN 109933799 B CN109933799 B CN 109933799B CN 201910221066 A CN201910221066 A CN 201910221066A CN 109933799 B CN109933799 B CN 109933799B
- Authority
- CN
- China
- Prior art keywords
- sentence
- splicing
- sentences
- queue
- spliced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供语句拼接方法以及装置,其中所述语句拼接方法包括:获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;若是,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句;通过检测所述至少两段语句中包含的语句标识,并对所述至少两段语句进行拼接,获得所述拼接语句,解决了在篇章进行分句处理后,分句不准确的问题,并提高了语句拼接的准确率。
Description
技术领域
本说明书涉及自然语言处理技术领域,特别涉及一种语句拼接方法。本说明书同时涉及一种语句拼接装置、一种电子设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,用户越来越多的通过互联网获取各种知识的相关信息,在对篇章文本较大的文章进行翻译的时候,为了更加方便快捷的实现翻译,通常会通过翻译软件将原文章翻译为需要的语言对应的文章。
现有技术中,对翻译后的文章分句,会根据原文章的分句情况对翻译后文章进行分句,通常采用nltk(Natural Language Toolkit,自然语言处理工具包)进行分句,通过使用正则表达式进行匹配,用提前设置的各种分句正则模板来搜索输入的语句,当满足正则条件时候,则进行分句。
然而,由于语言的多样性,正则表达式很难完全表达出所有句子的开头和结尾模式,这样就造成了很多错误的分句,尤其是在分句后的篇章文本中包含的短句较多的情况下,导致分句后的篇章文本阅读起来语句的流畅性较差,很大程度上影响了用户的阅读体验。
发明内容
有鉴于此,本申请实施例提供了一种语句拼接方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种语句拼接装置,一种计算设备,以及一种计算机可读存储介质。
根据本说明书实施例的第一方面,提供了一种语句拼接方法,包括:
获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;
若是,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
可选地,获取篇章文本进行分句处理后获得的语句组成的语句队列步骤执行之后,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤执行之前,还包括:
检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,执行所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤。
可选地,所述语句标识包括下述至少一项:
括号标识、标点符号标识、特定字符标识、字母标识;
所述拼接条件包括下述至少一项:
右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,若所述检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,若所述检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤执行之后,还包括:
检测所述拼接语句与相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,对满足所述拼接条件的语句标识所属的所述拼接语句与相邻的语句进行拼接,获得拼接后的二次拼接语句。
可选地,所述语句拼接方法还包括:
将所述拼接语句与对应的所述语句队列中满足所述拼接条件的所述至少两段语句进行替换。
可选地,若所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤的检测结果为否,执行下述操作:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤。
根据本说明书实施例的第二方面,提供了一种语句拼接装置,包括:
获取模块,被配置为获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测模块,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;
若是,运行拼接模块;
所述拼接模块,被配置为对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
可选地,所述语句拼接装置还包括:
检测字符数模块,被配置为检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,运行所述检测模块;
所述检测模块,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件。
可选地,所述检测模块进一步被配置为:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,运行所述拼接模块;
所述拼接模块,被配置为所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
根据本说明书实施例的第三方面,提供了一种电子设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述语句拼接方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述语句拼接的步骤。
与现有技术相比,本申请具有如下优点:
本说明书提供一种语句拼接方法,包括:获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;若是,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
本说明书提供的语句拼接方法,通过检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,实现了对所述篇章文本进行分句处理后的语句都进行了检测,检测了对所述篇章文本进行分句是否准确,将分句不准确的语句按照所述拼接条件的重新进行拼接,获得所述拼接语句,解决了经过分句处理的篇章文本分句不准确的问题,提高了语句拼接的准确率。
附图说明
图1是本说明书一个或多个实施例提供的语句拼接方法的流程图;
图2是本说明书一个或多个实施例提供的语句拼接方法的流程图;
图3是本说明书一个或多个实施例提供的语句拼接方法的流程图;
图4是本说明书一个或多个实施例提供的语句拼接装置的结构示意图;
图5是本说明书一个或多个实施例提供的电子设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施涉及的名词术语进行解释。
nltk:(Natural Language Toolkit,自然语言处理工具包),是一个先进的自然语言处理程序工具,包含文本分类、分词、词干化、序列标记、语法解析和语义推理等功能。
在本申请中,提供了一种语句拼接方法。本说明书同时涉及一种语句拼接装置、一种电子设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的语句拼接方法的流程图,包括步骤102至步骤106。
步骤102:获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致。
在篇章文本进行分句处理的过程中,为了提升分句的准确率,通常会通过分句算法或者分句模型来实现,将经过分句算法或分句模型进行分句的篇章文本作为用户阅读的篇章文本。然而,在实际应用中,通过分句算法或分句模型对篇章文本进行分句,针对不同的语言,经过分句处理后的篇章文本可能出现分句不准确的情况。
针对篇章文本分句不准确的情况,本申请提供的语句拼接方法,通过获取篇章文本经过分句处理后的语句队列,检测语句队列中语句中包含的语句标识是否满足拼接条件,将满足拼接条件的语句进行拼接,获得拼接后的语句将解决了语句分句不准的问题,获得的拼接语句能够更加准确的体现出拼接前语句的语意。
在实际应用中,对篇章文本进行分句处理可采用分句算法或者分句模型来实现,比如通过nltk对篇章文本进行分句处理。对篇章文本进行分句处理后,会生成语句队列,并且获取的语句队列中每段语句的排列顺序与所述篇章文本中的语句排列顺序一致。
例如,某篇文章中的语句为:“I love you China and I am so proud of beinga Chinese.”,经过nltk进行分句处理获得分句处理后的3段语句为:“I love you”“China”“and I am so proud of being a Chinese”,将经过分句处理后的语句加入到语句队列中,每段语句的排列顺序与文章中的语句顺序一致:“I love you,China,and I am soproud of being a Chinese.”这3段语句形成语句队列。
进一步,在获取到篇章文本进行分句处理后语句的语句队列之后,还可以通过检测语句字符的字符数来确定是否对分句进行后续拼接处理,具体采用如下方式实现:
检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若超过,表明所述语句队列中的语句分句准确,不需要进行后续的检测语句标识。
若未超过,表明所述语句队列中的语句可能存在分句不准确的问题,执行后续检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件即可。
具体实施时,所述设定语句字符数可以根据实际应用场景进行设定,例如,在篇章文本都为较短的语句的情况下,所述设定语句字符的字符数可以设置的短一些,防止将分句出现错误的语句漏掉,没有检测出分句出现的问题;具体实施时,根据实际应用场景进行设定所述设定语句字符的字符数,本说明书在此不作任何限定。
以“我爱你,我的中国”为例,对上述检测语句字符的字符数这一过程进行描述,其中,设定语句字符的字符数可以是5个字符数,检测“我爱你”语句为3个字符,“我的中国”语句为4个字符,均未超过设定的5个字符,根据检测结果在后续的处理过程中可以进一步的检测“我爱你,我的中国”中的语句标识是否满足拼接条件。
本说明书一个或多个实施例中,通过获取经过分句处理的语句队列,并检测语句队列中的每段语句字符数是否超过设定语句字符数,可以实现对语句队列中的语句进行初次的检测,将不可能出现分句问题的语句不进行处理,减少了后续检测语句标识的工作量。
步骤104:检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件。
本说明书一个或多个实施例中,所述语句标识包括下述至少一项:
括号标识、标点符号标识、特定字符标识、字母标识;
所述拼接条件包括下述至少一项:
右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写。
具体的,所述语句标识包括:括号标识、标点符号标识、特定字符标识、字母标识等,所述接条件包括:右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写等。
例如,在篇章文本为中文的情况下,经过分句处理检测分句是否准确的过程中,可以根据上一段语句的句尾与下一段语句的句首的文字是否为一个词语来检测分句是否准确;若不是一个词语,则说明分句准确,若是一个词语,则说明分句不准确。
在上述举例说明中,所述语句标识为文字标识,所述拼接条件为上一段语句的句尾与下一段语句的句首文字为一个词语,在实际应用中,所述语句标识与所述拼接条件可以根据应用场景进行更改,本说明书在此不作任何限定。
具体的,通过对所述语句队列中相邻的至少两段语句中包含的语句标识进行检测,检测语句中包含的语句标识是否满足拼接条件;
如果所述语句队列中相邻的至少两段语句中包含的语句标识满足拼接条件,则执行下述步骤106;
如果所述语句队列中相邻的至少两段语句中包含的语句标识不满足拼接条件,无需对当前检测的所述至少两段语句进行拼接。
上述对所述至少相邻的两段语句中包含的语句标识进行检测,可以实现检测出所述相邻的至少两段语句经过分句处理是否存在分句不准确的问题;根据检测结果确定,若分句准确,则不对所述至少两段语句进行处理;若分句不准确,则对所述至少两段语句进行重新拼接。
具体实施时,当检测到所述语句队列中相邻的至少两段语句中包含的语句标识不满足拼接条件的情况下,还可以对所述语句队列中当前检测的所述至少两段语句之外的其他语句进行检测,优选采用如下方式实现:
对所述语句队列中除所述至少两段语句的语句进行检测所述语句中包含的所述语句标识是否满足所述拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
若否,对语句队列尚未检测的语句进行检测即可。
具体的,在检测出所述语句队列中相邻的至少两段语句包含的语句标识不满足所述拼接条件的情况下,说明所述相邻的至少两段语句经过分句处理,分句是准确的,所述相邻的至少两段语句不需要进行拼接,重新对语句队列中除所述至少两段语句的其他相邻的语句进行检测所述语句中包含的所述语句标识是否满足所述拼接条件,若是,则执行下述步骤106。
本说明书一个或多个实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句,基于此;上述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件这一过程,具体是指检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第二语句拼接到所述第一语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
具体的,在所述语句标识为括号标识的情况下,所述拼接条件为右括号数目大于左括号数目,实际应用中,可能出现对一片文章进行分句处理,获得相邻的第一语句和第二语句,检测这两段语句是否出现分句不准确的问题,通过检测第二语句中包含的括号标识是否满足右括号数目大于左括号数目这一拼接条件,若第二语句中包含的括号为右括号数目大于左括号数目,则说明缺少了左括号数目,第一语句和第二语句是分句不准确的,将第一语句与第二语句进行后续的拼接处理,并且保证拼接处理后的语句的语意与第一语句和第二语句的语意相等。
具体实施时,将第一语句的句尾拼接到第二语句的句首或将第二语句的句首拼接到第一语句的句尾,这个拼接过程的拼接顺序可以根据实际应用进行设定,本说明书在此不作任何限定。
基于此,若所述检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件子步骤的检测结果为否,还可以检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第一语句拼接到所述第二语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
具体的,若所述检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件子步骤的检测结果为否,则说明所述第二语句中包含的括号标识的右括号数目小于等于左括号数目;
除此之外,若右括号数目小于左括号数目,则与所述第二语句相邻的第三语句需要拼接到所述第二语句;若右括号数目等于左括号数目,则说明第二语句为单独的语句,不需要进行拼接,分句处理正确。
在实际应用中,以所述语句队列中包含相邻的第一语句和第二语句为例,并且第一语句在前,第二语句在后,对检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件进行描述,其中,若第一语句为“(***”,第二语句为“(**))”,第一语句与第二语句中包含括号标识;检测第二语句中包含的括号标识是否满足右括号数目大于左括号数目,若检测第二语句中包含的括号标识满足右括号数目大于左括号数目,则说明第二语句与第一语句的分句是不准确的,对第二语句与第一语句进行后续的拼接处理;
若第一语句为“((***”,第二语句为“((**))””;若检测第二语句中包含的括号标识不满足右括号数目大于左括号数目,则检测第一语句中包含的括号标识是否满足左括号数目大于右括号数目,检测第一语句中包含的括号标识满足左括号数目大于右括号数目,说明第一语句与第二语句的分句是不准确的,对第一语句与第二语句进行后续的拼接处理。
本说明书一个或多个实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句,基于此;上述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件这一过程,具体是指检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第一语句拼接到所述第二语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
具体的,在所述语句标识为标点符号标识的情况下,所述拼接条件为语句句尾标点符号为小数点,在实际应用中,可能出现对一片文章进行分句处理,获得相邻的第一语句和第二语句,检测这两段语句是否出现分句不准确的问题,通过检测第二语句中包含的标点符号标识是否满足语句句尾标点符号为小数点这一拼接条件,若第一语句句尾包含的标点符号为小数点,则说明将语句进行分句处理获得第一语句和第二语句是分句不准确的,将第一语句与第二语句进行后续的拼接处理,并且保证拼接处理后的语句的语意与第一语句和第二语句的语意相等。
在实际应用中,所述标点符号标识可以是小数点、英文中的句号等语句标识。
以所述语句队列中包含相邻的第一语句和第二语句为例,并且第一语句在前,第二语句在后,对检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件进行描述,其中,若第一语句为“***56.”,第二语句为“5****”,第一语句与第二语句中包含标点符号标识;检测第一语句中包含的标点符号标识是否满足语句句尾标点符号为小数点,若检测第一语句中包含的标点符号标识满足语句句尾标点符号为小数点,则说明第一语句与第二语句的分句是不准确的,对第二语句与第一语句进行后续的拼接处理。
本说明书一个或多个实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句,基于此;上述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件这一过程,具体是指检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第二语句拼接到所述第一语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
具体的,在所述语句标识为特定字符标识的情况下,所述拼接条件为语句句首包含特定字符,在实际应用中,可能出现对一片文章进行分句处理,获得相邻的第一语句和第二语句,检测这两段语句是否出现分句不准确的问题,通过检测第二语句中包含的特定字符标识是否满足语句句首包含特定字符这一拼接条件,若第二语句句首为特定字符,则说明第二语句与第一语句是分句不准确的,将第一语句与第二语句进行后续的拼接处理,并且保证拼接处理后的语句的语意与第一语句和第二语句的语意相等。
在实际应用中,所述特定字符标识可以是“&”、“¥”等语句标识。
以所述语句队列中包含相邻的第一语句和第二语句为例,并且第一语句在前,第二语句在后,对检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件进行描述,其中,若第一语句为“***”。第二语句为“&***”,第一语句与第二语句中包含特定字符标识;检测第二语句中包含的特定字符标识是否满足语句句首包含特定字符,若检测第二语句中包含的特定字符满足语句句首包含特定字符,则说明第二语句与第一语句的分句是不准确的,对第二语句与第一语句进行后续的拼接处理。
本说明书一个或多个实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句,基于此;
上述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件这一过程,具体是指检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第二语句拼接到所述第一语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
具体的,在所述语句标识为字母标识的情况下,所述拼接条件为语句句首字母非大写,在实际应用中,可能出现对一片文章进行分句处理,获得相邻的第一语句和第二语句,检测这两段语句是否出现分句不准确的问题,通过检测第二语句中包含的字母标识是否满足语句句首字母非大写这一拼接条件,若第二语句中句首的字母非大写,则说明第一语句和第二语句是分句不准确的,将第一语句与第二语句进行后续的拼接处理,并且保证拼接处理后的语句的语意与第一语句和第二语句的语意相等。
除此之外,若所述第二语句的句首字母为大写,则说明对所述第二语句的分句处理正确,不需要进行拼接。
基于此,若所述检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件子步骤的检测结果为否,还可以检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;
若满足,执行后续步骤106对满足所述拼接条件的语句标识所属的语句进行拼接处理操作,相应的,步骤106在对满足所述拼接条件的语句标识所属的语句进行拼接处理的过程中,具体是指将所述第二语句拼接到所述第一语句,获得所述拼接语句;
若不满足,无需对当前检测的所述至少两段语句进行拼接即可。
以所述语句队列中包含相邻的第一语句和第二语句为例,并且第一语句在前,第二语句在后,对检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件进行描述,其中,若第一语句为“***RMB”,第二语句为“36Yuan”,第一语句与第二语句中包含字母标识;检测第二语句中包含的字母标识是否满足语句句首字母非大写,若检测第二语句中包含的字母标识满足语句句首字母非大写,则说明第二语句与第一语句的分句是不准确的,对第二语句与第一语句进行后续的拼接处理;
若第一语句为“***”,第二语句为“is***”;若检测第二语句中包含的字符藐视不满足语句句首字母非大写,则检测第二语句中包含的字母标识是否满足语句句首字母小写,检测第二语句中包含的字母标识满足语句句首字母小写,说明第一语句与第二语句的分句是不准确的,对第一语句与第二语句进行后续的拼接处理。
本说明书一个或多个实施例中,通过检测所述相邻的至少两段语句的语句标识是否满足条件,进一步的检测所述相邻的至少两段语句是否出现分句不准确的问题,并通过不同的拼接条件检测所述相邻的至少两段语句,可以更加准确的检测语句之间分句是否准确这一问题,避免了在分句不准确的情况下,给用户带来的不好的体验感。
步骤106:对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
具体的,上述通过检测所述相邻的至少两段语句中包含的语句标识是否满足拼接条件且检测结果为满足所述拼接条件的情况下,此处,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接语句。
具体实施时,所述拼接语句的语句与所述拼接前的至少两段语句语意相等。
例如,经过nltk分句处理,获得的语句队列中包含第一语句与第二语句,并且第一语句在前,第二语句在后,其中第一语句为“I love”,第二语句为“China”,第一语句与第二语句的语意为“我爱”“中国”,根据检测确定,第一语句与第二语句分句不准确,将第一语句拼接到第二语句,获得拼接语句为“I love China”,拼接语句的语意为“我爱中国”,拼接前与拼接后的语意不变,并且拼接准确。
本说明书一个或多个实施例中,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句之后,还可以在上述拼接的基础上进行二次拼接检测,具体采用如下方式:
检测所述拼接语句与相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,对满足所述拼接条件的语句标识所属的所述拼接语句与相邻的语句进行拼接,获得拼接后的二次拼接语句;
若否,无需对所述拼接语句与所述相邻的语句进行拼接即可。
具体实施时,若存在多段相邻的语句时,包括第一语句、第二语句和第三语句,若第一语句与第二语句满足拼接条件,将第一语句与第二语句进行拼接,获得拼接语句,再检测第三语句与拼接语句是否满足拼接条件,若满足,将第三语句拼接到拼接语句句尾位置,获得二次拼接语句。
还可以在检测第一语句与第二语句是否满足拼接条件的同时,检测第二语句与第三语句是否满足拼接条件,在存在多段相邻的语句的时候,可以同步进行检测,减少了处理时间。
本说明书一个或多个实施例中,在对所述相邻的至少两个语句进行拼接获得拼接语句,可以在拼接的基础上进行如下方式替换,具体采用如下方式:将所述拼接语句与对应的所述语句队列中满足所述拼接条件的所述至少两段语句进行替换。
具体的,将获取的所述拼接语句与拼接前的语句进行替换,减少所述篇章文本中出现分句不准确的问题。
例如,篇章文本经过分句处理后的语句队列为:“***,***,I love,China”,其中包含第三语句为“I love”,第四语句为“China”,根据检测确定,第一语句与第二语句分句不准确,将第三语句拼接到第四语句,获得拼接语句为“I love China”,通过拼接语句将语句队列中的第三语句与第四语句进行替换,获得新的语句队列为:“***,***,I love China”。
本说明书一个或多个实施例中,通过对经过分句处理后的语句队列进行进一步的检测,检测语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,并且拼接条件包括多种不同的拼接条件,实现了对分句处理不准确的语句进行拼接,提高了分句的准确性,提高了语句拼接的准确率。
图2示出了根据本说明书一实施例的语句拼接方法的流程图,在所述语句标识包括括号标识、标点符号标识、特定字符标识、字母标识的情况下,并且在所述拼接条件包括右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写的情况下,本申请实施例提供的一种语句拼接方法,具体包括步骤202至步骤218。
步骤202:获取篇章文本进行分句处理后获得的语句组成的语句队列。
步骤204:检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;若是,执行步骤216;若否执行步骤206。
步骤206:检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件;若是,执行步骤216;若否,执行步骤208。
步骤208:检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;若是,执行步骤216;若否执行步骤210。
步骤210:检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;若是,执行步骤216;若否,执行步骤212。
步骤212:检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;若是,执行步骤216;若否,执行步骤214。
步骤214:检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;若是,执行步骤216;若否,执行步骤218。
步骤216:将所述第二语句句首位置拼接到第一语句句尾位置,获得所述拼接语句。
上述步骤204、206、208、210、212、214任意一个步骤的检测结果为满足所述拼接条件,则表明所述第一语句与所述第二语句出现分句不准确的情况,将所述第二语句与所述第一语句进行拼接,获得所述拼接语句。
步骤218:获取语句队列中尚未检测的语句。
上述步骤214的检测结果为不满足所述拼接条件的情况下,不对所述第一语句与所述第二语句进行拼接处理,可以对其他语句进行检测是否满足拼接条件,对获取语句队列中尚未检测的语句进行检测。
本说明书一个或多个实施例中,通过对经过分句处理后的语句队列进行进一步的检测,检测语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,并且拼接条件包括多种不同的拼接条件,实现了对分句处理不准确的语句进行拼接,提高了分句的准确性,提高了语句拼接的准确率。
下述结合附图3,以本说明书提供的语句拼接方法对翻译后的语句进行分句处理的应用为例,对所述语句拼接方法进行进一步说明。其中,具体步骤包括步骤302至步骤310。
其中,短语在翻译前的语句为“我有¥1000.1(元)”,经过翻译并进行分句处理,获得五段语句,分别包括:第一语句“I have”,第二语句“¥”,第三语句“1000.”,第四语句“1(”,第五语句“yuan)”。
步骤302:获取进行分句处理后的语句队列。
具体的,经过分句处理获得的语句队列包括:第一语句“I have”,第二语句“¥”,第三语句“1000.”,第四语句“1(”,第五语句“yuan)”。
步骤304:检测语句队列中每段语句字符数是否超过1个字符;若否,则执行步骤306;若是,则执行步骤308。
步骤306:检测语句队列中相邻的语句中包含的语句标识是否满足拼接条件;若否,执行步骤308;若是,执行步骤310。
具体的,检测第五语句中包含的括号标识是否满足右括号数目大于左括号数目这一拼接条件;检测第四语句中包含的括号标识是否满足左括号数目大于右括号数目这一拼接条件;检测第三语句中包含的标点符号标识是否满足语句句尾标点符号为小数点这一拼接条件;检测第五语句中包含的字母标识是否满足语句句首字母非大写这一拼接条件;检测第五语句中包含的字母标识是否满足语句句首字母小写这一拼接条件;检测第二语句中包含的特定字符标识是否满足语句句首包含特定字符这一拼接条件。
根据上述步骤302获取的第一语句“I have”,第二语句“¥”,第三语句“1000.”,第四语句“1(”,第五语句“yuan)”确定,第二语句、第三语句、第四语句、第五语句均满足上述拼接条件,执行步骤310。
步骤308:不对语句队列中的语句进行拼接处理。
具体的,根据上述步骤304确定,在检测语句队列中每段语句字符数是超过1字符,则说明经过分句处理的语句出现分句不准确的可能较低,则不所述语句中包含的语句标识是否满足拼接条件进行检测;根据上述步骤306确定,在检测语句队列中相邻的语句中包含的语句标识不满足拼接条件,则说明经过分句处理的语句分句是准确的,则不对所述语句进行拼接处理。
步骤310:将语句队列中相邻的语句中包含的语句标识满足拼接条件的语句进行拼接,获得拼接语句。
具体的,将上述步骤302获取的第一语句“I have”,第二语句“¥”,第三语句“1000.”,第四语句“1(”,第五语句“yuan)”进行拼接,获得拼接语句:“I have¥1000.1(yuan)”。
本说明书一个或多个实施例中,通过对经过分句处理后的语句队列进行进一步的检测,检测语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,并且拼接条件包括多种不同的拼接条件,实现了对分句处理不准确的语句进行拼接,提高了分句的准确性,提高了语句拼接的准确率。
与上述方法实施例相对应,本说明书还提供了语句拼接装置实施例,图4示出了本说明书一个实施例的语句拼接装置的结构示意图。如图4所示,该装置包括:
获取模块402,被配置为获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测模块404,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;
若是,运行拼接模块406;
所述拼接模块406,被配置对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
一个可选的实施例中,所述语句拼接装置还包括:
检测字符数模块,被配置为检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,运行所述检测模块404;
所述检测模块404,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件。
一个可选的实施例中,所述语句标识包括下述至少一项:
括号标识、标点符号标识、特定字符标识、字母标识;
所述拼接条件包括下述至少一项:
右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写。
一个可选的实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测模块404,包括:
第一检测单元,被配置为检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第一拼接单元,被配置为将所述第二语句拼接到所述第一语句,获得所述拼接语句。
一个可选的实施例中,若所述第一检测单元的检测结果为否,运行如下单元:
第二检测单元,被配置为检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第二拼接单元,被配置为将所述第一语句拼接到所述第二语句,获得所述拼接语句。
一个可选的实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测模块404,包括:
第三检测单元,被配置为检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第三拼接单元,被配置为将所述第一语句拼接到所述第二语句,获得所述拼接语句。
一个可选的实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测模块404,包括:
第四检测单元,被配置为检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第四拼接单元,被配置为将所述第二语句拼接到所述第一语句,获得所述拼接语句。
一个可选的实施例中,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测模块404,包括:
第五检测单元,被配置为检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第五拼接单元,被配置为将所述第二语句拼接到所述第一语句,获得所述拼接语句。
一个可选的实施例中,若所述第五检测单元的检测结果为否,运行如下单元:
第六检测单元,被配置未检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;
若是,运行所述拼接模块406;
其中,所述拼接模块406,包括:
第六拼接单元,被配置为将所述第二语句拼接到所述第一语句,获得所述拼接语句。
一个可选的实施例中,所述拼接模块406运行之后,还包括:
拼接检测模块,被配置为检测所述拼接语句与相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,运行二次拼接模块;
所述二次拼接模块,被配置为对满足所述拼接条件的语句标识所属的所述拼接语句与相邻的语句进行拼接,获得拼接后的二次拼接语句。
一个可选的实施例中,所述语句拼接装置还包括:
替换模块,被配置为将所述拼接语句与对应的所述语句队列中满足所述拼接条件的所述至少两段语句进行替换。
一个可选的实施例中,所述检测模块404进一步被配置为:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,运行所述拼接模块406;
所述拼接模块406,被配置为所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
本说明书所述语句拼接装置,通过检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,实现了对所述篇章文本进行分句处理后的语句都进行了检测,检测了对所述篇章文本进行分句是否准确,将分句不准确的语句按照所述拼接条件的重新进行拼接,获得所述拼接语句,解决了经过分句处理的篇章文本分句不准确的问题,提高了语句拼接的准确率。
上述为本实施例的一种语句拼接装置的示意性方案。需要说明的是,该语句拼接装置的技术方案与上述的语句拼接方法的技术方案属于同一构思,语句拼接装置的技术方案未详细描述的细节内容,均可以参见上述语句拼接方法的技术方案的描述。
图5示出了根据本说明书一实施例的电子设备500的结构框图。该电子设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
电子设备500还包括接入设备540,接入设备540使得电子设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,电子设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的电子设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
电子设备500可以是任何类型的静止或移动电子设备,包括移动计算机或移动电子设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的电子设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止电子设备。电子设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件;
若是,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
可选地,所述获取篇章文本进行分句处理后获得的语句组成的语句队列步骤执行之后,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤执行之前,还包括:
检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,执行所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤。
可选地,所述语句标识包括下述至少一项:
括号标识、标点符号标识、特定字符标识、字母标识;
所述拼接条件包括下述至少一项:
右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,若所述检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,若所述检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
可选地,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤执行之后,还包括:
检测所述拼接语句与相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,对满足所述拼接条件的语句标识所属的所述拼接语句与相邻的语句进行拼接,获得拼接后的二次拼接语句。
可选地,所述语句拼接方法还包括:
将所述拼接语句与对应的所述语句队列中满足所述拼接条件的所述至少两段语句进行替换。
可选地,若所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤的检测结果为否,执行下述操作:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤。
上述为本实施例的一种电子设备的示意性方案。需要说明的是,该电子设备的技术方案与上述的语句拼接方法的技术方案属于同一构思,电子设备的技术方案未详细描述的细节内容,均可以参见上述语句拼接方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述语句拼接方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语句拼接方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语句拼接方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (17)
1.一种语句拼接方法,其特征在于,包括:
获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,其中,所述语句标识为括号标识、标点符号标识、特定字符标识或字母标识,所述拼接条件为关联所述括号标识的括号数量条件、关联所述标点符号标识的标点符号条件、关联所述特定字符标识的特定字符条件或关联所述字母标识的字母字符条件;
若是,对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
2.根据权利要求1所述的语句拼接方法,其特征在于,所述获取篇章文本进行分句处理后获得的语句组成的语句队列步骤执行之后,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤执行之前,还包括:
检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,执行所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤。
3.根据权利要求1所述的语句拼接方法,其特征在于,所述语句标识包括下述至少一项:
括号标识、标点符号标识、特定字符标识、字母标识;
所述拼接条件包括下述至少一项:
右括号数目大于左括号数目、左括号数目大于右括号数目、语句句尾标点符号为小数点、语句句首包含特定字符、语句句首字母非大写、语句句首字母小写。
4.根据权利要求3所述的语句拼接方法,其特征在于,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
5.根据权利要求4所述的语句拼接方法,其特征在于,若所述检测所述语句队列中所述第二语句中包含的所述括号标识是否满足所述右括号数目大于左括号数目这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第一语句中包含的所述括号标识是否满足所述左括号数目大于右括号数目这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
6.根据权利要求3所述的语句拼接方法,其特征在于,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第一语句中包含的所述标点符号标识是否满足所述语句句尾标点符号为小数点这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第一语句拼接到所述第二语句,获得所述拼接语句。
7.根据权利要求3所述的语句拼接方法,其特征在于,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述特定字符标识是否满足所述语句句首包含特定字符这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
8.根据权利要求3所述的语句拼接方法,其特征在于,针对所述相邻的至少两段语句中包含的任意两段相邻语句,在前的语句为第一语句,在后的语句为第二语句;
相应的,所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,包括:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
9.根据权利要求8所述的语句拼接方法,其特征在于,若所述检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母非大写这一拼接条件子步骤的检测结果为否,执行如下操作:
检测所述语句队列中所述第二语句中包含的所述字母标识是否满足所述语句句首字母小写这一拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤;
其中,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句,包括:
将所述第二语句拼接到所述第一语句,获得所述拼接语句。
10.根据权利要求4至9任意一项所述的语句拼接方法,其特征在于,所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤执行之后,还包括:
检测所述拼接语句与相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,对满足所述拼接条件的语句标识所属的所述拼接语句与相邻的语句进行拼接,获得拼接后的二次拼接语句。
11.根据权利要求1至9任意一项所述的语句拼接方法,其特征在于,还包括:
将所述拼接语句与对应的所述语句队列中满足所述拼接条件的所述至少两段语句进行替换。
12.根据权利要求1所述的语句拼接方法,其特征在于,若所述检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件步骤的检测结果为否,执行下述操作:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,执行所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句步骤。
13.一种语句拼接装置,其特征在于,包括:
获取模块,被配置为获取篇章文本进行分句处理后获得的语句组成的语句队列,所述语句队列中的语句排列顺序与所述篇章文本中的语句排列顺序一致;
检测模块,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件,其中,所述语句标识为括号标识、标点符号标识、特定字符标识或字母标识,所述拼接条件为关联所述括号标识的括号数量条件、关联所述标点符号标识的标点符号条件、关联所述特定字符标识的特定字符条件或关联所述字母标识的字母字符条件;
若是,运行拼接模块;
所述拼接模块,被配置为对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
14.根据权利要求13所述的语句拼接装置,其特征在于,所述语句拼接装置还包括:
检测字符数模块,被配置为检测所述语句队列中的语句字符的字符数是否超过设定语句字符的字符数;
若未超出所述设定语句字符的字符数,运行所述检测模块;
所述检测模块,被配置为检测所述语句队列中相邻的至少两段语句中包含的语句标识是否满足拼接条件。
15.根据权利要求13所述的语句拼接装置,其特征在于,所述检测模块进一步被配置为:
检测所述语句队列中除所述至少两段语句的相邻的语句中包含的所述语句标识是否满足所述拼接条件;
若是,运行所述拼接模块;
所述拼接模块,被配置为所述对满足所述拼接条件的语句标识所属的语句进行拼接,获得拼接后的拼接语句。
16.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至12任意一项所述语句拼接方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至12任意一项所述语句拼接方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910221066.6A CN109933799B (zh) | 2019-03-22 | 2019-03-22 | 语句拼接方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910221066.6A CN109933799B (zh) | 2019-03-22 | 2019-03-22 | 语句拼接方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933799A CN109933799A (zh) | 2019-06-25 |
CN109933799B true CN109933799B (zh) | 2023-08-15 |
Family
ID=66988045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910221066.6A Active CN109933799B (zh) | 2019-03-22 | 2019-03-22 | 语句拼接方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933799B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309514B (zh) * | 2019-07-09 | 2023-07-11 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014110980A1 (zh) * | 2013-01-21 | 2014-07-24 | Liu Shugen | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN105243056A (zh) * | 2015-09-07 | 2016-01-13 | 饶志刚 | 一种基于标点符号处理的汉语句法分析方法及装置 |
CN105912533A (zh) * | 2016-04-12 | 2016-08-31 | 苏州大学 | 面向神经机器翻译的长句切分方法及装置 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
CN108073572A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 信息处理方法及其装置、同声翻译系统 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
-
2019
- 2019-03-22 CN CN201910221066.6A patent/CN109933799B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014110980A1 (zh) * | 2013-01-21 | 2014-07-24 | Liu Shugen | 表意构件识别提取和基于表意构件的机译人校互动翻译方法 |
CN105243056A (zh) * | 2015-09-07 | 2016-01-13 | 饶志刚 | 一种基于标点符号处理的汉语句法分析方法及装置 |
CN105912533A (zh) * | 2016-04-12 | 2016-08-31 | 苏州大学 | 面向神经机器翻译的长句切分方法及装置 |
CN108073572A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 信息处理方法及其装置、同声翻译系统 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
CN109062897A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
Non-Patent Citations (1)
Title |
---|
利用标点符号自动识别分句;李琼;《皖西学院学报》;20110228;第27卷(第1期);第108-110页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109933799A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
CN110532573B (zh) | 一种翻译方法和系统 | |
CN105243055B (zh) | 基于多语言的分词方法和装置 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN106919542B (zh) | 规则匹配方法及装置 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN110516251B (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN111460149A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN102955773B (zh) | 用于在中文文档中识别化学名称的方法及系统 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN116842951A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CN110008807B (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
CN109933799B (zh) | 语句拼接方法以及装置 | |
CN113918031A (zh) | 使用子字符信息进行中文标点恢复的系统和方法 | |
KR101565367B1 (ko) | 숫자정규화를 이용한 문서 표절률 산출 방법 | |
CN112766001A (zh) | 企业名称翻译方法及装置 | |
CN115221266A (zh) | 生语料检索方法、装置、电子设备和存储介质 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
CN111209724A (zh) | 文本的校验方法、装置、存储介质以及处理器 | |
CN113065333A (zh) | 分词语种的识别方法及装置 | |
CN106708797B (zh) | 一种文字处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |