CN108241612A - 标点符号处理方法和装置 - Google Patents
标点符号处理方法和装置 Download PDFInfo
- Publication number
- CN108241612A CN108241612A CN201611234205.1A CN201611234205A CN108241612A CN 108241612 A CN108241612 A CN 108241612A CN 201611234205 A CN201611234205 A CN 201611234205A CN 108241612 A CN108241612 A CN 108241612A
- Authority
- CN
- China
- Prior art keywords
- punctuation mark
- punctuation
- multiple adjacent
- mark
- marks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种标点符号处理方法和装置。其中,该方法包括:确定待处理文本中是否有多个相邻的标点符号;在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理后文本。本发明解决了现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
Description
技术领域
本发明涉及文本处理领域,具体而言,涉及一种标点符号处理方法和装置。
背景技术
随着互联网的普及,文本信息爆炸性增长,人们每天需要处理的文本信息越来越多,在写入文本信息的时候,或者在对文本信息进行一些例如粘贴、复制、修改等操作的时候,经常会出现标点符号错误的问题,例如,在逗号后面多打了一个句号或者多打了一个逗号,或者在一句话结尾的句号前粘贴了另一句话,粘贴的话结尾也是一个句号,这样就出现了两个句号,由于标点符号较小,很容易被用户忽略,并且不易检查出来,导致了文本中标点符号使用错误,影响文本内容的理解。
针对上述现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标点符号处理方法和装置,以至少解决现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
根据本发明实施例的一个方面,提供了一种标点符号处理方法,包括:确定待处理文本中是否有多个相邻的标点符号;在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
可选的,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除之前,包括:确定多个相邻的标点符号是否是相同的标点符号。
可选的,在多个相邻的标点符号是相同的标点符号的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,包括:保留多个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除。
可选的,在多个相邻的标点符号不是相同的标点符号的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,包括:从预设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符号中的一个标点符号的方案;和/或,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案。
可选的,将多个相邻的标点符号中的其他标点符号删除后,方法还包括:存储待处理文本和/或已删除的标点符号在待处理文本中的位置信息;得到处理后文本之后,还包括:接收对已删除的标点符号的撤回命令;根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
根据本发明实施例的另一方面,还提供了一种标点符号处理装置,包括:第一确定模块,用于确定待处理文本中是否有多个相邻的标点符号;第二确定模块,用于在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;处理模块,用于在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
可选的,装置还包括:第三确定模块,用于在处理模块保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除之前,确定多个相邻的标点符号是否是相同的标点符号。
可选的,处理模块包括:第一处理模块,用于在多个相邻的标点符号是相同的标点符号的情况下,保留多个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除。
可选的,处理模块包括:第二处理模块,用于在多个相邻的标点符号不是相同的标点符号的情况下,从预设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符号中的一个标点符号的方案;和/或第三处理模块,用于在多个相邻的标点符号不是相同的标点符号的情况下,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案。
可选的,装置还包括:存储模块,用于在处理模块将多个相邻的标点符号中的其他标点符号删除后,存储待处理文本和/或已删除的标点符号在待处理文本中的位置信息;接收模块,用于在处理模块得到处理后文本之后,接收对已删除的标点符号的撤回命令;撤回模块,用于根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
在本发明实施例中,采用预先设置标点符号集的方式,首先确定待处理文本中是否有多个相邻的标点符号,在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,在多个相邻的标点符号不属于预设标点符号组合集的情况下,说明标点符号使用错误,则保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,最终得到处理后文本,达到了在出现多个相邻的标点符号的情况下最终只保留一个标点符号的目的,从而对使用错误的标点符号进行了纠正,并且操作简单,易于实现,使纠正后的文本易于阅读,方便理解,进而解决了现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例1的一种标点符号处理方法的流程图;
图2是根据本发明实施例2的一种标点符号处理装置的结构图;
图3是根据本发明实施例2的一种可选的标点符号处理装置的结构图;
图4是根据本发明实施例2的一种可选的标点符号处理装置的结构图;
图5是根据本发明实施例2的一种可选的标点符号处理装置的结构图;以及
图6是根据本发明实施例2的一种可选的标点符号处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种标点符号处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的标点符号处理方法,如图1所示,该方法包括如下步骤:
步骤S102,确定待处理文本中是否有多个相邻的标点符号。
具体的,在获取到待处理文本后,首先需要对待处理文本中的标点符号使用情况进行检测,如果检测某一句话后面的标点符号有两个或两个以上,则确定待处理文本中有多个相邻的标点符号。如果待处理文本中没有出现多个相邻的标点符号一起使用的情况,则不对该待处理文本进行后续处理。
步骤S104,在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合。
具体的,预设标点符号集也就是用户提前设置的不进行处理的标点符号组合,可以包括符合语义规则的标点符号组合,例如“,《”以及“》。”等,也可以包括用户个性化标点符号使用习惯,例如,一些用户喜欢连续使用多个感叹号来表示强调,或者在一些非正式文本中,一些用户喜欢连续使用多个句号表示无语等,因此可以构建符合用户个性化需求的预设标点符号集。
此处需要说明的是,预设标点符号集是动态变化的,可以对预设标点符号集进行修改、增加、删除等操作。
步骤S106,在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
具体的,在多个相邻的标点符号属于预设标点符号组合集的情况下,说明多个相邻的标点符号没有使用错误,也就是符合语义规则,或者符合用户的个性化标点符号使用习惯,因此可以不作处理,在多个相邻的标点符号不属于预设标点符号组合集的情况下,说明多个相邻的标点符号使用错误,因此最终只需要保留多个相邻的标点符号中的一个标点符号即可,其他的标点符号可以予以删除。
此处需要说明的是,由于待处理文本中可能有多处出现多个相邻的标点符号,因此可以提供用户一键全部对使用错误的标点符号进行修改的操作键,也可以提供给针对每一处使用错误的标点符号进行单独修改的操作键,例如,可以按照在待处理文本中出现的顺序提示用户选择或确定对多个相邻的标点符号进行保留及删除的方案。
在本发明实施例中,采用预先设置标点符号集的方式,首先确定待处理文本中是否有多个相邻的标点符号,在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,在多个相邻的标点符号不属于预设标点符号组合集的情况下,说明标点符号使用错误,则保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,最终得到处理后文本,达到了在出现多个相邻的标点符号的情况下最终只保留一个标点符号的目的,从而对使用错误的标点符号进行了纠正,并且操作简单,易于实现,使纠正后的文本易于阅读,方便理解,进而解决了现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
在一种可选的实施例中,步骤S106中保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除之前,包括:步骤S202,确定多个相邻的标点符号是否是相同的标点符号。
具体的,在确定多个相邻的标点符号不属于预设标点符号组合集的情况下,需要判断多个相邻的标点符号的构成,也就是多个相邻的标点符号中的标点符号是否全都是一样的标点符号,如果多个相邻的标点符号中有一个标点符号与其他的标点符号不同,就确定多个相邻的标点符号不是相同的标点符号。
在一种可选的实施例中,步骤S202中,在多个相邻的标点符号是相同的标点符号的情况下,步骤S106中保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,包括:步骤S302,保留多个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除。
具体的,如果多个相邻的标点符号是相同的标点符号,在只需要保留一个标点符号的情况下,保留其中任意一个标点符号都是一样的,因此可以保留多个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,最终只剩下一个标点符号,例如,在出现多个句号的情况下,经过步骤S302的处理,最终只剩下一个句号。
在一种可选的实施例中,步骤S202中,在多个相邻的标点符号不是相同的标点符号的情况下,步骤S106中保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,包括:步骤S402,从预设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符号中的一个标点符号的方案;和/或步骤S404,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案。
可选的,如果多个相邻的标点符号不是相同的标点符号,就需要确定到底保留哪一个标点符号,在这种情况下,可以有两种解决方案,第一种解决方案即预先构建标点符号保留数据库,标点符号保留数据库中存储有标点符号组合以及针对该标点符号组合的标点符号保留方案,也就是最终保留多个相邻的标点符号中哪一个标点符号的方案,因此,在知道了多个相邻的标点符号的情况下,根据标点符号保留数据库,就可以找出匹配的标点符号保留方案,例如对于连续出现一个句号一个逗号的标点符号组合,标点符号保留数据库中可以规定该情况的标点符号保留方案为保留逗号,删除句号。
此处需要说明的是,标点符号保留数据库是动态变化的,可以对标点符号保留数据库进行修改、增加、删除等操作,并且,标点符号保留数据库中一组标点符号组合对应的标点符号保留方案可以不仅仅是一个方案,可以为多个方案,本发明可以提供给用户多个方案来供用户选择。
可选的,第二种解决方案为使用自然语言处理技术(NLP)对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,其中,对待处理文本中多个相邻的标点符号前的语句进行的分析可以是语气分析、语义分析等,语气分析的分析结果可能是疑问句、感叹句、陈述句等,如果是疑问句则优选为保留多个相邻的标点符号中的问号,如果是感叹句则优选为保留多个相邻的标点符号中的感叹号,如果是陈述句则优选为保留多个相邻的标点符号中的问号,此处需要说明的是,在得到分析结果后,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案可以不仅仅是一个方案,可以是多个方案,例如,如果是疑问句也可以保留多个相邻的标点符号中的句号,如果是感叹句也可以保留多个相邻的标点符号中的句号,如果是陈述句也可以保留多个相邻的标点符号中的逗号,因此可以提供给用户多个方案来供用户选择。
在一种可选的实施例中,步骤S106中将多个相邻的标点符号中的其他标点符号删除后,方法还包括:步骤S502,存储待处理文本和/或已删除的标点符号在待处理文本中的位置信息。步骤S106中得到处理后文本之后,还包括:步骤S504,接收对已删除的标点符号的撤回命令。步骤S506,根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
可选的,在用户对待处理文本进行标点符号处理得到处理后文本后,用户可能会对处理的结果不满意,也就是不符合用户预期,为了使处理后文本还能恢复到原始文本,也就是待处理文本,在将多个相邻的标点符号中的其他标点符号删除后,需要存储待处理文本和/或从待处理文本中删除的标点符号在待处理文本中的位置信息,在接收到用户的撤回命令时候,可以执行将处理后文本恢复为待处理文本的操作,具体的,可以在操作界面上设置撤回键,当用户点击该撤回键时,即可发送撤回命令。
在一种可选的实施例中,在对待处理文本进行标点符号处理的操作界面上,可以设置标点符号处理按键,当接收到用户点击该标点符号处理按键产生的标点符号处理命令时,既可开始进行检测待处理文本中的标点符号,确定是否有多个相邻的标点符号的情况出现,在待处理文本中有多个相邻的标点符号的情况下,确定并且显示不属于预设标点符号组合集的多个相邻的标点符号,标点符号处理的操作界面也可以设置对使用错误的标点符号一次性全部处理以及单独处理的按键,如果用户选择了全部处理的按键,则针对待处理文本中使用错误的标点符号一次性全部处理,也就是针对待处理文本中所有不属于预设标点符号组合集中的多个相邻的标点符号,保留每一处多个相邻的标点符号中的一个标点符号,在执行全部处理操作前,可以由用户确认每一处多个相邻的标点符号的标点符号保留方案;如果用户选择了单独处理按键,则可以按照不属于预设标点符号组合集的多个相邻的标点符号在待处理文本中出现的顺序,由用户确认针对每一处多个相邻的标点符号的标点符号保留方案,然后逐个进行处理,无论用户选择哪种处理方式,均可实现对待处理文本中不属于预设标点符号组合集的多个相邻的标点符号进行纠正,使每一处多个相邻的标点符号最终只保留一个标点符号的目的。
实施例2
根据本发明实施例,提供了一种标点符号处理装置的产品实施例,图2是根据本发明实施例的标点符号处理装置,如图2所示,该装置包括第一确定模块101、第二确定模块103和处理模块105。
其中,第一确定模块101,用于确定待处理文本中是否有多个相邻的标点符号;第二确定模块103,用于在待处理文本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;处理模块105,用于在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
在本发明实施例中,采用预先设置标点符号集的方式,首先由第一确定模块101确定待处理文本中是否有多个相邻的标点符号,在待处理文本中有多个相邻的标点符号的情况下,第二确定模块103确定多个相邻的标点符号是否属于预设标点符号组合集,在多个相邻的标点符号不属于预设标点符号组合集的情况下,说明标点符号使用错误,处理模块105保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,最终得到处理后文本,达到了在出现多个相邻的标点符号的情况下最终只保留一个标点符号的目的,从而对使用错误的标点符号进行了纠正,并且操作简单,易于实现,使纠正后的文本易于阅读,方便理解,进而解决了现有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
此处需要说明的是,上述第一确定模块101、第二确定模块103和处理模块105对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,如图3所示,装置还包括:第三确定模块201,用于在处理模块105保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除之前,确定多个相邻的标点符号是否是相同的标点符号。
此处需要说明的是,上述第三确定模块201对应于实施例1中的步骤S202,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,如图4所示,处理模块105包括:第一处理模块301,用于在多个相邻的标点符号是相同的标点符号的情况下,保留多个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除。
此处需要说明的是,上述第一处理模块301对应于实施例1中的步骤S302,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,如图5所示,处理模块105包括第二处理模块401和/或第三处理模块403,其中,第二处理模块401,用于在多个相邻的标点符号不是相同的标点符号的情况下,从预设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符号中的一个标点符号的方案;第三处理模块403,用于在多个相邻的标点符号不是相同的标点符号的情况下,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案。
此处需要说明的是,上述第二处理模块401、第三处理模块403对应于实施例1中的步骤S402至步骤S404,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,如图6所示,装置还包括存储模块501、接收模块503和撤回模块505。其中,存储模块501,用于在处理模块105将多个相邻的标点符号中的其他标点符号删除后,存储待处理文本和/或已删除的标点符号在待处理文本中的位置信息;接收模块503,用于在处理模块105得到处理后文本之后,接收对已删除的标点符号的撤回命令;撤回模块505,用于根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
此处需要说明的是,上述存储模块501、接收模块503和撤回模块505对应于实施例1中的步骤S502至步骤S506,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种标点符号处理方法,其特征在于,包括:
确定待处理文本中是否有多个相邻的标点符号;
在所述待处理文本中有所述多个相邻的标点符号的情况下,确定所述多个相邻的标点符号是否属于预设标点符号组合集,其中,所述预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;
在所述多个相邻的标点符号不属于所述预设标点符号组合集的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
2.根据权利要求1所述的方法,其特征在于,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除之前,包括:
确定所述多个相邻的标点符号是否是相同的标点符号。
3.根据权利要求2所述的方法,其特征在于,在所述多个相邻的标点符号是相同的标点符号的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,包括:
保留所述多个相邻的标点符号中任意一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除。
4.根据权利要求2所述的方法,其特征在于,在所述多个相邻的标点符号不是相同的标点符号的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,包括:
从预设的标点符号保留数据库中查找与所述多个相邻的标点符号匹配的标点符号保留方案,其中,所述标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与所述标点符号组合匹配的标点符号保留方案,所述标点符号保留方案为保留所述多个相邻的标点符号中的一个标点符号的方案;和/或
使用自然语言处理技术对所述待处理文本中所述多个相邻的标点符号前的语句进行分析,得到分析结果,根据所述分析结果得到保留所述多个相邻的标点符号中的一个标点符号的方案。
5.根据权利要求1所述的方法,其特征在于,将所述多个相邻的标点符号中的其他标点符号删除后,所述方法还包括:
存储所述待处理文本和/或已删除的标点符号在所述待处理文本中的位置信息;
得到处理后文本之后,所述方法还包括:
接收对所述已删除的标点符号的撤回命令;
根据所述撤回命令和所述待处理文本,或者根据所述撤回命令和所述已删除的标点符号在所述待处理文本中的位置信息,将所述处理后文本恢复为所述待处理文本。
6.一种标点符号处理装置,其特征在于,包括:
第一确定模块,用于确定待处理文本中是否有多个相邻的标点符号;
第二确定模块,用于在所述待处理文本中有所述多个相邻的标点符号的情况下,确定所述多个相邻的标点符号是否属于预设标点符号组合集,其中,所述预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;
处理模块,用于在所述多个相邻的标点符号不属于所述预设标点符号组合集的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,得到处理后文本。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于在所述处理模块保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除之前,确定所述多个相邻的标点符号是否是相同的标点符号。
8.根据权利要求7所述的装置,其特征在于,所述处理模块包括:
第一处理模块,用于在所述多个相邻的标点符号是相同的标点符号的情况下,保留所述多个相邻的标点符号中任意一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除。
9.根据权利要求7所述的装置,其特征在于,所述处理模块包括:
第二处理模块,用于在所述多个相邻的标点符号不是相同的标点符号的情况下,从预设的标点符号保留数据库中查找与所述多个相邻的标点符号匹配的标点符号保留方案,其中,所述标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与所述标点符号组合匹配的标点符号保留方案,所述标点符号保留方案为保留所述多个相邻的标点符号中的一个标点符号的方案;和/或
第三处理模块,用于在所述多个相邻的标点符号不是相同的标点符号的情况下,使用自然语言处理技术对所述待处理文本中所述多个相邻的标点符号前的语句进行分析,得到分析结果,根据所述分析结果得到保留所述多个相邻的标点符号中的一个标点符号的方案。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
存储模块,用于在所述处理模块将所述多个相邻的标点符号中的其他标点符号删除后,存储所述待处理文本和/或已删除的标点符号在所述待处理文本中的位置信息;
接收模块,用于在所述处理模块得到处理后文本之后,接收对所述已删除的标点符号的撤回命令;
撤回模块,用于根据所述撤回命令和所述待处理文本,或者根据所述撤回命令和所述已删除的标点符号在所述待处理文本中的位置信息,将所述处理后文本恢复为所述待处理文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611234205.1A CN108241612B (zh) | 2016-12-27 | 2016-12-27 | 标点符号处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611234205.1A CN108241612B (zh) | 2016-12-27 | 2016-12-27 | 标点符号处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241612A true CN108241612A (zh) | 2018-07-03 |
CN108241612B CN108241612B (zh) | 2021-11-05 |
Family
ID=62701786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611234205.1A Active CN108241612B (zh) | 2016-12-27 | 2016-12-27 | 标点符号处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241612B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110633461A (zh) * | 2019-09-10 | 2019-12-31 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
CN111651967A (zh) * | 2020-07-31 | 2020-09-11 | 北京东方通软件有限公司 | 一种支持容器云平台的会话复制方法及装置 |
CN112633004A (zh) * | 2020-11-04 | 2021-04-09 | 北京字跳网络技术有限公司 | 文本标点符号删除方法、装置、电子设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374242B1 (en) * | 1999-09-29 | 2002-04-16 | Lockheed Martin Corporation | Natural-language information processor with association searches limited within blocks |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
WO2013070645A1 (en) * | 2011-11-10 | 2013-05-16 | Evernote Corporation | Extracting principal content from web pages |
CN103514145A (zh) * | 2012-06-18 | 2014-01-15 | 香港城市大学 | 标点符号转换方法及装置 |
CN104063483A (zh) * | 2014-07-03 | 2014-09-24 | 无锡市崇安区科技创业服务中心 | 一种自适应补足关键词上下文的方法 |
CN104142915A (zh) * | 2013-05-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN104461847A (zh) * | 2014-12-03 | 2015-03-25 | 北京国双科技有限公司 | 数据处理程序检测方法及装置 |
CN105243056A (zh) * | 2015-09-07 | 2016-01-13 | 饶志刚 | 一种基于标点符号处理的汉语句法分析方法及装置 |
CN105892836A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇虎科技有限公司 | 基于百科词条的激活态飞幕显示方法及装置 |
CN105930340A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇虎科技有限公司 | 基于百科词条的词条纠错方法及装置 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
-
2016
- 2016-12-27 CN CN201611234205.1A patent/CN108241612B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374242B1 (en) * | 1999-09-29 | 2002-04-16 | Lockheed Martin Corporation | Natural-language information processor with association searches limited within blocks |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
WO2013070645A1 (en) * | 2011-11-10 | 2013-05-16 | Evernote Corporation | Extracting principal content from web pages |
CN103514145A (zh) * | 2012-06-18 | 2014-01-15 | 香港城市大学 | 标点符号转换方法及装置 |
CN104142915A (zh) * | 2013-05-24 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN104063483A (zh) * | 2014-07-03 | 2014-09-24 | 无锡市崇安区科技创业服务中心 | 一种自适应补足关键词上下文的方法 |
CN104461847A (zh) * | 2014-12-03 | 2015-03-25 | 北京国双科技有限公司 | 数据处理程序检测方法及装置 |
CN105243056A (zh) * | 2015-09-07 | 2016-01-13 | 饶志刚 | 一种基于标点符号处理的汉语句法分析方法及装置 |
CN105892836A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇虎科技有限公司 | 基于百科词条的激活态飞幕显示方法及装置 |
CN105930340A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇虎科技有限公司 | 基于百科词条的词条纠错方法及装置 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
Non-Patent Citations (2)
Title |
---|
吴林等: "基于知识库的多层级中文文本查错推理模型", 《计算机工程》 * |
朱磊: "自然语言处理之汉语文本自动校对", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276069A (zh) * | 2019-05-17 | 2019-09-24 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110276069B (zh) * | 2019-05-17 | 2021-04-02 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
CN110633461A (zh) * | 2019-09-10 | 2019-12-31 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
CN110633461B (zh) * | 2019-09-10 | 2024-01-16 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
CN111651967A (zh) * | 2020-07-31 | 2020-09-11 | 北京东方通软件有限公司 | 一种支持容器云平台的会话复制方法及装置 |
CN111651967B (zh) * | 2020-07-31 | 2020-11-24 | 北京东方通软件有限公司 | 一种支持容器云平台的会话复制方法及装置 |
CN112364608A (zh) * | 2020-07-31 | 2021-02-12 | 北京东方通软件有限公司 | 一种支持容器云平台的会话复制方法及装置 |
CN112633004A (zh) * | 2020-11-04 | 2021-04-09 | 北京字跳网络技术有限公司 | 文本标点符号删除方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108241612B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241612A (zh) | 标点符号处理方法和装置 | |
CN104731881B (zh) | 一种基于通信应用的聊天记录方法及其移动终端 | |
CN106020504B (zh) | 信息输出方法和装置 | |
WO2018089451A1 (en) | Machine learning data analysis system and method | |
CN108153719A (zh) | 合并电子表格的方法和装置 | |
CN104636321A (zh) | 文本显示方法及装置 | |
CN102486769A (zh) | 文档目录处理方法和装置 | |
CN102647414A (zh) | 协议解析方法、设备及系统 | |
CN106649413A (zh) | 一种网页标签的分组方法和装置 | |
CN107422941A (zh) | 交互方法和系统 | |
CN107277269A (zh) | 信息内容的处理方法和装置 | |
CN104915359A (zh) | 主题标签推荐方法及装置 | |
MX2013013347A (es) | Sistema y metodo para induccion de envoltorio automatica mediante la aplicacion de filtros. | |
CN106060220A (zh) | 一种联系人信息创建方法和移动终端 | |
CN104506636B (zh) | 一种数据同步方法及装置 | |
CN106909535A (zh) | 相似文本判定方法和装置 | |
CN105847516A (zh) | 一种联系人信息管理方法及装置 | |
CN107480167A (zh) | 基于指纹快速分享信息的方法、移动终端及存储介质 | |
CN105068992B (zh) | 一种搜索结果显示方法及装置 | |
CN104246662A (zh) | 数字终端上的字符输入方法、系统与数字终端 | |
CN106569986A (zh) | 字符串替换方法和装置 | |
CN108255893A (zh) | 个性化对象推荐方法和装置 | |
CN105069064B (zh) | 词汇的获取方法及装置、推送方法及装置 | |
CN105653533A (zh) | 一种更新分类关联词集合的方法和装置 | |
CN115002508A (zh) | 直播数据流方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |