CN112507714B - 文本的分割方法和装置 - Google Patents

文本的分割方法和装置 Download PDF

Info

Publication number
CN112507714B
CN112507714B CN202011529016.3A CN202011529016A CN112507714B CN 112507714 B CN112507714 B CN 112507714B CN 202011529016 A CN202011529016 A CN 202011529016A CN 112507714 B CN112507714 B CN 112507714B
Authority
CN
China
Prior art keywords
phrase
result
clause
text
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011529016.3A
Other languages
English (en)
Other versions
CN112507714A (zh
Inventor
常炎隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011529016.3A priority Critical patent/CN112507714B/zh
Publication of CN112507714A publication Critical patent/CN112507714A/zh
Application granted granted Critical
Publication of CN112507714B publication Critical patent/CN112507714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请公开了文本的分割方法和装置,涉及云计算和文本处理技术领域。具体实施方式包括:获取目标文本,对目标文本进行分句处理,生成分句结果;响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组;将当前的词组的长度与预设长度阈值进行比对;响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。本申请可以简化文本分割流程,节约计算资源,提高了文本处理的效率。并且,本申请可以控制文本分割结果的长度,避免得到的分割结果过长无法达到分割目的的问题。

Description

文本的分割方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及云计算和文本处理技术领域,尤其涉及文本的分割方法和装置。
背景技术
文本的处理技术被广泛应用于各个技术场景。比如智能搜索场景、人机对话场景等等。因此,文本的处理技术往往是在与用户进行交互的场景中会用到,与用户的直接使用体验息息相关,其重要性不言而喻。
在对文本进行处理时,往往需要依赖自然语言处理(Natural LanguageProcessing,NLP)技术。该技术的计算量较大,耗时长,让文本处理流程变得较为复杂。
发明内容
提供了一种文本的分割方法、装置、电子设备以及存储介质。
根据第一方面,提供了一种文本的分割方法,包括:获取目标文本,对目标文本进行分句处理,生成分句结果;响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组;将当前的词组的长度与预设长度阈值进行比对;响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
根据第二方面,提供了一种文本的分割装置,包括:分句单元,被配置成获取目标文本,对目标文本进行分句处理,生成分句结果;分词单元,被配置成响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;组合单元,被配置成对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组;比对单元,被配置成将当前的词组的长度与预设长度阈值进行比对;结果确定单元,被配置成响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
根据第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如文本的分割方法中任一实施例的方法。
根据第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如文本的分割方法中任一实施例的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据文本的分割方法中任一实施例的方法。
根据本申请的方案,可以简化文本分割流程,节约计算资源,提高了文本处理的效率。同时,避免了现有技术中对各个分词结果确定词性的过程中产生的因词性覆盖不足或词性冲突引起的文本分割结果偏差。并且,本申请可以控制文本分割结果的长度,避免得到的分割结果过长无法达到分割目的的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一些实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的文本的分割方法的一个实施例的流程图;
图3是根据本申请的文本的分割方法的又一个实施例的流程图;
图4是根据本申请的文本的分割方法的又一个实施例的流程图;
图5是根据本申请的文本的分割装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的文本的分割方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文本的分割方法或文本的分割装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的目标文本等数据进行分析等处理,并将处理结果(例如分割结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的文本的分割方法可以由服务器105或者终端设备101、102、103执行,相应地,文本的分割装置可以设置于服务器105或者终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的文本的分割方法的一个实施例的流程200。该文本的分割方法,包括以下步骤:
步骤201,获取目标文本,对目标文本进行分句处理,生成分句结果。
在本实施例中,文本的分割方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以从本设备或者其它电子设备获取到目标文本,比如接收其它电子设备发送的目标文本。之后,上述执行主体可以对该目标文本进行分句处理,得到的结果即为上述分句结果。
这里的分句处理即句子切分,上述执行主体可以采用各种方式进行分句处理。比如,上述执行主体可以将目标文本中指定标点符号的前、后文本内容分别作为两个分句结果。这里的指定标点符号可以包括逗号、句号、分号、冒号、问好、感叹号、顿号等等表达停顿的标点符号。
步骤202,响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇。
在本实施例中,上述执行主体可以在对于任意的分句结果(比如每个分句结果)确定该分句结果的长度超出预设长度阈值的情况下,对该分句结果进行分词处理,分词处理的结果为至少三个词汇。
在实践中,上述执行主体可以对于每个分句结果,将该分句结果的长度和预设长度阈值进行比对,从而可以对于每个分句结果,确定出该分句结果的长度是否超出预设长度阈值。
具体地,如果一个分句结果的长度超出了预设长度阈值,则该分句结果的长度较长,相应地,分词所得到的词汇为至少三个。
步骤203,对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组。
在本实施例中,上述执行主体可以对于上述至少三个词汇中的至少两个词汇进行词汇组合,词汇组合的结果为词组。这里的词组的数量可以是一个。上述执行主体可以采用多种方式进行词汇组合,比如从词汇中确定出句子主干对应的词汇并组合成词组,或者从各个词汇中,按照词汇之间的前后顺序确定出前预设数量(比如前两个词汇)的词汇,并组合成词组。此外,还可以从各个词汇中确定出指定词性的词汇,比如动词,以及动词后的名词,并将确定出的词汇组成词组。
步骤204,将当前的词组的长度与预设长度阈值进行比对。
在本实施例中,上述执行主体可以将当前的上述词组的长度与上述预设长度阈值进行比对。这里的当前的上述词组指该词组的最新结果,如果上述执行主体并未对该词组进行更新,则当前的上述词组为词汇组合直接得到的词组。而如果上述执行主体对该词组进行过更新,则当前的词组为对该词组更新后的结果。
步骤205,响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
在本实施例中,如果对当前的上述词组的比对的结果为,该词组的长度未超出预设长度阈值,则上述执行主体可以将参与本次比对的该词组作为上述目标文本的一个分割结果。并且,上述执行主体还可以向其它电子设备输出该分割结果。
本申请的上述实施例提供的方法可以简化文本分割流程,节约计算资源,提高了文本处理的效率。同时,避免了现有技术中对各个分词结果确定词性的过程中产生的因词性覆盖不足或词性冲突引起的文本分割结果偏差。并且,本申请可以控制文本分割结果的长度,避免得到的分割结果过长无法达到分割目的的问题。
在本实施例的一些可选的实现方式中,步骤201中的对目标文本进行分句处理,可以包括:对于目标文本中的标点符号,根据该标点符号对应的文本内容的预设分句因素,确定该标点符号是否为分句标点符号,其中,预设分句因素包括句型;按照各个分句标点符号,对目标文本进行分句处理。
在这些可选的实现方式中,上述执行主体可以对于目标文本中的标点符号,根据该标点符号对应的文本内容的预设分句因素,确定该标点符号是否为分句标点符号,从而进行分句处理。具体地,上述执行主体可以按照分句标点符号,对目标文本进行分句处理。这里的分句标点符号用于对文本进行分句处理。上述执行主体可以将分句标点符号之前的内容和之后的内容,分别作为不同的分句结果。
在实践中,上述执行主体可以通过分析标点符号对应的文本内容(也即标点符号所紧跟的、该标点符号之前的文本内容)的句型,确定出标点符号是否为分句标点符号。比如,上述执行主体如果确定某个标点符号前面的文本内容(该标点符号与上一个标点符号之间的文本内容)的句型为感叹句,则可以将该标点符号作为感叹号,感叹号为预设的分句标点符号,从而可以确定该标点符号为分句标点符号。或者,如果某个标点符号前面的文本内容的句型为疑问句,则确定该标点符号为问号,问号也为预设的分句标点符号,从而可以确定该标点符号为分句标点符号。
此外,预设分句因素还可以包括语义。上述执行主体还可以通过分析语义,确定标点符号是否为分句标点符号。举例来说,上述执行主体可以通过分析语义,确定该标点符号对应的文本内容的语义为预设的语义,那么该标点符号可以作为分句标点符号。
这些实现方式可以准确地对标点符号进行分析,找出能够用于分句的标点符号,从而提高分句的准确度。
在本实施例的一些可选的实现方式中,步骤202中的对该分句结果进行分词处理,可以包括:获取预设的标点符号对,其中,标点符号对包括第一组成符号和第二组成符号,在文本中第一组成符号和第二组成符号之间存在词语;响应于目标文本中包括标点符号对,将目标文本中该标点符号对的第一组成符号和第二组成符号之间的词语作为一个分词结果。
在这些可选的实现方式中,上述执行主体可以获取预设的标点符号对,并在目标文本中包括该预设的标点符号对的情况下,将该标点符号对中第一组成符号和第二组成符号之间的词语,作为该分句结果的一个分词结果。
该标点符号对中包括成对出现的标点符号,具体地,可以包括第一组成符号和第二组成符号。在文本中,如果出现了标点符号对,则在第一组成符号和第二组成符号之间,存在词语。
举例来说,这里的预设的标点符号对可以包括:书名号《》,引号“”,括号()等等各种成对出现的标点符号。
这些实现方式可以避免对标点符号对之内存在完整语义的内容进行拆分,确保分词结果的语义完整性。
在本实施例的一些可选的实现方式中,目标文本包括视频的至少一个字幕段落,视频中的每个视频帧存在一个相对应的分割结果。
在这些可选的实现方式中,视频可以存在一个或多个视频帧的字幕组成的待分割的字幕段落。上述执行主体可以对至少一个字幕段落进行分割,从而能够确保一个视频帧中显示的字幕不会过长。一个视频帧可以仅显示一个分割结果。多个视频帧可以显示同一个分割结果。比如,一秒钟对应的25个视频帧,可以显示同一个分割结果。
这些实现方式可以对至少一个字幕段落进行分割,避免一个视频帧中显示过长的字幕。
继续参见图3,图3是根据本实施例的文本的分割方法的又一个实施例的流程图。如图3所示,上述执行主体可以对目标文本进行分句处理,得到分句结果。这里的分句处理可以包括基础分句和利用标点分句,上述执行主体可以根据分割标点模型库进行分句处理。之后,上述执行主体可以判断分句结果的长度是否超出预设长度阈值。如果判断结果为否,则直接将该分句结果作为目标文本的分割结果。
如果判断结果为是,则对分句结果进行分词处理,得到词汇,具体地,可以根据分词模型和分词库进行分词处理。之后,上述执行主体可以对至少两个词汇进行词汇组合,得到词组,并判断该词组的长度是否小于或等于预设长度阈值。如果是,则将该词组作为分割结果,如果否,则去掉该词组的末尾词,并判断去掉后结果是否小于或等于预设长度阈值。直到得到的去掉后结果小于或等于预设长度阈值,就可以将该去掉后结果作为目标文本的分割结果。
进一步参考图4,其示出了文本的分割方法的又一个实施例的流程400。该流程400,包括以下步骤:
步骤401,获取目标文本,对目标文本进行分句处理,生成分句结果。
在本实施例中,文本的分割方法运行于其上的执行主体(例如图1所示的服务器或终端设备)可以从本设备或者其它电子设备获取到目标文本,比如接收其它电子设备发送的目标文本。之后,上述执行主体可以对该目标文本进行分句处理,得到的结果即为上述分句结果。
步骤402,响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇。
在本实施例中,上述执行主体可以在对于任意的分句结果(比如每个分句结果)确定该分句结果的长度超出预设长度阈值的情况下,对该分句结果进行分词处理,分词处理的结果为至少三个词汇。
步骤403,对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组。
在本实施例中,上述执行主体可以对于上述至少三个词汇中的至少两个词汇进行词汇组合,词汇组合的结果为词组。上述执行主体可以采用多种方式进行词汇组合,比如从词汇中确定出句子主干对应的词汇并组合成词组,或者从各个词汇中,按照词汇之间的前后顺序确定出前预设数量(比如前两个词汇)的词汇,并组合成词组。此外,还可以从各个词汇中确定出指定词性的词汇,比如动词,以及动词后的名词,并将确定出的词汇组成词组。
步骤404,将当前的词组的长度与预设长度阈值进行比对。
在本实施例中,上述执行主体可以将当前的上述词组的长度与上述预设长度阈值进行比对。这里的当前的上述词组指该词组的最新结果,如果上述执行主体并未对该词组进行更新,则当前的上述词组为词汇组合直接得到的词组。而如果上述执行主体对该词组进行过更新,则当前的词组为对该词组更新后的结果。
步骤405,响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
在本实施例中,如果对当前的上述词组的比对的结果为,该词组的长度未超出预设长度阈值,则上述执行主体可以将参与本次比对的该词组作为上述目标文本的一个分割结果。并且,上述执行主体还可以向其它电子设备输出该分割结果。步骤406,响应于该词组的长度超出预设长度阈值,去掉词组中的一个词汇,以更新词组。
步骤406,响应于该词组的长度超出预设长度阈值,去掉词组中的一个词汇,以更新词组。
在本实施例中,上述执行主体可以在上述的词组的长度超出上述预设长度阈值的情况下,去掉上述的词组中的一个词汇,以实现对上述词组的更新。具体地,上述执行主体可以采用各种方式,去掉上述词组中的一个词汇。比如,上述执行主体可以去掉词组中的首个词汇或者预设词性(例如形容词)的词汇。
步骤407,再次执行将当前的词组的长度与预设长度阈值进行比对。
在本实施例中,上述执行主体可以再次执行上述的步骤404,也即重新将当前的词组的长度与预设长度阈值进行比对。这里的当前的词组指步骤406中的更新后的词组。
在实践中,上述执行主体可以在每次去掉词组中的一个词汇,以更新词组之后,都再次执行对更新后的词组与预设长度阈值进行比对,直到确定对该词组最后更新得到的结果未超出预设长度阈值,则可以将最后更新得到的词组作为一个分割结果并输出。
本实施例可以在新组合出的词组过长的情况下,缩短词组,从而可以更好地控制文本分割结果的长度,避免得到的分割结果过长。
可选地,上述去掉词组中的一个词汇,以更新词组,可以包括:去掉词组中的末尾词汇,将得到的词组作为更新后的词组。
具体地,上述执行主体可以去掉上述词组中,末尾的词汇,得到去掉后的词组,并将该去掉后的词组,作为更新后的上述词组。这里的末尾的词汇即是词组中按照词序排列在最后的词汇。
这些可选的实现方式可以去掉词组中末尾的词汇,从而对长度过长的词组进行高效统一的处理。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种文本的分割装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的文本的分割装置500包括:分句单元501、分词单元502、组合单元503、比对单元504和结果确定单元505。其中,分句单元501,被配置成获取目标文本,对目标文本进行分句处理,生成分句结果;分词单元502,被配置成响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;组合单元503,被配置成对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组;比对单元504,被配置成将当前的词组的长度与预设长度阈值进行比对;结果确定单元505,被配置成响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
在本实施例中,文本的分割装置500的分句单元501、分词单元502、组合单元503、比对单元504和结果确定单元505的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203、步骤204和步骤205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,装置还包括:更新单元,被配置成在将当前的词组的长度与预设长度阈值进行比对之后,响应于该词组的长度超出预设长度阈值,去掉词组中的一个词汇,以更新词组;循环单元,被配置成再次执行将当前的词组的长度与预设长度阈值进行比对。
在本实施例的一些可选的实现方式中,更新单元,进一步被配置成按照如下方式执行去掉词组中的一个词汇,以更新词组:去掉词组中的末尾词汇,将得到的词组作为更新后的词组。
在本实施例的一些可选的实现方式中,分句单元,进一步被配置成按照如下方式执行对目标文本进行分句处理:对于目标文本中的标点符号,根据该标点符号对应的文本内容的预设分句因素,确定该标点符号是否为分句标点符号,其中,预设分句因素包括句型;按照各个分句标点符号,对目标文本进行分句处理。
在本实施例的一些可选的实现方式中,分词单元,进一步被配置成按照如下方式执行对该分句结果进行分词处理:获取预设的标点符号对,其中,标点符号对包括第一组成符号和第二组成符号,在文本中第一组成符号和第二组成符号之间存在词语;响应于目标文本中包括标点符号对,将目标文本中该标点符号对的第一组成符号和第二组成符号之间的词语作为一个分词结果。
在本实施例的一些可选的实现方式中,目标文本包括视频的至少一个字幕段落,视频中的每个视频帧存在一个相对应的分割结果。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图6所示,是根据本申请实施例的文本的分割方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的文本的分割方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本的分割方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本的分割方法对应的程序指令/模块(例如,附图5所示的分句单元501、分词单元502、组合单元503、比对单元504和结果确定单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本的分割方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本的分割电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至文本的分割电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本的分割方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与文本的分割电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括分句单元、分词单元、组合单元、比对单元和结果确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,分句单元还可以被描述为“获取目标文本,对目标文本进行分句处理,生成分句结果的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取目标文本,对目标文本进行分句处理,生成分句结果;响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;对于至少三个词汇中的至少两个词汇进行词汇组合,得到词组;将当前的词组的长度与预设长度阈值进行比对;响应于该词组的长度未超出预设长度阈值,将该词组作为目标文本的一个分割结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种文本的分割方法,所述方法包括:
获取目标文本,对所述目标文本进行分句处理,生成分句结果;
响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;
对于所述至少三个词汇中的至少两个词汇进行词汇组合,得到词组;
将当前的所述词组的长度与所述预设长度阈值进行比对;
响应于该词组的长度未超出所述预设长度阈值,将该词组作为所述目标文本的一个分割结果。
2.根据权利要求1所述的方法,其中,在所述将当前的所述词组的长度与所述预设长度阈值进行比对之后,所述方法还包括:
响应于该词组的长度超出所述预设长度阈值,去掉所述词组中的一个词汇,以更新所述词组;
再次执行所述将当前的所述词组的长度与所述预设长度阈值进行比对。
3.根据权利要求2所述的方法,其中,所述去掉所述词组中的一个词汇,以更新所述词组,包括:
去掉所述词组中的末尾词汇,将得到的词组作为更新后的所述词组。
4.根据权利要求1-3之一所述的方法,其中,所述对所述目标文本进行分句处理,包括:
对于所述目标文本中的标点符号,根据该标点符号对应的文本内容的预设分句因素,确定该标点符号是否为分句标点符号,其中,所述预设分句因素包括句型;
按照各个分句标点符号,对所述目标文本进行分句处理。
5.根据权利要求1-3之一所述的方法,其中,所述对该分句结果进行分词处理,包括:
获取预设的标点符号对,其中,所述标点符号对包括第一组成符号和第二组成符号,在文本中第一组成符号和第二组成符号之间存在词语;
响应于所述目标文本中包括所述标点符号对,将所述目标文本中该标点符号对的第一组成符号和第二组成符号之间的词语作为一个分词结果。
6.根据权利要求1-3之一所述的方法,其中,所述目标文本包括视频的至少一个字幕段落,所述视频中的每个视频帧存在一个相对应的分割结果。
7.一种文本的分割装置,所述装置包括:
分句单元,被配置成获取目标文本,对所述目标文本进行分句处理,生成分句结果;
分词单元,被配置成响应于对于任意的分句结果,确定该分句结果的长度超出预设长度阈值,对该分句结果进行分词处理,得到至少三个词汇;
组合单元,被配置成对于所述至少三个词汇中的至少两个词汇进行词汇组合,得到词组;
比对单元,被配置成将当前的所述词组的长度与所述预设长度阈值进行比对;
结果确定单元,被配置成响应于该词组的长度未超出所述预设长度阈值,将该词组作为所述目标文本的一个分割结果。
8.根据权利要求7所述的装置,其中,所述装置还包括:
更新单元,被配置成在所述将当前的所述词组的长度与所述预设长度阈值进行比对之后,响应于该词组的长度超出所述预设长度阈值,去掉所述词组中的一个词汇,以更新所述词组;
循环单元,被配置成再次执行所述将当前的所述词组的长度与所述预设长度阈值进行比对。
9.根据权利要求8所述的装置,其中,所述更新单元,进一步被配置成按照如下方式执行所述去掉所述词组中的一个词汇,以更新所述词组:
去掉所述词组中的末尾词汇,将得到的词组作为更新后的所述词组。
10.根据权利要求7-9之一所述的装置,其中,所述分句单元,进一步被配置成按照如下方式执行所述对所述目标文本进行分句处理:
对于所述目标文本中的标点符号,根据该标点符号对应的文本内容的预设分句因素,确定该标点符号是否为分句标点符号,其中,所述预设分句因素包括句型;
按照各个分句标点符号,对所述目标文本进行分句处理。
11.根据权利要求7-9之一所述的装置,其中,所述分词单元,进一步被配置成按照如下方式执行所述对该分句结果进行分词处理:
获取预设的标点符号对,其中,所述标点符号对包括第一组成符号和第二组成符号,在文本中第一组成符号和第二组成符号之间存在词语;
响应于所述目标文本中包括所述标点符号对,将所述目标文本中该标点符号对的第一组成符号和第二组成符号之间的词语作为一个分词结果。
12.根据权利要求7-9之一所述的装置,其中,所述目标文本包括视频的至少一个字幕段落,所述视频中的每个视频帧存在一个相对应的分割结果。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202011529016.3A 2020-12-22 2020-12-22 文本的分割方法和装置 Active CN112507714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011529016.3A CN112507714B (zh) 2020-12-22 2020-12-22 文本的分割方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011529016.3A CN112507714B (zh) 2020-12-22 2020-12-22 文本的分割方法和装置

Publications (2)

Publication Number Publication Date
CN112507714A CN112507714A (zh) 2021-03-16
CN112507714B true CN112507714B (zh) 2023-06-23

Family

ID=74923331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011529016.3A Active CN112507714B (zh) 2020-12-22 2020-12-22 文本的分割方法和装置

Country Status (1)

Country Link
CN (1) CN112507714B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709370A (zh) * 2016-12-31 2017-05-24 北京明朝万达科技股份有限公司 一种基于文本内容的长词识别方法及系统
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN109684638A (zh) * 2018-12-24 2019-04-26 北京金山安全软件有限公司 分句方法及其装置、电子设备、计算机可读存储介质
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
WO2020108063A1 (zh) * 2018-11-26 2020-06-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN111767920A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 感兴趣区域的提取方法、装置、电子设备及存储介质
WO2020231209A1 (en) * 2019-05-14 2020-11-19 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709370A (zh) * 2016-12-31 2017-05-24 北京明朝万达科技股份有限公司 一种基于文本内容的长词识别方法及系统
WO2020108063A1 (zh) * 2018-11-26 2020-06-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN109684638A (zh) * 2018-12-24 2019-04-26 北京金山安全软件有限公司 分句方法及其装置、电子设备、计算机可读存储介质
WO2020231209A1 (en) * 2019-05-14 2020-11-19 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN111767920A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 感兴趣区域的提取方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Convolutional Neural Network for Arabic Document Analysis;Hassina Bouressace等;2019 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT);全文 *
基于共现链的微博情感分析技术的研究与实现;王岩;中国优秀硕士学位论文全文数据库;全文 *
基于词或词组长度和频数的短中文文本关键词提取算法;陈伟鹤;刘云;;计算机科学(第12期);50-57 *

Also Published As

Publication number Publication date
CN112507714A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
JP7235817B2 (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
US11800042B2 (en) Video processing method, electronic device and storage medium thereof
US11423907B2 (en) Virtual object image display method and apparatus, electronic device and storage medium
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111709252A (zh) 基于预训练的语义模型的模型改进方法及装置
CN111522944A (zh) 用于输出信息的方法、装置、设备以及存储介质
EP3839799A1 (en) Method, apparatus, electronic device and readable storage medium for translation
CN112560499A (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111126063B (zh) 文本质量评估方法及装置
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN110688837B (zh) 数据处理的方法及装置
CN111680599A (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN112382292A (zh) 基于语音的控制方法和装置
CN112507714B (zh) 文本的分割方法和装置
JP7257434B2 (ja) 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品
US20210382918A1 (en) Method and apparatus for labeling data
CN114627343A (zh) 深度学习模型的训练方法、图像处理方法、装置及设备
JP2022003514A (ja) タグマイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN114118937A (zh) 基于任务的信息推荐方法、装置、电子设备及存储介质
CN112752323A (zh) 热点接入状态的改变方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant