CN107679033B

CN107679033B - 文本断句位置识别方法和装置

Info

Publication number: CN107679033B
Application number: CN201710810545.2A
Authority: CN
Inventors: 钱胜; 程强
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2021-12-14
Anticipated expiration: 2037-09-11
Also published as: US11004448B2; CN107679033A; US20190080683A1

Abstract

本发明公开了一种文本断句位置识别方法和装置，其中，方法包括：接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息；对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置；按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值；判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。由此，根据用户的个人意图进行断句，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了对用户输入的语音的断句的准确度，以便于语音识别准确率的提高。

Description

文本断句位置识别方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种文本断句位置识别方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

相关技术中，对用户输入的连续语音进行识别时，根据用户的停顿时间来识别输入的语音信息中需要断句的位置，而后在对应位置设置相应标点。但是，每个用户的语速和输入场景不同，因此，仅仅依据语音输入的停顿时间来识别断句位置会有疏漏或者错误，降低了断句位置识别的准确率。

发明内容

本发明旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种文本断句位置识别方法，已解决现有技术中，断句位置不准确的技术问题。

本发明的第二个目的在于提出一种文本断句位置识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种文本断句位置识别方法，包括以下步骤：接收用户输入的连续语音信息，对所述连续语音信息进行识别生成对应的文本信息；对所述文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置；按照预设算法计算当前间隔位置插入所述句尾句首标志对应的断句分值；判断所述断句分值是否大于预设阈值，如果大于，则确定所述当前间隔位置为断句位置。

本发明实施例的文本断句位置识别方法，接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息，对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值，进而，判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。由此，根据用户的个人意图进行断句，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了对用户输入的语音的断句的准确度，以便于语音识别准确率的提高。

为达上述目的，本发明第二方面实施例提出了一种文本断句位置识别装置，包括：生成模块，用于接收用户输入的连续语音信息，对所述连续语音信息进行识别生成对应的文本信息；分析模块，用于对所述文本信息进行分析确定间隔位置；插入模块，用于对所述文本信息进行分析确定间隔位置；计算模块，用于按照预设算法计算当前间隔位置插入所述句尾句首标志对应的断句分值；确定模块，用于判断所述断句分值是否大于预设阈值，如果大于，则确定所述当前间隔位置为断句位置。

本发明实施例的文本断句位置识别装置，接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息，对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值，进而，判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。由此，根据用户的个人意图进行断句，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了对用户输入的语音的断句的准确度，以便于语音识别准确率的提高。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上述实施例所述的文本断句位置识别方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得能够执行如上述实施例所述的文本断句位置识别方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种如上述实施例所述的文本断句位置识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的文本断句位置识别方法的流程图；

图2是根据本发明另一个实施例的文本断句位置识别方法的流程图；

图3是根据本发明又一个实施例的文本断句位置识别方法的流程图；

图4是根据本发明再一个实施例的文本断句位置识别方法的流程图；

图5是根据本发明一个实施例的文本断句位置识别装置的结构示意图；

图6是根据本发明另一个实施例的文本断句位置识别装置的结构示意图；以及

图7是根据本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的文本断句位置识别方法和装置。

正如以上分析，在实际应用中，每个用户的语速和输入场景不同，因此，现有技术中，仅仅依据语音输入的停顿时间来识别断句位置会有疏漏或者错误，降低了断句位置识别的准确率。

为了解决上述技术问题，本发明提出了一种文本断句位置识别方法，可以根据用户的意图进行断句显示标点，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了断句位置识别的准确性。

图1是根据本发明一个实施例的文本断句位置识别方法的流程图，如图1所示，该方法包括：

步骤101，接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息。

在本发明的实施例中，根据应用场景的不同，可采用不同的方式接收到用户输入的连续语音信息，作为一种可能的实现方式，通过终端设备中的麦克风等语音装置实时接收用户连续语音信息，作为另一种可能的实现方式，根据用户的选择，提取用户录音中的连续语音信息。

具体而言，在本发明的实施例中，接收用户输入的连续语音信息，对该连续语音信息进行识别生成对应的文本信息，以便于对连续语音信息进行断句处理。

需要说明的是，根据具体应用场景的不同，可采用不同的实现方式对连续语音信息进行识别生成对应的文本信息，作为一种可能实现方式，预先根据大量实验数据建立并存储与不同的语音对应的文本信息，从而，在获取用户输入的连续语音信息后，将该连续语音信息与预先存储的语音进行匹配，并获取匹配成功的语音对应的文本信息。

作为另一种可能的实现方式，采用预先根据实验数据设置的卷积神经网络模型等进行文本信息的转换，在本示例中，将用户输入的连续语音信息输入预设的卷积神经网络模型，根据卷积神经网络模型的输出获取连续语音信息对应的文本信息。

步骤102，对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置。

其中，根据应用场景的不同，句尾句首标志可以为特殊的字符，比如“*”、“#”等，也可以是特殊的编码，比如“00”或“01”等。

需要说明的是，根据具体应用场景的不同，可采用不同的方式，实现对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，举例说明如下：

作为一种可能的实现方式，如图2所示，上述步骤102包括以下步骤：

步骤201，对文本信息进行切词处理生成多个分词。

具体地，可以根据文本的词性等对文本信息进行切词处理生成多个分词。

步骤202，将句尾句首标志依次插入到每个分词后面的间隔位置。

具体地，由于每个分词通常是固定的词，比如“降落伞”等，每个分词通常是连续的，因此，断句的位置应该在不同的分词之间，从而，在本示例中，将句尾句首标志依次插入到每个分词后面的间隔位置。

举例而言，当句尾句首标志为“*”时，对文本信息“我想要一个降落伞”进行切词处理，生成多个分词为“我”、“想”、“要”、“一个”、“降落伞”，则将句尾句首标志依次插入到每个分词后面的间隔位置的结果为*“我”*“想”*“要”*“一个”*“降落伞”*。

作为一种可能的实现方式，如图3所示，上述步骤102包括以下步骤：

步骤301，按照预设的关键词库对文本信息进行匹配，获取匹配成功的关键词。

可以理解，本发明实施例中的预设的关键词，可以是预先根据大量实验数据设置的用户习惯连续发音的一些词，这种关键词可能是根据用户个人说话习惯学习得来的，也可以是根据网络流行语等大数据学习得到的，该关键词可能与传统的连续的词不相同。

具体地，在本示例中，对连续语音信息进行识别生成对应的文本信息后，按照预设的关键词库对文本信息进行匹配，获取匹配成功的关键词。

步骤302，将句尾句首标志依次插入到每个关键词后面的间隔位置。

举例而言，当句尾句首标志为“*”时，对文本信息“我想要一个降落伞”进行关键词匹配处理，匹配出的关键词为“一个”、“降落伞”，则将句尾句首标志依次插入到每个关键词后面的间隔位置的结果为“我想要”*“一个”*“降落伞”*。

步骤103，按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值。

可以理解的是，将句尾句首标志依次插入到每个间隔位置后，每个间隔位置所对应的断句并不一定与用户的意图一致，因而，需要按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值，以根据该断句分值确定出吻合用户的说话习惯的断句位置。

根据应用场景的不同，上述预设算法对应的内容不同，举例说明如下：

作为一种可能的实现方式，如图4所示，步骤103包括：

步骤401，获取当前间隔位置的上下文信息和位置特征。

其中，上下文信息包括上下文的内容信息、长度信息、词性信息等，位置特征包括属于“形容词和介词之间”、“介词和形容之间”等词性位置特征，“钱5个字后3个字长度”等分割字数位置信息，“停顿2秒”等停顿时间信息等。

步骤402，根据上下文信息和位置特征获取当前间隔位置在整句中的权重信息。

具体地，由于上下文信息和位置特征与断句位置相关，不同的上下文信息和位置特征，对是否是断句位置的影响不同，因而，可以通过分析上下文信息和位置特征获取当前间隔位置在整句中的权重信息。

举例而言，对于上下文信息中的参考标准-连接紧密关系(比如形容词和形容词之间的连接关系，相对主语和介词之间的连接关系不紧密)，与是否是是断句位置关系较大，因而对应的权重信息越大，而对于位置特征中的参考标准-停顿间隔时间的长短，与是否是是断句位置关系较大，因而对应的权重信息越大等。

在本示例中，语句的位置特征反映了用户的个人说话习惯，比如停顿间隔时间的位置和长短，因此，根据位置特征进行断句符合用户的个人需求。

步骤403，按照预设算法和权重信息计算当前间隔位置插入句尾句首标志对应的断句分值。

可以理解，在本发明的实施例中，预先设置于权重信息对应的预设算法，通过该预设算法可以根据权重信息计算当前间隔位置插入句尾句首标志对应的断句分值，其中，断句分值越高，越有可能是断句位置。

其中，根据应用场景的不同，该预设算法的表现形式不同，作为一种可能的实现方式，该预设的算法可以为当前间隔位置多个权重信息与权重对应的参考标准乘积之和，比如，对于当前间隔位置，上下文参考标准1对应的权重为a1，得分为b1，上下文参考标准2对应的为a2，得分为b2，位置特征参考标准1对应的权重为a3，得分为b3，则得到的该当前间隔位置的断句分值S＝a1*b1+a2*b2+a3*b3。

步骤104，判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。

其中，预设阈值可以是根据实验数据标定的参考值，当断句分值大于预设阈值，则确定当前间隔位置为断句位置。

在本发明的一个实施例中，为了使得断句位置更直观，可根据当前间隔位置的上下文信息在断句位置显示对应的标点符号，比如，根据上下文信息，判断的当前断句位置的前后词对应词性均为形容词，则断句位置显示对应的标点符号为顿号等。

综上所述，本发明实施例的文本断句位置识别方法，接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息，对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值，进而，判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。由此，根据用户的个人意图进行断句，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了对用户输入的语音的断句的准确度，以便于语音识别准确率的提高。

为了实现上述实施例，本发明还提出一种文本断句位置识别装置。图5是根据本发明一个实施例的文本断句位置识别装置的结构示意图，如图5所示，该文本断句位置识别装置包括：生成模块100、分析模块200、插入模块300、计算模块400和确定模块500。

其中，生成模块100，用于接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息。

分析模块200，用于对文本信息进行分析确定间隔位置。

插入模块300，用于对文本信息进行分析确定间隔位置。

计算模块400，用于按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值。

在本发明的一个实施例中，如图6所示，在如图5所示的基础上，该计算模块400包括生成单元410和插入单元420。

其中，生成单元410，用于对文本信息进行切词处理生成多个分词。

插入单元420，用于将句尾句首标志依次插入到每个分词后面的间隔位置。

确定模块500，用于判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。

需要说明的是，前述对文本断句位置识别方法实施例的解释说明也适用于该实施例的文本断句位置识别装置，本发明文本断句位置识别实施例中未公布的细节，此处不再赘述。

综上所述，本发明实施例的文本断句位置识别装置，接收用户输入的连续语音信息，对连续语音信息进行识别生成对应的文本信息，对文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值，进而，判断断句分值是否大于预设阈值，如果大于，则确定当前间隔位置为断句位置。由此，根据用户的个人意图进行断句，避免用户的误停顿或者语速快等原因对断句位置的误识别处理，提高了对用户输入的语音的断句的准确度，以便于语音识别准确率的提高。

为了实现上述实施例，本发明还提出了一种计算机设备，图7是根据本发明一个实施例的计算机设备的结构示意图。如图7所示，存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。

处理器22执行所述程序时实现上述实施例中提供的文本断句位置识别方法。

进一步地，计算机设备还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21，用于存放可在处理器22上运行的计算机程序。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器22，用于执行所述程序时实现上述实施例所述的文本断句位置识别方法。

如果存储器21、处理器22和通信接口23独立实现，则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23，集成在一块芯片上实现，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

处理器22可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得能够执行如上述实施例所述的文本断句位置识别方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如上述实施例所述的文本断句位置识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本断句位置识别方法，其特征在于，包括以下步骤：

接收用户输入的连续语音信息，对所述连续语音信息进行识别生成对应的文本信息；所述文本信息为未断句的信息；

对所述未断句的文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置；

按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值；

判断所述断句分值是否大于预设阈值，如果大于，则确定所述当前间隔位置为断句位置；

所述按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值，包括：

获取所述当前间隔位置的上下文信息和位置特征；

根据所述上下文信息和位置特征获取所述当前间隔位置在整句中的权重信息；

按照预设算法和所述权重信息计算当前间隔位置插入所述句尾句首标志对应的断句分值；

所述对所述未断句的文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，包括：

对所述未断句的文本信息进行切词处理生成多个分词；

将句尾句首标志依次插入到第一个分词的前面、以及每个分词后面的间隔位置。

2.如权利要求1所述的方法，其特征在于，所述对所述未断句的文本信息进行分析确定间隔位置，将句尾句首标志依次插入到每个间隔位置，包括另一种实现方式：

按照预设的关键词库对所述文本信息进行匹配，获取匹配成功的关键词；

将句尾句首标志依次插入到每个关键词后面的间隔位置。

3.如权利要求1所述的方法，其特征在于，在所述确定所述当前间隔位置为断句位置之后，还包括：

根据所述当前间隔位置的上下文信息在所述断句位置显示对应的标点符号。

4.一种文本断句位置识别装置，其特征在于，包括：

生成模块，用于接收用户输入的连续语音信息，对所述连续语音信息进行识别生成对应的文本信息；所述文本信息为未断句的信息；

分析模块，用于对所述未断句的文本信息进行分析确定间隔位置；

插入模块，用于对将句尾句首标志依次插入到每个间隔位置；

计算模块，用于按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值；

确定模块，用于判断所述断句分值是否大于预设阈值，如果大于，则确定所述当前间隔位置为断句位置；

获取所述当前间隔位置的上下文信息和位置特征；

所述计算模块包括：

生成单元，用于对所述未断句的文本信息进行切词处理生成多个分词；

插入单元，用于将句尾句首标志依次插入到第一个分词的前面、以及每个分词后面的间隔位置。

5.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-3中任一所述的文本断句位置识别方法。

6.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的文本断句位置识别方法。