CN114023308A

CN114023308A - 一种语音语句断句处理方法及系统

Info

Publication number: CN114023308A
Application number: CN202111547226.XA
Authority: CN
Inventors: 汪张龙; 徐俊; 沈毅飞; 巫庭虎; 邹月荣
Original assignee: Guangzhou Iflytek Yitingshuo Network Technology Co ltd
Current assignee: Guangzhou Iflytek Yitingshuo Network Technology Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-02-08

Abstract

本发明提供一种语音语句断句处理方法及系统，所述处理方法包括如下步骤：步骤S1，用户输入语音信息；步骤S2，识别用户输入的语音信息；步骤S3，对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句，然后对若干相近语句进行等级划分；步骤S4，将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句，本发明能够对用户输入的语音进行精准的断句识别，从而提高语音语义的断句识别准确性，以解决现有的语音断句识别不够精准的问题。

Description

一种语音语句断句处理方法及系统

技术领域

本发明涉及语音断句处理技术领域，尤其涉及一种语音语句断句处理方法及系统。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有的技术中，在进行语音识别时，如何对用户输入的语音进行断句成为了一大难题，通过对人声的识别来进行语音语义文字的转换，现有的断句方法仅仅通过时间间隔来判断，但是转换后的文字经常会出现断句混乱的现象，导致语音识别后的文字表达的语义与用户输入的语音语义不能匹配的问题。

发明内容

针对现有技术存在的不足，本发明目的是提供一种语音语句断句处理方法及系统，能够对用户输入的语音进行精准的断句识别，从而提高语音语义的断句识别准确性，以解决现有的语音断句识别不够精准的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种语音语句断句处理方法，所述处理方法包括如下步骤：

步骤S1，用户输入语音信息；

步骤S2，识别用户输入的语音信息；

步骤S3，对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句，然后对若干相近语句进行等级划分；

步骤S4，将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句。

进一步地，所述步骤S1还包括：用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择；

所述步骤S2还包括：对输入的语音进行声纹识别，对识别到的人声生成语音信息。

进一步地，所述步骤S3还包括步骤A1，所述步骤A1包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

将若干文字输入耗费的时长带入文字平均时长公式中求得文字平均时长值；

再获取每两个文字之间的间隔时长，将间隔时长和文字平均时长值带入断句间隔公式中求得断句差值；

当断句差值大于第一断句阈值时，将该断句差值对应的两个文字进行分开断句。

进一步地，所述步骤A1还包括：以文字信息中的文字距两侧文字的中点为两侧截止点，两侧截止点之间的时长即为该文字的输入耗费时长；

其中，第一个文字的两侧截止点分别为时间横轴的起点以及第一个文字和第二个文字在时间横轴上的中点；最后一个文字的两侧截止点分别为倒数第二个文字和最后一个文字在时间横轴上的中点以及时间横轴的终点。

进一步地，所述步骤S3还包括步骤A2，所述步骤A2包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；

从大数据中调取每个相近词语的使用频率，选取使用频率最多的词语进行优先推选，其余相近语句按照替换词语的使用频率由高到低进行排序。

进一步地，所述步骤S4还包括：选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；

对每句文字设置触碰下弹框，下弹框内按照按照替换词语的使用频率由高到低对相近语句进行排序，用户根据自身输入的语义选择是否替换优选语句。

进一步地，所述处理系统包括语音输入模块、语音识别模块、处理模块以及推送模块；

所述语音输入模块用于用户输入语音信息；

所述语音识别模块用于识别用户输入的语音信息；

所述处理模块用于对识别后的语音信息进行处理，并对应生成不同等级的语句；

所述处理模块包括断句单元以及等级划分单元，所述断句单元用于对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句；所述等级划分单元用于对若干相近语句进行等级划分；

所述推送模块用于将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句。

进一步地，所述语音输入模块配置有语音输入策略，所述语音输入策略包括：用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择；

所述语音识别模块包括人声识别单元，所述人声识别单元配置有人声识别策略，所述人声识别策略包括：对输入的语音进行声纹识别，对识别到的人声生成语音信息并输出至处理模块。

进一步地，所述断句单元配置有断句策略，所述断句策略包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

当断句差值大于第一断句阈值时，将该断句差值对应的两个文字进行分开断句；

所述第一时长计算方法包括：以文字信息中的文字距两侧文字的中点为两侧截止点，两侧截止点之间的时长即为该文字的输入耗费时长；

进一步地，所述文字平均时长公式配置为：

；所述断句间隔公式配置为：

；其中，Vwz为文字平均时长值，t1为第一个文字的输入耗费时长，tn为第n个文字的输入耗费时长，n为该文字信息的文字数量，Pdc为断句差值，tj代表两个文字之间的间隔时长，i表示每两个文字之间间隔时长的数量，i为正整数，且i可以自由替换，a1 为断句差值的转换系数，且a1大于零。

进一步地，所述等级划分单元配置有等级划分策略，所述等级划分策略包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；

从大数据中调取每个相近词语的使用频率，选取使用频率最多的词语进行优先推选，其余相近语句按照替换词语的使用频率由高到低进行排序；

所述推送模块配置有推送策略，所述推送策略包括：选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；

本发明的有益效果：本发明通过识别用户输入的语音信息，再对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句，然后对若干相近语句进行等级划分；最后将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句；同时在断句识别的过程中，通过对每个文字所耗费的时长进行计算，然后再综合每两个文字之间的时长间隔，能够基于用户的语速来对语音进行断句，从而能够根据不同用户的语音输入特征来进行断句，提高语音语义断句的准确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的系统原理框图；

图2为本发明的方法流程图；

图3为本发明的S3的子步骤流程图。

图中：1、语音输入模块；2、语音识别模块；21、人声识别单元；3、处理模块；31、断句单元；32、等级划分单元；4、推送模块。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

请参阅图1，一种语音语句断句处理系统，所述处理系统包括语音输入模块1、语音识别模块2、处理模块3以及推送模块4；

所述语音输入模块1用于用户输入语音信息；所述语音输入模块1配置有语音输入策略，所述语音输入策略包括：用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择。该设计能够使用户基于语音输入的特征来进行识别判断。

所述语音识别模块2用于识别用户输入的语音信息；所述语音识别模块2包括人声识别单元21，所述人声识别单元21配置有人声识别策略，所述人声识别策略包括：对输入的语音进行声纹识别，对识别到的人声生成语音信息并输出至处理模块3。通过对声纹进行识别，能够过滤掉一些其他声音杂质。

所述处理模块3用于对识别后的语音信息进行处理，并对应生成不同等级的语句；

所述处理模块3包括断句单元31以及等级划分单元32，所述断句单元31用于对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句；所述断句单元31配置有断句策略，所述断句策略包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

其中第一断句阈值通过阈值计算公式求得，所述阈值计算公式配置为：；其中，Yd1为第一断句阈值，k1为断句阈值转换系数，Vwz为文字平均时长值，该设计能够基于每个用户的每个文字的平均耗费时长来对第一断句阈值进行设定，相较于固定的断句阈值来说，这样的设置方式更加具有针对性，能够针对每个用户的语速特点来进行断句。

所述文字平均时长公式配置为：

；文字平均时长值即每个文字的输入耗费时长相加后的平均值，所述断句间隔公式配置为：

；断句差值基于文字平均时长值和间隔时长求得，从而保证断句时更加的精准，其中，Vwz为文字平均时长值，t1为第一个文字的输入耗费时长，tn为第n个文字的输入耗费时长，n为该文字信息的文字数量，Pdc为断句差值，tj代表两个文字之间的间隔时长，i表示每两个文字之间间隔时长的数量，i为正整数，且i可以自由替换，a1为断句差值的转换系数，且a1大于零。

所述等级划分单元32用于对若干相近语句进行等级划分；所述等级划分单元32配置有等级划分策略，所述等级划分策略包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；

从大数据中调取每个相近词语的使用频率，选取使用频率最多的词语进行优先推选，其余相近语句按照替换词语的使用频率由高到低进行排序；通过对识别后的语句进行排序处理，能够为用户提供更多的语句选择，从而提高用户对于最终语义选择的多样性。

所述推送模块4用于将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句。

所述推送模块4配置有推送策略，所述推送策略包括：选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；

对每句文字设置触碰下弹框，下弹框内按照按照替换词语的使用频率由高到低对相近语句进行排序，用户根据自身输入的语义选择是否替换优选语句。通过在推送模块4中设置下拉选择项，能够为用户匹配多组可替换的语义，从而提高了后续文字处理的快捷性，便于用户直接替换，同时省去了用户删改文字的时间。

请参阅图2和图3，一种语音语句断句处理方法，所述处理方法包括如下步骤：

步骤S1，用户输入语音信息，用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择；

步骤S2，识别用户输入的语音信息，对输入的语音进行声纹识别，对识别到的人声生成语音信息；

所述步骤S3还包括步骤A1，所述步骤A1包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

第一时长计算方法包括：以文字信息中的文字距两侧文字的中点为两侧截止点，两侧截止点之间的时长即为该文字的输入耗费时长；

其中，第一个文字的两侧截止点分别为时间横轴的起点以及第一个文字和第二个文字在时间横轴上的中点；最后一个文字的两侧截止点分别为倒数第二个文字和最后一个文字在时间横轴上的中点以及时间横轴的终点；

所述步骤S3还包括步骤A2，所述步骤A2包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；A1和A2为S3的子步骤。

步骤S4，将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句；

选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音语句断句处理方法，其特征在于，所述处理方法包括如下步骤：

步骤S1，用户输入语音信息；

步骤S2，识别用户输入的语音信息；

2.根据权利要求1所述的一种语音语句断句处理方法，其特征在于，所述步骤S1还包括：用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择；

3.根据权利要求2所述的一种语音语句断句处理方法，其特征在于，所述步骤S3还包括步骤A1，所述步骤A1包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

4.根据权利要求3所述的一种语音语句断句处理方法，其特征在于，所述步骤A1还包括：以文字信息中的文字距两侧文字的中点为两侧截止点，两侧截止点之间的时长即为该文字的输入耗费时长；

5.根据权利要求4所述的一种语音语句断句处理方法，其特征在于，所述步骤S3还包括步骤A2，所述步骤A2包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；

所述步骤S4还包括：选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；

6.根据权利要求1-5任意一项所述的一种语音语句断句处理方法的处理系统，其特征在于，所述处理系统包括语音输入模块(1)、语音识别模块(2)、处理模块(3)以及推送模块(4)；

所述语音输入模块(1)用于用户输入语音信息；

所述语音识别模块(2)用于识别用户输入的语音信息；

所述处理模块(3)用于对识别后的语音信息进行处理，并对应生成不同等级的语句；

所述处理模块(3)包括断句单元(31)以及等级划分单元(32)，所述断句单元(31)用于对识别后的语音信息进行断句处理，并针对每句语句生成若干相近语句；所述等级划分单元(32)用于对若干相近语句进行等级划分；

所述推送模块(4)用于将处理后的语句推送给用户，用户基于输入的语音语义选择对应的语句。

7.根据权利要求6所述的一种语音语句断句处理系统，其特征在于，所述语音输入模块(1)配置有语音输入策略，所述语音输入策略包括：用户在进行语音输入时，可以进行人声直接输入或其他设备声音输入的选择；

所述语音识别模块(2)包括人声识别单元(21)，所述人声识别单元(21)配置有人声识别策略，所述人声识别策略包括：对输入的语音进行声纹识别，对识别到的人声生成语音信息并输出至处理模块(3)。

8.根据权利要求7所述的一种语音语句断句处理系统，其特征在于，所述断句单元(31)配置有断句策略，所述断句策略包括：先将识别到语音转化为文字信息，将转化后的文字信息放入一时间横轴内，该时间横轴以语音输入的起始时间为起点，以语音输入结束的时间为终点，将文字信息中的每个文字对应到时间横轴内，分别标记每个语音的横坐标，然后通过第一时长计算方法计算出每个文字输入耗费的时长；

9.根据权利要求8所述的一种语音语句断句处理系统，其特征在于，所述文字平均时长公式配置为：

；所述断句间隔公式配置为：

；其中，Vwz为文字平均时长值，t1为第一个文字的输入耗费时长，tn为第n个文字的输入耗费时长，n为该文字信息的文字数量，Pdc为断句差值，tj代表两个文字之间的间隔时长，i表示每两个文字之间间隔时长的数量，i为正整数，且i可以自由替换，a1为断句差值的转换系数，且a1大于零。

10.根据权利要求9所述的一种语音语句断句处理系统，其特征在于，所述等级划分单元(32)配置有等级划分策略，所述等级划分策略包括：对断句后的文字进行相近词语的替换，针对每句文字生成若干相近语句；

所述推送模块(4)配置有推送策略，所述推送策略包括：选取使用频率最多的词语作为每句文字的优选语句，生成最终的文字信息进行推荐；