CN110534112B

CN110534112B - 基于位置与时间的分布式语音识别纠错方法

Info

Publication number: CN110534112B
Application number: CN201910786732.0A
Authority: CN
Inventors: 王晓佳
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-09-10
Anticipated expiration: 2039-08-23
Also published as: CN110534112A

Abstract

本发明公开了基于位置与时间的分布式语音识别纠错方法，涉及语音识别领域，包括输入机构，定位机构，转换机构，修正机构，标签模块，储存器和CPU处理模块。本发明根据使用者输入语音数据时所在的区域和时间，以逐渐缩小范围的地理边界和不同的时间粒度为参考对与输入数据相似的数据记录赋予多级权值，并在计算出综合权重值后，优选权值最大的几个相同或相似的数据记录进行备选字符推送，在本发明根据语音输入者与其所在区域附近用户过去所正确输入过的相似专有名词的相似性进行一个降序排列形成推荐并对匹配数据做出自动修正后，将减少大部分错误输入的修改时间。

Description

基于位置与时间的分布式语音识别纠错方法

技术领域

本发明属于语音识别技术领域，具体涉及基于位置与时间的分布式语音识别纠错方法。

背景技术

语音识别是一门交叉学科，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一，很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

但是，目前的语音识别在使用过程中无法有效快速识别专有名词，经常会出现同音词混淆，而且在特殊专业领域使用的专业名词无法进行快速推荐，导致识别效率无法进一步提高。

发明内容

本发明的目的是解决同音词混淆与识别效率无法进一步提高的问题，提供基于位置与时间的分布式语音识别纠错方法。

本发明提供了如下的技术方案：

基于位置与时间的分布式语音识别纠错装置，包括:

输入机构，用于输入语音；

定位机构，用于定位输入者所在位置，并将定位信息发送至CPU处理模块、储存器和标签模块；

转换机构，用于将输入机构输入的语音信号转为字符信号；

修正机构，将转换机构输入的字符信号和储存器输入的定位信息和时间与带标签信息的历史数据库中的字符文本进行比对修正；

标签模块，用于将字符与定位信息和时间信息对应，形成字符标签；

储存器，连接转换机构、修正机构、定位机构和CPU处理模块，用于储存输入机构历史输入字符与标签模块产生的数据，向修正机构和CPU处理模块提供历史数据，储存CPU处理产生的结果数据；

还包括，

CPU处理模块：用于接收字符信号，并基于历史字符输入语音数据记录的频率顺序与综合权重值指标，推荐关联字符，同时根据专业名词建立相应的数据库输送至标签模块。

基于位置与时间的分布式语音识别纠错方法，包括以下步骤：

定位机构对使用者进行位置定位，将定位信息发送至CPU处理模块储存器；

使用者使用输入机构输入语音；

转换机构将语音转为字符，将字符依据语音定位信息、时间信息和字符内的专业名词匹配相应的数据库中的字符文本；

修正机构根据数据库中具有相似或相同输入并且在地理上相近的数据记录生成各个记录的综合权重值指标，根据权值较大的数据记录对字符进行修正；

储存器对使用者输入语音的语音数据、字符文本、定位信息和时间信息进行储存；

CPU处理模块将输入语音、地点与时间进行关联生成为数据库中的一条新记录，并将其输送至标签模块。

优选的，所述综合权重值指标的生成过程包括以下步骤：

数据库中每条历史数据记录经过CPU处理模块的处理已含有坐标信息字段和地名信息字段和时间信息字段；

空间数据库根据与输入数据具有相似地名信息和相近坐标位置附带时间信息的历史数据记录实时聚类形成三个范围嵌套级别不同的圆形缓冲区；

对处于三个范围缓冲区内的数据记录赋予不同级别的权重计算指标；

在数据库记录中分别按时间粒度级别的相近程度分别赋予权值，根据用户输入语音时的时间分三级时间粒度，以不同的方式赋予相应的权重值；

附加权重指标值，在有几个匹配的字库文本权重值比较接近时，根据用户选择和反馈，对正确的结果记录赋予附加权重指标值，并且可以累加；

在三种权值指标的基础上计算最终综合权重值，方式为以各个指标当中最高权重值记录为分母，以所有相关数据记录对应指标的权重值为分子，对各个指标权重值做归一化处理，然后对这三种指标的计算结果进行累加，再进行一次同样的归一化处理，以百分号为单位代表各记录的综合权重值。

优选的，所述定位机构是基于GPS定位或蓝牙定位或WIFI定位等一种方式进行定位的。

优选的，所述定位机构将使用者的地理信息转为二进制代码并输送至CPU处理模块后，CPU处理模块对使用者地理位置进行识别，并根据使用者的地理位置匹配字库文本。

优选的，所述转换机构识别使用者输入语音，并将语音转为字符后与多个专业型字库文本内的专业名词进行比对，并产生比对结果，所述修正机构获取结果，若结果错误率大于百分之一时，进行字符修正。

优选的，所述标签模块对输入字符的定位信息和时间信息进行记录，并将记录的数据上传至大数据平台，记录相同字符在该区域内出现的时间点。

优选的，所述数据库中的字符文本是经过声学模型参数训练产生的，所述声学模型使用到的参数包括有各国语音、单一语言内的各种方言与各种同音词汇。

优选的，所述输入机构与转换机构通过无线网络连接，所述输入机构与标签模块通过无线网络连接，转换机构与修正机构通过无线网络连接，修正机构与储存器电性连接，定位机构与CPU处理模块通过无线网络连接，标签模块与CPU处理模块通过无线网络连接，储存器与CPU处理模块通过电性连接，修正机构与CPU处理模块通过电性连接，定位机构与储存器通过无线网络连接。

本发明的有益效果是：本发明根据使用者输入语音数据时所在的区域和时间，以逐渐缩小范围的地理边界和不同的时间粒度为参考对与输入数据相似的数据记录赋予多级权值，并在计算出综合权重值后，优选权值最大的几个相同或相似的数据记录进行备选字符推送，因使用者区域的分布往往因某种共同点而聚集分布，拿学生宿舍来说一般是以专业来分布的，同一专业的学生在进行语音输入法使用时，输入的很多专有名词虽然在社会上可能不是很流行，但在这个专业人群所在方位内，这些专有名词的使用频率是很高的，而在他们进行语音输入时，难免有发音不标准导致识别结果有差异的现象，这时在本发明根据语音输入者与其所在区域附近的用户过去所正确输入过的相似专有名词的相似性进行一个降序排列形成推荐，并对匹配数据做出自动修正后，将减少大部分错误输入的修改时间。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的结构流程图；

图2是本发明实例地理位置权重分配说明示意图；

图3是本发明实例权重计算过程的整体流程图；

图4是本发明实例时间权重分配说明示意图。

具体实施方式

如图1所示，基于位置与时间的分布式语音识别纠错装置，包括：

输入机构：用于输入语音；

定位机构：用于定位输入者所在位置，并将定位信息发送至CPU处理模块、储存器和标签模块；

转换机构：用于将输入机构输入的语音信号转为字符信号；

修正机构：将转换机构输入的字符信号和储存器输入的定位信息和时间与带标签信息的历史数据库中的字符文本进行比对修正；

标签模块：用于将字符与定位信息和时间信息对应，形成字符标签；

储存器：连接转换机构、修正机构、定位机构和CPU处理模块，用于储存输入机构历史输入字符与标签模块产生的数据，向修正机构和CPU处理模块提供历史数据，储存CPU处理产生的结果数据；

还包括，

CPU处理模块：用于接收字符信号，并基于历史字符输入语音数据记录的频率顺序与综合权重值指标，推荐关联字符，并根据专业名词建立相应的数据库。

基于位置与时间的分布式语音识别纠错方法，包括下列步骤：

使用者使用输入机构输入语音；

具体的，如图2-图4所示，语音的位置和时间权重指标处理包括以下步骤：

数据库中每条历史数据记录经过CPU处理模块的处理已含有坐标信息字段(所能获取到的最精确的经纬度)和地名信息字段和时间信息字段；

根据具有相似或相同输入并且在地理上相近的历史数据记录实时分别聚类三个范围缓冲区，其中，三个范围缓冲区范围标准共分为：省边界范围，市边界范围，200平方米为半径圆形边界或建筑物边界范围(数据记录位置在建筑物内时以建筑物边界范围为准，反之以输入数据定位信息为圆心200平方米为半径的圆形边界直接生成该级缓冲区)；

如图2所示，以河海大学一学院楼中的输入数据为例进行说明，对处于三个范围圆形缓冲区内的数据记录赋予不同级别的权重计算指标，其中，对省边界范围内相似数据记录聚类形成的圆形范围缓冲区内的数据记录，赋予权值10；对市边界范围缓冲区内相似数据记录聚类形成的圆形范围缓冲区内的数据记录，赋予权值20；对以200平方米为半径或以建筑物为边界范围内相似数据记录聚类形成的圆形范围缓冲区内的数据记录，赋予权值30；

如图4所示，该图以2019年8月18日20时30分的输入数据为例进行说明，在数据库记录中分别按，年，月，日，三个时间粒度级别的相近程度分别赋予权值，年：根据用户输入语音时的时间前面两年的数据记录，以最近的一年为最大赋值权重赋予30，向前降序赋予权值；月：根据用户输入语音的时间，判断是处于一年内的哪个月，将1至12月看成一个循环链表，以这个月为中心赋予权重指标值50，向前后月份降序赋予权值；日：根据用户输入语音时间在一天当中所处于1到24小时，类似月的形式以当前小时赋予权重指标40，向各个小时的记录降序赋予权重指标值；

如图3所示，附加权重指标值，在有几个匹配的字库文本权重值比较接近时，根据用户选择和反馈，对正确的结果记录赋予附加权重指标值5，并且可以累加；

其中各基本权值的赋予根据当前设定的标准，跟随用户大数据错误与用户选择偏向记录数据计算结果对权值赋予值设定进行调整，具体的，如果某一时间某一地区范围开始识别结果准确率开始大幅度降低，则地理位置权值与时间位置权值以各省级为标准，各个省分别做出不同的各级权值相对大小微调，微调方式为以各个级别的时间和地理位置权重指标数据为主成分分析基础数据，进行主成分分析，根据分析结果对个级别权值进行赋值修改，具体的，如时间权重指标，技术结果为月级别的记录影响程度更大，年级别的记录其次，日级别的数据影响程度最小，就分别设置为，年：20，月：30，日：10，再计算各个省的准确率，取准确率最高的那个省的权值设置方式。

本发明方法同样适用于输入法输入。

实施例1

作为本发明的优选实施例：定位机构是基于GPS定位或蓝牙定位或WIFI定位等一种方式进行定位的，便于确定使用者所在国家区域，可根据使用者位置进行字符推送，如某学校宿舍区域的分布往往是以专业来分布的，同一专业的学生在进行语音输入法使用时，输入的很多专有名词虽然在社会上可能不是很流行，但在这个专业学生所在的宿舍方位内，这些专有名词的使用频率是很高的，在他们进行作业书写、论文写作或报告录音转文字时，难免有错误的输入或错误的识别结果，这时就可以根据所输入的专有名词语音数据与该范围内用户所正确输入过的专有名词的语音或文字拼写数据相似性进行一个降序排列形成推荐供用户选择反馈，将会减少大部分因为错误识别的语音结果而进行的重新输入或修改的时间。

实施例2

作为本发明的优选实施例：定位机构将使用者的地理信息转为二进制代码并输送至CPU处理模块后，CPU处理模块对使用者地理位置进行识别，并根据使用者的地理位置匹配字库文本，便于降低使用者输入字符错误的概率，提升字符输入的准确率与速度。

实施例3

作为本发明的优选实施例：转换机构识别使用者输入语音，并将语音转为字符后与多个专业型字库文本内的专业名词进行比对，并产生比对结果，修正机构获取结果，在结果错误率大于百分之一时，进行字符修正，便于快速确认使用者的输入字符所描述的专业领域，做到删减同音字符的目的，节约时间提供输入效率。

实施例4

作为本发明的优选实施例：标签模块对输入字符的定位信息和时间信息进行记录，并将记录的数据上传至大数据平台，记录相同字符在该区域内出现的时间点，如学生在进行作业写作或者论文写作的时间，大多是集中在同一时间的，比如今年4月份16级学生一个课程结束需要交实习报告，次年4月份17级学生也需要做同一课程的实习报告，而这些实习报告中有极大部分的专有名词但不限于专有名词的词组相同，在数据量比较大时，可将同步纠错算法的同步数据以时间标签进行服务。

实施例5

作为本发明的优选实施例：数据库中的字符文本是经过声学模型经过参数训练产生的，声学模型使用到的参数包括有各国语音、单一语言内的各种方言与各种同音词汇，便于使字库文本内容分布，使用范围不受限定，使用人群不受限定。

实施例6

作为本发明的优选实施例：输入机构与转换机构通过无线网络连接，且输入机构与标签模块通过无线网络连接，转换机构与修正机构通过无线网络连接，修正机构与储存器电性连接，定位机构与CPU处理模块通过无线网络连接，标签模块与CPU处理模块通过无线网络连接，储存器与CPU处理模块通过电性连接，修正机构与CPU处理模块通过电性连接，定位机构与储存器通过无线网络连接，便于各个部件间的信息快速传递。

具体的，基于位置与时间的分布式语音识别纠错装置及方法，可采用分布式算法实现纠错推送过程，即在装置中把每条输入记录加一个坐标信息字段(所能获取到的最精确的经纬度)和地名信息字段及时间信息字段等信息项，分布式空间数据库是根据具有相似地名信息和相近坐标位置附带时间信息实时聚类形成缓冲区与缓冲区内的历史数据记录，并将缓冲区内具有相似地名信息和相近坐标位置统一标记为同一分布空间数据库表名字段以方便下次调用。

在使用时，如图2-图4所示，当用户进行语音输入时，根据地理位置、时间以及附加权重方式计算各记录的综合权重值进行匹配，当几个不同结果的权值相当时，向用户提供几个选择，并根据选择结果对该类记录添加附加权重指标值。

具体的，如图2所示，缓冲区就是根据这些具有相似或相同输入并且在地理上相近的输入记录【相近的预先范围标准分几个，比如，大：省边界范围，中：市边界范围，小：200平方米为半径圆形边界或建筑物边界范围(数据记录位置在建筑物内时以建筑物边界范围为准，反之以输入数据定位信息为圆心200平方米为半径的圆形边界直接生成该级缓冲区)，本发明以这三个范围级别来举例说明】实时分别聚类三个范围，并赋予不同级别的权重计算指标，具体的：省级范围区域内相似数据记录聚类形成一级圆形缓冲区，半径大小为空间数据库中可容纳所有省边界内相似数据记录位置点(以坐标信息项和地名信息项生成)的最小圆半径，并对一级缓冲区内的数据记录赋予权值10；类似的市级行政区范围内以同样的方法以半径大小为空间数据库中可容纳所有市边界内相似数据记录位置点(以坐标信息项和地名信息项生成)的最小圆半径聚类形成二级圆形缓冲区，并对二级缓冲区内的数据记录赋予权值20；同理，对以200平方米为半径或以建筑物为边界范围内相似数据记录聚类形成的三级圆形缓冲区内的数据记录赋予权值30，聚类后的范围就是缓冲区范围。

具体的，如图3所示，权重计算过程：在根据地理位置生成的缓冲区基础上根据用户输入语音时的时间，在数据库记录中分别按，年，月，日，三个或多个时间粒度级别的相近程度分别赋予权值，本发明以，年，月，日，三个时间级别赋予权值，具体的，如图4所示，年：根据用户输入语音时的时间前面两年的数据记录，以最近的一年为最大赋值权重赋予30，向前降序赋予权值；月：根据用户输入语音的时间，判断是处于一年内的哪个月，将1至12月看成一个循环链表，以这个月为中心赋予权重指标值50，向前后月份降序赋予权值；日：根据用户输入语音时间在一天当中所处于1到24小时，类似月的形式以当前小时赋予权重指标40，向各个小时的记录降序赋予权重指标值。附加权重指标值，如图3所示，在有几个匹配的字库文本权重值比较接近时，根据用户选择和反馈，对正确的结果记录赋予附加权重指标值5，并且可以累加。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于位置与时间的分布式语音识别纠错方法，其特征在于，包括以下步骤：

定位机构对使用者进行位置定位，将定位信息发送至CPU处理模块与储存器；

输入机构录入语音；

转换机构将语音转为字符，将字符依据语音数据的定位信息、时间信息和字符内的专业名词匹配相应的数据库中的字符文本；

储存器对语音的语音数据、字符文本、定位信息和时间信息进行储存；

CPU处理模块将语音、地点与时间进行关联生成为数据库中的一条新记录，并将其输送至标签模块；

所述综合权重值指标的生成过程包括以下步骤：

2.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述定位机构是基于GPS定位或蓝牙定位或WIFI定位的其中一种方式进行定位的。

3.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述定位机构将使用者的地理信息转为二进制代码并输送至CPU处理模块后，CPU处理模块对使用者地理位置进行识别，并根据使用者的地理位置匹配字库文本。

4.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述转换机构识别使用者输入语音，并将语音转为字符后与多个专业型字库文本内的专业名词进行比对，并产生比对结果，所述修正机构获取结果，若结果错误率大于百分之一时，进行字符修正。

5.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述标签模块对输入字符的定位信息和时间信息进行记录，并将记录的数据上传至大数据平台，记录相同字符在区域内出现的时间点。

6.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述数据库中的字符文本是经过声学模型参数训练产生的，所述声学模型使用到的参数包括有各国语音、单一语言内的各种方言与各种同音词汇。

7.根据权利要求1所述的基于位置与时间的分布式语音识别纠错方法，其特征在于，所述输入机构与转换机构通过无线网络连接，所述输入机构与标签模块通过无线网络连接，转换机构与修正机构通过无线网络连接，修正机构与储存器电性连接，定位机构与CPU处理模块通过无线网络连接，标签模块与CPU处理模块通过无线网络连接，储存器与CPU处理模块通过电性连接，修正机构与CPU处理模块通过电性连接，定位机构与储存器通过无线网络连接。