CN111523327B

CN111523327B - 一种基于语音识别的文本确定方法及系统

Info

Publication number: CN111523327B
Application number: CN202010326878.XA
Authority: CN
Inventors: 吕志坚; 何余良; 徐冠宁
Original assignee: Beijing Ruobin Robot Technology Co ltd; Beijing Institute Of Science And Technology Information
Current assignee: Beijing Ruobin Robot Technology Co ltd; Beijing Institute Of Science And Technology Information
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-08-22
Anticipated expiration: 2040-04-23
Also published as: CN111523327A

Abstract

本发明涉及一种基于语音识别的文本确定方法及系统。该方法包括获取语音文件；根据所述语音文件生成第一文本；对所述第一文本进行预处理；采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合；对所述实体集合中的所有实体采用注意力模型确定多个三元组；对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本。本发明所提供得一种基于语音识别的文本确定方法及系统，能够提高通过语音识别生成的文本信息的可读性。

Description

一种基于语音识别的文本确定方法及系统

技术领域

本发明涉及语音识别技术领域，特别是涉及一种基于语音识别的文本确定方法及系统。

背景技术

基于语音识别的应用越来越广泛，已深入到人们生活的各个方面，并且语音识别技术日趋成熟，语音识别率高达98％以上，从而使得语音识别技术得到了广泛的应用。人们通过语音等多媒体方式来传播和存储信息。为了便于存储和传播，将语音内容识别成文本，即形成可读文本方式将更有利信息的快速传播和传承。

目前，业界采用深度学习等人工智能技术进行语音识别生成文本，但通过语音识别生成的文本信息，这些文本信息包含了大量的口语化词汇和重复性词汇，且语法结构混乱，影响了文本信息的可读性。

发明内容

本发明的目的是提供一种基于语音识别的文本确定方法及系统，能够提高通过语音识别生成的文本信息的可读性。

为实现上述目的，本发明提供了如下方案：

一种基于语音识别的文本确定方法，包括：

获取语音文件；

根据所述语音文件生成第一文本；所述第一文本包括口语化词汇、重复短语以及重复短句；所述第一文本为不符合语法结构的文本；

对所述第一文本进行预处理；其中，预处理后的第一文本为去除所述第一文本中口语化词汇、重复短语和重复短句的文本；

采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合；所述实体是对复合信息的抽象，所述实体包括时间、地点、人名或者组织机构；

对所述实体集合中的所有实体采用注意力模型确定多个三元组；所述三元组包括头实体、头实体和尾实体之间的实体关系以及尾实体；所述头实体的时间顺序先于尾实体的时间顺序；

对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本。

可选的，所述对所述第一文本进行预处理，具体包括：

采用正则表达式的方法去除所述第一文本中的口语化词汇和重复短语；

采用模板匹配的方法去除所述第一文本中的重复短句。

可选的，所述采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合，具体包括：

对预处理后的第一文本中进行分句处理，得到多个文本段落；

对每一个所述文本段落进行分词处理；

对分词后的文本段落采用BERT算法提取所述实体；

将所有所述实体按照时间顺序进行排序，得到实体集合。

可选的，所述对所述实体集合中的所有实体采用注意力模型确定多个三元组，之后还包括：

获取三元组t_k＝(h,r,f)；h为头实体，f为尾实体，r为头实体和尾实体之间的实体关系；

根据知识库中的有向图确定头实体到达尾实体的多条路径；

获取从h到达f的第i条路径P_i，P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),...(e_k-1,r_k,e_k),...(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系；

利用公式计算r与P_i中所有实体关系的语义距离；d[P_i(r_k),r]为r与P_i中所有实体关系的语义距离；

利用公式计算h与P_i中所有头实体之间的语义距离；d[P_i(e_k-1),h]为h与P_i中所有头实体之间的语义距离；

利用公式计算f与P_i所有尾实体之间的语义距离；d[P_i(e_k),f]为f与P_i所有尾实体之间的语义距离；

利用公式计算P_i的平均语义距离；

将平均语义距离最大的路径作为h到达f的最优路径；

根据最优路径优化三元组t_k＝(h,r,f)。

一种基于语音识别的文本确定系统，包括：

语音文件获取模块，用于获取语音文件；

第一文本生成模块，用于根据所述语音文件生成第一文本；所述第一文本包括口语化词汇、重复短语以及重复短句；所述第一文本为不符合语法结构的文本；

第一文本预处理模块，用于对所述第一文本进行预处理；其中，预处理后的第一文本为去除所述第一文本中口语化词汇、重复短语和重复短句的文本；

实体集确定模块，用于采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合；所述实体是对复合信息的抽象，所述实体包括时间、地点、人名或者组织机构；

多元组确定模块，用于对所述实体集合中的所有实体采用注意力模型确定多个三元组；所述三元组包括头实体、头实体和尾实体之间的实体关系以及尾实体；所述头实体的时间顺序先于尾实体的时间顺序；

第二文本确定模块，用于对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本。

可选的，所述第一文本预处理模块具体包括：

正则表达式预处理单元，用于采用正则表达式的方法去除所述第一文本中的口语化词汇和重复短语；

模板匹配预处理单元，用于采用模板匹配的方法去除所述第一文本中的重复短句。

可选的，所述实体集合确定模块具体包括：

文本段落确定单元，用于对预处理后的第一文本中进行分句处理，得到多个文本段落；

分词处理确定单元，用于对每一个所述文本段落进行分词处理；

实体提取单元，用于对分词后的文本段落采用BERT算法提取所述实体；

实体集合确定单元，用于将所有所述实体按照时间顺序进行排序，得到实体集合。

可选的，还包括：

三元组获取模块，用于获取三元组t_k＝(h,r,f)；h为头实体，f为尾实体，r为头实体和尾实体之间的实体关系；

多个路径确定模块，用于根据知识库中的有向图确定头实体到达尾实体的多条路径；

第i条路径获取模块，用于获取从h到达f的第i条路径P_i，P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),...(e_k-1,r_k,e_k),...(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系；

第一语义距离确定模块，用于利用公式计算r与P_i中所有实体关系的语义距离；d[P_i(r_k),r]为r与P_i中所有实体关系的语义距离；

第二语义距离确定模块，用于利用公式计算h与P_i中所有头实体之间的语义距离；d[P_i(e_k-1),h]为h与P_i中所有头实体之间的语义距离；

第三语义距离确定模块，用于利用公式计算f与P_i所有尾实体之间的语义距离；d[P_i(e_k),f]为f与P_i所有尾实体之间的语义距离；

平均语义距离确定模块，用于利用公式

计算P_i的平均语义距离；

最优路径确定模块，用于将平均语义距离最大的路径作为h到达f的最优路径；

优化模块，用于根据最优路径优化三元组t_k＝(h,r,f)。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于语音识别的文本确定方法及系统，先对所述语音文件生成第一文本进行预处理，去除第一文本中口语化词汇、重复的短语和重复的短句；再提取预处理后的所述第一文本中所有的实体，根据实体确定三元组，最后对所有三元组进行重组确定第二文本。通过根据实体确定三元组降低了因实信息残缺和混乱对信息理解的影响，避免了语法结构混乱现象的发生，进而提高了文本信息的可读性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于语音识别的文本确定方法流程示意图；

图2为本发明所提供的一种基于语音识别的文本确定系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于语音识别的文本确定方法流程示意图，如图1所示，本发明所提供的一种基于语音识别的文本确定方法，包括：

S101，获取语音文件。所述语音文件是通过待识别者利用录音设备进行录音得到；

S102，根据所述语音文件生成第一文本。所述语音文件通过语音识别系统生成第一文本。所述第一文本包括口语化词汇、重复短语以及重复短句；所述第一文本为不符合语法结构的文本。

例如所述第一文本含有大量的“嗯”、“啊”、“哦”、“对”等口语化词汇，也包含有比较多的“.....我认为”，“恩”，“我认为.....”等重复的短语或者短句。另外，生成的所述第一文本还会受不同声源的干扰，导致文本可读性差。

S103，对所述第一文本进行预处理。其中，预处理后的第一文本为去除所述第一文本中口语化词汇、重复短语和重复短句的文本。

采用正则表达式的方法去除所述第一文本中的口语化词汇和重复短语，

采用模板匹配的方法去除所述第一文本中的重复短句。

S104，采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合。所述实体是对复合信息的抽象，所述实体包括时间、地点、人名或者组织机构。预处理后的第一文本还存在大量的语法错误，如语法结构不完整，缺主语、宾语，指代不明等，往往需要借助上下文，才能理解文本所要表达的意思。因此，通过S104校正所述预处理后的第一文本中不符合语法规则的句子和段落。具体过程为：

对预处理后的第一文本中进行分句处理，得到多个文本段落。具体的按照标点符号进行分句处理。

对每一个所述文本段落进行分词处理。

对分词后的文本段落采用BERT算法提取所述实体。

将所有所述实体按照时间顺序进行排序，得到实体集合。

S105，对所述实体集合中的所有实体采用注意力模型确定多个三元组；所述三元组包括头实体、头实体和尾实体之间的实体关系以及尾实体；所述头实体的时间顺序先于尾实体的时间顺序。

获取三元组t_k＝(h,r,f)；h为头实体，f为尾实体，r为头实体和尾实体之间的实体关系。

根据知识库中的有向图确定头实体到达尾实体的多条路径。

获取从h到达f的第i条路径P_i，P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),...(e_k-1,r_k,e_k),...(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系。

利用公式计算r与P_i中所有实体关系的语义距离；d[P_i(r_k),r]为r与P_i中所有实体关系的语义距离。

利用公式计算h与P_i中所有头实体之间的语义距离；d[P_i(e_k-1),h]为h与P_i中所有头实体之间的语义距离。

利用公式计算f与P_i所有尾实体之间的语义距离；d[P_i(e_k),f]为f与P_i所有尾实体之间的语义距离。

利用公式计算P_i的平均语义距离。

将平均语义距离最大的路径作为h到达f的最优路径。

根据最优路径优化三元组t_k＝(h,r,f)。

S106，对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本。

本发明所提供的一种基于语音识别的文本确定方法通过从口语化文本提取实体及其三元组，降低了因实信息残缺和混乱对信息理解的影响。基于知识库，利用了的实体之间各种关系，包括隐性的和显性关系，对实体之间的关系进行推理，提升信息缺失的修复能力。本方法采用知识推理，与知识库的质量息息相关。因此，若知识库中的知识足够丰富、关系足够完本，它的应用也就越广泛。

图2为本发明所提供的一种基于语音识别的文本确定系统结构示意图，如图2所示，本发明所提供的一种基于语音识别的文本确定系统，包括：语音文件获取模块201、第一文本生成模块202、第一文本预处理模块203、实体集确定模块204、多元组确定模块205和第二文本确定模块206。

语音文件获取模块201用于获取语音文件。

第一文本生成模块202用于根据所述语音文件生成第一文本；所述第一文本包括口语化词汇、重复短语以及重复短句；所述第一文本为不符合语法结构的文本。

第一文本预处理模块203用于对所述第一文本进行预处理；其中，预处理后的第一文本为去除所述第一文本中口语化词汇、重复短语和重复短句的文本。

实体集确定模块204用于采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合；所述实体是对复合信息的抽象，所述实体包括时间、地点、人名或者组织机构。

多元组确定模块205用于对所述实体集合中的所有实体采用注意力模型确定多个三元组；所述三元组包括头实体、头实体和尾实体之间的实体关系以及尾实体；所述头实体的时间顺序先于尾实体的时间顺序。

第二文本确定模块206用于对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本。

所述第一文本预处理模块203具体包括：正则表达式预处理单元和模板匹配预处理单元。

正则表达式预处理单元用于采用正则表达式的方法去除所述第一文本中的口语化词汇和重复短语。

模板匹配预处理单元用于采用模板匹配的方法去除所述第一文本中的重复短句。

所述实体集合确定模块具体包括：文本段落确定单元、分词处理确定单元、实体提取单元和实体集合确定单元。

文本段落确定单元用于对预处理后的第一文本中进行分句处理，得到多个文本段落。

分词处理确定单元用于对每一个所述文本段落进行分词处理，

实体提取单元用于对分词后的文本段落采用BERT算法提取所述实体。

实体集合确定单元用于将所有所述实体按照时间顺序进行排序，得到实体集合。

本发明所提供的一种基于语音识别的文本确定系统还包括：三元组获取模块、多个路径确定模块、第i条路径获取模块、第一语义距离确定模块、第二语义距离确定模块、第三语义距离确定模块、平均语义距离确定模块、最优路径确定模块和优化模块。

三元组获取模块用于获取三元组t_k＝(h,r,f)；h为头实体，f为尾实体，r为头实体和尾实体之间的实体关系。

多个路径确定模块用于根据知识库中的有向图确定头实体到达尾实体的多条路径。

第i条路径获取模块用于获取从h到达f的第i条路径P_i，P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),...(e_k-1,r_k,e_k),...(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系。

第一语义距离确定模块用于利用公式计算r与P_i中所有实体关系的语义距离；d[P_i(r_k),r]为r与P_i中所有实体关系的语义距离。

第二语义距离确定模块用于利用公式计算h与P_i中所有头实体之间的语义距离；d[P_i(e_k-1),h]为h与P_i中所有头实体之间的语义距离。

第三语义距离确定模块用于利用公式计算f与P_i所有尾实体之间的语义距离；d[P_i(e_k),f]为f与P_i所有尾实体之间的语义距离。

平均语义距离确定模块用于利用公式

计算P_i的平均语义距离。

最优路径确定模块用于将平均语义距离最大的路径作为h到达f的最优路径。

优化模块用于根据最优路径优化三元组t_k＝(h,r,f)。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语音识别的文本确定方法，其特征在于，包括：

获取语音文件；

对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本；

所述对所述实体集合中的所有实体采用注意力模型确定多个三元组，之后还包括：

根据知识库中的有向图确定头实体到达尾实体的多条路径；

获取从h到达f的第i条路径P_i，

P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),...(e_k-1,r_k,e_k),...(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系；

利用公式计算P_i的平均语义距离；

将平均语义距离最大的路径作为h到达f的最优路径；

根据最优路径优化三元组t_k＝(h,r,f)。

2.根据权利要求1所述的一种基于语音识别的文本确定方法，其特征在于，所述对所述第一文本进行预处理，具体包括：

采用模板匹配的方法去除所述第一文本中的重复短句。

3.根据权利要求1所述的一种基于语音识别的文本确定方法，其特征在于，所述采用BERT算法提取所述预处理后的第一文本中的所有实体，得到实体集合，具体包括：

对每一个所述文本段落进行分词处理；

对分词后的文本段落采用BERT算法提取所述实体；

将所有所述实体按照时间顺序进行排序，得到实体集合。

4.一种基于语音识别的文本确定系统，其特征在于，包括：

语音文件获取模块，用于获取语音文件；

第二文本确定模块，用于对所有所述三元组进行重组，确定第二文本；所述第二文本为符合语法结构的文本；

第i条路径获取模块，用于获取从h到达f的第i条路径P_i，P_i＝{(h,r₁,e₁),(e₁,r₂,e₂),…(e_k-1,r_k,e_k),…(e_n-1,r_n,f)}；e_k为从h到达f的第i条路径P_i中经过的第k个实体，e₀＝h，e_n＝f，k＝1,2..n；r_k为第k-1个实体和第k个实体之间的实体关系；

平均语义距离确定模块，用于利用公式计算P_i的平均语义距离；

优化模块，用于根据最优路径优化三元组t_k＝(h,r,f)。

5.根据权利要求4所述的一种基于语音识别的文本确定系统，其特征在于，所述第一文本预处理模块具体包括：

6.根据权利要求4所述的一种基于语音识别的文本确定系统，其特征在于，所述实体集合确定模块具体包括：