CN113450803B

CN113450803B - 会议录音转写方法、系统、计算机设备和可读存储介质

Info

Publication number: CN113450803B
Application number: CN202110644427.5A
Authority: CN
Inventors: 刘晨
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2024-03-19
Anticipated expiration: 2041-06-09
Also published as: CN113450803A

Abstract

本申请涉及一种会议录音转写方法、系统、计算机和存储介质，其中，该方法包括：热词语料集合构建步骤，获取待转写的会议录音信息，根据会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；识别解码网络构建步骤，构建识别解码网络；语音信号解码步骤，获取待转写的会议录音，利用所述识别解码网络解码所述会议录音的每帧语音信号，并在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，通过最优节点获取其对应的单词序列；热词解码增强步骤，在语音信号解码步骤中根据热词语料集合对所述活跃节点的历史路径进行增强。通过本申请，实现对热词识别的有效增强，提高会议录音转写对热词的识别效果。

Description

会议录音转写方法、系统、计算机设备和可读存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及会议录音转写方法、系统、计算机设备和计算机可读存储介质。

背景技术

越来越多的会议录音亟待发掘其中的价值，这就需要从录音转换成文字。语音识别作为如今普遍的处理上述问题的技术，已经广泛运用于手机助手、智能音箱和智能客服等场景。然而随着各行各业大量会议录音的产生，通用语音识别已经难以处理各种专业性较高甚至生涩难懂的词汇，导致会议录音转写的质量往往无法令人满意。

通用语音识别技术预先基于海量数据训练的系统能满足常用语音输入撰写的需要，特别当语音输入内容符合原语言模型概率分布时识别准确率往往较高。然而在实际应用中，移动互联网和社交网络快速发展不断产生着新的热点话题及相应的热点词汇，不同用户也存在不同个性化词汇的识别需求，如联络人名等，这些热点词汇或个性化词汇由于时效性和特异性在原始采集的语料中往往出现频度较低，因而原语言模型对该类词汇往往覆盖不足，进而导致相应识别系统不能准确识别该类热词。

会议录音转写的质量依赖于关键词和关键语句的正确识别，而这些专业的，需要重点关注的词汇一般称之为热词，即热门词汇。热词既包括上述的专业领域词汇，也包括最近比较热门的新颖词汇，对于热词的识别一直是语音识别领域的一大难题，也是使会议录音转写更好满足用户需求的一大契合点。

现有语音识别技术一般缺乏对于专业热词和实时热词的支持，考虑到专业热词的搜集和整理有比较高的门槛，无法比较全面正确的获取；实时热词由于对时效性以及整合进系统的速度要求较高，也存在无法及时更新的困难。为了保证会议录音转写的用户体验，必须有一个比较好的方案去解决如何提高热词识别的难题。

为此，目前会议录音转写或者语音识别过程中对于热词识别主要通过加强语言模型，采用系统参数重估的方法，在将新收集的热词语料加入原语料库后，重新训练新的语言模型以提高对新增热词的识别准确率。然而，在实际应用中，热词更新频度往往较高，而所需热词考虑其专业性和复杂性，获取足质足量的语料有相当大的难度，现有技术无法及时收集足够语料参与系统参数重估，进而影响对热词的识别效果。另一方面，语言模型的重新训练以及识别系统资源，如基于WFST(Weighted Finite-State Transducers，加权有限状态转换器)的解码识别网络，的构建往往费时较多，代价较大，无法实现对热词识别的快速响应。

目前针对上述热词识别及时更新困难、无法实现对热词识别的快速响应的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种会议录音转写方法、系统、计算机设备和计算机可读存储介质，保证在原语言模型不做变动的情况下实现对热词的精确识别，解决现有技术无法快速、准确识别会议特定领域的专业词汇和实时热点词汇以及用户个性化词汇的技术问题。

第一方面，本申请实施例提供了一种会议录音转写方法，包括：

热词语料集合构建步骤，获取用户提交的待转写的会议录音信息，根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；

识别解码网络构建步骤，构建识别解码网络；具体的，所述识别解码网络为基于WFST的识别解码网络。

语音信号解码步骤，获取待转写的会议录音，利用所述识别解码网络解码所述会议录音的每帧语音信号，并在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，通过最优节点获取其对应的单词序列；

热词解码增强步骤，在语音信号解码步骤中根据所述热词语料集合对所述活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，使热词路径能在解码过程中被选出。

在其中一些实施例中，所述热词语料集合构建步骤进一步包括：

会议录音信息获取步骤，获取用户提交的待转写的会议录音信息，所述会议录音信息包括会议录音的文件名和用户填写的附带信息，所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；

关键词获取步骤，对所述会议录音信息进行文本预处理，并利用命名实体识别方法(Named Entity Recognition，NER)获取所述会议录音信息的关键词；所述文本预处理通常包括获取原始文本、分词、文本清洗、标准化；所述命名实体识别方法包括关系抽取、实体属性值抽取。

热词扩展数据获取步骤，根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。其中，所述内部知识库中用于存储各领域经过清洗的大量干净数据，具有结构化、层次化优点。

在其中一些实施例中，所述热词扩展数据获取步骤进一步包括：

热词扩展数据外部获取步骤，通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词，并通过搜索引擎搜索所述关键词获取其平行语料，对所述平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；其中，所述网络百科包括维基百科和/或百度百科。

热词扩展数据内部获取步骤，根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据B；具体的，所述相关性计算可以是基于TF-IDF计算(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)或语义近似度计算。

热词扩展数据处理步骤，对所述热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合。其中，所述热词数据B配置为权重高于所述热词数据A。

在其中一些实施例中，所述识别解码网络构建步骤进一步包括：

Top解码网络构建步骤，构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；具体的，所述Top Level识别解码网络(简称为Top解码网络)与传统解码网络的区别在于配置有某些输入标签采用所述自定义标签，举例而非限制，如TopLevel识别解码网络的某些弧上的输入标签为“#nonterm:contact_list”，该标签用户表示联系人类别。

Sub解码网络构建步骤，构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息；具体的，所述Sub Level识别解码网络(简称为Sub解码网络)为Top Level识别解码网络在自定义标签的扩展，举例而非限制，如前述输入标签“#nonterm:contact_list”在Sub Level识别解码网络中为小明、小李等具体姓名。

其中，当所述Top Level识别解码网络识别到所述自定义标签时，自动动态加载对应的Sub Level识别解码网络，进入到Sub Level识别解码网络中解码对应内容，以便于实现热词增强的作用。

在其中一些实施例中，所述Top解码网络、Sub解码网络配置为根据热词语料集合进行匹配解码对应内容。

第二方面，本申请实施例提供了一种会议录音转写系统，包括：

热词语料集合构建模块，用于获取用户提交的待转写的会议录音信息，根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；

识别解码网络构建模块，用于构建识别解码网络；具体的，所述识别解码网络为基于WFST的识别解码网络。

语音信号解码模块，用于获取待转写的会议录音，利用所述识别解码网络解码所述会议录音的每帧语音信号，并在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，通过最优节点获取其对应的单词序列；

热词解码增强模块，用于在语音信号解码模块解码过程中根据所述热词语料集合对所述活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，使热词路径能在解码过程中被选出。

在其中一些实施例中，所述热词语料集合构建模块进一步包括：

会议录音信息获取模块，用于获取用户提交的待转写的会议录音信息，所述会议录音信息包括会议录音的文件名和用户填写的附带信息，所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；

关键词获取模块，用于对所述会议录音信息进行文本预处理，并利用命名实体识别方法获取所述会议录音信息的关键词；所述文本预处理通常包括获取原始文本、分词、文本清洗、标准化；所述命名实体识别方法包括关系抽取、实体属性值抽取。

热词扩展数据获取模块，用于根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。其中，所述内部知识库中用于存储各领域经过清洗的大量干净数据，具有结构化、层次化优点。

在其中一些实施例中，所述热词扩展数据获取模块进一步包括：

热词扩展数据外部获取模块，用于通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词，并通过搜索引擎搜索所述关键词获取其平行语料，对所述平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；其中，所述网络百科包括维基百科和/或百度百科。

热词扩展数据内部获取模块，用于根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据B；具体的，所述相关性计算可以是基于TF-IDF计算或语义近似度计算。

热词扩展数据处理模块，用于对所述热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合。其中，所述热词数据B配置为权重高于所述热词数据A。

基于上述模块，本申请采用内、外部搜索结合的方式，可以既满足热词的时效性也借助内部丰富的垂类知识库获取更广泛的热词覆盖，达到尽可能多的识别录音中的各种热词。

在其中一些实施例中，所述识别解码网络构建模块进一步包括：

Top解码网络构建模块，用于构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；具体的，所述Top Level识别解码网络(简称为Top解码网络)与传统解码网络的区别在于配置有某些输入标签采用所述自定义标签，举例而非限制，如Top Level识别解码网络的某些弧上的输入标签为“#nonterm:contact_list”，该标签用户表示联系人类别。

Sub解码网络构建模块，用于构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息；具体的，所述Sub Level识别解码网络(简称为Sub解码网络)为Top Level识别解码网络在自定义标签的扩展，举例而非限制，如前述输入标签“#nonterm:contact_list”在Sub Level识别解码网络中为小明、小李等具体姓名。

其中，所述Top Level识别解码网络配置为识别到所述自定义标签时，自动动态加载对应的Sub Level识别解码网络，进入到Sub Level识别解码网络中解码对应内容，以便于实现热词增强的作用。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的会议录音转写方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的会议录音转写方法。

相比于相关技术，本申请实施例提供的会议录音转写方法、系统、计算机设备和计算机可读存储介质，涉及一种深度学习技术，本申请根据用户提供的会议录音信息获取热词语料，并基于热词匹配对活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，通过实现基于增量的热词解码增强，实现对热词识别的有效增强，提高会议录音转写对热词的识别效果；无需对识别解码网络的参数重估、重训练，即可快速、准确识别热词，为支持海量领域的录音转写提供了一种可行的解决方案，支持对用户个性化定制词汇的识别，极大降低对冷门领域词汇的识别障碍，提升用户体验。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的会议录音转写方法的流程图；

图2是根据本申请实施例的会议录音转写方法的分步骤流程图；

图3是根据本申请另一实施例的会议录音转写方法的分步骤流程图；

图4是根据本申请优选实施例的会议录音转写方法的流程图；

图5是根据本申请优选实施例的会议录音转写方法的分步骤流程图；

图6是根据本申请优选实施例的会议录音转写方法的另一分步骤流程图；

图7是根据本申请实施例的会议录音转写方法中基于WFST的识别解码网络示意图；

图8是根据本申请实施例的会议录音转写方法的热词语料集合的示意图；

图9是根据本申请实施例的会议录音转写方法的热词权重配置示意图；

图10是根据本申请实施例的会议录音转写系统的结构框图；

图11是根据本申请实施例的会议录音转写系统的另一结构框图；

图12是根据本申请实施例的会议录音转写系统的另一结构框图。

附图说明：

1、热词语料集合构建模块；2、识别解码网络构建模块；

3、语音信号解码模块；4、热词解码增强模块；

11、会议录音信息获取模块；12、关键词获取模块；

13、热词扩展数据获取模块；21、Top解码网络构建模块；

22、Sub解码网络构建模块；131、热词扩展数据外部获取模块；

132、热词扩展数据内部获取模块；133、热词扩展数据处理模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

现有技术方案处理专业性和领域性强的会议录音，让用户提供热词难度较大，质量不高且覆盖面不广，同时，热词增强需要重新训练模型，代价高、耗费大，往往需要3-4天的时间实现更新迭代。为了避免上述现有技术的问题，本申请实施例提供了一种会议录音转写方法、系统、计算机设备及计算机可读存储介质。进一步陈述如下。

本实施例提供了一种会议录音转写方法。图1-2是根据本申请实施例的会议录音转写方法的流程图，如图1-2所示，该流程包括如下步骤：

热词语料集合构建步骤S1，获取用户提交的待转写的会议录音信息，根据会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；通过本步骤迅速通过索引获取热词相关的语料，热词相关的语料可以是直接相关和根据实体关系间接相关的热词，以用于增强热词识别的热词语料库。

识别解码网络构建步骤S2，构建识别解码网络；具体的，识别解码网络为基于WFST的识别解码网络，如图7所示为基于WFST的识别解码网络示意图；

语音信号解码步骤S3，获取待转写的会议录音，利用识别解码网络解码会议录音的每帧语音信号，并在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，通过最优节点获取其对应的单词序列；

热词解码增强步骤S4，在语音信号解码步骤S3中根据热词语料集合对活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，使热词路径能在解码过程中被选出。

基于上述步骤，本申请根据用户提供的会议录音信息获取热词语料，并基于热词匹配对活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，实现对热词识别的有效增强，提高了会议录音转写对热词的识别效果。

在其中一些实施例中，热词语料集合构建步骤S1进一步包括：

会议录音信息获取步骤S11，获取用户提交的待转写的会议录音信息，会议录音信息包括会议录音的文件名和用户填写的附带信息，附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；

关键词获取步骤S12，对会议录音信息进行文本预处理，并利用命名实体识别方法获取会议录音信息的关键词；文本预处理通常包括获取原始文本、分词、文本清洗、标准化；命名实体识别方法包括关系抽取、实体属性值抽取。

热词扩展数据获取步骤S13，根据关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。其中，内部知识库中用于存储各领域经过清洗的大量干净数据，具有结构化、层次化优点。

基于上述步骤，本申请通过热词内部离线、外部在线搜集和热词增强，实现了自动化根据现有会议录音信息收集热词语料集合，无需用于专门定义或搜集热词，有效降低用户提供的难度；基于如上的热词语料集合，本申请无需对识别解码网络的参数重估、重训练，即可快速、准确识别热词，将现有技术更新迭代时间加速到秒级，为支持海量领域的录音转写提供了一种可行的解决方案，支持对用户个性化定制词汇的识别，极大降低对冷门领域词汇的识别障碍，提升用户体验。

在其中一些实施例中，热词扩展数据获取步骤S13进一步包括：

热词扩展数据外部获取步骤S131，通过网络爬虫搜集公开知识图谱数据和/或网络百科中关键词的同义词和/或近义词，并通过搜索引擎搜索关键词获取其平行语料，对平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；其中，网络百科包括维基百科和/或百度百科。

热词扩展数据内部获取步骤S132，根据关键词在内部知识库中的通过相关性计算得到热词数据B；具体的，相关性计算可以是基于TF-IDF计算或语义近似度计算。

热词扩展数据处理步骤S133，对热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合，该处理过程得到的热词语料集合采用如图8所示的树形结构。其中，考虑到热词数据A为通过互联网获取的，其质量略低于内部知识库得到的热词数据B，因此，其在热词增强过程中的权重应低于热词数据B，以使高质量热词数据优先在热词解码过程中被识别，基于上述考虑，本申请实施例的热词数据B配置为权重高于热词数据A，举例如图9所示，但不应认为图9所示的热词数据A、B的权重为对本申请实施例的限制。

基于上述步骤，本申请采用内、外部搜索结合的方式，可以既满足热词的时效性也借助内部丰富的垂类知识库获取更广泛的热词覆盖，达到尽可能多的识别录音中的各种热词。

另外，识别解码网络的构建可以采用现有技术的构建方法，如上述实施例所示，也可以采用其他方式的解码识别网络。本实施例还提供了一种会议录音转写方法。图3是根据本申请实施例的另一种会议录音转写方法的分步骤流程图，如图3所示，该流程相较于上述实施例的区别之处在于，识别解码网络构建步骤S2进一步包括如下步骤：

Top解码网络构建步骤S21，构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；具体的，Top Level识别解码网络与传统解码网络的区别在于配置有某些输入标签采用自定义标签，举例而非限制，如Top Level识别解码网络的某些弧上的输入标签为“#nonterm:contact_list”，该标签用户表示联系人类别。

Sub解码网络构建步骤S22，构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息；具体的，Sub Level识别解码网络为Top Level识别解码网络在自定义标签的扩展，举例而非限制，如前述输入标签“#nonterm:contact_list”在SubLevel识别解码网络中为小明、小李等具体姓名。

其中，当Top Level识别解码网络识别到自定义标签时，自动动态加载对应的SubLevel识别解码网络，进入到Sub Level识别解码网络中解码对应内容，以便于实现热词增强的作用。具体的，Top解码网络、Sub解码网络配置为根据热词语料集合进行匹配解码对应内容。

基于上述步骤，本申请实施例由于Sub Level识别解码网络的图比较小，当网络获取到新的人名时，直接扩展后重新构建Sub Level识别解码网络即可，相较于重新训练整个网络模型大大降低成本，可以快速、准确识别扩展后的热词。下面通过优选实施例对本申请实施例进行描述和说明。

图4-6是根据本申请优选实施例的会议录音转写方法的流程图。如图4-6所示，该流程包括如下步骤：

步骤S401：构建热词语料集合，根据用户提交的需要转写的会议录音信息，包括文件名及用户附带信息，通过网络爬虫或者内部知识库迅速索引获取热词相关的语料，直接相关和根据实体关系间接相关的热词；具体的，对这些会议录音信息的文本内容进行预处理和分词，利用关系抽取、实体属性值抽取等命名实体识别方法获取文本内容的关键词，以这些关键词为种子词，分别通过网络公开数据爬虫和通过内部知识库获得热词扩展数据。如图5所示，热词扩展数据的获取进一步包括：

步骤S501：通过网络爬虫搜集公开知识图谱数据下的同义词和近义词，搜集百度百科和维基百科等相关数据，使用搜索引擎通过搜索种子词获取平行语料，再通过同义词映射和扩展查询等方法，得到热词数据A。

步骤S502：内部知识库存在各个领域大量经过清洗的干净数据，具有结构化、层次化等特点，使用种子词在内部知识库中通过相关性计算(TF-IDF或者语义近似度)等方法获取热词数据B；

步骤S503：将热词数据A和B通过合并、去重处理后形成热词语料集合，考虑热词数据A通过互联网获取质量略微低于内部知识库，其在热词增强模块赋予的权重设为低于热词数据B，使得高质量热词数据在热词解码过程中优先被识别出来。

步骤S402：构建增强热词的识别解码网络；

步骤S403：接收语音信号帧，基于识别解码网络对其中每帧语音信号进行解码，在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，并基于最优节点回溯得到最优路径及其对应的单词序列。

步骤S404：在解码模块解码过程中根据热词对活跃节点的历史路径进行增强，以提高热词所在路径的累积历史路径概率，使得热词路径能在解码模块的解码过程中被选出；如图6所示，步骤S404的具体原理为：

获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；

根据热词语料集合判断历史路径上邻近单词是否构成一条热词；

若是，则提高历史路径的累积历史路径概率；

若不是，则保持历史路径的累积历史路径概率。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，热词扩展数据外部获取步骤S131和热词扩展数据内部获取步骤S132的顺序执行可交换执行顺序。

本实施例还提供了一种会议录音转写系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10-11是根据本申请实施例的会议录音转写系统的结构框图，如图10-11所示，该系统包括：

热词语料集合构建模块1，用于获取用户提交的待转写的会议录音信息，根据会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；通过本模块迅速通过索引获取热词相关的语料，热词相关的语料可以是直接相关和根据实体关系间接相关的热词，以用于增强热词识别的热词语料库。其中，热词语料集合构建模块1进一步包括：会议录音信息获取模块11，用于获取用户提交的待转写的会议录音信息，会议录音信息包括会议录音的文件名和用户填写的附带信息，附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；关键词获取模块12，用于对会议录音信息进行文本预处理，并利用命名实体识别方法获取会议录音信息的关键词；文本预处理通常包括获取原始文本、分词、文本清洗、标准化；命名实体识别方法包括关系抽取、实体属性值抽取。热词扩展数据获取模块13，用于根据关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。其中，内部知识库中用于存储各领域经过清洗的大量干净数据，具有结构化、层次化优点。基于此，本申请通过热词内部离线、外部在线搜集和热词增强，实现了自动化根据现有会议录音信息收集热词语料集合，无需用于专门定义或搜集热词，有效降低用户提供的难度；基于如上的热词语料集合，本申请无需对识别解码网络的参数重估、重训练，即可快速、准确识别热词，将现有技术更新迭代时间加速到秒级，为支持海量领域的录音转写提供了一种可行的解决方案，支持对用户个性化定制词汇的识别，极大降低对冷门领域词汇的识别障碍，提升用户体验。

可选的，热词扩展数据获取模块13进一步包括：热词扩展数据外部获取模块131，用于通过网络爬虫搜集公开知识图谱数据和/或网络百科中关键词的同义词和/或近义词，并通过搜索引擎搜索关键词获取其平行语料，对平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；其中，网络百科包括维基百科和/或百度百科。热词扩展数据内部获取模块132，用于根据关键词在内部知识库中的通过相关性计算得到热词数据B；具体的，相关性计算可以是基于TF-IDF计算或语义近似度计算。及热词扩展数据处理模块133，用于对热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合。其中，考虑到热词数据A为通过互联网获取的，其质量略低于内部知识库得到的热词数据B，因此，其在热词增强过程中的权重应低于热词数据B，以使高质量热词数据优先在热词解码过程中被识别，基于上述考虑，本申请实施例的热词数据B配置为权重高于热词数据A。从而本申请实施例采用内、外部搜索结合的方式，可以既满足热词的时效性也借助内部丰富的垂类知识库获取更广泛的热词覆盖，达到尽可能多的识别录音中的各种热词。

识别解码网络构建模块2，用于构建识别解码网络；具体的，识别解码网络为基于WFST的识别解码网络。

语音信号解码模块3，用于获取待转写的会议录音，利用识别解码网络解码会议录音的每帧语音信号，并在完成最后一帧语音信号解码后，选择最大累计概率的活跃节点作为最优节点，通过最优节点获取其对应的单词序列；

热词解码增强模块4，用于在语音信号解码模块3解码过程中根据热词语料集合对活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，使热词路径能在解码过程中被选出。

基于上述模块，本申请根据用户提供的会议录音信息获取热词语料，并基于热词匹配对活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率，实现对热词识别的有效增强，提高了会议录音转写对热词的识别效果。

图12是根据本申请实施例的会议录音转写系统的另一结构框图，如图12所示，该系统包括图10-11所示的所有模块，此外识别解码网络构建模块2进一步包括：

Top解码网络构建模块21，用于构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；具体的，Top Level识别解码网络与传统解码网络的区别在于配置有某些输入标签采用自定义标签，举例而非限制，如Top Level识别解码网络的某些弧上的输入标签为“#nonterm:contact_list”，该标签用户表示联系人类别。

Sub解码网络构建模块22，用于构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息；具体的，Sub Level识别解码网络为Top Level识别解码网络在自定义标签的扩展，举例而非限制，如前述输入标签“#nonterm:contact_list”在Sub Level识别解码网络中为小明、小李等具体姓名。

其中，Top Level识别解码网络配置为识别到自定义标签时，自动动态加载对应的Sub Level识别解码网络，进入到Sub Level识别解码网络中解码对应内容，以便于实现热词增强的作用。具体的，Top解码网络、Sub解码网络配置为根据热词语料集合进行匹配解码对应内容。

基于上述模块，本申请实施例由于Sub Level识别解码网络的图比较小，当网络获取到新的人名时，直接扩展后重新构建Sub Level识别解码网络即可，相较于重新训练整个网络模型大大降低成本，可以快速、准确识别扩展后的热词。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1～图9描述的本申请实施例会议录音转写方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random AccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种会议录音转写方法。

该计算机设备可以基于获取到的会议录音信息及文件，执行本申请实施例中的会议录音转写方法，从而实现结合图1～图9描述的会议录音转写方法。

另外，结合上述实施例中的会议录音转写方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种会议录音转写方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会议录音转写方法，其特征在于，包括：

热词语料集合构建步骤，获取待转写的会议录音信息，根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；

识别解码网络构建步骤，构建识别解码网络，所述识别解码网络构建步骤进一步包括：

Top解码网络构建步骤，构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；

Sub解码网络构建步骤，构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息，Sub Level识别解码网络为Top Level识别解码网络在自定义标签的扩展；

其中，当所述Top Level识别解码网络识别到所述自定义标签时，自动动态加载对应的Sub Level识别解码网络，进入到Sub Level识别解码网络中解码对应内容；

热词解码增强步骤，在语音信号解码步骤中根据所述热词语料集合对所述活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率。

2.根据权利要求1所述的会议录音转写方法，其特征在于，所述热词语料集合构建步骤进一步包括：

会议录音信息获取步骤，获取待转写的会议录音信息，所述会议录音信息包括会议录音的文件名和用户填写的附带信息，所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；

关键词获取步骤，对所述会议录音信息进行文本预处理，并利用命名实体识别方法获取所述会议录音信息的关键词；

热词扩展数据获取步骤，根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。

3.根据权利要求2所述的会议录音转写方法，其特征在于，所述热词扩展数据获取步骤进一步包括：

热词扩展数据外部获取步骤，通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词，并通过搜索引擎搜索所述关键词获取其平行语料，对所述平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；

热词扩展数据内部获取步骤，根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据B；

热词扩展数据处理步骤，对所述热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合，其中，所述热词数据B配置为权重高于所述热词数据A。

4.一种会议录音转写系统，其特征在于，包括：

热词语料集合构建模块，用于获取待转写的会议录音信息，根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合；

识别解码网络构建模块，用于构建识别解码网络，所述识别解码网络构建模块进一步包括：

Top解码网络构建模块，用于构建Top Level识别解码网络并配置Top Level识别解码网络采用的自定义标签；

Sub解码网络构建模块，用于构建Sub Level识别解码网络并配置Sub Level识别解码网络的自定义标签扩展信息，Sub Level识别解码网络为Top Level识别解码网络在自定义标签的扩展；

其中，所述Top Level识别解码网络配置为识别到所述自定义标签时，自动动态加载对应的Sub Level识别解码网络，进入到Sub Level识别解码网络中解码对应内容；

热词解码增强模块，用于在语音信号解码模块解码过程中根据所述热词语料集合对所述活跃节点的历史路径进行增强，提高热词所在路径的累积历史路径概率。

5.根据权利要求4所述的会议录音转写系统，其特征在于，所述热词语料集合构建模块进一步包括：

会议录音信息获取模块，用于获取待转写的会议录音信息，所述会议录音信息包括会议录音的文件名和用户填写的附带信息，所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合；

关键词获取模块，用于对所述会议录音信息进行文本预处理，并利用命名实体识别方法获取所述会议录音信息的关键词；

热词扩展数据获取模块，用于根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。

6.根据权利要求5所述的会议录音转写系统，其特征在于，所述热词扩展数据获取模块进一步包括：

热词扩展数据外部获取模块，用于通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词，并通过搜索引擎搜索所述关键词获取其平行语料，对所述平行语料进行同义词和/或近义词映射和扩展查询，得到热词数据A；

热词扩展数据内部获取模块，用于根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据B；

热词扩展数据处理模块，用于对所述热词数据A、B通过文本合并、去重及分词处理后保存到热词语料集合，其中，所述热词数据B配置为权重高于所述热词数据A。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的会议录音转写方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述的会议录音转写方法。