CN109584882A

CN109584882A - 一种针对特定场景的语音转文字的优化方法及系统

Info

Publication number: CN109584882A
Application number: CN201811451421.0A
Authority: CN
Inventors: 黄奕然; 潘志锐; 马锋; 马如明
Original assignee: NANJING TIANSU AUTOMATION CONTROL SYSTEM CO Ltd
Current assignee: NANJING TIANSU AUTOMATION CONTROL SYSTEM CO Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-05
Anticipated expiration: 2038-11-30
Also published as: CN109584882B

Abstract

本发明提供一种针对特定场景的语音转文字的优化方法，其步骤包括：收集该特定业务场景所需的业务数据，根据采集到的数据，经过算法库和人工标注得到不同分类场景的文本库。在语音转换文字的过程中，将文字的内容做分词切割，然后通过tf‑idf词频算法将词语与训练得到的文本库做比对，根据词汇是否是属于文本库判断这句话中每个词的分类，最终将这些在文本库中有所属的词语作为语音转文字的依据，转换得到最接近该场景业务的文字。本发明还提出一种针对特定场景的语音转文字的优化系统，包括原始数据汇聚模块、文本词库模块、词汇识别模块。本发明可以提高语音识别功能在特定业务场景中的适应性，进而提高语音识别功能在各种场景中推广的可能性。

Description

一种针对特定场景的语音转文字的优化方法及系统

技术领域

本发明涉及一种已知特定场景下语音识别的优化方案，属于语音文字转换技术领域。

背景技术

医疗卫生是国家民生建设中的一个重要环节，随着全国医疗基础建设的不断普及和完善，高效的后勤管理和信息化建设成了众多医院逐步重视的问题。目前国内很多医院的后勤管理方式正处于从以人为参与为主向信息化自动化转型的阶段，这其中也存在一些特殊场景和问题。

医院后勤工作人员的平均信息化水平偏低，在使用复杂的界面来处理复杂流程操作或信息查询时，会感觉相较传统的纸质方式更加困难，宁愿选择传统方式。为了让工作人员更容易地使用信息化系统，人工智能、语音录入的方案逐渐被一些软件系统使用，工作人员直接将通过语音对话的方式录入业务信息，系统自动识别出语义并代为执行操作。这样的方式可以有效降低医院后勤工作人员对信息化后勤系统的使用门槛，提高系统功能的使用率。

常规的人工智能自然语言处理的方式是针对普遍大众的日常使用，并没有对某一个特定领域做处理，所以在特定领域使用常规方式时会出现一些问题：

（1）、常规通用的语音识别工具会出现在语音转文字的时候遗漏第一个字和最后一个字的情况，这种情况在日常使用中，对使用者判断语义影响不大，但是对于需要将语音识别为业务信息并自动执行的智能后勤系统来说，会引起业务无法识别的情况，比如说：“告诉我今日我的所有空调保修”，如果系统识别结果是“告诉我今日我的所有空调保”，则会使系统无法识别出具体业务。

（2）、常规的语音转换功能存在一定的业务场景缺陷，对于医院后勤领域一些生僻的、专有的、不常见的词语会经常出现翻译错误的情况，通用翻译会以符合通用语言逻辑的结果作为优先选项，如“保修”会和“暴雪”等日常词汇混淆，使系统无法准备识别出具体业务。

（3）、对于通用语音识别工具来说，一些读音相近的词会因为没有场景前提、没有权重的关系导致遇到模棱两可的选择，如“保修”和“报销”都是符合系统的两种实际存在的业务。

发明内容

本发明所要解决的技术问题在于针对人工智能自然语言处理在特定领域中出现的一些问题，提出一种针对特定场景的语音转文字的优化方式，以解决通用方式适应性不够的问题，使转换结果更加趋向于该场景的业务，提高语音转文字的准确性以及对场景的适应性。

本发明为了解决上述技术问题，而采用以下技术方案：

本发明所提出的一种针对特定场景的语音转文字的优化方法，包括以下步骤：

（1）首先收集该特定业务场景所需的业务数据，根据采集到的数据，经过算法库和人工标注得到不同分类场景的文本库；

（2）在语音转换文字的过程中，当一条语音被录入系统中时，通过常规语音转换工具将语音转换为文字，然后将文字的内容做分词切割处理；

（3）将切割处理后的各个分词与步骤（1）训练得到的文本库做比对，通过tf-idf词频算法做统计，以确认各词汇是否是属于本系统的业务词汇；

（4）根据步骤（3）中的比对方法对该条语音的首尾词做有效性检查，确定首尾词语是否是有效词语，若不是，则在业务文本库中寻找最接近的词对其做补充修复；

（5）完成该语音的所有分词的修复处理后，最终得到最适应该业务场景的文字转换结果。

进一步的，本发明所提出的优化方法，步骤（1）收集该特定业务场景所需的业务数据，包括三种类型的数据：

（1）系统数据库中的业务数据，即本场景中固定的业务数据；

（2）语音翻译结果，通过人工标注的方式标明出易混淆的非本系统的词汇；

（3）修正后的数据。

进一步的，本发明所提出的优化方法，步骤（1）中所述得到不同分类场景的文本库，具体包括：常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库，在易混淆的非本系统业务词语词库中记录非本系统词语、本系统词语和业务标注。

进一步的，本发明所提出的优化方法，步骤（3）还包括对易混淆词语做处理：若属于业务词汇和日常词汇的混淆，则使用业务词汇，若是属于多个业务词汇之间的混淆，则根据使用者的身份做选择依据。

进一步的，本发明所提出的优化方法，步骤（4）所述修复具体如下：

（401）取第一个词和最后一个词，通过tf-idf词频算法和所有文本词库做对比，若词语在词库中是有所属的，则认为该词语是有意义的词语，若未发现所属，则认为这个词是出现转换遗漏的情况，从各词库中找出与这个词最相近的词用来替换这个词，以完成漏字修复。

（402）将所有分词依次和易混淆的非本系统业务词语词库、易混淆的非本系统业务词语词库、本系统业务词语词库各文本词库做对比分析；若有词语是属于易混淆的非本系统业务词语词库的，则将该词汇替换为这个词记录的对应的正确的本系统业务词汇，完成业务错词修复；

（403）若某个在易混淆的非本系统业务词语词库中有所属的词被标记了业务分类，需要根据使用者的身份识别出其所属的业务系统，然后选择该业务系统的词库对应的词汇；

（404）在完成业务错词修复以后，会把该语音所有在本系统业务词语词库有所属的词语做记录，视为这句话的业务语义。

本发明还提出一种针对特定场景的语音转文字的优化系统，包括原始数据汇聚模块、文本词库模块、词汇识别模块；其中，

原始数据汇聚模块，用于收集该特定业务场景所需的业务数据，根据采集到的数据，经过算法库和人工标注得到不同分类场景的文本库；

文本词库模块，用于将原始数据汇聚模块采集的所有数据划分为常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库，在易混淆的非本系统业务词语词库中记录非本系统词语、本系统词语和业务标注；

词汇识别模块，用于在语音转换文字的过程中，将文字的内容做分词切割，然后将词语与训练得到的文本库做比对，通过tf-idf词频算法做统计，以确认各词汇是否是属于本系统的业务词汇，同时确定首尾词语是否是有效词语，若不是，则在业务文本库中寻找最接近的词对其做补充修复。

进一步的，本发明所提出的一种针对特定场景的语音转文字的优化系统，原始数据汇聚模块具体包括：

业务数据收集单元，用于收集系统数据库中的业务数据，即本场景中固定的业务数据；

语音翻译标注单元，用于收集语音翻译结果，并通过人工标注的方式标明出语音翻译结果中易混淆的非本系统的词汇；

修正数据收集单元，用于收集修正后的数据。

本发明采用以上语音转文字的优化方案，与现有技术相比，具有以下技术效果：

本发明可以提高语音识别功能在特定业务场景中的适应性，使转换结果更加趋向于该场景的业务，提高语音转文字的准确性以及对场景的适应性。

附图说明

图1是本发明的业务主流程图。

图2是文本词库训练流程图。

图3是语音转换处理流程图。

图4是本发明的具体案例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例和说明书附图对本发明的技术方案进行清楚、完整的描述，显然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

首先参考图1所示，本发明提出一种针对特定场景的语音转文字的优化方法，具体流程如下：

（1）首先收集该特定业务场景所需的业务数据，根据采集到的数据，经过算法库和人工标注得到不同分类场景的文本库。

（2）在语音转换文字的过程中，当一条语音被录入系统中时，通过常规语音转换工具将语音转换为文字，然后将文字的内容做分词切割处理，接着将各个分词与训练得到的文本库做比对，通过tf-idf词频算法做统计，以确认各词汇是否是属于本系统的业务词汇。

（3）采用步骤（2）的方法对该条语音的首尾词做有效性检查，确定首尾词语是否是有效词语，若不是，则在业务文本库中寻找最接近的词对其做补充修复；同时，对易混淆词语做处理，若属于业务词汇和日常词汇的混淆，则使用业务词汇，若是属于多个业务词汇之间的混淆，则根据使用者的身份做选择依据。

（4）完成该语音的所有分词的修复处理后，最终得到最适应该业务场景的文字转换结果。

另一个方面，本发明提出一种针对特定场景的语音转文字的优化系统，包含原始数据汇聚模块、文本词库模块、词汇识别模块。其中，

原始数据汇聚模块，用于收集该特定业务场景所需的业务数据，根据采集到的数据，经过算法库和人工标注得到不同分类场景的文本库。

文本词库模块，用于将原始数据汇聚模块采集的所有数据分为常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库。

词汇识别模块，用于在语音转换文字的过程中，将文字的内容做分词切割，然后将词语与训练得到的文本库做比对，通过tf-idf词频算法做统计，以确认各词汇是否是属于本系统的业务词汇，同样的方法确定首尾词语是否是有效词语，若不是，则在业务文本库中寻找最接近的词对其做补充修复。

原始数据汇聚模块会汇聚三种类型的数据：

1.系统数据库中的业务数据，这类数据是本场景中固定的业务数据，比如“工单报修”菜单、“当月水能耗”指标，用户录入语音时，可能会在页面上参照这些名词来对话。他们的特性是相对固定、业务强相关、常引导用户使用。

2.语音翻译结果，这类数据为所有语音录入系统后，通过常规语音转化工具处理后的第一个结果，通常会包含大多数常见的错误翻译和选择。这类数据会通过人工标注的方式标明出哪些是易混淆的非本系统的词汇。

3.修正后的数据，这类数据为经过系统和人工纠正后的数据，和2中的数据相反，是作为遇到转换阻碍时优先选择的词语。

原始数据汇聚模块将收集完成的数据发送至文本词库模块，如图2所示，后者会将所有数据分为常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库：

1.常用语言习惯词库作为识别功能做语义识别的辅助，包括“请问”、“今天”、“当月”、“的情况”之类的通用词汇。

2.易混淆的非本系统业务词语词库，常为和本系统业务词汇的同音词或相较业务词汇更加常用的词语，会被常用语音识别工具优先翻译出。这类数据主要来源是原始数据模块中原始翻译结果中被人工标注出是错误信息的数据，在后续语音转化的过程中，作为判定是错误词汇的参考。同时这个词库里的词会记录其对应的正确的本系统业务词汇。若这个词在不同的业务词库中都有对应词语，则记录该词语的业务分类。

3.本系统业务词语词库，这类数据作为确定的本系统的业务词汇，会被优先转化，若这类词汇和易混淆词库中的词出现矛盾时，会优先使用该词库的词语。且该词库会根据业务功能做细化，如报修系统业务词汇、账单统计系统业务词汇。

词汇识别模块为语音转化过程的处理模块，以文本库的结果作为处理依据。当一条语音被录入后，模块会调用常规语音转化工具，将语音转化为文字，然后通过分词算法将这句话分为多个词语，然后将这些词通过tf-idf词频算法和各文本词语库作对比，若这个词在某一个库中的计算结果数值过高，则认为该词语是属于这个文本词库的，就可以确定分类。按照这个算法，词汇识别模块会将这句话的各个分词做以下步骤的修复：

1.取第一个词和最后一个词，通过tf-idf词频算法和所有文本词库做对比，若词语在词库中是有所属的，则认为该词语是有意义的词语，若未发现所属，则认为这个词是出现转换遗漏的情况。模块会从各词库中找出与这个词最相近的词（tf-idf计算值最高的词库中和这个词相似度最高的词）用来替换这个词，以完成漏字修复。

2.将所有分词依次和易混淆的非本系统业务词语词库、易混淆的非本系统业务词语词库、本系统业务词语词库各文本词库做对比分析。若有词语是属于易混淆的非本系统业务词语词库的，则将该词汇替换为这个词记录的对应的正确的本系统业务词汇，完成业务错词修复。

3.若某个在易混淆的非本系统业务词语词库中有所属的词被标记了业务分类，证明这个词不仅与日常用语易于混淆，而且在本系统中也易于混淆，需要根据业务判断，这时需要系统根据使用者的身份识别出其所属的业务系统，然后选择该业务系统的词库对应的词汇。

4.在完成业务错词修复以后，会把这句话所有在本系统业务词语词库有所属的词语做记录，视为这句话的业务语义。

如图3所示，是本发明的语音转换流程，具体如下：

（1）通过常规语音转换工具将语音转换为文字，然后将文字的内容做分词切割处理；

（2）将切割处理后该条语音的首尾词，通过tf-idf词频算法与训练得到的文本库做比对，进行有效性检查，确定首尾词语是否是有效词语，若不是，则在业务文本库中寻找最接近的词对其做补充修复；若是，则将所有分词依次和所有文本词库做tf-idf词频算法分析，检查是否是有所属关系；如有分词出现在易混淆文本词库中，判断易混淆词汇是否是业务词汇和日常词汇之间的混淆：

如果是，则将该词汇替换为这个词记录的对应的正确的本系统业务词汇，完成业务错词修复；

如果否，需要根据使用者的身份识别出其所属的业务系统，然后选择该所属业务系统的词库对应的词汇，来替换原分词，做错词修正；

（3）完成该语音的所有分词的修复处理后，最终得到最适应该业务场景的文字转换结果。

本发明的一个完成案例如图4所示，经过原始数据汇聚模块、文本词库模块的处理，得到常用语言习惯词库、易混淆的非本系统业务词语词库和本系统业务词语词库。在易混淆的非本系统业务词语词库中记录了非本系统词语、本系统词语和业务标注，“鼓掌”和“故障”为业务词语和日常词汇之间的易混淆词汇，因为该系统既有企业管理系统又有设备管理系统，所以“报销”和“报修”为业务之间的易混淆词汇，所以他们被标注所属的业务系统。在本系统业务词语词库中每个业务系统有自身独立的业务词语文本库。

当一句语音被录入后，通过常规语音转换工具被转换为“我想知道三楼机房的历史设备鼓掌和今日暴雪情”。

这句话会被分词为：我，想，知道，三楼，机房，的，历史，设备，鼓掌，和，今日，暴雪，情。

它会被经过以下处理。

1.“我”和“情况”会被检测有效性，结果是“我”通过检测，“情”在文本词库中无匹配，会用“情况”来替换修正。

2.其他剩下词语会进行文本词库分类判断，“三楼”和“机房”会被标记为空间地点，“今日”会被标记为常用词语。

3.“鼓掌”会被视为易混淆词语，在对应文本词库中找到本系统词汇“故障”并替换修正。

4.“暴雪”会被视为业务间易混淆词语，若提出者是输入设备管理系统的人员，则会用“报修”替换修正。

5. 最终得到的文字结果为：“我想知道三楼机房的历史设备故障和今日报修情况”。

本技术领域技术人员可以理解的是，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解的是，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

上面结合附图对本发明的实施方式作了详细地说明，但是本发明并不局限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种针对特定场景的语音转文字的优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的优化方法，其特征在于，步骤（1）收集该特定业务场景所需的业务数据，包括三种类型的数据：

（3）修正后的数据。

3.根据权利要求1所述的优化方法，其特征在于，步骤（1）中所述得到不同分类场景的文本库，具体包括：常用语言习惯词库、易混淆的非本系统业务词语词库、本系统业务词语词库，在易混淆的非本系统业务词语词库中记录非本系统词语、本系统词语和业务标注。

4.根据权利要求1所述的优化方法，其特征在于，步骤（3）还包括对易混淆词语做处理：若属于业务词汇和日常词汇的混淆，则使用业务词汇，若是属于多个业务词汇之间的混淆，则根据使用者的身份做选择依据。

5.根据权利要求1所述的优化方法，其特征在于，步骤（4）所述修复具体如下：

（401）取第一个词和最后一个词，通过tf-idf词频算法和所有文本词库做对比，若词语在词库中是有所属的，则认为该词语是有意义的词语，若未发现所属，则认为这个词是出现转换遗漏的情况，从各词库中找出与这个词最相近的词用来替换这个词，以完成漏字修复；

6.一种针对特定场景的语音转文字的优化系统，其特征在于，包括原始数据汇聚模块、文本词库模块、词汇识别模块；其中，

7.根据权利要求6所述的一种针对特定场景的语音转文字的优化系统，其特征在于，原始数据汇聚模块具体包括：

修正数据收集单元，用于收集修正后的数据。