CN111161739B

CN111161739B - 语音识别方法及相关产品

Info

Publication number: CN111161739B
Application number: CN201911389673.XA
Authority: CN
Inventors: 万根顺; 高建清; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2023-01-17
Anticipated expiration: 2039-12-28
Also published as: EP4083999A4; WO2021129439A1; CN111161739A; EP4083999A1; JP2023504796A; US20230035947A1; KR20220054587A; JP7413533B2

Abstract

本发明实施例公开一种语音识别方法及相关产品，本发明实施例中，通过获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据文本内容和文本时间信息确定预设场景的共享文本；依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。因此，本发明实施例的技术方案，可以利用预设场景中的终端获取预设场景的文本内容和文本时间信息以确定预设场景的共享文本，进而根据共享文本得到定制语言模型，由于定制语言模型与预设场景的相关性更高，利用定制语言模型执行预设场景的语音识别，可以有效提高语音识别的准确度。

Description

语音识别方法及相关产品

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及相关产品。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

现有技术中，对于会议、演讲、采访或者授课等场景，在进行现场语音识别之前，需要预先获知该场景的相关文本资料或者关键词等，以进行语音识别模型的更新，再利用更新后的语音识别模型进行语音识别，可以提升相应场景的领域识别效果。但是，由于该方案需要提前获知相关场景的资料，人为干预性较强，导致使用场景受限；而且，当使用场景中发生突发或临时性的主题变更等，原来的语音识别模型无法继续起到优化识别效果的作用，致使语音识别准确度低下，影响用户的整体体验。

发明内容

本发明实施例提供了一种语音识别方法及相关产品，可以提高语音识别的准确度。

第一方面，本发明实施例提供了一种语音识别方法，包括：

获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据所述文本内容和所述文本时间信息确定所述预设场景的共享文本；

依据所述共享文本得到所述预设场景的定制语言模型，采用定制语言模型执行所述预设场景的语音识别。

第二方面，本发明实施例提供了一种语音识别装置，包括：

获取单元，用于获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据所述文本内容和所述文本时间信息确定所述预设场景的共享文本；

识别单元，用于依据所述共享文本得到所述预设场景的定制语言模型，采用定制语言模型执行所述预设场景的语音识别。

第三方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本申请实施例第一方面中所描述的部分或全部步骤。

第四方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本发明实施例中，通过获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据文本内容和文本时间信息确定预设场景的共享文本；依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。因此，本发明实施例的技术方案，可以利用预设场景中的终端获取预设场景的文本内容和文本时间信息以确定预设场景的共享文本，进而根据共享文本得到定制语言模型，由于定制语言模型与预设场景的相关性更高，利用定制语言模型执行预设场景的语音识别，可以有效提高语音识别的准确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的语音识别方法的流程示意图；

图2是本发明实施例一提供的步骤S102的流程示意图；

图3是本发明实施例二提供的步骤S101的流程示意图；

图4是本发明实施例二提供的共享文本的获取时间示意图；

图5是本发明实施例二提供的共享文本获取时间段的示意图；

图6是本发明实施例三提供的步骤S201的流程示意图；

图7是本发明实施例三提供的共享文本集合示意图；

图8是本发明实施例四提供的文本内容过滤的流程示意图；

图9是本发明实施例五提供的语音识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

应当理解，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本发明所描述的实施例可以与其它实施例相结合。

本文中的预设场景指语音识别场景，语音识别场景为将语音数据转换为文字数据的场景，例如，演讲、培训、会议、采访、授课等场景。而终端指用户智能终端，包括手机、平板电脑、笔记本电脑、录音笔、智能办公本等终端设备，其具有联网通信能力，还可以具有记录能力，记录能力是指拍摄、文本编辑等功能。

实施例一

参阅图1，图1提供了一种语音识别方法，该方法在电子设备上运行，该电子设备可以为通用的计算机、服务器等设备，当然在实际应用中，也可以为数据处理中心、云平台等，本申请并不限制上述电子设备的具体实现方式。如图1所示，该方法包括如下步骤：

步骤S101、获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据文本内容和文本时间信息确定预设场景的共享文本；

具体地，多台终端的使用者位于同一预设场景中，例如多个使用者参加同一个会议。文本时间信息为上述文本内容的产生时间。步骤S101的具体实现方式可以参见实施例二的描述，这里不再赘述。

步骤S102、依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。

上述步骤S102的具体实现方式可以参见实施例四的描述，这里不再赘述。

进一步地，参阅图2，图2是本发明实施例一提供的步骤S102的流程示意图，步骤S102包括：

步骤S201、对共享文本进行分词分类处理得到关键词，依据关键词对热词列表进行更新得到新的热词列表；

步骤S202、通过定制语言模型和新的热词列表执行语音识别。

具体地，步骤S201、步骤S202的具体实现方式可以参见实施例三的描述，这里不再赘述。

本发明实施例中，通过获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据文本内容和文本时间信息确定预设场景的共享文本；依据共享文本得到预设场景的定制语言模型和关键词，依据关键词对预设场景的热词列表进行更新得到新的热词列表，采用定制语言模型和新的热词列表执行预设场景的语音识别。因此，本发明实施例的技术方案，可以利用预设场景中的终端获取预设场景的文本内容和文本时间信息以确定预设场景的共享文本，进而根据共享文本得到定制语言模型，以及更新热词列表，由于新得到的热词列表、定制语言模型与预设场景的相关性更高，利用定制语言模型和新的热词列表执行预设场景的语音识别，可以有效提高语音识别的准确度。

实施例二

基于实施例一提出实施例二，上述文本内容指用户在终端上产生的与预设场景相关的内容，包括用户基于预设场景所做的笔记、用户在预设场景相关电子资料上的标记、用户利用用户智能终端拍摄的包含文字信息的图片等。其中，笔记可以是手写笔记或者手动输入的笔记，例如在纸张、讲义等实体载体上的手写笔记，或者利用备忘录、word、PDF、PPT等电子记录载体记录下来的笔记。而预设场景相关电子资料包括用户智能终端接收到或者本地产生的语音识别结果文档、语音识别场景的电子场景资料(例如演讲、培训、会议等的PPT、PDF、word等电子资料)。预设场景相关电子资料上的标记包括用户在语音识别结果文档或者电子场景资料的基础上进行的修改、圈画重点等。

更进一步地，在终端上，可以确定文本内容以及对应的文本时间信息，例如：

A、对于用户利用输入法手动输入的笔记，根据笔记可以直接确定对应的文本内容，而笔记文字的输入时间可以确定为该文本内容的产生时间，即文本时间信息。

B、对于用户在用户智能终端上的手写笔记，根据手写识别原理处理手写笔记可以得到对应的文本内容，而手写时间为该文本内容的产生时间，即文本时间信息。

C、对于用户在预设场景相关电子资料上的标记，利用光学字符识别原理处理预设场景相关电子资料，可以得到标记对应的文本内容，而将标记的操作时间，即标记时间作为该文本内容的产生时间，即文本时间信息。

D、对于用户利用用户智能终端拍摄的包含文字信息的图片，根据光学字符识别原理处理图片，以识别图片中的文本内容，而图片的拍摄时间可以确定为该文本内容的产生时间，即文本时间信息。

参阅图3，图3是本发明实施例二提供的步骤S101的流程示意图，步骤S101具体包括：

步骤S301、采集并识别预设场景的语音得到语音识别结果，语音识别结果包括句子文本和句子时间信息；

具体地，位于预设场景中的终端，利用终端上的实时语音识别应用进行语音识别，得到语音识别结果。句子文本为语音子句的识别文本，而句子时间信息为语音子句的识别结束时间，即根据语音识别同步产生的端点检测信息的时间点确认的时间边界。

步骤S302、根据文本时间信息和句子时间信息进行匹配，如与句子时间信息匹配，将文本时间信息对应的文本内容确定为共享文本。

具体地，对于终端发送的文本内容，当某一文本内容的文本时间信息位于某一语音子句的语音识别开始时间到语音子句的识别结束时间之间时，则认为文本时间信息与句子时间信息匹配，将文本时间信息对应的文本内容确定为共享文本。本发明实施例中，还将终端产生的语音识别结果确定为共享文本。

下面对共享文本的获取过程进行说明：

对于预设场景中的多个终端，可以利用现有的局域网实现多个终端之间的相互通信，建立预设场景中多个终端相互通信的渠道。可由多个终端中任意一个终端的使用者，通过终端上的实时语音识别应用，发起文本共享请求的同步信息给该局域网内的所有终端。由接收到同步信息的终端的使用者来确认是否响应该文本共享请求以加入文本共享。多个终端加入文本共享组成一个群组，考虑到实际的语音识别场景中，终端的时间可能会受到使用者人为干扰(如设定不同时区或人为调整时间信息)，需要统一同一群组中的终端的时间，确保后续发送的文本内容和语音识别结果在时间维度的一致性。可以选择群组中任意一台终端作为时间服务器，并将该终端的时间作为基准时间，然后其他终端以该时间为基准，采用NTP进行时间的同步，保证后续发送的文本内容和语音识别结果在时间维度上的一致。

因为已通过时间信息同步确保所有终端的时间信息一致，所以对于产生实时语音识别结果的同时(每一句的结果均具有时间信息)，可以结合现有的分段策略进行实时分段，确认当前段落开始的时间T_n-begin以及结束的时间T_n-end作为构建共享文本的时间段(即共享文本获取时间段)。即如图4所示，图4是本发明实施例二提供的共享文本的获取时间示意图；当前段的开始时间T_n-begin为进行文本转写的开始(T_0-begin)时间点或者上一分段的结束时间点(T_n-1-begin)；而结束的时间T_n-end则是实时分段的段落结束句所对应的时间点；确定的当前段落的结束时间T_n-end即为通过共享文本确定的定制语言模型生效的时间点，定制语言模型的确定策略见实施例四，其中，在结束时间段T_n-end，利用经过筛选清理得到的共享文本进行定制语言模型的更新，从而利用更新的定制语言模型对该段落的二遍识别结果进行rescore以及辅助下一段落的实时解码。

同时，根据与语音识别结果同步产生的端点检测信息确定的子句信息，确认在该时间段内的文本内容获取的次数以及热词的生效时间。具体如图5所示，图5是本发明实施例二提供的共享文本获取时间段的示意图；T_n-begin时刻作为当前共享文本获取时间段的开始，T_n-end时刻作为当前共享文本获取时间段的结束。而对于在该语音段落内的m个语音子句，根据语音识别同步产生的端点检测的时间点确认的时间边界)，每一个子句后(如T_n-1，T_n-2，T_n-3…T_n-m)均进行一次共享文本的共享，即如果获取的文本内容的文本时间信息在当前子句内且不在上一个时间点内，则可以获取到该文本内容。若通过获取的共享文本能够获取到新的热词(即关键词，关键词的确认方式见实施例三)，如在T_n-2时刻确认得到新的热词，该热词随即被加入热词列表，即从T_n-2时刻该热词即可生效。

实施例三

参阅图6，图6是本发明实施例三提供的步骤S201的流程示意图，下面对根据共享文本集合获取关键词的方法进行说明，即步骤S201具体包括：

步骤S601、对共享文本进行分词、分类处理，以获取短语集合或句子集合；

具体地，构建当前时间段内的共享文本集合，基于实施例二确定的构建共享文本的获取时间段进行共享文本集合的构建，将在当前时间段内[T_n-begin,T_n-end内每一个时刻{T_n-1,T_n-2,…,T_n-m}内收集到文本内容进行分词分类，主要分为词语(短语)、句子(段落)两类，对应得到短语集合和句子集合，若分词后词的个数小于2则认为其属于词语(短语)类，否则属于句子(段落)类。如在T_n-1时刻和T_n-m时刻收集的不同的终端之间的共享文本集合如图7所示，图7是本发明实施例三提供的共享文本集合示意图；其中W_t1-d1-id1表示在t1时刻，设备d1获取的词语编号id1；S_t1-d1-id1表示在t1时刻，终端d1获取的句子(段落)编号id1，{R₁,…,R_n-1}表示当前时间段内所获取的实时n-1个段落的语音识别结果。

步骤S602、根据热词列表对短语集合进行过滤；

具体地，预设场景的热词列表可以是由预先人工输入的词语组成。对于与热词列表中的词语相同的短语，将其从短语集合中剔除掉。例如，如果词语编号id1的词语已出现在热词列表中，则将其从词语(短语)集合{Wta-db-idc}剔除。

步骤S603、根据短语的词频和词频阈值确定关键词，词频为短语在短语集合或句子集合中出现的次数。

具体地，步骤S603包括：

E1、获取短语集合中每个短语的词频；

具体地，计算每个短语在短语集合或句子集合中的出现次数作为词频。

E2、将词频大于或等于词频阈值，且由不同的终端发送的短语确定为关键词；

具体地，词频阈值的数值可以根据实际情况进行调整，例如词频阈值设置为2。

E3、利用TF-IDF算法，从词频小于词频阈值的短语中，挑选出关键词。

具体地，本实施例中，对于词频小于词频阈值的短语，继续利用TF-IDF算法从中挑选关键词，首先计算短语的统一词频。其中，计算某一短语在句子集合中出现的次数作为词频，再以该词频与句子集合的总词数的比值作为该短语的统一词频；接着计算某一短语的逆文档频率，逆文档频率的计算公式为log(预设语料库的篇章总数/(包含某一短语的篇章总数+1))，预设语料库可以为训练预设场景的语言模型时使用的篇章语料的集合。然后将统一词频和逆文档频率的乘积作为该短语的相关度得分，根据得分阈值和短语的相关度得分可以挑选出关键词，得分阈值的具体数值可以根据实际需要进行设置，将相关度得分大于或等于得分阈值的短语，确定为关键词。

值得注意的是，由于不同用户对于同一短语的手写结果的不同而存在错别字，或者光学字符识别错误等情况，利用步骤S603确定的关键词，有可能与热词列表中的短语为同音短语，或者关键词之间存在同音短语，因此，需要进一步对同音短语进行筛选，根据语言模型得分进行同音短语筛选，将语言模型得分高的同音短语确认为热词列表的关键词。具体地，步骤S201还包括：

F1、确定关键词之间或关键词与热词列表之间存在的同音词语；

将关键词与热词列表中的短语进行建模词典映射以确认它们之中是否存在同音短语，如映射成声韵母建模单元或者主元音建模单元的方式，可以找到关键词的同音短语。当某一关键词在与其他关键词以及热词列表对比之后，未发现同音短语时，直接将该关键词加入热词列表中。

F2、确定存在同音词语的句子文本，并对句子文本中的同音词语进行替换，得到词语替换后的句子文本；

F3、根据词语替换后的句子文本的语音模型得分，将语言模型得分最高的同音词语确定为新的热词列表中的词语。

首先，找到该关键词在句子集合中出现的句子，然后进行词语替换得到多个句子，再计算多个句子的语言模型得分，根据语言模型得分进行确认，选择语言模型得分高的短语作为热词列表中的词语。此处语言模型得分可以利用在现有的语言模型进行计算。例如，对于关键词“西红柿首富”，它的同音短语为“西虹市首富”，分别找出其出现的句子，如“西红柿首富是由沈腾、宋芸桦等主演的喜剧片”和“西虹市首富在2018年上映”，对其中的关键词进行替换，分别产生两个句对{“西红柿首富是由沈腾、宋芸桦等主演的喜剧片”，“西虹市首富是由沈腾、宋芸桦等主演的喜剧片”},{“西红柿首富在2018年上映”，“西虹市首富在2018年上映”}，分别比较其语言模型得分，如果两个句对均为“西虹市首富”所在句子的语言模型得分更高，则认为“西红柿首富”为错误关键词，而“西虹市首富”为正确关键词，则将“西虹市首富”确定为热词列表中的词语。

通过计算关键词与其同音短语的语音模型得分进行筛选，将语言模型得分高于同音短语的关键词加入热词列表，加入后关键词即时生效，并剔除语言模型得分相对较低的同音短语。而当语音模型得分相同时，将关键词与同音短语同时确认为热词列表中的词语。反之，某一关键词的语言模型得分低于同音短语时，将该关键词剔除。

通过对同音短语进行筛选，可以确定准确的关键词，保障语音识别的准确度。

实施例四

基于实施例一和实施例二提供实施例四，本实施例中，在依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别之前还包括：

对语音识别结果进行分段处理得到段落的分割时间点，在分割时间点之后，依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。

具体地，在确定当前一个语音段落识别结束后，根据该语音段落对应得到的共享文本获取预设场景的定制语言模型，以采用定制语言模型对下一语音段落的语音进行语音识别，以及对当前的语音段落进行重新解码，以提高语音识别的准确度。

进一步地，在分割时间点之后，依据共享文本得到预设场景的定制语言模型包括：

G1、确定文本内容和语音识别结果之间的文本相似度；

具体地，当前语音段落对应的共享文本来自于多个终端，对共享文本中的文本内容和语音识别结果，计算某一终端发送的文本内容和其发送的语音识别结果之间的文本相似度。

G2、依据文本相似度和相似度阈值，过滤文本相似度低于相似度阈值的文本内容。

具体地，将小于相似度阈值的文本相似度对应的文本内容删除，保留文本相似度大于或等于相似度阈值的文本内容，对共享文本中的文本内容进行过滤。

特别地，还可以利用来自不同终端的文本内容之间的文本相似度进行文本内容过滤。参考图8，图8是本发明实施例四提供的文本内容过滤的流程示意图；下面以第一终端、第二终端(不同终端中除了第一终端之外的其他终端)为例进行说明：

步骤S801、获取第一终端和第二终端的文本内容之间的文本相似度作为第一文本相似度；

例如，对于第一终端(Y1)、第二终端(假设有2个，分别为Y2、Y3)发送的文本内容，分别计算Y1与Y2、Y3的文本内容之间的文本相似度X1、X2，即Y1的第一文本相似度为X1、X2。

步骤S802、获取第一终端的第一文本相似度大于第一预设相似度阈值的个数；

具体地，根据第一预设相似度阈值确定第一终端的第一文本相似度大于第一预设相似度阈值的个数，第一预设相似度阈值的具体数值可以根据实际情况进行设置，以Y1为例，假设X1、X2均大于第一预设相似度阈值，则对应Y1的个数为2。

步骤S803、获取第一终端发送的文本内容与第一终端发送的语音识别结果之间的文本相似度作为第二文本相似度；

具体地，以Y1为例，计算Y1的文本内容与Y1的语音识别结果之间的文本相似度，将其作为第二文本相似度。

步骤S804、根据个数和第二文本相似度对第一终端发送的共享文本进行过滤。

具体地，当第一终端对应的个数小于预设数值，且其第二文本相似度小于第二预设相似度阈值时，将第一终端的文本内容确定为无效信息，删除该文本内容，反之，在个数大于或等于预设数值，或者，第二文本相似度大于或等于第二预设相似度阈值的情况下，将第一终端发送的文本内容确认为相关信息，保留该文本内容。容易想到的，在个数大于或等于预设数值，且第二文本相似度大于或等于第二预设相似度阈值的情况下，将第一终端发送的文本内容确认为相关信息进行保留。

进一步地，采用定制语言模型执行预设场景的语音识别包括：利用段落集合中的共享文本确定定制语言模型后，根据定制语言模型、预设声学模型、预设词典模型生成第一解码网络，根据预设语言模型、预设声学模型、预设词典模型生成第二解码网络，再采用已有的串联解码的方案生成解码网络。即通过引入“起始”和“结束”两个特殊节点，将第一解码网络和第二解码网络连接起来，让它们在任意位置进行得分PK，从而将第一解码网络以非常小的代价融入到第二解码网络中，实现共同解码，得到更高的语音识别正确率。第一解码网络和第二解码网络可以是WFST等解码网络。本实施例中，在当前语音段落识别结束后，得到当前的段落集合，利用当前的段落集合得到的解码网络对下一语音段落进行语音识别，由于解码网络与预设场景相关性更高，可以有效提高语音识别准确度。

进一步地，依据段落集合中的共享文本得到预设场景的定制语言模型包括：

H1、根据段落集合中的共享文本获取初始语言模型；

具体地，根据段落集合中的共享文本，可以采用现有语言模型生成方法生成对应的初始语言模型，初始语言模型与预设场景更加相关。以N-gram语言模型为例，利用段落集合中的共享文本训练N-gram语言模型得到初始语言模型。

H2、根据初始语言模型和预设语言模型进行概率插值处理，得到定制语言模型。

具体地，为了使得第一解码网络中的路径得分与第二解码网络的路径得分可比，初始语言模型的N-gram概率需要与预设语言模型的N-gram概率进行插值，同时为了保持初始语言模型的N-gram的规模，只对初始语言模型中出现的N-gram进行概率插值。以3阶语言模型为例:

其中，P_b为预设语言模型的N-gram概率，P_i(i＝1…n)为利用第i个段落集合生成的初始语言模型的N-gram概率，P_new为插值后的初始语言模型(即定制语言模型)的N-gram概率，α为插值系数，β为惩罚系数。按照这种插值方式，N-gram的规模没有发生变化，同时计算量较少。

进一步地，采用定制语言模型执行预设场景的语音识别，还包括：

参考图4，以T_0-begin至T_0-end的语音段落为例，当T_0-begin至T_0-end对应的共享文本得到定制语言模型后，利用定制语言模型对T_0-begin至T_0-end的语音的候选语音识别结果进行rescore(重打分)，即对T_0-begin至T_0-end的语音对应的候选语音识别结果，利用定制语言模型计算候选语音识别结果对应的语言模型分。根据语言模型分和候选语音识别结果原先的声学模型分确定得分高的候选语音识别结果为更准确的识别结果，利用该候选语音识别结果对T_0-begin至T_0-end的语音原先的语音识别结果进行修正，得到T_0-begin至T_0-end的语音最终的语音识别结果，通过rescore，可以提升对T_0-begin至T_0-end的语音的识别准确度。

值得注意的是，实施例三和实施例四结合，通过即时生效的关键词、rescore和解码网络，相互结合，可以显著、及时提升语音识别的准确度。

实施例五

本申请实施例五提供了一种装置实施例，参阅图9，图9提供了一种语音识别装置，语音识别装置包括：

获取单元901，用于获取预设场景中的多台终端发送的文本内容以及文本时间信息；依据文本内容和文本时间信息确定预设场景的共享文本；

上述获取单元901的具体实现方式可以参见上述实施例二的描述，这里不再赘述，

识别单元902，用于依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。

进一步地，识别单元902包括：

关键词获取模块，用于对共享文本进行分词分类处理得到关键词，依据关键词对热词列表进行更新得到新的热词列表；

识别模块，用于通过定制语言模型和新的热词列表执行语音识别。

上述识别单元902的具体实现方式可以参见上述实施例三、实施例四的描述，这里不再赘述，

在一种可选方案中，获取单元901包括：

结果获取模块，用于采集并识别预设场景的语音得到语音识别结果，语音识别结果包括句子文本和句子时间信息；

匹配模块，用于根据文本时间信息和句子时间信息进行匹配，如与句子时间信息匹配，将文本时间信息对应的文本内容确定为共享文本。

在一种可选方案中，关键词获取模块包括：

第一子模块，用于对共享文本进行分词、分类处理，以获取短语集合或句子集合；

第二子模块，用于根据热词列表对短语集合进行过滤；

第三子模块，用于根据短语的词频和词频阈值确定关键词，词频为短语在短语集合或句子集合中出现的次数。

在一种可选方案中，关键词获取模块还包括：

第四子模块，用于确定关键词之间或关键词与热词列表之间存在的同音词语；

第五子模块，用于确定存在同音词语的句子文本，并对句子文本中的同音词语进行替换，得到词语替换后的句子文本；

第六子模块，用于根据词语替换后的句子文本的语音模型得分，将语言模型得分最高的同音词语确定为新的热词列表中的词语。

在一种可选方案中，语音识别装置还包括：

分段单元，用于对语音识别结果进行分段处理得到段落的分割时间点，

识别单元，具体用于在分割时间点之后，依据共享文本得到预设场景的定制语言模型，采用定制语言模型执行预设场景的语音识别。

在一种可选方案中，识别单元包括：

相似度确定模块，用于确定文本内容和语音识别结果之间的文本相似度；

过滤模块，用于依据文本相似度和相似度阈值，过滤文本相似度低于相似度阈值的共享文本。

采用上述装置，可以提升语音识别的准确度。其中，语音识别装置的具体功能实现方式可以参见上述方法实施例的描述，这里不再进行赘述。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

采用定制语言模型执行所述预设场景的语音识别；

所述文本内容为用户在终端上产生的与预设场景相关的内容；

依据所述文本内容和所述文本时间信息确定所述预设场景的共享文本，采用定制语言模型执行所述预设场景的语音识别具体包括：

对所述共享文本进行分词分类处理得到关键词，依据所述关键词对热词列表进行更新得到新的热词列表；

通过定制语言模型和所述新的热词列表执行语音识别。

2.根据权利要求1所述的方法，其特征在于，所述依据所述文本内容和所述文本时间信息确定所述预设场景的共享文本具体包括：

采集并识别预设场景的语音得到语音识别结果，所述语音识别结果包括句子文本和句子时间信息；

根据所述文本时间信息和所述句子时间信息进行匹配，如与所述句子时间信息匹配，将所述文本时间信息对应的所述文本内容确定为所述共享文本。

3.根据权利要求2所述的方法，其特征在于，所述对所述共享文本进行分词分类处理得到关键词，依据所述关键词对热词列表进行更新得到新的热词列表具体包括：

对所述共享文本进行分词、分类处理，以获取短语集合或句子集合；

根据短语的词频和词频阈值确定所述关键词，所述词频为所述短语在所述短语集合或所述句子集合中出现的次数。

4.根据权利要求3所述的方法，其特征在于，在根据短语的词频和词频阈值确定所述关键词之前还包括：

根据所述热词列表对所述短语集合进行过滤。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述共享文本进行分词分类处理得到关键词，依据所述关键词对热词列表进行更新得到新的热词列表还包括：

确定所述关键词之间或所述关键词与所述热词列表之间存在的同音词语；

确定存在所述同音词语的所述句子文本，并对所述句子文本中的同音词语进行替换，得到词语替换后的句子文本；

根据所述词语替换后的句子文本的语音模型得分，将语言模型得分最高的同音词语确定为所述新的热词列表中的词语。

6.根据权利要求2至4任一项所述的方法，其特征在于，所述方法依据所述共享文本得到所述预设场景的定制语言模型，采用定制语言模型执行所述预设场景的语音识别之前还包括：

对所述语音识别结果进行分段处理得到段落的分割时间点，在所述分割时间点之后，依据所述共享文本得到所述预设场景的定制语言模型，采用定制语言模型执行所述预设场景的语音识别。

7.根据权利要求6所述的方法，其特征在于，在所述分割时间点之后，依据所述共享文本得到所述预设场景的定制语言模型包括：

确定所述文本内容和所述语音识别结果之间的文本相似度；

依据所述文本相似度和相似度阈值，过滤文本相似度低于所述相似度阈值的所述文本内容。

8.一种语音识别装置，其特征在于，包括：

识别单元，用于采用定制语言模型执行所述预设场景的语音识别；

所述共享文本为终端产生的语音识别结果；

通过定制语言模型和所述新的热词列表执行语音识别。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的语音识别方法。