CN102118886A

CN102118886A - 一种语音信息的识别方法和设备

Info

Publication number: CN102118886A
Application number: CN2010100336508A
Authority: CN
Inventors: 李峰; 刘琨
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2010-01-04
Filing date: 2010-01-04
Publication date: 2011-07-06

Abstract

本发明实施例公开了一种语音信息的识别方法和设备，提出了通过语音匹配来自动开关语音识别的方法，在此基础上提出了一种通过语音识别实时处理通话内容的技术实现方案，能够解决现有技术方案中需要用户手动启动语音识别功能以及其他一些在可用性上的缺陷，也为开发更多的通话内容实时处理应用提供了良好的基础。

Description

一种语音信息的识别方法和设备

技术领域

本发明实施例涉及通信技术领域，特别涉及一种语音信息的识别方法和设备。

背景技术

语音通话功能是手机终端的基本功能，提供两方或多方之间通话的能力，以达到信息传递的目的。如果能在通话过程中实时鉴别出关键信息，并对信息作处理后提示给用户，则可以给与用户极大的方便，同时可以提高用户对手机的使用体验。

目前已有一些技术方案在通话过程中可以实时提取信息，其应用的主要策略主要是在通话过程中，当用户觉得有必要时，按下某一指定按键作为触发指令，启动语音识别模块进行语音数据的识别。

在实现本发明实施例的过程中，发明人发现现有技术至少存在以下问题：

现有的技术方案需要用户手动执行，增加了用户使用该功能的操作量。

并且，在现有的技术方案中，都需要用户预判接下来与对方的谈话中有没有重要信息，在有重要信息的情况下才启动语音识别，所以这种启动方式在双方谈话很有目的性的情况下比较有效，但对于目的性不强的谈话，一些重要信息很容易漏过，现有的的解决办法是从通话开始时就启动语音识别，不过由于语音识别对于处理器和内存的消耗都很大。

发明内容

本发明实施例提供一种语音信息的识别方法和设备，实现了通过语音匹配来自动开关语音识别功能。

为达到上述目的，本发明实施例一方面提供了一种语音信息的识别方法，包括以下步骤：

终端设备判断语音数据中是否包含信息识别关键词；

当所述终端设备判断语音数据中包含信息识别关键词时，所述终端设备对包含所述信息识别关键词的语音数据区间进行语音信息识别。

优选的，所述语音数据具体包括通话双方在通话业务中的语音数据，所述终端设备判断语音数据中是否包含信息识别关键词之前，还包括：

所述终端设备将通过本地硬件获取的本地语音数据和通过网络获得的对端语音数据按照相应的时间戳信息，合成为所述通话业务的语音数据。

优选的，所述终端设备判断语音数据中是否包含信息识别关键词，具体为：

所述终端设备判断语音数据中是否存在与一个或多个信息识别关键词的相似度大于预设阈值的信息段；

如果存在，则触发语音信息识别，如果不存在，则继续进行是否包含信息识别关键词的判断操作。

优选的，所述终端设备存储缓存数据，所述缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，

其中，所述终端设备对包含所述信息识别关键词的语音数据区间进行语音信息识别，具体为：

所述终端设备对出现所述信息识别关键词的时间点之前的缓存时间和所述时间点之后的扩展时间范围之内的语音数据进行识别。

优选的，所述终端设备对包含所述信息识别关键词的语音数据区间进行语音信息识别之后，还包括：

所述终端设备将语音信息识别的结果进行存储。

优选的，所述终端设备将语音信息识别的结果进行存储之后，还包括对所述结果进行后处理的过程，具体包括：

所述终端设备将所述语音信息识别的结果进行存储形式的转化；和/或，

所述终端设备将所述语音信息识别的结果的内容显示给用户；和/或，

所述终端设备将所述语音信息识别的结果通过编辑模式提供给用户，供用户进行相应信息的编辑。

另一方面，本发明实施例还提供了一种终端设备，包括：

判断模块，用于判断语音数据中是否包含信息识别关键词；

识别模块，与所述判断模块相连接，用于当所述判断模块判断语音数据中包含信息识别关键词时，对包含所述信息识别关键词的语音数据区间进行语音信息识别。

优选的，所述终端设备还包括数据提取模块，与所述判断模块相连接，用于提取通话业务的语音数据，并提供给所述判断模块，其中，所述语音数据具体包括通话双方在通话业务中的语音数据：

所述数据提取模块具体用于将通过本地硬件获取的本地语音数据和通过网络获得的对端语音数据按照相应的时间戳信息，合成为所述通话业务的语音数据，提供给所述判断模块。

优选的，所述判断模块用于判断语音数据中是否包含信息识别关键词，具体为：

所述判断模块判断语音数据中是否存在与一个或多个信息识别关键词的相似度大于预设阈值的信息段；

如果存在，则触发所述识别模块进行语音信息识别，如果不存在，则继续进行是否包含信息识别关键词的判断操作。

优选的，所述终端设备还包括缓存模块，用于存储缓存数据，所述缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，

优选的，所述识别模块用于对包含所述信息识别关键词的语音数据区间进行语音信息识别，具体为：

所述识别模块对出现所述信息识别关键词的时间点之前的所述缓存模块所缓存的缓存时间和所述时间点之后的扩展时间范围之内的语音数据进行识别。

优选的，所述终端设备还包括存储模块，与所述识别模块相连接，用于将所述识别模块所识别的语音信息识别的结果进行存储。

优选的，所述终端设备还包括处理模块，用于在所述存储模块将语音信息识别的结果进行存储之后，对所述结果进行后处理，具体包括：

所述处理模块将所述语音信息识别的结果进行存储形式的转化；和/或，

所述处理模块将所述语音信息识别的结果的内容显示给用户；和/或，

所述处理模块将所述语音信息识别的结果通过编辑模式提供给用户，供用户进行相应信息的编辑。

与现有技术相比，本发明实施例具有以下优点：

通过应用本发明实施例所提出的技术方案，提出了通过语音匹配来自动开关语音识别的方法，在此基础上提出了一种通过语音识别实时处理通话内容的技术实现方案，能够解决现有技术方案中需要用户手动启动语音识别功能以及其他一些在可用性上的缺陷，也为开发更多的通话内容实时处理应用提供了良好的基础。

附图说明

图1为本发明实施例提出的一种语音信息的识别方法的流程示意图；

图2为本发明实施例提出的一种通过语音识别实时处理通话内容的系统示意图；

图3为本发明实施例提出的一种通过语音识别实时处理通话内容的完整流程示意图；

图4为本发明实施例提出的一种终端设备的结构示意图。

具体实施方式

为了解决现有技术中存在的问题，本发明实施例提出的一种语音信息的识别方法，让语音识别可以自动启动，无须用户操作。

而且，本方案在手机终端上可以提取通话关键信息，比如：跟对方咨询某人电话的结果，跟对方咨询会议时间、地点的结果，等等，使用本方案可以省去用户手动抄记或是记忆的过程，从而给与用户方便；若将本方案与网络平台结合还能够用于开发新的业务模式，如关键字广告：比如若通话双方商量哪天在哪地吃饭，那么使用该方案，将“哪天”(时间)、“哪地”(地点)、“吃饭”(动作)从终端报告给网络服务器，服务器就可以推送相关餐厅、饭店的广告，有一定商业前景的挖掘潜力。

如图1所示，为本发明实施例提出的一种语音信息的识别方法，具体包括以下步骤：

步骤S101、终端设备判断语音数据中是否包含信息识别关键词。

其中，语音数据具体包括通话双方在通话业务中的语音数据，终端设备判断语音数据中是否包含信息识别关键词之前，还包括：

终端设备在通话业务开始后，将通过本地硬件获取的本地语音数据和通过网络获得的对端语音数据按照相应的时间戳信息，合成为通话业务的语音数据。

具体的判断过程为：

终端设备判断语音数据中是否存在与一个或多个信息识别关键词的相似度大于预设阈值的信息段；

如果存在，则执行步骤S102，触发语音信息识别；

如果不存在，则返回步骤S101，继续进行是否包含信息识别关键词的判断操作。

步骤S102、终端设备对包含信息识别关键词的语音数据区间进行语音信息识别。

需要进一步指出的是，语音数据区间的具体范围可以根据需要进行设定。可以是自信息识别关键词出现时刻开始，持续一个预设时间段的时间区间，也可以是以信息识别关键词为基点，包括之前一个缓存时间和之后一个扩展时间在内的时间区间。

第一种语音数据区间的设定方式是基于信息识别关键词作为待识别信息的起始标记的思路来设定的。

但是，在现实的应用场景中，可能会出现在信息识别关键词之前已经提及待识别信息的情况，在此种情况下，第一种语音数据区间的设定方式显然会造成待识别信息的缺失。

进一步考虑到实际应用中，即使待识别信息出现于信息识别关键词之前，两者之间的时间间隔不会很长，因此，基于这样的场景，本发明实施例进一步提出了第二种语音数据区间的设置方式，即将信息识别关键词之前一个缓存时间和之后一个扩展时间在内的时间区间均设置为语音数据区间，这样的方式可以保证信息识别关键词之前出现的待识别信息也能够被识别到，保证了所识别信息的完整性。

在这样的思路下，需要终端设备存储缓存数据，缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，而当信息识别关键词出现时，缓存数据本身即为缓存时间内的语音信息，可以使得终端设备完成相应的信息识别操作。

在应用第二种语音数据区间的设置方式的场景下，终端设备对包含信息识别关键词的语音数据区间进行语音信息识别，具体为：

终端设备对出现信息识别关键词的时间点之前的缓存时间和时间点之后的扩展时间范围之内的语音数据进行识别。

在具体的应用场景中，完成语音识别之后，本技术方案还包括终端设备将语音信息识别的结果进行存储的处理步骤。

进一步的，终端设备将语音信息识别的结果进行存储之后，还包括对结果进行后处理的过程，具体包括：

终端设备将语音信息识别的结果进行存储形式的转化；和/或，

终端设备将语音信息识别的结果的内容显示给用户；和/或，

终端设备将语音信息识别的结果通过编辑模式提供给用户，供用户进行相应信息的编辑。

与现有技术相比，本发明实施例具有以下优点：

下面，进一步结合具体的示例，对本发明实施例的技术方案进行说明。

如图2所示，即为本发明的一种具体应用场景，一种通过语音识别实时处理通话内容的系统示意图。

由图中可见，整个通话内容实时处理系统大体可分为语音获取模块21、语音匹配模块22、控制模块23、语音识别模块24、后处理模块25、展示模块26六个主要部分。

各模块的具体说明如下：

语音获取模块21将获取手机话筒传入的语音数据(用户语音数据)以及手机CP模块传入的语音数据(对方语音数据)，并按照时间戳将两部分语音合成一份数据，然后传入语音匹配模块22和语音识别模块24。

在语音匹配模块22中要预先设定一些信息识别关键词，并根据这些信息识别关键词对传入的语音通话数据进行匹配。

对固定的信息识别关键词，其语音特征是固定的，那么对于一段语音输入来说，信息识别关键词匹配就是从一段语音特征中选出和信息识别关键词对应的语音特征似然概率大于某个阈值的点，并以此作为语音识别模块24的触发条件，所以匹配的成功率可以得到保证。

语音匹配模块22在有匹配成功的情况下，则记录匹配成功的时间并把该时间以及匹配到的信息识别关键词传给控制模块23，再由控制模块23通知语音识别模块24开始全文识别。

信息识别关键词匹配不同于全文识别，相比消耗的资源少，故语音识别模块24在通话开始时启动，并且可以在整个通话过程中运行。同时，语音识别模块24预设的信息识别关键词针对不同的应用而不同，具体信息识别关键词内容的变化并不会影响本发明的保护范围，在此不作详述。

控制模块23用于控制语音识别的开启。

控制模块23要维护一个FIFO的语音识别请求队列，将从语音匹配模块22接收到的匹配成功时间以及信息识别关键词信息放入该队列中，在收到语音识别模块24一次识别结束的消息后，就从FIFO队列中取出第一个元素传给语音识别模块24，通知语音识别模块24开始新的一次识别。

语音识别模块24用于对作为语音数据区间的一段时间内语音数据进行识别。

按照前述的两种语音数据区间的设置方式的场景，可以认为只在信息识别关键词出现后的n秒内的语音数据中包含了跟信息识别关键词相关的有用信息，也可以认为在信息识别关键词出现的前m秒和后n秒这段时间内的语音数据都包含了跟信息识别关键词相关的有用信息，其中，m和n都应该是用户可以设定的值，可以让用户根据方案的表现效果做出调整，当然，语音识别模块24在实际单独使用n或组合使用m和n时，并不认为它们是一个精确值，而应根据端点检测技术做出判断来进行微调。

相对于第二种语音数据区间的设置方式，既然语音识别模块24需要识别前m秒的内容，那么该模块应该有缓存功能，可以缓存最近m秒左右的语音通话数据。

在第二种语音数据区间的设置方式所对应的场景下，任何一次语音识别在开始时都会从控制模块23得到该次信息识别关键词匹配成功的时间，语音识别模块24将要识别的语音数据就在该时间向前减去m秒以及向后增加n秒这一时间段内，语音识别模块24会在识别完成后发送消息通知控制模块23。

需要进一步指出的是，在这里有可能出现这一次需要识别的语音数据时间段跟上一次识别的语音数据时间段部分重合，那么就需要把这一次需要识别的语音数据的开始时间向后挪动，以语音识别模块24缓存的起始时间为准。

同时，语音识别模块24还可以具备对信息识别关键词进行二次识别的功能。如果在信息识别关键词匹配成功的时间点上没有识别出信息识别关键词，则说明语音匹配模块22出现了误判，此时语音识别模块24将不会再对后n秒的语音数据进行语音识别，从而增加效率且节省了资源。

虽然这种情况出现的概率很小，但二次识别功能可以对系统查漏补缺，有其存在的价值。

后处理模块25从语音识别模块24接收识别结果，并对识别结果进行后处理。处理方式针对不同的应用而不同。

比如可以从识别结果中取出关键内容，形成可编辑字段交给用户做编辑；比如从识别结果中取出关键内容，并发给服务器做广告字段的模糊匹配，将相应的广告从服务器取回以待显示。

接收后处理模块25的处理结果，并展示处理结果。展示不一定只是简单的将结果显示在手机终端，也有可能是把结果展示在编辑框中让用户来编辑，也有可能是其他的一些展示手段。

与现有技术相比，本发明实施例具有以下优点：

基于上述系统设置，在第二种语音数据区间的设置方式的场景下，通过语音识别实时处理通话内容的完整流程如图3所示，具体包括以下步骤：

步骤S301，在通话开始后，由语音获取模块21将用户语音数据以及对方语音数据，并按照时间戳将两部分语音合成一份数据，然后传入语音匹配模块22和语音识别模块24。

步骤S302，语音匹配模块22对传入的语音通话数据进行匹配，在有匹配成功的情况下，则记录匹配成功的时间并把该时间以及匹配到的信息识别关键词传给控制模块23，再由控制模块23通知语音识别模块24开始全文识别。

步骤S303，语音识别模块24对匹配到信息识别关键词的时间点前m秒和后n秒之间语音数据作全文识别。并将识别结果传入后处理模块25。

步骤S304，后处理模块25从语音识别模块24接收识别结果，并对识别结果进行后处理。之后将调用展示模块26来展示处理结果。

与现有技术相比，本发明实施例具有以下优点：

为了实现本发明实施例的技术方案，本发明实施例还提出了一种终端设备，其结构示意图如图4所示，具体包括：

判断模块41，用于判断语音数据中是否包含信息识别关键词；

识别模块42，与判断模块41相连接，用于当判断模块41判断语音数据中包含信息识别关键词时，对包含信息识别关键词的语音数据区间进行语音信息识别。

优选的，该终端设备还包括数据提取模块44，与判断模块41相连接，用于提取通话业务的语音数据，并提供给判断模块41，其中，语音数据具体包括通话双方在通话业务中的语音数据：

数据提取模块44在通话业务开始后，将通过本地硬件获取的本地语音数据和通过网络获得的对端语音数据按照相应的时间戳信息，合成为通话业务的语音数据，提供给判断模块41。

优选的，判断模块41用于判断语音数据中是否包含信息识别关键词，具体为：

判断模块41判断语音数据中是否存在与一个或多个信息识别关键词的相似度大于预设阈值的信息段；

如果存在，则触发识别模块42进行语音信息识别，如果不存在，则继续进行是否包含信息识别关键词的判断操作。

优选的，该终端设备还包括缓存模块45，用于存储缓存数据，缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，

基于上述的缓存数据，识别模块42用于对包含信息识别关键词的语音数据区间进行语音信息识别，具体为：

识别模块42对出现信息识别关键词的时间点之前的缓存模块45所缓存的缓存时间和时间点之后的扩展时间范围之内的语音数据进行识别。

在具体的应用场景中，该终端设备还包括存储模块43，与识别模块42相连接，用于将识别模块42所识别的语音信息识别的结果进行存储。

在此基础上，该终端设备还可以包括处理模块46，用于在存储模块43将语音信息识别的结果进行存储之后，对结果进行后处理，具体包括：

处理模块46将语音信息识别的结果进行存储形式的转化；和/或，

处理模块46将语音信息识别的结果的内容显示给用户；和/或，

处理模块46将语音信息识别的结果通过编辑模式提供给用户，供用户进行相应信息的编辑。

与现有技术相比，本发明实施例具有以下优点：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明实施例所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明实施例的几个具体实施场景，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明实施例的保护范围。

Claims

1.一种语音信息的识别方法，其特征在于，包括以下步骤：

终端设备判断语音数据中是否包含信息识别关键词；

2.如权利要求1所述的方法，其特征在于，所述语音数据具体包括通话双方在通话业务中的语音数据，所述终端设备判断语音数据中是否包含信息识别关键词之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述终端设备判断语音数据中是否包含信息识别关键词，具体为：

4.如权利要求1所述的方法，其特征在于，所述终端设备存储缓存数据，所述缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，

5.如权利要求1所述的方法，其特征在于，所述终端设备对包含所述信息识别关键词的语音数据区间进行语音信息识别之后，还包括：

所述终端设备将语音信息识别的结果进行存储。

6.如权利要求5所述的方法，其特征在于，所述终端设备将语音信息识别的结果进行存储之后，还包括对所述结果进行后处理的过程，具体包括：

7.一种终端设备，其特征在于，包括：

判断模块，用于判断语音数据中是否包含信息识别关键词；

8.如权利要求7所述的终端设备，其特征在于，还包括数据提取模块，与所述判断模块相连接，用于提取通话业务的语音数据，并提供给所述判断模块，其中，所述语音数据具体包括通话双方在通话业务中的语音数据：

9.如权利要求7所述的终端设备，其特征在于，所述判断模块用于判断语音数据中是否包含信息识别关键词，具体为：

10.如权利要求7所述的终端设备，其特征在于，还包括缓存模块，用于存储缓存数据，所述缓存数据具体为当前时间点所对应的语音数据之前的缓存时间范围内的语音数据，

11.如权利要求10所述的终端设备，其特征在于，所述识别模块用于对包含所述信息识别关键词的语音数据区间进行语音信息识别，具体为：

12.如权利要求7所述的终端设备，其特征在于，还包括存储模块，与所述识别模块相连接，用于将所述识别模块所识别的语音信息识别的结果进行存储。

13.如权利要求12所述的终端设备，其特征在于，还包括处理模块，用于在所述存储模块将语音信息识别的结果进行存储之后，对所述结果进行后处理，具体包括：