CN103176998A

CN103176998A - 一种基于语音识别的阅读辅助系统

Info

Publication number: CN103176998A
Application number: CN 201110432824
Authority: CN
Inventors: 顾健
Original assignee: Shanghai Bolu Information Technology Co Ltd
Current assignee: Shanghai Bolu Information Technology Co Ltd
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2013-06-26

Abstract

本发明公开了一种基于语音识别的阅读辅助系统，包含终端语音采集模块，语音识别模块，搜索及内容处理模块等。本发明通过终端获取用户阅读的内容的语音，在终端或系统进行内容的识别后进行内容的搜索和处理，按照内容相关性进行排序，并将搜索和处理的结果返回给终端，终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。通过终端识别用户阅读语音的内容并基于用户语音内容包含的进行搜索和处理获取用户需要的内容辅助信息，提供了基于一种基于语音识别的阅读辅助的业务体验。

Description

一种基于语音识别的阅读辅助系统

技术领域

本发明涉及移动终端，语音识别等技术领域，特别是指一种基于语音识别的阅读辅助系统。

背景技术

随着终端技术、软件技术的发展，特别是智能终端、语音识别技术和云计算技术的发展，为一种基于语音识别的阅读辅助系统提供了可行性。

用户在各种环境下阅读时，可能对阅读过程中的内容需要进一步的了解，传统方式是在电脑上手工输入对应的文字获取搜索结果，对阅读流程产生了干扰，用户需离开当前的阅读过程进行搜索等操作，而通过终端识别用户朗读的语音并识别用户阅读对象上的内容，并进行内容的识别后以识别结果发起搜索，搜索系统内的定制内容和互联网上的各种内容，并以搜索结果相关性进行处理和排序，并将获取的结果叠加在用户终端界面上显示或播放，用户随即可以查看或听到用户关心的内容的各种有关信息，达到了辅助用户进行阅读的作用。

有鉴于此，本发明的目的在于提出一种简单易行，通过终端扫描和识别的一种基于语音识别的阅读辅助系统。

发明内容

从上面所述可以看出，本发明提供的一种基于语音识别的阅读辅助系统，通过用户朗读感兴趣的内容部分并获取用户语音后识别其包含的文字内容，基于这些内容进行相关性搜索并在终端界面上提供搜索结果，实现了一种使用简单的基于终端阅读辅助系统。

进一步的，通过所提供的一种基于语音识别的阅读辅助系统为一种用户阅读辅助业务的发展提供有力保障，满足用户各方要求，提升用户友好体验。

为实现上述目的，本发明的一个方面提供了一种基于语音识别的阅读辅助系统，该方法包括：

用户朗读感兴趣的内容部分，终端获取用户的语音并将语音记录转换为压缩的音频数据文件作为识别数据源，进行语音内的文字识别，获取其包含的文本。

终端获取用户阅读的内容的语音，在终端或系统进行内容的识别后进行内容的搜索和处理，按照内容相关性进行排序，并将搜索和处理的结果返回给终端，终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。

本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中，该方法还包括：

终端获取用户感兴趣并朗读的内容部分的语音后，通过终端本地语音识别方式或基于系统开放的语音识别服务方式识别获取语音对应的文本内容，并获得返回的识别结果。

系统通过服务方式开发语音识别服务接口，终端侧通过系统端提供的语音识别服务访问接口发起语音识别服务的请求，系统端获取对应的识别请求以及原始语音数据后即可执行对应的识别服务。

终端获取识别语音包含的文本，并以此文本作为关键词发起对搜索引擎的搜索，获取搜索引擎的搜索结果并进一步获取其包含的内容，在终端应用界面上进行显示或播放对应的内容。

终端获取到搜索引擎返回的搜索结果，以窗口叠加方式显示在用户的阅读界面上，用户随即可以查阅或点击播放到对应内容的各种有关信息。

搜索引擎包含了系统内外部的搜索引擎，系统内部的搜索引擎搜索系统内的各种数据，包含文件，数据库，系统外部的搜索引擎为开放在互联网上的各种搜索引擎，终端按照对应引擎的语法发起关键词的搜索获取对应的内容，并按照匹配度进行排序处理，获取最大精确匹配的各种搜索结果。

具体来说具有以下优点：

使用方便：

用户通过朗读报纸等包含网址信息的对象，即可完成对应语音内容的识别并基于这些内容的相关信息，使用简单快捷。

实时阅读辅助信息：

用户朗读感兴趣的内容部分，对应内容部分的相关内容即可即时叠加在用户终端界面上显示或播放，实现实时的阅读辅助的显示效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明系统模块结构的示意图。

图2为本发明语音识别流程示意图。

图3为本发明业务流程示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

为实现上述目的，提出了一种基于语音识别的阅读辅助系统。

以下通过结合附图，对本发明的实施方式进行描述。

实现一种基于语音识别的阅读辅助系统的关键点如下：

语音识别：

终端获取用户朗读的语音后，通过终端自身的语音识别能力模块或系统以服务形式开放的语音识别服务进行识别，获取语音中包含的文字内容。

内容搜索：

在获取用户语音包含的内容的文本后，终端发起对各个搜索引擎的搜索，包含系统内容数据库以及各个互联网开放搜索引擎的搜索，获取各个搜索引擎的搜索结果，并按照相关性进行结果的处理，获取相关性最高的搜索结果集合。

叠加更新：

终端获取搜索结果后，将搜索结果以层叠方式在用户的应用界面显示或播放，用户随即可以查看或听到结果信息，实现即读即得的业务效果。

主要功能模块

如图1所示，一种基于语音识别的阅读辅助系统的结构主要包括：

终端侧和系统侧：终端侧可独立完成全部的功能，根据终端的能力，可选后台系统提供服务，为不具备语音识别能力的终端进行服务，包含语音识别服务以及内容处理等功能。

模块组成：

终端硬件100：

终端侧语音硬件部分，承载各种语音功能，包含语音的播放，语音的获取等功能。

日志模块101：

记录用户在终端侧的业务操作等活动数据并以日志方式保存在终端。

逻辑模块102：

终端侧的业务逻辑流程的控制和执行，调用其他逻辑功能模块并与其进行交互完成各种业务逻辑功能。

语音获取模块103：

负责调用终端硬件如麦克风获取用户语音数据流，获取原始的用户语音数据并压缩成系统的语音格式提供给其他功能逻辑模块，如识别模块。

识别模块104：

终端侧的语音识别模块，根据终端软件和硬件能力在终端可选安装的识别功能模块，负责识别语音数据的内容并提供识别结果到其他功能模块。

服务请求模块105：

终端侧在需要系统功能支持的情况下，如本地不支持语音识别，通过系统开放的服务，服务请求模块发起对系统服务的请求，完成各种功能。

内容处理及显示模块106：

终端对获取的识别内容进行解析和处理，包含对语音识别的内容和搜索的内容结果的处理和显示，对语音识别结果，内容处理模块完成挑选和截取语音范围内的所包含的完整的语句等功能，对搜索结果，内容处理模块完成对搜索结果的相关性排序以及内容显示的格式处理，并在处理完毕后，叠加在用户的应用界面上显示或进行语音播放。

管理配置模块107：

终端用户进行业务配置和数据管理，用户通过管理模块对业务的数据和业务的配置进行设置。

接口模块108：

终端侧与系统进行交互的模块，通过接口与系统进行各种交互和消息的传递和接收，按照接口参数发起请求和接收系统的各种消息。

传输通道109：

提供数据传输的实际的物理通道，可以是无线宽带网和移动数据网络，包含各个移动通信的数据信道，WIFI，固定宽带等。

系统接口模块110：

系统侧与终端进行交互的模块，与终端进行通信，提供各种接口供终端进行系统的访问，按照协商的协议进行数据传输，将数据发送给终端和接收终端的请求数据。

日志模块111：

将系统的各种操作的信息记录到系统日志，并提供给用户进行查询。

数据库112：

系统端提供数据存储以及各种基于数据库的各种功能，如数据触发器、函数等逻辑功能的数据系统。

业务逻辑模块113：

负责系统端的对应各个业务逻辑的执行和逻辑设置、保存等功能，调用各个功能模块完成业务流程和处理各种业务请求逻辑。

消息模块114：

系统与终端进行消息的交互，处理终端的请求消息，构造系统端与终端交互的各种消息，根据交互的协议和接口协议方式构造各种消息数据并提供给接口进行消息的传递。

安全模块115：

负责用户身份验证和安全设置相关的各种功能，包含验证终端用户身份和属性，加密和解密各种消息数据等功能。

语音识别服务模块116：

系统端提供的语音识别服务的功能模块，为不具备语音识别能力的终端提供语音识别功能，通过接口服务开放给终端。

系统文字处理模块117：

系统端对获取的识别内容进行解析和处理，挑选其中包含的完全识别的语句片段，去除识别结果中可能包含的错误解码的字符。

管理模块118：

系统的管理功能部分，对系统进行综合管理，包含用户管理，逻辑流程管理，业务参数，系统参数配置等各种管理功能。

系统门户119：

系统用户登入门户的系统的门户，提供用户使用系统的界面和各种业务流程的承载。

搜索引擎120：

搜索引擎搜索系统内以及互联网上的各种内容，并提供搜索结果，

包含系统内部的搜索引擎以及外部互联网搜索引擎，并提供搜索接入接

口，应用通过开放的搜索接入接口调用搜索引擎的各种功能获取搜索结

果。

图2示为本发明语音识别流程示意图。

如图所示，该流程包含了以下步骤：

1) 用户朗读感兴趣的内容部分；

2) 终端判断识别方式，包含终端本地识别或系统识别；

3) 识别对应的语音后，对识别的语音文本进行处理和解析，获取对应的语音范围内包含的关键词和语句片段；

下面举一个例子来说明本发明用户通过终端阅读辅助系统使用业务的流程，如图3所示，该实施例中，业务包括以下步骤：

步骤1：终端用户朗读感兴趣的内容；

步骤2：终端获取原始音频数据，在终端或请求系统语音服务进行识别；

步骤3：终端获取识别后的字符信息进行处理和过滤，获取其中包含的完整语句片段或关键词；

步骤5.以获取的识别结果为关键词发起搜索引擎的搜索请求；

步骤6.终端获取搜索结果，对搜索结果进行处理获取相关性最高的结果集；

步骤7.终端将获取的结果集叠加在用户的应用界面显示，用户随即可以翻看或听到对应的内容。

本发明的描述是为了示例和说明起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于语音识别的阅读辅助系统，其特征在于，终端获取用户阅读的内容的语音，在终端或系统进行内容的识别后进行内容的搜索和处理，按照内容相关性进行排序，并将搜索和处理的结果返回给终端，终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。

2.如权利要求1所述，终端获取用户阅读的内容的语音，其特征在于，用户朗读感兴趣的内容部分，终端获取用户的语音并将语音记录转换为压缩的音频数据文件作为识别数据源，进行语音文字识别，获取其包含的文本。

3.如权利要求1所述，终端获取用户的语音后，在终端或系统进行内容的识别后进行内容的搜索和处理，其特征在于，获取用户感兴趣并朗读的内容部分的语音后，通过终端本地语音识别方式或基于系统开放的语音识别服务方式识别获取语音对应的文本内容，并获得返回的识别结果。

4.如权利要求3所述，在终端或系统进行语音的识别，其特征在于，系统通过服务方式开发语音识别服务接口，终端侧通过系统端提供的语音识别服务访问接口发起语音识别服务的请求，系统端获取对应的识别请求以及原始语音数据后即可执行对应的识别服务。

5.如权利要求1所述，在终端或系统进行语音的识别后进行内容的搜索和处理，其特征在于，终端获取识别语音包含的文本，并以此文本作为关键词发起对搜索引擎的搜索，获取搜索引擎的搜索结果并进一步获取其包含的内容，在终端应用界面上进行显示或播放对应的内容。

6.如权利要求5所述，终端获取搜索引擎的搜索结果并在终端显示或播放，其特征在于，终端获取到搜索引擎返回的搜索结果，以窗口叠加方式显示在用户的阅读界面上，用户随即可以查阅或点击播放到对应内容的各种有关信息。

7.如权利要求5所述，终端通过搜索引擎获取对应内容的搜索结果，其特征在于，搜索引擎包含了系统内外部的搜索引擎，系统内部的搜索引擎搜索系统内的各种数据，包含文件，数据库，系统外部的搜索引擎为开放在互联网上的各种搜索引擎，终端按照对应引擎的语法发起关键词的搜索获取对应的内容，并按照匹配度进行排序处理，获取最大精确匹配的各种搜索结果。