CN103176998A - 一种基于语音识别的阅读辅助系统 - Google Patents

一种基于语音识别的阅读辅助系统 Download PDF

Info

Publication number
CN103176998A
CN103176998A CN 201110432824 CN201110432824A CN103176998A CN 103176998 A CN103176998 A CN 103176998A CN 201110432824 CN201110432824 CN 201110432824 CN 201110432824 A CN201110432824 A CN 201110432824A CN 103176998 A CN103176998 A CN 103176998A
Authority
CN
China
Prior art keywords
terminal
content
voice
search
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110432824
Other languages
English (en)
Inventor
顾健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bolu Information Technology Co Ltd
Original Assignee
Shanghai Bolu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bolu Information Technology Co Ltd filed Critical Shanghai Bolu Information Technology Co Ltd
Priority to CN 201110432824 priority Critical patent/CN103176998A/zh
Publication of CN103176998A publication Critical patent/CN103176998A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语音识别的阅读辅助系统,包含终端语音采集模块,语音识别模块,搜索及内容处理模块等。本发明通过终端获取用户阅读的内容的语音,在终端或系统进行内容的识别后进行内容的搜索和处理,按照内容相关性进行排序,并将搜索和处理的结果返回给终端,终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。通过终端识别用户阅读语音的内容并基于用户语音内容包含的进行搜索和处理获取用户需要的内容辅助信息,提供了基于一种基于语音识别的阅读辅助的业务体验。

Description

一种基于语音识别的阅读辅助系统
技术领域
本发明涉及移动终端,语音识别等技术领域,特别是指一种基于语音识别的阅读辅助系统。
背景技术
随着终端技术、软件技术的发展,特别是智能终端、语音识别技术和云计算技术的发展,为一种基于语音识别的阅读辅助系统提供了可行性。
用户在各种环境下阅读时,可能对阅读过程中的内容需要进一步的了解,传统方式是在电脑上手工输入对应的文字获取搜索结果,对阅读流程产生了干扰,用户需离开当前的阅读过程进行搜索等操作,而通过终端识别用户朗读的语音并识别用户阅读对象上的内容,并进行内容的识别后以识别结果发起搜索,搜索系统内的定制内容和互联网上的各种内容,并以搜索结果相关性进行处理和排序,并将获取的结果叠加在用户终端界面上显示或播放,用户随即可以查看或听到用户关心的内容的各种有关信息,达到了辅助用户进行阅读的作用。
有鉴于此,本发明的目的在于提出一种简单易行,通过终端扫描和识别的一种基于语音识别的阅读辅助系统。
发明内容
从上面所述可以看出,本发明提供的一种基于语音识别的阅读辅助系统,通过用户朗读感兴趣的内容部分并获取用户语音后识别其包含的文字内容,基于这些内容进行相关性搜索并在终端界面上提供搜索结果,实现了一种使用简单的基于终端阅读辅助系统。
进一步的,通过所提供的一种基于语音识别的阅读辅助系统为一种用户阅读辅助业务的发展提供有力保障,满足用户各方要求,提升用户友好体验。
为实现上述目的,本发明的一个方面提供了一种基于语音识别的阅读辅助系统,该方法包括:
用户朗读感兴趣的内容部分,终端获取用户的语音并将语音记录转换为压缩的音频数据文件作为识别数据源,进行语音内的文字识别,获取其包含的文本。
终端获取用户阅读的内容的语音,在终端或系统进行内容的识别后进行内容的搜索和处理,按照内容相关性进行排序,并将搜索和处理的结果返回给终端,终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。
本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中,该方法还包括:
终端获取用户感兴趣并朗读的内容部分的语音后,通过终端本地语音识别方式或基于系统开放的语音识别服务方式识别获取语音对应的文本内容,并获得返回的识别结果。
系统通过服务方式开发语音识别服务接口,终端侧通过系统端提供的语音识别服务访问接口发起语音识别服务的请求,系统端获取对应的识别请求以及原始语音数据后即可执行对应的识别服务。
本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中,该方法还包括:
终端获取识别语音包含的文本,并以此文本作为关键词发起对搜索引擎的搜索,获取搜索引擎的搜索结果并进一步获取其包含的内容,在终端应用界面上进行显示或播放对应的内容。
本发明提供的一种基于语音识别的阅读辅助系统的一个实施例中,该方法还包括:
终端获取到搜索引擎返回的搜索结果,以窗口叠加方式显示在用户的阅读界面上,用户随即可以查阅或点击播放到对应内容的各种有关信息。
搜索引擎包含了系统内外部的搜索引擎,系统内部的搜索引擎搜索系统内的各种数据,包含文件,数据库,系统外部的搜索引擎为开放在互联网上的各种搜索引擎,终端按照对应引擎的语法发起关键词的搜索获取对应的内容,并按照匹配度进行排序处理,获取最大精确匹配的各种搜索结果。
 
具体来说具有以下优点:
使用方便:
用户通过朗读报纸等包含网址信息的对象,即可完成对应语音内容的识别并基于这些内容的相关信息,使用简单快捷。
实时阅读辅助信息:
    用户朗读感兴趣的内容部分,对应内容部分的相关内容即可即时叠加在用户终端界面上显示或播放,实现实时的阅读辅助的显示效果。
    
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明系统模块结构的示意图。
图2为本发明语音识别流程示意图。
图3为本发明业务流程示意图。
 
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
为实现上述目的,提出了一种基于语音识别的阅读辅助系统。
以下通过结合附图,对本发明的实施方式进行描述。
 
实现一种基于语音识别的阅读辅助系统的关键点如下:
语音识别: 
    终端获取用户朗读的语音后,通过终端自身的语音识别能力模块或系统以服务形式开放的语音识别服务进行识别,获取语音中包含的文字内容。
内容搜索:
    在获取用户语音包含的内容的文本后,终端发起对各个搜索引擎的搜索,包含系统内容数据库以及各个互联网开放搜索引擎的搜索,获取各个搜索引擎的搜索结果,并按照相关性进行结果的处理,获取相关性最高的搜索结果集合。
叠加更新:
    终端获取搜索结果后,将搜索结果以层叠方式在用户的应用界面显示或播放,用户随即可以查看或听到结果信息,实现即读即得的业务效果。
 
主要功能模块
如图1所示,一种基于语音识别的阅读辅助系统的结构主要包括:
终端侧和系统侧:终端侧可独立完成全部的功能,根据终端的能力,可选后台系统提供服务,为不具备语音识别能力的终端进行服务,包含语音识别服务以及内容处理等功能。
 
模块组成:
终端硬件100:
    终端侧语音硬件部分,承载各种语音功能,包含语音的播放,语音的获取等功能。
日志模块101:
   记录用户在终端侧的业务操作等活动数据并以日志方式保存在终端。
逻辑模块102:
终端侧的业务逻辑流程的控制和执行,调用其他逻辑功能模块并与其进行交互完成各种业务逻辑功能。
语音获取模块103:
    负责调用终端硬件如麦克风获取用户语音数据流,获取原始的用户语音数据并压缩成系统的语音格式提供给其他功能逻辑模块,如识别模块。
识别模块104:
终端侧的语音识别模块,根据终端软件和硬件能力在终端可选安装的识别功能模块,负责识别语音数据的内容并提供识别结果到其他功能模块。
服务请求模块105:
    终端侧在需要系统功能支持的情况下,如本地不支持语音识别,通过系统开放的服务,服务请求模块发起对系统服务的请求,完成各种功能。
内容处理及显示模块106:
    终端对获取的识别内容进行解析和处理,包含对语音识别的内容和搜索的内容结果的处理和显示,对语音识别结果,内容处理模块完成挑选和截取语音范围内的所包含的完整的语句等功能,对搜索结果,内容处理模块完成对搜索结果的相关性排序以及内容显示的格式处理,并在处理完毕后,叠加在用户的应用界面上显示或进行语音播放。
管理配置模块107:
终端用户进行业务配置和数据管理,用户通过管理模块对业务的数据和业务的配置进行设置。
接口模块108:
    终端侧与系统进行交互的模块,通过接口与系统进行各种交互和消息的传递和接收,按照接口参数发起请求和接收系统的各种消息。
传输通道109:
提供数据传输的实际的物理通道,可以是无线宽带网和移动数据网络,包含各个移动通信的数据信道,WIFI,固定宽带等。
系统接口模块110:
系统侧与终端进行交互的模块,与终端进行通信,提供各种接口供终端进行系统的访问,按照协商的协议进行数据传输,将数据发送给终端和接收终端的请求数据。
日志模块111:
    将系统的各种操作的信息记录到系统日志,并提供给用户进行查询。
数据库112:
系统端提供数据存储以及各种基于数据库的各种功能,如数据触发器、函数等逻辑功能的数据系统。
业务逻辑模块113:
    负责系统端的对应各个业务逻辑的执行和逻辑设置、保存等功能,调用各个功能模块完成业务流程和处理各种业务请求逻辑。
消息模块114:
系统与终端进行消息的交互,处理终端的请求消息,构造系统端与终端交互的各种消息,根据交互的协议和接口协议方式构造各种消息数据并提供给接口进行消息的传递。
安全模块115:
    负责用户身份验证和安全设置相关的各种功能,包含验证终端用户身份和属性,加密和解密各种消息数据等功能。
语音识别服务模块116:
    系统端提供的语音识别服务的功能模块,为不具备语音识别能力的终端提供语音识别功能,通过接口服务开放给终端。
系统文字处理模块117:
系统端对获取的识别内容进行解析和处理,挑选其中包含的完全识别的语句片段,去除识别结果中可能包含的错误解码的字符。
管理模块118:
系统的管理功能部分,对系统进行综合管理,包含用户管理,逻辑流程管理,业务参数,系统参数配置等各种管理功能。
系统门户119:
系统用户登入门户的系统的门户,提供用户使用系统的界面和各种业务流程的承载。
搜索引擎120:
     搜索引擎搜索系统内以及互联网上的各种内容,并提供搜索结果,
包含系统内部的搜索引擎以及外部互联网搜索引擎,并提供搜索接入接
口,应用通过开放的搜索接入接口调用搜索引擎的各种功能获取搜索结
果。
 
图2示为本发明语音识别流程示意图。
如图所示,该流程包含了以下步骤:
1)     用户朗读感兴趣的内容部分;
2)     终端判断识别方式,包含终端本地识别或系统识别;
3)     识别对应的语音后,对识别的语音文本进行处理和解析,获取对应的语音范围内包含的关键词和语句片段;
下面举一个例子来说明本发明用户通过终端阅读辅助系统使用业务的流程,如图3所示,该实施例中,业务包括以下步骤:
步骤1:终端用户朗读感兴趣的内容;
步骤2:终端获取原始音频数据,在终端或请求系统语音服务进行识别;
步骤3:终端获取识别后的字符信息进行处理和过滤,获取其中包含的完整语句片段或关键词;
步骤5.以获取的识别结果为关键词发起搜索引擎的搜索请求;
步骤6.终端获取搜索结果,对搜索结果进行处理获取相关性最高的结果集;
步骤7.终端将获取的结果集叠加在用户的应用界面显示,用户随即可以翻看或听到对应的内容。
本发明的描述是为了示例和说明起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (7)

1.一种基于语音识别的阅读辅助系统,其特征在于,终端获取用户阅读的内容的语音,在终端或系统进行内容的识别后进行内容的搜索和处理,按照内容相关性进行排序,并将搜索和处理的结果返回给终端,终端对系统传递的数据进行解析和处理并叠加显示在用户的终端显示界面。
2.如权利要求1所述,终端获取用户阅读的内容的语音,其特征在于,用户朗读感兴趣的内容部分,终端获取用户的语音并将语音记录转换为压缩的音频数据文件作为识别数据源,进行语音文字识别,获取其包含的文本。
3.如权利要求1所述,终端获取用户的语音后,在终端或系统进行内容的识别后进行内容的搜索和处理,其特征在于,获取用户感兴趣并朗读的内容部分的语音后,通过终端本地语音识别方式或基于系统开放的语音识别服务方式识别获取语音对应的文本内容,并获得返回的识别结果。
4.如权利要求3所述,在终端或系统进行语音的识别,其特征在于,系统通过服务方式开发语音识别服务接口,终端侧通过系统端提供的语音识别服务访问接口发起语音识别服务的请求,系统端获取对应的识别请求以及原始语音数据后即可执行对应的识别服务。
5.如权利要求1所述,在终端或系统进行语音的识别后进行内容的搜索和处理,其特征在于,终端获取识别语音包含的文本,并以此文本作为关键词发起对搜索引擎的搜索,获取搜索引擎的搜索结果并进一步获取其包含的内容,在终端应用界面上进行显示或播放对应的内容。
6.如权利要求5所述,终端获取搜索引擎的搜索结果并在终端显示或播放,其特征在于,终端获取到搜索引擎返回的搜索结果,以窗口叠加方式显示在用户的阅读界面上,用户随即可以查阅或点击播放到对应内容的各种有关信息。
7.如权利要求5所述,终端通过搜索引擎获取对应内容的搜索结果,其特征在于,搜索引擎包含了系统内外部的搜索引擎,系统内部的搜索引擎搜索系统内的各种数据,包含文件,数据库,系统外部的搜索引擎为开放在互联网上的各种搜索引擎,终端按照对应引擎的语法发起关键词的搜索获取对应的内容,并按照匹配度进行排序处理,获取最大精确匹配的各种搜索结果。
CN 201110432824 2011-12-21 2011-12-21 一种基于语音识别的阅读辅助系统 Pending CN103176998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110432824 CN103176998A (zh) 2011-12-21 2011-12-21 一种基于语音识别的阅读辅助系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110432824 CN103176998A (zh) 2011-12-21 2011-12-21 一种基于语音识别的阅读辅助系统

Publications (1)

Publication Number Publication Date
CN103176998A true CN103176998A (zh) 2013-06-26

Family

ID=48636879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110432824 Pending CN103176998A (zh) 2011-12-21 2011-12-21 一种基于语音识别的阅读辅助系统

Country Status (1)

Country Link
CN (1) CN103176998A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
CN105745702A (zh) * 2013-11-18 2016-07-06 三星电子株式会社 显示装置和控制方法
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105745702A (zh) * 2013-11-18 2016-07-06 三星电子株式会社 显示装置和控制方法
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN108304421B (zh) * 2017-02-24 2021-03-23 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端

Similar Documents

Publication Publication Date Title
US10922355B2 (en) Method and apparatus for recommending news
CN107038220B (zh) 用于生成备忘录的方法、智能机器人及系统
KR102100976B1 (ko) 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱
US8898063B1 (en) Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form
US9118669B2 (en) Method and apparatus for voice signature authentication
JP4423327B2 (ja) 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
CN110335612A (zh) 基于语音识别的会议记录生成方法、装置及存储介质
KR101777392B1 (ko) 중앙 서버 및 이에 의한 사용자 음성 처리 방법
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN103176965A (zh) 一种基于语音识别的翻译辅助系统
US20230275902A1 (en) Distributed identification in networked system
CN103377652A (zh) 一种用于进行语音识别的方法、装置和设备
CN107463636B (zh) 语音交互的数据配置方法、装置及计算机可读存储介质
KR20150134993A (ko) 디바이스 정보를 이용하는 음성인식 방법 및 장치
US10462257B2 (en) Method and apparatus for obtaining user account
CN109359211B (zh) 语音交互的数据更新方法、装置、计算机设备和存储介质
CN109509472A (zh) 基于语音平台识别背景音乐的方法、装置及系统
CN105898396A (zh) 第三方视频推送方法和系统
CN103176998A (zh) 一种基于语音识别的阅读辅助系统
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN103078984A (zh) 一种基于ocr的拨号方法
CN110600045A (zh) 声音转换方法及相关产品
JP6232199B2 (ja) オペレータ本人確認支援システム及びその方法
JP2013174644A (ja) 通信端末、制御方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C05 Deemed withdrawal (patent law before 1993)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130626