CN112259074A - 一种基于高拍仪获得语音播放方法和系统 - Google Patents

一种基于高拍仪获得语音播放方法和系统 Download PDF

Info

Publication number
CN112259074A
CN112259074A CN202010996779.2A CN202010996779A CN112259074A CN 112259074 A CN112259074 A CN 112259074A CN 202010996779 A CN202010996779 A CN 202010996779A CN 112259074 A CN112259074 A CN 112259074A
Authority
CN
China
Prior art keywords
characters
voice
shooting instrument
block chain
speed shooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010996779.2A
Other languages
English (en)
Inventor
范国强
郭长青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mysher Technology Co ltd
Original Assignee
Beijing Mysher Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mysher Technology Co ltd filed Critical Beijing Mysher Technology Co ltd
Priority to CN202010996779.2A priority Critical patent/CN112259074A/zh
Publication of CN112259074A publication Critical patent/CN112259074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/04Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa

Abstract

本发明提供了一种基于高拍仪获得语音播放方法,包括:步骤一,扫描预定图片,生成扫描图片;步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;步骤三,通过TTS技术将所述识别文字转换成语音文件。通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。

Description

一种基于高拍仪获得语音播放方法和系统
技术领域
本发明涉及一种基于高拍仪获得语音播放方法和系统。
背景技术
高拍仪是一款靠高速影像拍摄文稿、实物等来识别信息的智能影像设备,主要应用于文件档案等资料翻拍/扫描,将重要文书数据翻拍扫描成电子档案,方便调阅保存。通常在使用拍摄仪进行文档扫描时,需要将扫描的文档与拍摄仪的相对位置进行定位。
现有高拍仪在进行文件拍摄时,只能将拍摄后的电子图像进一步处理成Word/Excel/PDF等格式,但无法转换成可阅读的MP3或WAV格式,导致高拍仪使用功能单一。
针对目前高拍仪无法将拍摄的图片转换成可阅读的MP3或WAV格式,导致使用功能单一的问题,是本领域亟待解决的问题。
发明内容
本发明的目的是提供一种基于高拍仪获得语音播放方法和系统,以解决目前高拍仪无法将拍摄的图片转换成可阅读的MP3或WAV格式,导致使用功能单一的问题。
为解决上述技术问题,本发明提供了一种基于高拍仪获得语音播放方法,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
其中,所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
其中,所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
其中,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
其中,还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
根据本发明的另一方面,本发明还提供一种基于高拍仪获得语音播放系统,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
其中,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
其中,所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
其中,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
其中,还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
与现有技术相比,本发明的有意效果在于:
发明提供本发明提供一种基于高拍仪获得语音播放方法,包括:步骤一,扫描预定图片,生成扫描图片;步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;步骤三,通过TTS技术将所述识别文字转换成语音文件。通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
附图说明
图1是本发明示意性视出了一种基于高拍仪获得语音播放方法的流程图。
图2是本本发明示意性视出了一种基于高拍仪获得语音播放系统的结构示意框图。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一
如图1所示,本发明提供一种基于高拍仪获得语音播放方法,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
让拍摄仪可以实现拍摄图片,再进行文字识别,最后转存为计算机可朗读语音文件的目的,也可以通过将之前已经扫描过的本地现有图像,进行文字识别,转存为计算机可朗读的语音文件。
如果有一种技术能将高拍仪采集的图像或本地电子图像,再进行一个MP3或WAV格式的转换,人们可享受到利用碎片化时间进行听取的便利。
所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
通过将扫描图片进行裁切,只对扫描图片的预定区域进OCR文字识别,提高识别的定向性和准确性,目前通常用的裁切方法为,识别图片中文字区域,并对图片区域中的文字区域进行识别裁切,生存带文字区域的预定区域。
所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
通过OCR技术识别所述扫描图片预定区域的文字后,会带一些错误乱码文字或多余文字,此时,需要对乱码文字进行删除,多余文字进行删除或自动修订,修订的方式可以参照现有人工智能技术进行自动修改处理,当然可以不限于这些修改,还可以自动增加一些常用词语,比如,“中国首都京”中可能缺少“北”,就会自动增加为“中国首都北京”等,详细内容不再赘述。
其中,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
通过通过TTS技术中声音大小和快慢选择属性将所述识别文字转换成预定音量和预定播放速度语音文件,可以根据个性化需求调节输出语音文件的属性,使该技术更人性化。
在其他实施例中,本发明一种高拍仪获得语音方法还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
通过将存储量比较小的区块链文字信息上传到高拍仪区块链支链上,可以大大减小高拍仪区块链支链的存储量,提高高拍仪区块链支链上节点交易速度,提高使用率。
另外,设置高拍仪区块链支链与备份区块链总链存在共享的节点,即将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上,使该高拍仪区块链支链上预定节点可以在其他区块链上进行备份存储,防止丢失和被篡改,提高存储信息的安全性和唯一性。
另外,将所述语音文件在预定的时间内上传到所述共享节点上。不占用高拍仪区块链支链的区块链交易速度,可以利用其他空余时间将所述语音文件在预定的时间内上传到所述共享节点上,后续在验证或查找高拍仪区块链支链的交易信息时,可以到共享节点上查找语音文件来验证,进一步提高存储信息的安全性和唯一性。
实施例二
如图2所示。本发明还提供一种基于高拍仪获得语音播放系统,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
让拍摄仪可以实现拍摄图片,再进行文字识别,最后转存为计算机可朗读语音文件的目的,也可以通过将之前已经扫描过的本地现有图像,进行文字识别,转存为计算机可朗读的语音文件。
如果有一种技术能将高拍仪采集的图像或本地电子图像,再进行一个MP3或WAV格式的转换,人们可享受到利用碎片化时间进行听取的便利。
其中,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
通过将扫描图片进行裁切,只对扫描图片的预定区域进OCR文字识别,提高识别的定向性和准确性,目前通常用的裁切方法为,识别图片中文字区域,并对图片区域中的文字区域进行识别裁切,生存带文字区域的预定区域。
所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
通过OCR技术识别所述扫描图片预定区域的文字后,会带一些错误乱码文字或多余文字,此时,需要对乱码文字进行删除,多余文字进行删除或自动修订,修订的方式可以参照现有人工智能技术进行自动修改处理,当然可以不限于这些修改,还可以自动增加一些常用词语,比如,“中国首都京”中可能缺少“北”,就会自动增加为“中国首都北京”等,详细内容不再赘述。
其中,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
通过通过TTS技术中声音大小和快慢选择属性将所述识别文字转换成预定音量和预定播放速度语音文件,可以根据个性化需求调节输出语音文件的属性,使该技术更人性化。
在其他实施例中,提供的一种基于高拍仪获得语音播放系统还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
通过将存储量比较小的区块链文字信息上传到高拍仪区块链支链上,可以大大减小高拍仪区块链支链的存储量,提高高拍仪区块链支链上节点交易速度,提高使用率。
另外,设置高拍仪区块链支链与备份区块链总链存在共享的节点,即将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上,使该高拍仪区块链支链上预定节点可以在其他区块链上进行备份存储,防止丢失和被篡改,提高存储信息的安全性和唯一性。
另外,将所述语音文件在预定的时间内上传到所述共享节点上。不占用高拍仪区块链支链的区块链交易速度,可以利用其他空余时间将所述语音文件在预定的时间内上传到所述共享节点上,后续在验证或查找高拍仪区块链支链的交易信息时,可以到共享节点上查找语音文件来验证,进一步提高存储信息的安全性和唯一性。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人才员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于高拍仪获得语音播放方法,其特征在于,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
2.根据权利要求1所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
3.根据权利要求2所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
4.根据权利要求3所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
5.根据权利要求1所述的基于高拍仪获得语音播放方法,其特征在于,还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
6.一种基于高拍仪获得语音播放系统,其特征在于,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
7.根据权利要求6所述的基于高拍仪获得语音播放系统,其特征在于,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
8.根据权利要求7所述的基于高拍仪获得语音播放系统,其特征在于,所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
9.根据权利要求8所述的基于高拍仪获得语音播放系统,其特征在于,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
10.根据权利要求9所述的基于高拍仪获得语音播放系统,其特征在于,还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
CN202010996779.2A 2020-09-21 2020-09-21 一种基于高拍仪获得语音播放方法和系统 Pending CN112259074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010996779.2A CN112259074A (zh) 2020-09-21 2020-09-21 一种基于高拍仪获得语音播放方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010996779.2A CN112259074A (zh) 2020-09-21 2020-09-21 一种基于高拍仪获得语音播放方法和系统

Publications (1)

Publication Number Publication Date
CN112259074A true CN112259074A (zh) 2021-01-22

Family

ID=74231486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010996779.2A Pending CN112259074A (zh) 2020-09-21 2020-09-21 一种基于高拍仪获得语音播放方法和系统

Country Status (1)

Country Link
CN (1) CN112259074A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687258A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201097383Y (zh) * 2007-01-12 2008-08-06 林良锐 听书机
CN102360427A (zh) * 2011-09-30 2012-02-22 汉王科技股份有限公司 可调节扫描模式的文字采集方法和扫描装置
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
CN103077388A (zh) * 2012-10-31 2013-05-01 浙江大学 面向便携式计算设备的快速文本扫读方法
CN103077625A (zh) * 2013-01-30 2013-05-01 中国盲文出版社 一种盲用电子阅读器和助盲阅读方法
CN107846282A (zh) * 2017-11-03 2018-03-27 法信公证云(厦门)科技有限公司 一种基于区块链技术的电子数据分布式保管方法及系统
CN110322643A (zh) * 2019-07-08 2019-10-11 上海卓繁信息技术股份有限公司 智能政务服务工作系统及其应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201097383Y (zh) * 2007-01-12 2008-08-06 林良锐 听书机
CN102360427A (zh) * 2011-09-30 2012-02-22 汉王科技股份有限公司 可调节扫描模式的文字采集方法和扫描装置
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
CN103077388A (zh) * 2012-10-31 2013-05-01 浙江大学 面向便携式计算设备的快速文本扫读方法
CN103077625A (zh) * 2013-01-30 2013-05-01 中国盲文出版社 一种盲用电子阅读器和助盲阅读方法
CN107846282A (zh) * 2017-11-03 2018-03-27 法信公证云(厦门)科技有限公司 一种基于区块链技术的电子数据分布式保管方法及系统
CN110322643A (zh) * 2019-07-08 2019-10-11 上海卓繁信息技术股份有限公司 智能政务服务工作系统及其应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687258A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机存储介质
CN112687258B (zh) * 2021-03-11 2021-07-09 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机存储介质

Similar Documents

Publication Publication Date Title
US6873687B2 (en) Method and apparatus for capturing and retrieving voice messages
US8234277B2 (en) Image-based retrieval for high quality visual or acoustic rendering
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US5729741A (en) System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US20030004991A1 (en) Correlating handwritten annotations to a document
CN100388752C (zh) 成像设备及其处理方法
EP1312041B1 (en) Method and means for mobile capture,processing, storage and transmission of text and mixed information containing characters and images
CN101309449A (zh) 一种基于手机彩信/短信的远程翻译服务方法
US20200364463A1 (en) Intelligently generating digital note compilations from digital video
CN110619115A (zh) 一种模板创建方法、装置、电子设备及存储介质
CN110209759B (zh) 自动识别书页的方法及装置
CN112860642A (zh) 一种庭审数据处理方法、服务器及终端
CN112259074A (zh) 一种基于高拍仪获得语音播放方法和系统
EP2023266A1 (en) Searching media content for objects specified using identifiers
US11645474B2 (en) Computer-implemented method for text conversion, computer device, and non-transitory computer readable storage medium
RU2648636C2 (ru) Сохранение контента в конвертированных документах
US20160335500A1 (en) Method of and system for generating metadata
CN101872344A (zh) 一种图像扫描的控制方法
CN114168715A (zh) 生成目标数据集的方法、装置、设备及存储介质
CN110929479A (zh) 转换pdf扫描件的方法、装置、电子设备及存储介质
JP2000348142A (ja) 文字認識装置,文字認識方法,および文字認識方法を実行するプログラムを記録した記録媒体
RU2287183C2 (ru) Способ и средство для мобильного захвата, обработки, хранения и передачи текста и смешанной информации, содержащей знаки и изображения
JP2007049245A (ja) 音声入力機能付撮影装置
Sundar et al. An optical character recognition framework based newspaper reader application for blind

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination