CN112259074A - 一种基于高拍仪获得语音播放方法和系统 - Google Patents
一种基于高拍仪获得语音播放方法和系统 Download PDFInfo
- Publication number
- CN112259074A CN112259074A CN202010996779.2A CN202010996779A CN112259074A CN 112259074 A CN112259074 A CN 112259074A CN 202010996779 A CN202010996779 A CN 202010996779A CN 112259074 A CN112259074 A CN 112259074A
- Authority
- CN
- China
- Prior art keywords
- characters
- voice
- shooting instrument
- block chain
- speed shooting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
Abstract
本发明提供了一种基于高拍仪获得语音播放方法,包括:步骤一,扫描预定图片,生成扫描图片;步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;步骤三,通过TTS技术将所述识别文字转换成语音文件。通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
Description
技术领域
本发明涉及一种基于高拍仪获得语音播放方法和系统。
背景技术
高拍仪是一款靠高速影像拍摄文稿、实物等来识别信息的智能影像设备,主要应用于文件档案等资料翻拍/扫描,将重要文书数据翻拍扫描成电子档案,方便调阅保存。通常在使用拍摄仪进行文档扫描时,需要将扫描的文档与拍摄仪的相对位置进行定位。
现有高拍仪在进行文件拍摄时,只能将拍摄后的电子图像进一步处理成Word/Excel/PDF等格式,但无法转换成可阅读的MP3或WAV格式,导致高拍仪使用功能单一。
针对目前高拍仪无法将拍摄的图片转换成可阅读的MP3或WAV格式,导致使用功能单一的问题,是本领域亟待解决的问题。
发明内容
本发明的目的是提供一种基于高拍仪获得语音播放方法和系统,以解决目前高拍仪无法将拍摄的图片转换成可阅读的MP3或WAV格式,导致使用功能单一的问题。
为解决上述技术问题,本发明提供了一种基于高拍仪获得语音播放方法,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
其中,所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
其中,所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
其中,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
其中,还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
根据本发明的另一方面,本发明还提供一种基于高拍仪获得语音播放系统,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
其中,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
其中,所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
其中,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
其中,还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
与现有技术相比,本发明的有意效果在于:
发明提供本发明提供一种基于高拍仪获得语音播放方法,包括:步骤一,扫描预定图片,生成扫描图片;步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;步骤三,通过TTS技术将所述识别文字转换成语音文件。通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
附图说明
图1是本发明示意性视出了一种基于高拍仪获得语音播放方法的流程图。
图2是本本发明示意性视出了一种基于高拍仪获得语音播放系统的结构示意框图。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例一
如图1所示,本发明提供一种基于高拍仪获得语音播放方法,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
让拍摄仪可以实现拍摄图片,再进行文字识别,最后转存为计算机可朗读语音文件的目的,也可以通过将之前已经扫描过的本地现有图像,进行文字识别,转存为计算机可朗读的语音文件。
如果有一种技术能将高拍仪采集的图像或本地电子图像,再进行一个MP3或WAV格式的转换,人们可享受到利用碎片化时间进行听取的便利。
所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
通过将扫描图片进行裁切,只对扫描图片的预定区域进OCR文字识别,提高识别的定向性和准确性,目前通常用的裁切方法为,识别图片中文字区域,并对图片区域中的文字区域进行识别裁切,生存带文字区域的预定区域。
所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
通过OCR技术识别所述扫描图片预定区域的文字后,会带一些错误乱码文字或多余文字,此时,需要对乱码文字进行删除,多余文字进行删除或自动修订,修订的方式可以参照现有人工智能技术进行自动修改处理,当然可以不限于这些修改,还可以自动增加一些常用词语,比如,“中国首都京”中可能缺少“北”,就会自动增加为“中国首都北京”等,详细内容不再赘述。
其中,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
通过通过TTS技术中声音大小和快慢选择属性将所述识别文字转换成预定音量和预定播放速度语音文件,可以根据个性化需求调节输出语音文件的属性,使该技术更人性化。
在其他实施例中,本发明一种高拍仪获得语音方法还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
通过将存储量比较小的区块链文字信息上传到高拍仪区块链支链上,可以大大减小高拍仪区块链支链的存储量,提高高拍仪区块链支链上节点交易速度,提高使用率。
另外,设置高拍仪区块链支链与备份区块链总链存在共享的节点,即将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上,使该高拍仪区块链支链上预定节点可以在其他区块链上进行备份存储,防止丢失和被篡改,提高存储信息的安全性和唯一性。
另外,将所述语音文件在预定的时间内上传到所述共享节点上。不占用高拍仪区块链支链的区块链交易速度,可以利用其他空余时间将所述语音文件在预定的时间内上传到所述共享节点上,后续在验证或查找高拍仪区块链支链的交易信息时,可以到共享节点上查找语音文件来验证,进一步提高存储信息的安全性和唯一性。
实施例二
如图2所示。本发明还提供一种基于高拍仪获得语音播放系统,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
通过先将预定的图片进行拍摄扫描,生存扫描图片,然后将扫描图片上预定区域的文字通过OCR技术进行识别,生成识别文字,识别文字可以为可编辑的文字,然后通过TTS技术将识别文字转换成语音文件,从而实现从图片到语音文件(MP3或WAV)的直接输出,提高拍摄仪等设备可以直接输出成语音文件的能力,提高使用便利性。
让拍摄仪可以实现拍摄图片,再进行文字识别,最后转存为计算机可朗读语音文件的目的,也可以通过将之前已经扫描过的本地现有图像,进行文字识别,转存为计算机可朗读的语音文件。
如果有一种技术能将高拍仪采集的图像或本地电子图像,再进行一个MP3或WAV格式的转换,人们可享受到利用碎片化时间进行听取的便利。
其中,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
通过将扫描图片进行裁切,只对扫描图片的预定区域进OCR文字识别,提高识别的定向性和准确性,目前通常用的裁切方法为,识别图片中文字区域,并对图片区域中的文字区域进行识别裁切,生存带文字区域的预定区域。
所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
通过OCR技术识别所述扫描图片预定区域的文字后,会带一些错误乱码文字或多余文字,此时,需要对乱码文字进行删除,多余文字进行删除或自动修订,修订的方式可以参照现有人工智能技术进行自动修改处理,当然可以不限于这些修改,还可以自动增加一些常用词语,比如,“中国首都京”中可能缺少“北”,就会自动增加为“中国首都北京”等,详细内容不再赘述。
其中,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
通过通过TTS技术中声音大小和快慢选择属性将所述识别文字转换成预定音量和预定播放速度语音文件,可以根据个性化需求调节输出语音文件的属性,使该技术更人性化。
在其他实施例中,提供的一种基于高拍仪获得语音播放系统还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
通过将存储量比较小的区块链文字信息上传到高拍仪区块链支链上,可以大大减小高拍仪区块链支链的存储量,提高高拍仪区块链支链上节点交易速度,提高使用率。
另外,设置高拍仪区块链支链与备份区块链总链存在共享的节点,即将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上,使该高拍仪区块链支链上预定节点可以在其他区块链上进行备份存储,防止丢失和被篡改,提高存储信息的安全性和唯一性。
另外,将所述语音文件在预定的时间内上传到所述共享节点上。不占用高拍仪区块链支链的区块链交易速度,可以利用其他空余时间将所述语音文件在预定的时间内上传到所述共享节点上,后续在验证或查找高拍仪区块链支链的交易信息时,可以到共享节点上查找语音文件来验证,进一步提高存储信息的安全性和唯一性。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人才员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于高拍仪获得语音播放方法,其特征在于,包括:
步骤一,扫描预定图片,生成扫描图片;
步骤二,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
步骤三,通过TTS技术将所述识别文字转换成语音文件。
2.根据权利要求1所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤一还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
3.根据权利要求2所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤二还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
4.根据权利要求3所述的基于高拍仪获得语音播放方法,其特征在于,所述步骤三还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
5.根据权利要求1所述的基于高拍仪获得语音播放方法,其特征在于,还包括:
步骤四,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
步骤五,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
6.一种基于高拍仪获得语音播放系统,其特征在于,包括:
扫描单元,其配置为,扫描预定图片,生成扫描图片;
文字识别单元,其配置为,通过OCR技术识别所述扫描图片预定区域的文字,生成识别文字;
语音生成单元,其配置为,通过TTS技术将所述识别文字转换成语音文件。
7.根据权利要求6所述的基于高拍仪获得语音播放系统,其特征在于,所述扫描单元还包括:
根据预定位置对所述扫描图片进行裁切,生成扫描图片预定区域。
8.根据权利要求7所述的基于高拍仪获得语音播放系统,其特征在于,所述文字识别单元还包括:
通过OCR技术识别所述扫描图片预定区域的文字,生成原始文字;
对所述原始文字进行自动处理,生成识别文字。
9.根据权利要求8所述的基于高拍仪获得语音播放系统,其特征在于,所述语音生成单元还包括:
通过TTS技术中声音大小选择属性将所述识别文字转换成语音文件;和/或,
通过TTS技术中声音快慢选择属性将所述识别文字转换成语音文件。
10.根据权利要求9所述的基于高拍仪获得语音播放系统,其特征在于,还包括:
区块链上传单元,将所述识别文字生成区块链文字信息,并将所述区块链文字信息上传到高拍仪区块链支链;
区块链备份单元,将所述高拍仪区块链支链上预定节点共享到备份区块链总链的共享节点上;
将所述语音文件在预定的时间内上传到所述共享节点上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010996779.2A CN112259074A (zh) | 2020-09-21 | 2020-09-21 | 一种基于高拍仪获得语音播放方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010996779.2A CN112259074A (zh) | 2020-09-21 | 2020-09-21 | 一种基于高拍仪获得语音播放方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112259074A true CN112259074A (zh) | 2021-01-22 |
Family
ID=74231486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010996779.2A Pending CN112259074A (zh) | 2020-09-21 | 2020-09-21 | 一种基于高拍仪获得语音播放方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259074A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687258A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201097383Y (zh) * | 2007-01-12 | 2008-08-06 | 林良锐 | 听书机 |
CN102360427A (zh) * | 2011-09-30 | 2012-02-22 | 汉王科技股份有限公司 | 可调节扫描模式的文字采集方法和扫描装置 |
CN102509479A (zh) * | 2011-10-08 | 2012-06-20 | 沈沾俊 | 便携式文字识别发声阅读器及读取文字的方法 |
CN102622593A (zh) * | 2012-02-10 | 2012-08-01 | 北方工业大学 | 一种文本识别方法及系统 |
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
CN103077625A (zh) * | 2013-01-30 | 2013-05-01 | 中国盲文出版社 | 一种盲用电子阅读器和助盲阅读方法 |
CN107846282A (zh) * | 2017-11-03 | 2018-03-27 | 法信公证云(厦门)科技有限公司 | 一种基于区块链技术的电子数据分布式保管方法及系统 |
CN110322643A (zh) * | 2019-07-08 | 2019-10-11 | 上海卓繁信息技术股份有限公司 | 智能政务服务工作系统及其应用 |
-
2020
- 2020-09-21 CN CN202010996779.2A patent/CN112259074A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201097383Y (zh) * | 2007-01-12 | 2008-08-06 | 林良锐 | 听书机 |
CN102360427A (zh) * | 2011-09-30 | 2012-02-22 | 汉王科技股份有限公司 | 可调节扫描模式的文字采集方法和扫描装置 |
CN102509479A (zh) * | 2011-10-08 | 2012-06-20 | 沈沾俊 | 便携式文字识别发声阅读器及读取文字的方法 |
CN102622593A (zh) * | 2012-02-10 | 2012-08-01 | 北方工业大学 | 一种文本识别方法及系统 |
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
CN103077625A (zh) * | 2013-01-30 | 2013-05-01 | 中国盲文出版社 | 一种盲用电子阅读器和助盲阅读方法 |
CN107846282A (zh) * | 2017-11-03 | 2018-03-27 | 法信公证云(厦门)科技有限公司 | 一种基于区块链技术的电子数据分布式保管方法及系统 |
CN110322643A (zh) * | 2019-07-08 | 2019-10-11 | 上海卓繁信息技术股份有限公司 | 智能政务服务工作系统及其应用 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687258A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机存储介质 |
CN112687258B (zh) * | 2021-03-11 | 2021-07-09 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6873687B2 (en) | Method and apparatus for capturing and retrieving voice messages | |
US8234277B2 (en) | Image-based retrieval for high quality visual or acoustic rendering | |
US7831598B2 (en) | Data recording and reproducing apparatus and method of generating metadata | |
US5729741A (en) | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions | |
US8719029B2 (en) | File format, server, viewer device for digital comic, digital comic generation device | |
US20030004991A1 (en) | Correlating handwritten annotations to a document | |
CN100388752C (zh) | 成像设备及其处理方法 | |
EP1312041B1 (en) | Method and means for mobile capture,processing, storage and transmission of text and mixed information containing characters and images | |
CN101309449A (zh) | 一种基于手机彩信/短信的远程翻译服务方法 | |
US20200364463A1 (en) | Intelligently generating digital note compilations from digital video | |
CN110619115A (zh) | 一种模板创建方法、装置、电子设备及存储介质 | |
CN110209759B (zh) | 自动识别书页的方法及装置 | |
CN112860642A (zh) | 一种庭审数据处理方法、服务器及终端 | |
CN112259074A (zh) | 一种基于高拍仪获得语音播放方法和系统 | |
EP2023266A1 (en) | Searching media content for objects specified using identifiers | |
US11645474B2 (en) | Computer-implemented method for text conversion, computer device, and non-transitory computer readable storage medium | |
RU2648636C2 (ru) | Сохранение контента в конвертированных документах | |
US20160335500A1 (en) | Method of and system for generating metadata | |
CN101872344A (zh) | 一种图像扫描的控制方法 | |
CN114168715A (zh) | 生成目标数据集的方法、装置、设备及存储介质 | |
CN110929479A (zh) | 转换pdf扫描件的方法、装置、电子设备及存储介质 | |
JP2000348142A (ja) | 文字認識装置,文字認識方法,および文字認識方法を実行するプログラムを記録した記録媒体 | |
RU2287183C2 (ru) | Способ и средство для мобильного захвата, обработки, хранения и передачи текста и смешанной информации, содержащей знаки и изображения | |
JP2007049245A (ja) | 音声入力機能付撮影装置 | |
Sundar et al. | An optical character recognition framework based newspaper reader application for blind |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |