CN105531765A - 基于语音生成和识别条形码信息的方法以及记录介质 - Google Patents

基于语音生成和识别条形码信息的方法以及记录介质 Download PDF

Info

Publication number
CN105531765A
CN105531765A CN201380079625.5A CN201380079625A CN105531765A CN 105531765 A CN105531765 A CN 105531765A CN 201380079625 A CN201380079625 A CN 201380079625A CN 105531765 A CN105531765 A CN 105531765A
Authority
CN
China
Prior art keywords
broadcast information
voice
speech play
play file
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380079625.5A
Other languages
English (en)
Inventor
白承彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MTCOM Co Ltd
Original Assignee
MTCOM Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MTCOM Co Ltd filed Critical MTCOM Co Ltd
Publication of CN105531765A publication Critical patent/CN105531765A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • G06K19/06009Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
    • G06K19/06046Constructional details
    • G06K19/0614Constructional details the marking being selective to wavelength, e.g. color barcode or barcodes only visible under UV or IR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0062Embedding of the watermark in text images, e.g. watermarking text documents using letter skew, letter distance or row distance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种用于生成和识别基于语音的播放信息的方法以一种用于存储方法执行指令的记录介质,即,将用于输出语音的语音播放文件转换为播放信息,并且当识别到所述播放信息时,通过播放所述语音播放文件来输出语音;因此,在不使用独立存储装置存储语音播放文件的情况下就可提供记录功能,该记录功能可用于多种领域。

Description

基于语音生成和识别条形码信息的方法以及记录介质
技术领域
本发明涉及一种将用于输出语音的语音播放文件转换为播放信息并在识别到播放信息时播放语音播放文件以输出语音的方法。
背景技术
随着便携式电子装置(例如,智能平板电脑)的销量和使用量逐年剧增,电子文档和电子签名服务已被引入多种领域使用。
此外,政府推行的无纸化计划促进了电子文档和电子签名服务的发展,进一步引发快速增长的趋势。
近来,针对电子签名的立法,引入了记录功能来加强电子签名的法律效力,并且越来越需要从根本上防止客户否认合同内容或协议内容。
由于这种记录功能可以在全社会的多种领域中广泛利用,而不仅仅是作为加强电子签名的法律效力的辅助手段,所以需要一种以积极方式利用这种记录功能的方法。
发明内容
技术问题
本发明鉴于上述情况设想而成,待由本发明实现的目标是:提供一种记录功能,通过将用于输出语音的语音播放文件转换为播放信息并在识别到播放信息时播放语音播放文件来输出语音,该记录功能无需使用独立存储装置来存储语音播放文件,可用于多种领域。
技术方案
第一方面,本发明所述用于生成基于语音的播放信息的方法,其特征在于:包括确认步骤和转换步骤,其中:所述确认步骤,确认已生成用于输出语音的待播放语音播放文件;所述转换步骤,在该转换步骤中,将语音播放文件转换为播放信息,从而在识别到播放信息时播放已转换为播放信息的语音播放文件。
更具体地,所述方法的特征在于,其进一步包括插入步骤,在该插入步骤中,将播放信息插入作为特定电子文档的标头信息,或者将播放信息转换为条形码图像并插入至电子文档中。
更具体地,组成语音播放文件的各个数据的数据值包括在播放信息中,其中,在插入步骤中,将播放信息转换为条形码图像,从而使条形码图像包括数据标识符,该数据标识符由组成语音播放文件的各个数据的数据值确定;然后将条形码图像插入至电子文档。
更具体地,按照使数据标识符包括与各个数据的数据值相对应的两种或多种颜色和图形中的至少一种来确定数据标识符。
更具体地,在所述转换步骤中,将语音播放文件以及用作输出与语音相关的多媒体信息的播放文件的多媒体信息播放文件转换为播放信息,其中,多媒体信息包括与语音相关的文本、图像和移动图像中的至少一个。
第二方面,本发明所述用于识别基于语音的播放信息的方法,其特征在于:包括识别步骤、转换步骤以及输出步骤,其中,所述识别步骤,对已从语音播放文件转换而来的播放信息进行识别,所述语音播放文件是用于输出语音的播放文件;所述转换步骤,将识别出的播放信息转换为语音播放文件;所述输出步骤,播放已转换的语音播放文件以输出语音。
更具体地,在所述识别步骤中,对已插入为电子文档的标头信息的播放信息进行识别,或者对已转换为条形码图像并插入至电子文档的播放信息进行识别。
更具体地,组成语音播放文件的各个数据的数据值包括在播放信息中,并且,在识别步骤中,根据条形码图像对由组成语音播放文件的各个数据的数据值确定的数据标识符进行识别。
更具体地,按照使数据标识符包括与各个数据的数据值相对应的两种或多种颜色和图形中的至少一种来确定数据标识符。
更具体地,将识别出的播放信息转换为用于输出与语音相关的多媒体信息的多媒体信息播放文件以及语音播放文件,并且,在输出步骤中,将与语音相关的文本、图像和移动图像中的至少一个输出作为多媒体信息。
有益效果
通过本发明中所述用于生成和识别进行语音输出的语音播放文件的方法以及用于存储方法执行指令的记录介质,将用于输出语音的语音播放文件转换为播放信息,并在识别到播放信息时通过播放语音播放文件来输出语音;因此,在不使用独立存储装置存储语音播放文件的情况下就可提供记录功能,除了用作加强电子签名的法律效力的辅助手段外,该记录功能还可用于多种领域。
附图说明
图1是本发明一种实施例提供的基于语音生成和识别播放信息的系统的结构示意图;
图2是本发明一种实施例提供的生成装置的结构示意图;
图3是本发明一种实施例提供的识别装置的结构示意图;
图4是本发明另一种实施例提供的生成装置的操作流程的流程示意图;以及
图6是本发明又一种实施例提供的识别装置的操作流程的流程示意图。
具体实施方式
下面将结合附图详细说明本发明的一个实施例。
图1是本发明实施例提供的基于语音生成和搜索播放信息的系统的结构示意图。
如图1所示,本发明实施例中基于语音硬件生成和搜索播放信息的系统可由生成装置100和识别装置200组成,其中,生成装置100生成基于语音的播放信息;识别装置200识别所生成的播放信息。
所述生成装置100指将已生成的用于输出语音的语音播放文件转换为播放信息的装置。
这种生成装置100可通过执行应用程序或编程软件模块的一系列过程来将语音播放文件转换为播放信息。
因此,生成装置100指能够执行应用程序或软件模块的用户装置。
例如,生成装置100可包括智能手机、个人计算机(PC)、笔记本、平板PC和个人数字助理(PDA)等。
所述识别装置200指识别已从语音播放文件转换而来的播放信息、播放已转换为播放信息的语音播放文件并输出语音的装置。
如上文所述生成装置100一样,这种识别装置200可通过执行应用程序或编程软件模块的一系列过程来将语音播放文件转换为播放信息。
因此,识别装置200也指能够执行应用程序或软件模块的用户装置。
同时,本发明中提出了一种记录功能,该记录功能可在全社会的多种领域中广泛利用,而不仅仅是用作加强电子签名的法律效力的辅助手段。
然而,根据现有技术,为了实施记录功能,需要引入独立存储装置(例如,光盘(CDCD)、通用串行总线(USB))来存储语音功能,并且语音通常记录为语音数据。
因此,记录存储装置需要作为独立模块来管理,并且播放装置需要从存储装置读取已记录的语音数据并输出语音,这对用户而言不方便。
因此,根据本发明实施例,提出了一种将用于输出语音的语音播放文件转换为播放信息并在识别到播放信息时输出播放信息的方法,下面将详细解释该方法。
首先,生成装置100执行生成语音播放文件的功能。
更具体地,生成装置100将语音转换为可被播放的语音播放文件,从而使得,当识别装置200或独立播放装置(未示出)播放语音播放文件时,可以输出语音。
同样,生成装置100执行确认待转换为播放信息的语音播放文件的功能。
更具体地,生成装置100可将独自生成的语音播放文件确认为待转换为播放信息的目标,或者将由独立装置生成的语音播放文件确认为待转换为播放信息的目标。
同样,生成装置100执行将语音播放文件转换为播放信息的功能。
更具体地,当确认了待转换为播放信息的语音播放文件时,生成装置100将相应语音播放文件转换为播放信息,从而使得,当识别装置200识别到播放信息时,播放已转换的语音播放文件以输出语音。
同时,生成装置100按照如下方式执行转换:使组成语音播放文件的各个数据的数据值包括在播放信息中,从而插入播放信息作为电子文档的标头信息,或者将播放信息转换为条形码图像并插入至电子文档。
同样,生成装置100执行如下功能:将已从语音播放文件转换而来的播放信息插入至电子文档。
更具体地,生成装置100插入已从语音播放文件转换而来的播放信息作为电子文档的标头信息,或者将播放信息转换为条形码图像并将该条形码图像插入至电子文档中,从而允许识别装置200对相应播放信息进行识别并且输出语音。
识别装置200执行识别播放信息的功能。
更具体地,识别装置200通过识别已被插入电子文档的标头信息或者已转换为条形码图像并插入电子文档中的播放信息来确认存在已转换为播放信息的语音播放文件。
同时,当识别装置200识别到已被插入作为条形码图像的播放信息时,识别装置200也可通过对作为数据标识符应用至条形码图像的多种颜色和图形进行识别来确认存在已转换为播放信息的语音播放信息。
同样,识别装置200执行将播放信息转换为语音播放文件的功能。
更具体地,当识别装置200确认存在已转换为播放信息的语音播放文件时,识别装置200将播放信息转换回语音播放文件。
同时,识别装置200可通过对插入条形码图像中的数据标识符进行识别而获得的识别结果替换为组成语音播放文件的各个数据的数据值,来执行至语音播放文件的转换。
同样,服务装置200执行播放语音播放文件的功能。
更具体地,当完成了从播放信息至语音播放文件的转换时,识别装置200通过播放已转换的语音播放文件来输出语音。
同时,当从播放信息转换为语音播放文件以及多媒体信息播放文件时,识别装置200不仅输出语音而且还输出诸如文本、图像和移动图像等与语音相关的多媒体信息。
下面将结合图2详细说明本发明实施例提供的生成装置100的结构。
所述生成装置100由用于生成语音播放文件的生成单元110、用于确认待转换为播放信息的语音播放文件的确认单元120以及用于将语音播放文件转换为播放信息的转换单元130构成。
同时,对于本发明实施例提供的生成装置100,除了上文所述配置外,还进一步包括插入单元140,该插入单元140将已转换的播放信息插入电子文档。
其中,所述生成单元100的各个部件(包括上文所述生成单元110、确认单元120、转换单元130以及插入单元140)可实施为由处理器执行的应用程序或者编程软件模块。
生成单元110执行生成语音播放文件的功能。
更具体地,生成单元110将语音转换为可被播放的语音播放文件,从而使得,当识别装置200或独立播放装置(未示出)播放语音播放文件时,可以输出语音。
例如,当在医院、保险/财务公司、杂志公司等处进行合同或协议谈判时,生成单元110可将订约人或协议方的语音生成语音播放文件来防止法律纠纷。
另外,出版公司、音乐公司等可将受欢迎的作家、名人或配音演员等的语音生成语音播放文件来促进出版物或版权作品的销售。
除了这些之外,在多种服务(例如,学习材料、外语材料等)中,可以将语音生成语音播放文件来描述单词或句子、进行发音以及针对问题提出解决方案等。
与此同时,确认单元120执行确认待转换为播放信息的语音播放文件的功能。
更具体地,确认单元120可将独自生成的语音播放文件确认为待转换为播放信息的目标,或者将由独立装置生成的语音播放文件确认为待转换为播放信息的目标。
转换单元130执行将语音播放文件转换为播放信息的功能。
更具体地,当确认了待转换为播放信息的语音播放文件时,转换单元130将相应语音播放文件转换为播放信息,从而使得,当识别装置200识别到播放信息时,播放已转换的语音播放文件以输出语音。
同时,转换单元130按照如下方式执行转换:使组成语音播放文件的各个数据的数据值包括在播放信息中,从而插入播放信息作为电子文档的标头信息,或者将播放信息转换为条形码图像并插入至确定单元240中的电子文档中。
同时,当将语音播放文件转换为播放信息的同时,转换单元130可将语音播放文件和多媒体信息播放文件(用于输出与语音相关的多媒体信息)转换为播放信息。
其中,多媒体信息可包括文本、图像、移动图像等。
当识别装置200确认播放信息时,文本、图像和移动图像等与语音相关的多媒体信息可与语音一起输出。
插入单元140执行如下功能:将已从语音播放文件转换而来的播放信息插入至电子文档。
更具体地,插入单元140插入已从语音播放文件转换而来的播放信息作为电子文档的标头信息或者将播放信息转换为条形码图像并将该条形码图像插入至电子文档中,从而允许识别装置200对相应播放信息进行识别并且输出语音。
即,插入单元140将已从语音播放文件转换而来的播放信息转换为电子文档的标头信息,从而使得,当浏览该电子文档时,识别装置200可以识别已被插入作为标头信息的播放信息并且输出语音。
其中,当识别已被插入作为电子文档的标头信息的播放信息时,可以通过在浏览电子文档的同时执行的多个事件(例如,文档特定区域的时钟、拖放等)来识别该播放信息。
并且,对于本领域技术人员而言显而易见的是,当打印相应电子文档时,已被插入作为电子文档的标头信息的播放信息可被转换为相应电子文档打印输出件上的条形码图像并被输出。
同时,插入单元140通过将已从语音播放文件转换而来的播放信息作为电子文档的标头信息插入至条形码图像并将条形码图像插入到电子文档中,从而允许识别装置200对已被插入至电子文档的条形码图像进行识别并且输出语音。
而且,插入单元140确定与各个数据的数据值相对应的数据标识符,并且将条形码图像配置为包括所确定的数据标识符。
所述插入单元140将与各个数据的数据值相对应的多种颜色或图形确定为数据标识符,并且通过使用所确定的数据标识符来配置条形码图像。
例如,当将多种颜色确定为数据标识符时,通过确定诸如浓度、饱和度和亮度等颜色分量,应用至条形码图像的每种颜色可表示用于配置语音播放文件的各个数据的数据值。
另外,当将图形确定为数据标识符时,可通过确定形状、组合、尺寸等来表示用于配置语音播放文件的各个数据的数据值。
如此,可插入播放信息作为电子文档的标头信息或条形码图像,从而使播放信息可在全社会的多种应用领域中广泛使用。
例如,当在医院、保险/财务公司、杂志公司等进行合同或协议谈判时,插入单元140可将已从语音播放文件转换而来的播放信息插入至电子文档或打印输出件上,从而使用于识别已插入播放信息的识别装置200可输出订约人或协议方的语音,从而能够将该语音用作防否认的合法有力对策。
另外,出版公司、音乐公司等可将已从语音播放文件转换而来的播放信息插入至出版物或者版权作品中,从而使用于识别播放信息的识别装置200可输出受欢迎的作家、名人或配音演员等的语音,并且将该语音用作全新的促销方式。
同样,在教育领域,可以将播放信息插入至与多种服务(例如,学习材料、外语材料等)相关的网页或打印输出件中,从而使用于识别播放信息的识别装置200可输出用于描述单词或句子、进行发音以及针对问题提出解决方案等的语音,并且将该语音用作教育方式。
下面将结合图3详细说明本发明实施例提供的识别装置200的结构。
所述识别装置200由用于识别播放信息的识别单元210、用于将识别出的播放信息转换为语音播放文件的转换单元220以及用于播放语音播放文件以输出语音的输出单元230组成。
其中,识别装置200的各个部件(包括识别单元210、转换单元220以及输出单元230)可以实施为由处理器执行的应用程序或编程软件模块。
识别单元210执行识别播放信息的功能。
更具体地,识别单元210对已被插入作为电子文档的标头信息或已转换为条形码图像并插入至电子文档中的播放信息进行识别,从而确认存在已转换为播放信息的语音播放文件。
同时,当识别单元210识别已被插入作为条形码图像的播放信息时,识别单元200也可通过对作为数据标识符应用至条形码图像的多种颜色和图形进行识别来确认存在已转换为播放信息的语音播放信息。
转换单元220执行将播放信息转换为语音播放文件的功能。
更具体地,当确认已转换为播放信息的语音播放文件时,转换单元220将播放信息转换回语音播放文件。
例如,当将多种颜色作为数据标识符应用在条形码图像中时,转换单元220可通过确认每种颜色的颜色分量(诸如浓度、饱和度和亮度等)并将确认结果替换为用于配置语音播放文件的各个数据的数据值来执行至语音播放文件的转换。
另外,当将图形作为包括在条形码图像中的数据标识符应用时,转换单元220可通过确认图形的形状、组合、尺寸等并将确认结果替换为用于配置语音播放文件的各个数据的数据值来执行至语音播放文件的转换。
输出单元230执行播放语音播放文件的功能。
更具体地,当完成了从播放信息至语音播放文件的转换时,输出单元230通过播放已转换的语音播放文件来输出语音。
同时,当从播放信息转换为语音播放文件以及多媒体信息播放文件时,识别装置200不仅输出语音,而且还输出诸如文本、图像和移动图像等与语音相关的多媒体信息。
如此,输出单元230可播放已从播放信息转换而来的语音播放文件,从而使输出的语音广泛用于全社会的多种应用领域。
例如,当在医院、保险/财务公司以及杂志公司等进行合同或协议谈判时,如果识别到已被插入至电子文档或打印输出件中的播放信息,可以输出订约人或协议方的语音,从而能够将该语音用作防否认的合法有力对策。
另外,当出版公司、音乐公司等识别已被插入至出版物或者版权作品中的播放信息时,可以输出受欢迎的作家、名人或配音演员等的语音并且将该语音用作全新的促销方式。
同样,在教育领域,当识别到插入为与多个服务(例如,学习材料、外语材料等)相关联的播放信息时,可以输出用于描述单词或句子、进行发音以及针对问题提出解决方案等的语音并且将该语音用作教育方式。
如上文所述,用于生成和识别基于语音的播放信息的系统,将用于输出语音的语音播放文件转换为播放信息,并且在识别到播放信息时通过播放语音播放文件来输出语音;因此,在不使用独立存储装置来存储语音播放文件的情况下就能提供记录功能,除了用作加强电子签名的法律效力的辅助手段外,该记录功能还可用在多种领域。
下面将结合图4和图5详细说明本发明实施例提供的用于生成和识别基于语音的播放信息的方法。
为了方便描述,使用相应参考编号来指代图1和图2中描述的结构。
首先,将结合图4详细说明本发明实施例提供的生成装置100的操作流程。
首先,生成单元110将语音转换为可被播放的语音播放文件,从而使得,当识别装置200或独立播放装置(未示出)播放语音播放文件时可输出语音(S110)。
然后,确认单元120将独自生成的语音播放文件确认为待转换为播放信息的目标,或者将由独立装置生成的语音播放文件确认为待转换为播放信息的目标(S120)。
然后,当确认了待转换为播放信息的语音播放文件时,转换单元130将相应语音播放文件转换为播放信息,从而使得,当识别装置200识别到播放信息时,播放已转换的语音播放文件以输出语音(S130)。
同时,转换单元130按照如下方式执行转换:使组成语音播放文件的各个数据的数据值包括在播放信息中,从而插入播放信息作为电子文档的标头信息,或者将播放信息转换为条形码图像并且插入至确定单元240中的电子文档。
同时,当将语音播放文件转换为播放信息时,转换单元130可将语音播放文件和多媒体信息播放文件(用于输出与语音相关的多媒体信息)转换为播放信息。
然后,插入单元140将已从语音播放文件转换而来的播放信息作为电子文档的标头信息插入至条形码图像并将条形码图像插入至电子文档中,从而允许识别装置200对已被插入至电子文档中的条形码图像进行识别并且输出语音(S140-S160、S180)。
同时,插入单元140将与各个数据的数据值相对应的多种颜色或图形确定为数据标识符并通过使用所确定的数据标识符来配置条形码图像。
例如,当将多种颜色确定为数据标识符时,通过确定诸如浓度、饱和度和亮度等颜色分量,应用至条形码图像的每种颜色可表示用于配置语音播放文件的各个数据的数据值。
另外,当将图形确定为数据标识符时,可通过确定形状、组合、尺寸等来表示用于配置语音播放文件的各个数据的数据值。
同时,插入单元140将已从语音播放文件转换而来的播放信息转换为电子元件的标头信息,从而使得,当浏览该电子文档时,识别装置200可以对已被插入作为标头信息的播放信息进行识别并且输出语音(S170-S180)。
下面将结合图5详细说明本发明实施例提供的识别装置200的操作流程。
首先,识别单元210通过对已被插入作为电子文档的标头信息或已转换为条形码图像并插入至电子文档的播放信息进行识别,确认存在已转换为播放信息的语音播放文件(S210)。
同时,当识别单元210识别到已被插入作为条形码图像的播放信息时,识别单元200也可通过对作为数据标识符应用至条形码图像的多种颜色和图形进行识别来确认存在已转换为播放信息的语音播放信息。
然后,当确认了已转换为播放信息的语音播放文件时,转换单元220将播放信息转换回语音播放文件(S220)。
同时,当将多种颜色作为数据标识符应用在条形码图像中时,转换单元220确认每种颜色的颜色分量(诸如浓度、饱和度和亮度等)并将确认结果替换为用于配置语音播放文件的各个数据的数据值,从而执行至语音播放文件的转换。
并且,当将图形作为包括在条形码图像中的数据标识符应用时,转换单元220可确认图形的形状、组合、尺寸等并将确认结果替换为用于配置语音播放文件的各个数据的数据值,从而执行至语音播放文件的转换。
然后,当完成了从播放信息至语音播放文件的转换时,输出单元230通过播放已转换的语音播放文件来输出语音(S240)。
同时,当从播放信息转换为语音播放文件和多媒体信息播放文件时,识别装置200不仅输出语音,而且还输出诸如文本、图像和移动图像等与语音相关的多媒体信息。
如上文所述,根据用于生成和识别基于语音的播放信息的方法,将用于输出语音的语音播放文件转换为播放信息,并且在识别到播放信息时通过播放语音播放文件来输出语音;因此,在不使用独立存储装置存储语音播放文件的情况下就可提供记录功能,除了用作加强电子签名的法律效力的辅助手段外,该记录功能还可用于多种领域。
同时,对于针对本文公开的实施例中所描述的方法和运算步骤,可以直接实施为由处理器执行的硬件、软件模块、或者硬件和与软件模块的组合。软件模块可以驻存在RAM存储器、闪速存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM、或者本领域中已知的任何其它形式的存储介质。示例性存储介质可以连接至处理器,并且因此,;因此,处理器可以从存储介质读取信息并且将信息记录在存储介质中。可替代地,或者,也可将存储介质可以并入处理器中。处理器和存储介质可以包括在ASIC中。ASIC可以包括在用户终端装置中。可替代地,替代性地,也可将处理器和存储介质可以作为独立部件包括在用户终端装置中。
虽然结合优选实施例详细阐释了本发明,但本发明并不限于这些实施例;并且应该理解,基于本发明中的实施例,本领域普通技术人员在未脱离本发明随附权利要求书中所限定主题的情况下进行任何修改或更改而获得的其他实施例都属于本发明的技术范围。
工业实用性
根据用于生成基于语音的播放信息的方法和用于存储方法执行指令的记录介质,将用于输出语音的语音播放文件转换为播放信息,并且当识别到播放信息时,播放语音播放文件以输出语音。因此,本发明克服了现有技术的限制,应用本发明的装置可获得市场竞争力,并且该装置显然可被实施,从而保证本发明的工业实用性。

Claims (11)

1.一种用于生成基于语音的播放信息的方法,其特征在于,包括:
确认步骤,在所述确认步骤中,确认已生成用于输出语音的待播放语音播放文件;以及
转换步骤,在所述转换步骤中,将所述语音播放文件转换为播放信息,从而使得,当识别到所述播放信息时,播放已转换为所述播放信息的所述语音播放文件。
2.权利要求1所述的用于生成基于语音的播放信息的方法,其特征在于,进一步包括:
插入步骤,在所述插入步骤中,插入所述播放信息作为特定电子文档的标头信息,或者将所述播放信息转换为条形码图像并且插入至所述电子文档。
3.权利要求2所述的用于生成基于语音的播放信息的方法,其特征在于,组成所述语音播放文件的各个数据的数据值包括在所述播放信息中,以及
其中,在所述插入步骤中,将所述播放信息转换为条形码图像,从而使所述条形码图像包括数据标识符,所述数据标识符由组成所述语音播放文件的各个数据的所述数据值确定,然后将所述条形码图像插入至所述电子文档。
4.权利要求3所述的用于生成基于语音的播放信息的方法,其特征在于,按照使所述数据标识符包括与所述各个数据的所述数据值相对应的两种或多种颜色和图形中的至少一种来确定所述数据标识符。
5.权利要求1所述的用于生成基于语音的播放信息的方法,其特征在于,在所述转换步骤中,将作为用于输出与所述语音相关的多媒体信息的播放文件的多媒体信息播放文件以及所述语音播放文件转换为所述播放信息,以及
其中,所述多媒体信息包括与所述语音相关的文本、图像和移动图像中的至少一个。
6.一种用于识别基于语音的播放信息的方法,其特征在于,包括:
识别步骤,在所述识别步骤中,对已从语音播放文件转换而来的播放信息进行识别,其中,所述语音播放文件是用于输出语音的播放文件;
转换步骤,在所述转换步骤中,将所述识别出的播放信息转换为所述语音播放文件;以及
输出步骤,在所述输出步骤中,播放所述已转换的语音播放文件以输出所述语音。
7.权利要求6所述的用于识别基于语音的播放信息的方法,其特征在于,在所述识别步骤中,对已插入作为电子文档的标头信息的所述播放信息进行识别,或者对已转换为条形码图像并插入至所述电子文档的所述播放信息进行识别。
8.权利要求6所述的用于识别基于语音的播放信息的方法,其特征在于,组成所述语音播放文件的各个数据的数据值包括在所述播放信息中,以及
其中,在所述识别步骤中,根据所述条形码图像对由组成所述语音播放文件的各个数据的所述数据值确定的数据标识符进行识别。
9.权利要求8所述的用于识别基于语音的播放信息的方法,其特征在于,按照使所述数据标识符包括与所述各个数据的所述数据值相对应的两种或多种颜色和图形中的至少一个来确定所述数据标识符。
10.权利要求6所述的用于识别基于语音的播放信息的方法,其特征在于,在所述转换步骤中,将所述识别出的播放信息转换为用于输出与所述语音相关的多媒体信息的多媒体信息播放文件以及所述语音播放文件,以及
其中,在所述输出步骤中,将与所述语音相关的文本、图像和移动图像中的至少一个输出作为所述多媒体信息。
11.一种计算机可读记录介质,所述计算机可读记录介质上存储着用于执行上述权利要求1-10中任一项所述方法各步骤的指令。
CN201380079625.5A 2013-08-07 2013-12-31 基于语音生成和识别条形码信息的方法以及记录介质 Pending CN105531765A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020130093846A KR101557829B1 (ko) 2013-08-07 2013-08-07 음성 기반 재생정보 생성 및 인식 방법 및 기록 매체
KR10-2013-0093846 2013-08-07
PCT/KR2013/012418 WO2015020285A1 (ko) 2013-08-07 2013-12-31 음성 기반 재생정보 생성 및 인식 방법 및 기록 매체

Publications (1)

Publication Number Publication Date
CN105531765A true CN105531765A (zh) 2016-04-27

Family

ID=52461585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380079625.5A Pending CN105531765A (zh) 2013-08-07 2013-12-31 基于语音生成和识别条形码信息的方法以及记录介质

Country Status (5)

Country Link
US (1) US10083692B2 (zh)
JP (1) JP2016534391A (zh)
KR (1) KR101557829B1 (zh)
CN (1) CN105531765A (zh)
WO (1) WO2015020285A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597319A (zh) * 2020-12-16 2021-04-02 北京高德品创科技有限公司 多媒体文档的打印方法、读取方法、装置及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101705228B1 (ko) * 2016-08-22 2017-02-09 백승빈 전자문서생성장치 및 그 동작 방법
JPWO2023166636A1 (zh) * 2022-03-02 2023-09-07

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1131769A (zh) * 1994-12-28 1996-09-25 夏普公司 信息重放器和信息产生装置
US5614946A (en) * 1992-06-11 1997-03-25 Ricoh Company, Ltd. Still camera with time division recording of audio and video signals
US6115508A (en) * 1995-12-08 2000-09-05 Matsushita Electric Industrial Co., Ltd. Clock free two-dimensional barcode and method for printing and reading the same
US20060007921A1 (en) * 2004-07-12 2006-01-12 Fuji Photo Film Co., Ltd. Voice file generating system

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3048510B2 (ja) * 1994-12-28 2000-06-05 シャープ株式会社 音情報処理装置
JPH10187409A (ja) * 1996-12-26 1998-07-21 Nec Corp 音声変換印刷伝送システム
JPH10257205A (ja) * 1997-03-10 1998-09-25 Murata Mach Ltd 音声機能付き通信端末装置
SE517445C2 (sv) * 1999-10-01 2002-06-04 Anoto Ab Positionsbestämning på en yta försedd med ett positionskodningsmönster
JP2002016746A (ja) * 2000-06-30 2002-01-18 Tokyo Denshi Sekkei Kk 画像データ生成装置、画像出力システム、画像データ生成方法、画像出力方法および記録媒体
JP2002057980A (ja) * 2000-08-07 2002-02-22 Hitachi Ltd 画像音声記録装置
KR20020041683A (ko) 2000-11-28 2002-06-03 오영택 바코드를 이용한 문답식 학습 장치 및 방법
JP3915464B2 (ja) * 2001-10-10 2007-05-16 カシオ計算機株式会社 チケット処理装置及びプログラム
US20030101058A1 (en) * 2001-11-26 2003-05-29 Kenneth Liou Voice barcode scan device
TWM256985U (en) * 2002-03-13 2005-02-11 Sunplus Technology Co Ltd Audio generator with code-reading capability
KR200287162Y1 (ko) 2002-04-18 2002-08-30 이영우 바코드를 이용한 음성출력 장치
JP4208481B2 (ja) * 2002-04-30 2009-01-14 トッパン・フォームズ株式会社 2次元コード読取方法および2次元コード読取システム並びにこれらに使用される2次元コードが付された物品
JP2003324682A (ja) * 2002-05-08 2003-11-14 Fuji Photo Film Co Ltd 音声情報付プリント、音声情報付プリントの再生装置、デジタルカメラ、携帯端末、及び画像記録装置
KR20050049024A (ko) * 2003-11-20 2005-05-25 (주) 우리아이티 시각 장애인을 위한 2차원 바코드와 2차원 바코드리더기를 통한 도서의 음성 변환 출력 시스템
GB0402018D0 (en) * 2004-01-30 2004-03-03 Hewlett Packard Development Co Use of physical media having the same position-identifying pattern in digital documentation production
US7427018B2 (en) * 2005-05-06 2008-09-23 Berkun Kenneth A Systems and methods for generating, reading and transferring identifiers
JP2006350664A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書処理装置
JP4673200B2 (ja) * 2005-12-01 2011-04-20 キヤノン株式会社 印刷処理システムおよび印刷処理方法
KR20080048159A (ko) * 2006-11-28 2008-06-02 주식회사 마크애니 전자문서 자동 위변조 검증 시스템
JP4855965B2 (ja) * 2007-02-14 2012-01-18 株式会社リコー 画像処理装置、画像処理方法、画像処理プログラム及び画像処理システム
JP4870599B2 (ja) * 2007-03-16 2012-02-08 株式会社リコー 画像処理システム、画像処理装置、画像処理方法及び画像処理プログラム
US8477095B2 (en) * 2007-10-05 2013-07-02 Leapfrog Enterprises, Inc. Audio book for pen-based computer
US20100243747A1 (en) * 2007-10-25 2010-09-30 Takahiro Saito Information code
KR20090048211A (ko) * 2007-11-09 2009-05-13 (주)드림투리얼리티 음원 재생이 가능한 문서 변환 및 실행 방법, 이를수행하는 기록 매체 및 이를 수행하는 프로그램
JP4475325B2 (ja) * 2007-12-21 2010-06-09 富士ゼロックス株式会社 画像処理装置、画像処理システム及び画像処理プログラム
JP5304282B2 (ja) * 2009-01-30 2013-10-02 富士ゼロックス株式会社 印刷情報変換装置、印刷装置、印刷システム及びプログラム
US20140339296A1 (en) * 2013-05-20 2014-11-20 John B. McAdams Barcode, barcode device, system, and method
US9471824B2 (en) * 2013-07-12 2016-10-18 Qualcomm Incorporated Embedded barcodes for displaying context relevant information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5614946A (en) * 1992-06-11 1997-03-25 Ricoh Company, Ltd. Still camera with time division recording of audio and video signals
CN1131769A (zh) * 1994-12-28 1996-09-25 夏普公司 信息重放器和信息产生装置
US6115508A (en) * 1995-12-08 2000-09-05 Matsushita Electric Industrial Co., Ltd. Clock free two-dimensional barcode and method for printing and reading the same
US20060007921A1 (en) * 2004-07-12 2006-01-12 Fuji Photo Film Co., Ltd. Voice file generating system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597319A (zh) * 2020-12-16 2021-04-02 北京高德品创科技有限公司 多媒体文档的打印方法、读取方法、装置及电子设备

Also Published As

Publication number Publication date
US20160180849A1 (en) 2016-06-23
KR101557829B1 (ko) 2015-10-06
JP2016534391A (ja) 2016-11-04
KR20150017634A (ko) 2015-02-17
WO2015020285A1 (ko) 2015-02-12
US10083692B2 (en) 2018-09-25

Similar Documents

Publication Publication Date Title
WO2018121275A1 (zh) 一种智能硬件设备中的语音识别纠错方法和装置
CN109195007B (zh) 视频生成方法、装置、服务器及计算机可读存储介质
CN111161739B (zh) 语音识别方法及相关产品
CN107589828A (zh) 基于知识图谱的人机交互方法及系统
CN102855244B (zh) 文档目录处理方法和装置
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
WO2006007110A3 (en) Rule based system and method for automatically generating photomask orders
US20220358297A1 (en) Method for human-machine dialogue, computing device and computer-readable storage medium
CN104134375A (zh) 一种用于教学的数据可更新的点读系统
CN103065522A (zh) 一种盲人书籍和印刷方法及语音播放设备和播放方法
CN105531765A (zh) 基于语音生成和识别条形码信息的方法以及记录介质
KR100905705B1 (ko) 디지털 펜과 디지털 페이퍼를 이용한 전자노트 서비스를제공하는 방법, 시스템 및 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US7239842B2 (en) Talking E-book
CN110516125A (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN112908111A (zh) 一种用于盲人的点读方法、装置及系统
CN108846428A (zh) 页面识别方法、装置、设备和存储介质
KR101705228B1 (ko) 전자문서생성장치 및 그 동작 방법
CN112242132A (zh) 语音合成中的数据标注方法、装置和系统
CN115662399A (zh) 日语语音模型的训练方法以及交互方法、存储介质、设备
CN109241331A (zh) 一种面向智能机器人的故事数据处理方法
CN103729634A (zh) 字符识别装置和字符识别方法
CN114037946A (zh) 视频分类的方法、装置、电子设备及介质
CN104157183A (zh) 一种盲人书籍及其印刷方法
WO2012071745A1 (zh) 一种扩充oid编码表征印刷品内容信息量的方法
KR101165201B1 (ko) 컨텐츠 제공 시스템의 변환서버

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160427

WD01 Invention patent application deemed withdrawn after publication