JP2016534391A - 音声基盤再生情報生成及び認識方法及び記録媒体 - Google Patents

音声基盤再生情報生成及び認識方法及び記録媒体 Download PDF

Info

Publication number
JP2016534391A
JP2016534391A JP2016533002A JP2016533002A JP2016534391A JP 2016534391 A JP2016534391 A JP 2016534391A JP 2016533002 A JP2016533002 A JP 2016533002A JP 2016533002 A JP2016533002 A JP 2016533002A JP 2016534391 A JP2016534391 A JP 2016534391A
Authority
JP
Japan
Prior art keywords
audio
reproduction
information
file
reproduction information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016533002A
Other languages
English (en)
Inventor
スン ビン パイク、
スン ビン パイク、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MTCOM CO., LTD.
Original Assignee
MTCOM CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MTCOM CO., LTD. filed Critical MTCOM CO., LTD.
Publication of JP2016534391A publication Critical patent/JP2016534391A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • G06K19/06009Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
    • G06K19/06046Constructional details
    • G06K19/0614Constructional details the marking being selective to wavelength, e.g. color barcode or barcodes only visible under UV or IR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0062Embedding of the watermark in text images, e.g. watermarking text documents using letter skew, letter distance or row distance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】本発明は、音声基盤再生情報生成及び認識方法及び記録媒体を提供するものである。【解決手段】本発明は、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記音声再生ファイルが再生されて音声を出力するようにすることにより、音声再生ファイルを保存するための別途のストレージなしでも多様な分野で活用できる録取機能を提供することができる。【選択図】図1

Description

本発明は、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記音声再生ファイルが再生されて音声が出力されるようにするための方案に関する。
年々、携帯用電子機器(例:スマートパッド)の販売量及び使用量が大きく増加するにつれて、多様な分野で電子文書及び電子署名サービスを導入して活用している。
さらに、このような電子文書及び電子署名サービスは、政府のペーパーレス(Paperless)政策とかみ合って急速な増加傾向を見せている。
最近は、電子署名の法制化に関連して、電子署名の法的効力を補完するための手段として録取機能を導入することにより、契約または同意内容に対する顧客の否認を根本的に防止しようとする要求も増加している。
このような録取機能は、単に電子署名の法的効力を補完するための手段としてだけでなく、社会全般にわたって多様な分野で活用することができるため、このような録取機能を積極的に活用するための方案が要求されると言える。
本発明は、上記の事情を勘案して創出されたものであり、本発明で到逹しようとする目的は、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記音声再生ファイルが再生されて音声を出力するようにすることにより、音声再生ファイルを保存するための別途のストレージなしでも多様な分野で活用できる録取機能を提供することにある。
上記目的を達成するための本発明の第1観点による音声基盤再生情報生成方法は、音声を出力するために再生可能なように生成されたファイルである音声再生ファイルを確認する確認段階;及び、上記音声再生ファイルを再生情報に変換し、上記再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されるようにする変換段階;を含むことを特徴とする。
より具体的には、上記方法は、上記再生情報を特定電子文書のヘッダー情報として挿入するか、乃至は上記再生情報をバーコードイメージに変換して挿入する挿入段階を更に含むことを特徴とする。
より具体的には、上記再生情報には、上記音声再生ファイルを構成する各データのデータ値が含まれ、上記挿入段階は、上記再生情報を、上記音声再生ファイルを構成する各データのデータ値によって決定されるデータ識別子を含むように上記バーコードイメージに変換して電子文書に挿入することを特徴とする。
より具体的には、上記データ識別子は、上記音声再生ファイルを構成する各データのデータ値に対応する2以上の色相及び図形のうち少なくとも一つを含むように決定されることを特徴とする。
より具体的には、上記変換段階は、上記音声に関連するマルチメディア情報を出力するための再生ファイルであるマルチメディア情報再生ファイルを、上記音声再生ファイルと共に上記再生情報として変換し、上記マルチメディア情報には、上記音声に関連するテキスト、イメージ、及び動画のうち少なくとも何れか一つが含まれることを特徴とする。
上記目的を達成するための本発明の第2観点による音声基盤再生情報認識方法は、音声を出力するための再生ファイルである音声再生ファイルから変換された再生情報を認識する認識段階;上記認識された再生情報を上記音声再生ファイルに変換する変換段階;及び、上記変換された音声再生ファイルを再生して上記音声を出力する出力段階;を含むことを特徴とする。
より具体的には、上記認識段階は、電子文書のヘッダー情報として挿入された上記再生情報を認識するか、またはバーコードイメージとして変換されて電子文書に挿入された上記再生情報を認識することを特徴とする。
より具体的には、上記再生情報には、上記音声再生ファイルを構成する各データのデータ値が含まれ、上記認識段階は、上記バーコードイメージから上記音声再生ファイルを構成する各データのデータ値によって決定されるデータ識別子を認識することを特徴とする。
より具体的には、上記データ識別子は、上記音声再生ファイルを構成する各データのデータ値に対応する2以上の色相及び図形のうち少なくとも一つを含むように決定されることを特徴とする。
より具体的には、上記変換段階は、上記認識された再生情報を上記音声再生ファイルと共に上記音声に関連したマルチメディア情報を出力するためのマルチメディア情報再生ファイルに変換し、上記出力段階は、上記音声に関連するテキスト、イメージ、及び動画のうち少なくとも何れか一つを上記マルチメディア情報として出力することを特徴とする。
よって、本発明による音声基盤再生情報生成及び認識方法及び記録媒体によれば、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声を出力するようにすることによって、音声再生ファイルを保存するための別途のストレージなしでも、電子署名の法的効力を補完するための手段としてだけでなく、社会全般にわたって多様な分野で活用できる録取機能を提供することができる。
本発明の一実施例による音声基盤再生情報生成及び認識システムの概略的な構成図である。 本発明の一実施例による生成装置の概略的な構成図である。 本発明の一実施例による認識装置の概略的な構成図である。 本発明の他の実施例による生成装置での動作フローを説明するための概略的な流れ図である。 本発明のまた他の実施例による認識装置での動作フローを説明するための概略的な流れ図である。
以下、添付図面を参照しながら本発明の一実施例について説明する。
図1は、本発明の一実施例による音声基盤再生情報生成及び照会システムを示した図面である。
図1に示されているように、本発明の一実施例による電子文書生成及び照会システムは、音声基盤再生情報を生成する生成装置100、及び生成された再生情報を認識する認識装置200を含む構成を有することができる。
ここで、生成装置100は、音声を出力するために生成された音声再生ファイルを再生情報に変換する装置を言う。
このような生成装置100は、例えば、アプリケーションまたはプログラミングされたソフトウェアモジュールの実行を通した一連の過程を介して音声再生ファイルを再生情報に変換することができる。
よって、生成装置100は、アプリケーションまたはソフトウェアモジュールの実行が可能な使用者デバイスを称する。
例えば、生成装置100は、スマートフォン、パーソナルコンピュータ(PC)、ノートブック、タブレットPC、及びPDAなどが該当し得る。
また、認識装置200は、音声再生ファイルを変換した再生情報により、再生情報に変換された音声再生ファイルを再生して音声を出力する装置を言う。
このような認識装置200は、先に言及した生成装置100と同様、例えば、アプリケーションまたはプログラミングされたソフトウェアモジュールの実行を通した一連の過程を介して音声再生ファイルを再生情報に変換することができる。
したがって、認識装置200も、アプリケーションまたはソフトウェアモジュールの実行が可能な使用者デバイスを称する。
一方、本発明の一実施例では、電子署名の法的効力を補完するための手段としてだけでなく、社会全般にわたって多様な分野で活用することができる録取機能を提案する。
しかし、録取機能を適用するためには、音声を保存することができる別途のストレージ(例:CD、USB)を追加導入して、録音しようとする音声を音声データとして保存する方式が一般的であった。
結局、音声が録音されたストレージを別途管理しなければならず、さらに録音された音声を聴取するためには、再生装置がストレージから音声データをリードして音声を出力しなければならないという不便が存在することになる。
よって、本発明の一実施例では、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に音声が出力されるようにするための方案を提案することにし、以下にこれを具体的に説明する。
先ず、生成装置100は、音声再生ファイルを生成する機能を行う。
より具体的には、生成装置100は、音声を再生可能な再生ファイルである音声再生ファイルとして生成することにより、認識装置200乃至は別途の再生装置(図示せず)で、音声再生ファイルを再生する場合に音声が出力されることができるようにする。
また、生成装置100は、再生情報に変換するための音声再生ファイルを確認する機能を行う。
より具体的には、生成装置100は、自体で生成した音声再生ファイルを再生情報に変換するための対象として確認するか、乃至は別途の装置で既に生成された音声再生ファイルを再生情報に変換するための対象として確認することができる。
また、生成装置100は、音声再生ファイルを再生情報に変換する機能を行う。
より具体的には、生成装置100は、再生情報に変換するための音声再生ファイルが確認されれば、該当音声再生ファイルを再生情報に変換することにより、認識装置200で再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声が出力されることができるようにする。
このとき、生成装置100は、再生情報を電子文書のヘッダー情報として挿入するか、乃至はバーコードイメージに変換して挿入することができるように、音声再生ファイルを構成する各データのデータ値が再生情報に含まれるように変換する。
また、生成装置100は、音声再生ファイルから変換された再生情報を電子文書に挿入する機能を行う。
より具体的には、生成装置100は、音声再生ファイルから変換された再生情報を電子文書のヘッダー情報として挿入するか、またはバーコードイメージに変換して電子文書に挿入することにより、認識装置200で該当再生情報を認識して音声を出力することができるようにする。
一方、認識装置200は、再生情報を認識する機能を行う。
より具体的には、認識装置200は、電子文書のヘッダー情報として挿入されるか、または電子文書上にバーコードイメージに変換されて挿入された再生情報を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認する。
このとき、認識装置200は、バーコードイメージとして挿入された再生情報を認識する場合は、バーコードイメージにデータ識別子として適用された多数の色相または図形を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認できる。
また、認識装置200は、音声再生ファイルに変換する機能を行う。
より具体的には、認識装置200は、再生情報に変換された音声再生ファイルが確認される場合、該当再生情報を音声再生ファイルに変換する。
このとき、認識装置200は、バーコードイメージに挿入されたデータ識別子(例:色相、図形)を認識した認識結果を音声再生ファイルを構成する各データのデータ値に置換する方式を通して音声再生ファイルへの変換を行うことができる。
また、認識装置200は、音声再生ファイルを再生する機能を行う。
より具体的には、認識装置200は、再生情報から音声再生ファイルへの変換が完了すれば、変換された音声再生ファイルを再生することにより、音声を出力する。
このとき、認識装置200は、再生情報から上記音声再生ファイルと共にマルチメディア情報再生ファイルが変換される場合、音声だけでなく音声に関連するテキスト、イメージ、及び動画などのマルチメディア情報を共に出力する。
以下、図2を参照して本発明の一実施例による生成装置100の構成をより具体的に説明する。
すなわち、生成装置100は、音声再生ファイルを生成する生成部110、再生情報に変換するための音声再生ファイルを確認する確認部120、及び音声再生ファイルを再生情報に変換する変換部130を含む構成を有する。
また、本発明の一実施例による生成装置100は、上述の構成以外に、変換された再生情報を電子文書に挿入する挿入部140を更に含む構成を有することができる。
ここで、上述の生成部110、確認部120、変換部130及び挿入部140を含む生成装置100の各構成は、プロセッサによって実行されるアプリケーションまたは、プログラミングされたソフトウェアモジュールの形態として具現されることができる。
まず、生成部110は、音声再生ファイルを生成する機能を行う。
より具体的には、生成部110は、音声を再生可能な再生ファイルである音声再生ファイルとして生成することにより、認識装置200乃至は別途の再生装置(図示せず)で、音声再生ファイルを再生する場合に音声が出力されることができるようにする。
例えば、病医院、保険/金融会社、報道機関、雑誌社などで、契約書または同意書作成時、法的紛争を防ぐために、被契約者、または同意者の肉声を音声再生ファイルとして生成することができる。
他の例として、出版、レコード会社などで自社刊行物または著作物に対する広報のために、有名著者、芸能人、または声優などの声を音声再生ファイルとして生成することができる。
その他に、教育界でも、多様なサービス(例:学習教材、外国語など)に関連して、単語または文章の説明、乃至は発音、また問題解説などを目的に、該当する音声を音声再生ファイルとして生成することができる。
確認部120は、再生情報に変換するための音声再生ファイルを確認する機能を行う。
より具体的には、確認部120は、自体で生成した音声再生ファイルを再生情報に変換するための対象として確認するか、または別途の装置で既に生成された音声再生ファイルを再生情報に変換するための対象として確認することができる。
変換部130は、音声再生ファイルを再生情報に変換する機能を行う。
より具体的には、変換部130は、再生情報に変換するための音声再生ファイルが確認されると、該当音声再生ファイルを再生情報に変換することにより、認識装置200で再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声が出力されることができるようにする。
このとき、変換部130は、挿入部140で、再生情報を電子文書のヘッダー情報として挿入するか、乃至はバーコードイメージに変換して挿入することができるように、音声再生ファイルを構成する各データのデータ値が再生情報に含まれるように変換する。
一方、変換部130は、音声再生ファイルを再生情報に変換するにおいて、音声に関連するマルチメディア情報を出力するための再生ファイルであるマルチメディア情報再生ファイルを音声再生ファイルと共に上記再生情報として変換することができる。
ここで、マルチメディア情報には、例えば、テキスト、イメージ、及び動画などが含まれ得る。
よって、認識装置200では再生情報を認識する場合、音声だけでなく、音声に関連するテキスト、イメージ、及び動画などのマルチメディア情報を共に出力することができる。
挿入部140は、音声再生ファイルから変換された再生情報を電子文書に挿入する機能を行う。
より具体的には、挿入部140は、音声再生ファイルから変換された再生情報を電子文書のヘッダー情報として挿入するか、またはバーコードイメージに変換して電子文書に挿入することにより、認識装置200で該当再生情報を認識して音声を出力することができるようにする。
すなわち、挿入部140は、音声再生ファイルから変換された再生情報を電子文書のヘッダー情報として挿入することにより、認識装置200で電子文書を閲覧する場合に、ヘッダー情報として挿入された再生情報を認識して音声を出力することができるようにする。
ここで、電子文書のヘッダー情報として挿入された再生情報の認識の場合、電子文書の閲覧過程でなされる多様なイベント(例:特定文書領域クリック、ドラッグなど)を通してなされ得るであろう。
そして、電子文書のヘッダー情報として挿入された再生情報は、該当電子文書が印刷される場合、印刷出力物上にバーコードイメージとして変換されて出力されることができるのは勿論である。
また、挿入部140は音声再生ファイルから変換された再生情報をバーコードイメージに変換して電子文書に挿入することにより、認識装置200で電子文書に挿入されたバーコードイメージを認識して音声を出力することができるようにする。
このとき、挿入部140は、音声再生ファイルを構成する各データのデータ値に対応するデータ識別子を決定し、決定されたデータ識別子を含むようにバーコードイメージを構成する。
ここで、挿入部140は、各データのデータ値に対応する多数の色相または図形をデータ識別子として決定してバーコードイメージを構成する。
例えば、多数の色相をデータ識別子として決定する場合、バーコードイメージに適用される多数の色相各々は、例えば、濃度、彩度、明度のような色要素の決定を通して音声再生ファイルを構成する各データのデータ値を示すことができる。
他の例として、図形をデータ識別子として決定する場合、バーコードイメージに適用される図形の形及び組み合わせ、大きさなどの決定を通して音声再生ファイルを構成する各データのデータ値を示すことができる。
このように、挿入部140では再生情報を電子文書のヘッダー情報またはバーコードイメージとして挿入することにより、これを次のように社会全般にわたって多様に活用できるようにする。
例えば、病医院、保険/金融会社、報道機関、雑誌社などで、契約書または同意書作成時、電子文書または印刷出力物上に音声再生ファイルを変換した再生情報を挿入することにより、これを認識した認識装置200では被契約者または同意者の肉声を出力するようにして、法的効力のある否認防止策として活用することができる。
他の例として、出版、レコード会社などで自社刊行物または著作物に音声再生ファイルを変換した再生情報を挿入することにより、これを認識した認識装置200では有名著者、芸能人、または声優などの声が出力されて、新概念の広報手段として活用することができる。
その他に、教育界でも、多様なサービス(例:学習教材、外国語など)に関連するウェブページまたは印刷物などに再生情報を挿入することにより、これを認識した認識装置200では単語または文章の説明、乃至は発音、また問題解説などに該当する音声を出力するようにして、教育手段として活用することができる。
以下、図3を参照して本発明の一実施例による認識装置200の構成をより具体的に説明する。
すなわち、認識装置200は、再生情報を認識する認識部210、認識された再生情報を音声再生ファイルに変換する変換部220、及び音声再生ファイルを再生して音声を出力する出力部230を含む構成を有する。
ここで、上述の認識部210、変換部220、及び出力部230を含む生成装置100の各構成は、プロセッサによって実行されるアプリケーションまたは、プログラミングされたソフトウェアモジュールの形態として具現されることができる。
認識部210は、再生情報を認識する機能を行う。
より具体的には、認識部210は、電子文書のヘッダー情報として挿入されるか、または電子文書上にバーコードイメージに変換されて挿入された再生情報を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認する。
このとき、認識部210は、バーコードイメージとして挿入された再生情報を認識する場合は、バーコードイメージにデータ識別子として適用された多数の色相または図形を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認することができる。
変換部220は、音声再生ファイルに変換する機能を行う。
より具体的には、変換部220は、再生情報に変換された音声再生ファイルが確認される場合、該当再生情報を音声再生ファイルに変換する。
例えば、変換部220は、バーコードイメージに含まれたデータ識別子として多数の色相が適用された場合、上記多数の色相各々の色要素、例えば、濃度、彩度、明度などを確認し、確認された結果を音声再生ファイルを構成する各データのデータ値に置換することにより、音声再生ファイルへの変換を行うことができる。
他の例として、変換部220は、バーコードイメージに含まれたデータ識別子として図形が適用された場合、上記図形の形、組み合わせ、大きさを確認し、確認された結果を音声再生ファイルを構成する各データのデータ値に置換することにより、音声再生ファイルへの変換を行うことができる。
出力部230は、音声再生ファイルを再生する機能を行う。
より具体的には、出力部230は、再生情報から音声再生ファイルへの変換が完了すると、変換された音声再生ファイルを再生することにより、音声を出力する。
このとき、認識装置200は、再生情報から上記音声再生ファイルと共にマルチメディア情報再生ファイルが変換される場合、音声だけでなく音声に関連するテキスト、イメージ、及び動画などのマルチメディア情報を共に出力することになる。
このように、出力部230では再生情報から変換された音声再生ファイルを再生して音声を出力することになり、これは次のように社会全般にわたって多様に活用されることができる。
例えば、病医院、保険/金融会社、報道機関、雑誌社などで、契約書または同意書作成時、電子文書または印刷出力物上に挿入された再生情報を認識する場合、被契約者または同意者の肉声を出力することにより、法的効力のある否認防止策として活用することができる。
他の例として、出版、レコード会社などで自社刊行物または著作物に挿入された再生情報を認識する場合、有名著者、芸能人、または声優などの声を出力することにより、新概念広報手段として活用することができる。
その他に、教育界でも、多様なサービス(例:学習教材、外国語など)に関連して挿入された再生情報を認識する場合、単語または文章の説明、乃至は発音、また問題解説などに該当する音声を出力することにより、教育手段として活用することができる。
以上、考察したように、本発明の一実施例による音声基盤再生情報生成及び認識システムによれば、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声を出力するようにすることにより、音声再生ファイルを保存するための別途のストレージなしでも、電子署名の法的効力を補完するための手段としてだけでなく、社会全般にわたって多様な分野で活用できる録取機能を提供することができる。
以下、図4及び図5を参照して、本発明の一実施例による音声基盤再生情報生成及び認識方法を説明する。
ここで、説明の便宜のために、上述の図1及び図2に示されている構成は、該当参照番号を言及して説明する。
先ず、図4を参照して本発明の一実施例による生成装置100での動作フローを説明する。
はじめに、生成部110は音声を再生可能な再生ファイルである音声再生ファイルとして生成することにより、認識装置200乃至は別途の再生装置(図示せず)で、音声再生ファイルを再生する場合に音声が出力されることができるようにする(S110)。
それから、確認部120は、自体で生成した音声再生ファイルを再生情報に変換するための対象として確認するか、または別途の装置で既に生成された音声再生ファイルを再生情報に変換するための対象として確認する(S120)。
次に、変換部130は、再生情報に変換するための音声再生ファイルが確認されると、該当音声再生ファイルを再生情報に変換することにより、認識装置200で再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声が出力されることができるようにする(S130)。
このとき、変換部130は、挿入部140で、再生情報を電子文書のヘッダー情報として挿入するか、乃至はバーコードイメージに変換して挿入することができるように、音声再生ファイルを構成する各データのデータ値が再生情報に含まれるように変換する。
一方、変換部130は、音声再生ファイルを再生情報に変換するにおいて、音声に関連するマルチメディア情報を出力するための再生ファイルであるマルチメディア情報再生ファイルを音声再生ファイルと共に上記再生情報として変換することができる。
その後、挿入部140は、音声再生ファイルから変換された再生情報をバーコードイメージに変換して電子文書に挿入することにより、認識装置200で電子文書に挿入されたバーコードイメージを認識して音声を出力することができるようにする(S140〜S160、S180)。
このとき、挿入部140は、各データのデータ値に対応する多数の色相または図形をデータ識別子として決定してバーコードイメージを構成する。
例えば、多数の色相をデータ識別子として決定する場合、バーコードイメージに適用される多数の色相各々は、例えば、濃度、彩度、明度のような色要素の決定を通して音声再生ファイルを構成する各データのデータ値を示すことができる。
他の例として、図形をデータ識別子として決定する場合、バーコードイメージに適用される図形の形及び組み合わせ、大きさなどの決定を通して音声再生ファイルを構成する各データのデータ値を示すことができる。
一方、挿入部140は、音声再生ファイルから変換された再生情報を電子文書のヘッダー情報として挿入することにより、認識装置200で電子文書を閲覧する場合に、ヘッダー情報として挿入された再生情報を認識して音声を出力することができるようにする(S140、S170〜S180)。
次に、図5を参照して本発明の一実施例による認識装置200での動作フローを説明する。
先ず、認識部210は、電子文書のヘッダー情報として挿入されるか、または電子文書上にバーコードイメージに変換されて挿入された再生情報を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認する(S210)。
このとき、認識部210は、バーコードイメージとして挿入された再生情報を認識する場合は、バーコードイメージにデータ識別子として適用された多数の色相または図形を認識することにより、再生情報に変換された音声再生ファイルが存在することを確認することができる。
それから、変換部220は、再生情報に変換された音声再生ファイルが確認される場合、該当再生情報を音声再生ファイルに変換する(S220)。
このとき、変換部220は、バーコードイメージに含まれたデータ識別子として多数の色相が適用された場合、上記多数の色相各々の色要素、例えば、濃度、彩度、明度などを確認し、確認された結果を音声再生ファイルを構成する各データのデータ値に置換することにより、音声再生ファイルへの変換を行うことができる。
そして、変換部220は、バーコードイメージに含まれたデータ識別子として図形が適用された場合は、上記図形の形、組み合わせ、大きさを確認し、確認された結果を音声再生ファイルを構成する各データのデータ値に置換することにより、音声再生ファイルへの変換を行うことができる。
その後、出力部230は、再生情報から音声再生ファイルへの変換が完了すると、変換された音声再生ファイルを再生することにより、音声を出力する(S240)。
このとき、認識装置200は、再生情報から上記音声再生ファイルと共にマルチメディア情報再生ファイルが変換される場合、音声だけでなく音声に関連するテキスト、イメージ、及び動画などのマルチメディア情報を共に出力することになる。
以上、考察したように、本発明の一実施例による音声基盤再生情報生成及び認識方法によれば、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されて音声を出力するようにすることにより、音声再生ファイルを保存するための別途のストレージなしでも、電子署名の法的効力を補完するための手段としてだけでなく、社会全般にわたって多様な分野で活用できる録取機能を提供することができる。
一方、ここに提示された実施例に関連して説明された方法またはアルゴリズムの各段階は、ハードウェアで直接具現されるか、プロセッサによって実行されるソフトウェアモジュールで具現されるか、またはこれらの結合によって具現されることができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、移動式ディスク、CD−ROM、または技術的に公知となっている任意の他の形態の保存媒体に常駐することができる。例示的な保存媒体はプロセッサと連結され、その結果、プロセッサは保存媒体から情報を読み取り、保存媒体に情報を記録することができる。代案として、保存媒体はプロセッサに統合され得る。プロセッサ及び保存媒体はASIC内に含まれることができる。ASICは使用者端末装置内に含まれることができる。
代案として、プロセッサ及び保存媒体は使用者端末装置内に個別の各コンポーネントとして含まれることができる。
以上、本発明について一実施例を参照して詳しく説明したが、本発明は上記実施例に限定されるものではなく、以下の特許請求の範囲で請求する本発明の要旨を逸脱することなく、本発明の属する技術分野において通常の知識を有する者ならば誰でも多様な変形または修正が可能な範囲まで本発明の技術的思想が及ぶと言える。
本発明の一実施例による音声基盤再生情報生成及び認識方法及び記録媒体によれば、音声を出力するための音声再生ファイルを再生情報に変換し、再生情報を認識する場合に上記音声再生ファイルが再生されて音声が出力されるようにするという点において、既存技術の限界を超えて関連技術に対する利用だけでなく適用される装置の市販または営業の可能性が十分なだけでなく、現実的に明白に実施することができる程度であるため、産業上の利用可能性のある発明である。

Claims (11)

  1. 音声を出力するために再生可能なように生成されたファイルである音声再生ファイルを確認する確認段階;及び、
    上記音声再生ファイルを再生情報に変換し、上記再生情報を認識する場合に上記再生情報に変換された音声再生ファイルが再生されるようにする変換段階;を含むことを特徴とする音声基盤再生情報生成方法。
  2. 上記音声基盤再生情報生成方法は、
    上記再生情報を特定電子文書のヘッダー情報として挿入するか、乃至は上記再生情報をバーコードイメージに変換して挿入する挿入段階を更に含むことを特徴とする請求項1に記載の音声基盤再生情報生成方法。
  3. 上記再生情報には、
    上記音声再生ファイルを構成する各データのデータ値が含まれ、
    上記挿入段階は、
    上記再生情報を、上記音声再生ファイルを構成する各データのデータ値によって決定されるデータ識別子を含むように上記バーコードイメージに変換して電子文書に挿入することを特徴とする請求項2に記載の音声基盤再生情報生成方法。
  4. 上記データ識別子は、
    上記音声再生ファイルを構成する各データのデータ値に対応する2以上の色相及び図形のうち少なくとも一つを含むように決定されることを特徴とする請求項3に記載の音声基盤再生情報生成方法。
  5. 上記変換段階は、
    上記音声に関連するマルチメディア情報を出力するための再生ファイルであるマルチメディア情報再生ファイルを、上記音声再生ファイルと共に上記再生情報として変換し、
    上記マルチメディア情報には、
    上記音声に関連するテキスト、イメージ、及び動画のうち少なくとも何れか一つが含まれることを特徴とする請求項1に記載の音声基盤再生情報生成方法。
  6. 音声を出力するための再生ファイルである音声再生ファイルから変換された再生情報を認識する認識段階;
    上記認識された再生情報を上記音声再生ファイルに変換する変換段階;及び、
    上記変換された音声再生ファイルを再生して上記音声を出力する出力段階;を含むことを特徴とする音声基盤再生情報認識方法。
  7. 上記認識段階は、
    電子文書のヘッダー情報として挿入された上記再生情報を認識するか、またはバーコードイメージとして変換されて電子文書に挿入された上記再生情報を認識することを特徴とする請求項6に記載の音声基盤再生情報認識方法。
  8. 上記再生情報には、
    上記音声再生ファイルを構成する各データのデータ値が含まれ、
    上記認識段階は、
    上記バーコードイメージから上記音声再生ファイルを構成する各データのデータ値によって決定されるデータ識別子を認識することを特徴とする請求項6に記載の音声基盤再生情報認識方法。
  9. 上記データ識別子は、
    上記音声再生ファイルを構成する各データのデータ値に対応する2以上の色相及び図形のうち少なくとも一つを含むように決定されることを特徴とする請求項8に記載の音声基盤再生情報認識方法。
  10. 上記変換段階は、
    上記認識された再生情報を上記音声再生ファイルと共に上記音声に関連したマルチメディア情報を出力するためのマルチメディア情報再生ファイルに変換し、
    上記出力段階は、
    上記音声に関連するテキスト、イメージ、及び動画のうち少なくとも何れか一つを上記マルチメディア情報として出力することを特徴とする請求項6に記載の音声基盤再生情報認識方法。
  11. 請求項1乃至請求項10のうち何れか一項による方法の各段階を行なう命令を含むコンピューター読取可能媒体。
JP2016533002A 2013-08-07 2013-12-31 音声基盤再生情報生成及び認識方法及び記録媒体 Pending JP2016534391A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020130093846A KR101557829B1 (ko) 2013-08-07 2013-08-07 음성 기반 재생정보 생성 및 인식 방법 및 기록 매체
KR10-2013-0093846 2013-08-07
PCT/KR2013/012418 WO2015020285A1 (ko) 2013-08-07 2013-12-31 음성 기반 재생정보 생성 및 인식 방법 및 기록 매체

Publications (1)

Publication Number Publication Date
JP2016534391A true JP2016534391A (ja) 2016-11-04

Family

ID=52461585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016533002A Pending JP2016534391A (ja) 2013-08-07 2013-12-31 音声基盤再生情報生成及び認識方法及び記録媒体

Country Status (5)

Country Link
US (1) US10083692B2 (ja)
JP (1) JP2016534391A (ja)
KR (1) KR101557829B1 (ja)
CN (1) CN105531765A (ja)
WO (1) WO2015020285A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023166636A1 (ja) * 2022-03-02 2023-09-07 日本電信電話株式会社 音声再生装置、音声再生方法および音声再生プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101705228B1 (ko) * 2016-08-22 2017-02-09 백승빈 전자문서생성장치 및 그 동작 방법
CN112597319A (zh) * 2020-12-16 2021-04-02 北京高德品创科技有限公司 多媒体文档的打印方法、读取方法、装置及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0698290A (ja) * 1992-06-11 1994-04-08 Ricoh Co Ltd スチルカメラ
JPH08185533A (ja) * 1994-12-28 1996-07-16 Sharp Corp 音情報処理装置
JPH10187409A (ja) * 1996-12-26 1998-07-21 Nec Corp 音声変換印刷伝送システム
JPH10257205A (ja) * 1997-03-10 1998-09-25 Murata Mach Ltd 音声機能付き通信端末装置
JP2002016746A (ja) * 2000-06-30 2002-01-18 Tokyo Denshi Sekkei Kk 画像データ生成装置、画像出力システム、画像データ生成方法、画像出力方法および記録媒体
JP2002057980A (ja) * 2000-08-07 2002-02-22 Hitachi Ltd 画像音声記録装置
JP2003123103A (ja) * 2001-10-10 2003-04-25 Casio Comput Co Ltd チケット処理システムおよびチケット処理方法
JP2003324682A (ja) * 2002-05-08 2003-11-14 Fuji Photo Film Co Ltd 音声情報付プリント、音声情報付プリントの再生装置、デジタルカメラ、携帯端末、及び画像記録装置
JP2003323585A (ja) * 2002-04-30 2003-11-14 Toppan Forms Co Ltd 2次元コード読取方法および2次元コード読取システム並びにこれらに使用される2次元コードが付された物品
KR20050049024A (ko) * 2003-11-20 2005-05-25 (주) 우리아이티 시각 장애인을 위한 2차원 바코드와 2차원 바코드리더기를 통한 도서의 음성 변환 출력 시스템
US20060249573A1 (en) * 2005-05-06 2006-11-09 Berkun Kenneth A Systems and methods for generating, reading and transferring identifiers
WO2009054363A1 (ja) * 2007-10-25 2009-04-30 Takahiro Saito 情報コード
KR20090048211A (ko) * 2007-11-09 2009-05-13 (주)드림투리얼리티 음원 재생이 가능한 문서 변환 및 실행 방법, 이를수행하는 기록 매체 및 이를 수행하는 프로그램

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873735A (en) * 1994-12-28 1999-02-23 Sharp Kabushiki Kaisha Information reproducer and information creating unit
US5862270A (en) * 1995-12-08 1999-01-19 Matsushita Electric Industrial Co., Ltd. Clock free two-dimensional barcode and method for printing and reading the same
SE517445C2 (sv) * 1999-10-01 2002-06-04 Anoto Ab Positionsbestämning på en yta försedd med ett positionskodningsmönster
KR20020041683A (ko) * 2000-11-28 2002-06-03 오영택 바코드를 이용한 문답식 학습 장치 및 방법
US20030101058A1 (en) * 2001-11-26 2003-05-29 Kenneth Liou Voice barcode scan device
TWM256985U (en) * 2002-03-13 2005-02-11 Sunplus Technology Co Ltd Audio generator with code-reading capability
KR200287162Y1 (ko) * 2002-04-18 2002-08-30 이영우 바코드를 이용한 음성출력 장치
GB0402018D0 (en) * 2004-01-30 2004-03-03 Hewlett Packard Development Co Use of physical media having the same position-identifying pattern in digital documentation production
JP2006033080A (ja) * 2004-07-12 2006-02-02 Fuji Photo Film Co Ltd 音声ファイル作成システム
JP2006350664A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書処理装置
JP4673200B2 (ja) * 2005-12-01 2011-04-20 キヤノン株式会社 印刷処理システムおよび印刷処理方法
KR20080048159A (ko) * 2006-11-28 2008-06-02 주식회사 마크애니 전자문서 자동 위변조 검증 시스템
JP4855965B2 (ja) * 2007-02-14 2012-01-18 株式会社リコー 画像処理装置、画像処理方法、画像処理プログラム及び画像処理システム
JP4870599B2 (ja) * 2007-03-16 2012-02-08 株式会社リコー 画像処理システム、画像処理装置、画像処理方法及び画像処理プログラム
US8477095B2 (en) * 2007-10-05 2013-07-02 Leapfrog Enterprises, Inc. Audio book for pen-based computer
JP4475325B2 (ja) * 2007-12-21 2010-06-09 富士ゼロックス株式会社 画像処理装置、画像処理システム及び画像処理プログラム
JP5304282B2 (ja) * 2009-01-30 2013-10-02 富士ゼロックス株式会社 印刷情報変換装置、印刷装置、印刷システム及びプログラム
US20140339296A1 (en) * 2013-05-20 2014-11-20 John B. McAdams Barcode, barcode device, system, and method
US9471824B2 (en) * 2013-07-12 2016-10-18 Qualcomm Incorporated Embedded barcodes for displaying context relevant information

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0698290A (ja) * 1992-06-11 1994-04-08 Ricoh Co Ltd スチルカメラ
JPH08185533A (ja) * 1994-12-28 1996-07-16 Sharp Corp 音情報処理装置
JPH10187409A (ja) * 1996-12-26 1998-07-21 Nec Corp 音声変換印刷伝送システム
JPH10257205A (ja) * 1997-03-10 1998-09-25 Murata Mach Ltd 音声機能付き通信端末装置
JP2002016746A (ja) * 2000-06-30 2002-01-18 Tokyo Denshi Sekkei Kk 画像データ生成装置、画像出力システム、画像データ生成方法、画像出力方法および記録媒体
JP2002057980A (ja) * 2000-08-07 2002-02-22 Hitachi Ltd 画像音声記録装置
JP2003123103A (ja) * 2001-10-10 2003-04-25 Casio Comput Co Ltd チケット処理システムおよびチケット処理方法
JP2003323585A (ja) * 2002-04-30 2003-11-14 Toppan Forms Co Ltd 2次元コード読取方法および2次元コード読取システム並びにこれらに使用される2次元コードが付された物品
JP2003324682A (ja) * 2002-05-08 2003-11-14 Fuji Photo Film Co Ltd 音声情報付プリント、音声情報付プリントの再生装置、デジタルカメラ、携帯端末、及び画像記録装置
KR20050049024A (ko) * 2003-11-20 2005-05-25 (주) 우리아이티 시각 장애인을 위한 2차원 바코드와 2차원 바코드리더기를 통한 도서의 음성 변환 출력 시스템
US20060249573A1 (en) * 2005-05-06 2006-11-09 Berkun Kenneth A Systems and methods for generating, reading and transferring identifiers
WO2009054363A1 (ja) * 2007-10-25 2009-04-30 Takahiro Saito 情報コード
KR20090048211A (ko) * 2007-11-09 2009-05-13 (주)드림투리얼리티 음원 재생이 가능한 문서 변환 및 실행 방법, 이를수행하는 기록 매체 및 이를 수행하는 프로그램

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023166636A1 (ja) * 2022-03-02 2023-09-07 日本電信電話株式会社 音声再生装置、音声再生方法および音声再生プログラム

Also Published As

Publication number Publication date
US20160180849A1 (en) 2016-06-23
WO2015020285A1 (ko) 2015-02-12
KR20150017634A (ko) 2015-02-17
US10083692B2 (en) 2018-09-25
KR101557829B1 (ko) 2015-10-06
CN105531765A (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
Schmidt Horning Chasing sound: Technology, culture, and the art of studio recording from Edison to the LP
US20070282866A1 (en) Application integration using xml
KR100366760B1 (ko) 멀티미디어 파일 결합방법
CN105022749A (zh) 一种基于安卓平台的文档演示实现方法
JP2016534391A (ja) 音声基盤再生情報生成及び認識方法及び記録媒体
Turin et al. Oral literature in the digital age: Archiving orality and connecting with communities
KR20140025082A (ko) Sns 디지털 오디오북 제작 시스템 및 방법
KR20060088175A (ko) 멀티 포맷을 갖는 전자책 파일 생성 방법 및 시스템
JP2007506387A5 (ja)
JP5034599B2 (ja) 楽曲紹介文生成装置、ナレーション付加装置およびプログラム
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
Bellini et al. Multimedia music sharing among mediateques: Archives and distribution to their attendees
JP2007507149A5 (ja)
Roeder Art and digital records: paradoxes and problems of preservation
US20160196253A1 (en) Annotation sharing method, annotation sharing apparatus, and computer program product
Mortensen et al. The data cycle
TWI667605B (zh) Electronic portable device auxiliary playback system
WO2013018515A1 (ja) 情報処理装置
Kirn Real World Digital Audio (Real World)
TWI724518B (zh) 依據腳本模擬影音播放以產生多媒體履歷之系統及方法
JP2004282186A (ja) 連続データへのユーザデータ関連付け装置
Carroll Learning to see all over again: New approaches to working with multimodality
Upton Towards a Model for Digital Scholarly Editions in South Africa
Komara Digital Revolution Tamed: The Case of the Recording Industry.
Casad et al. Enduring access to rich media content: understanding use and usability requirements

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180702

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180724