JP6060989B2 - 音声録音装置、音声録音方法、及びプログラム - Google Patents

音声録音装置、音声録音方法、及びプログラム Download PDF

Info

Publication number
JP6060989B2
JP6060989B2 JP2015035026A JP2015035026A JP6060989B2 JP 6060989 B2 JP6060989 B2 JP 6060989B2 JP 2015035026 A JP2015035026 A JP 2015035026A JP 2015035026 A JP2015035026 A JP 2015035026A JP 6060989 B2 JP6060989 B2 JP 6060989B2
Authority
JP
Japan
Prior art keywords
voice
recording
retroactive
time
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015035026A
Other languages
English (en)
Other versions
JP2016156978A (ja
Inventor
孝浩 田中
孝浩 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2015035026A priority Critical patent/JP6060989B2/ja
Priority to US15/013,793 priority patent/US9754621B2/en
Priority to CN201610094347.6A priority patent/CN105915831B/zh
Publication of JP2016156978A publication Critical patent/JP2016156978A/ja
Application granted granted Critical
Publication of JP6060989B2 publication Critical patent/JP6060989B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • G11B2020/10555Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account
    • G11B2020/10564Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account frequency

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音声録音装置、音声録音方法、及びプログラムに関する。
音声を録音する技術が知られている。例えば、音声を録音する技術に関して、特許文献1には、音声を録音中、所定の操作が行われたことに応答して、その所定の操作が行われた時間から所定時間だけ遡った時間以降に録音された音声を記憶する技術が開示されている。
また、特許文献2には、音声を録音中、所定の操作が行われたことに応答して、その所定の操作が行われた時間から所定時間だけ遡った時間以降に録音された音声を再生する技術が開示されている。
特開平09−146590号公報 特開2000−132187号公報
ところで、講義や会議の音声を録音中、利用者が、話された内容を聞き逃したり、話された内容が重要だったことに後になって気づいたりすることがあった。このような場合、特許文献1及び2に開示された技術では、録音された音声を後で再生する場合に備えて、音声を録音中、直前に録音された音声に対して、聞き逃した箇所または重要な内容の含まれている箇所を特定できる情報を対応付けることができない。このため、利用者にとって操作性が悪いという問題があった。
本発明は、上記の問題を解決するためになされたものであり、音声録音中における利用者の操作性を向上する音声録音装置、音声録音方法、及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明に係る音声録音装置は、
音声を録音する録音手段と、
複数の遡及時間それぞれに対応する軸を前記録音された音声の音声波形上に表示する軸表示手段と、
前記複数の遡及時間の中から一つの遡及時間の指定を受け付ける受付手段と、
前記一つの遡及時間の指定を前記受付手段が受け付けたことに応じて、該受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する強調表示手段と、
ユーザ操作に応じて、前記録音手段によって録音された音声において、基準時間から前記一つの遡及時間分遡った位置に付加情報を付加する情報付加手段と、
を備える、
ことを特徴とする。
本発明によれば、音声録音中における利用者の操作性を向上することができる。
本発明の第1の実施の形態に係る音声録音装置の構成を例示するブロック図である。 本発明の第1の実施の形態に係る音声録音装置の機能構成を例示するブロック図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例1を示す図である。 本発明の第1の実施の形態に係る音声録音装置が実行する音声録音処理を説明するためのフローチャートである。 本発明の第1の実施の形態に係る音声録音装置が実行する付加情報表示処理を説明するためのフローチャートである。 表示データの一例を示す図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例2を示す図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例3を示す図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例4を示す図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例5を示す図である。 本発明の第1の実施の形態に係る音声録音装置が表示する録音画面の表示例6を示す図である。 本発明の第1の実施の形態に係る音声録音装置が実行する音声再生処理を説明するためのフローチャートである。 本発明の第1の実施の形態に係る音声録音装置が表示する再生画面の一例を示す図である。 本発明の第2の実施の形態に係る音声録音装置が実行する音声録音処理を説明するためのフローチャートである。 本発明の第2の実施の形態に係る音声録音装置が表示する録音画面の一例を示す図である。
(第1の実施の形態)
以下、本発明に係る音声録音装置を詳細に説明する。
音声録音装置1は、音声録音・再生機能を有し、音声を録音中、利用者が所定操作を行った時間(基準時間)から所定時間(遡及時間)分遡った時間において録音された音声に対応付けて、付加情報を表示することができる。ここで、付加情報は、属性情報や文書、画像が対応付けられた情報である。
音声録音装置1は、図1に示すように、録音部10と、音声出力部11と、表示部12と、操作部13と、撮像装置14と、入出力インタフェース15と、RAM(Random Access Memory)16と、記憶装置17と、制御装置18と、を備える。
図1においては、本実施の形態に係る音声録音装置1に特徴的な構成のみを図示する。なお、音声録音装置1は、独立したボイスレコーダとしても実現できるが、PC(Personal Computer)やスマートフォンでも実現できる。スマートフォンで実現させる場合には、電話通信及びメール送受信を行うための通信ユニットや自身の位置を測定するためのGPS(Global Positioning System)装置等、通常のスマートフォンと同様の構成も備えている。
録音部10は、マイクを備え、音声を録音する。
具体的に、録音部10は、マイクを介して外部から音声(アナログ音声信号)を取得し、取得したアナログ音声信号を音声データ(デジタル音声信号)に変換する。そして、音声データに、音声データを識別するためのユニークな(一意的な)識別番号を対応付けることにより録音データ17bを生成する。録音部10は、生成した録音データ17bを、後述する記憶装置17へ供給し、記憶させる。
音声出力部11は、スピーカを備え、音声を出力する。
具体的に、音声出力部11は、記憶装置17から録音データ17bを読み出し、録音データ17bに含まれる音声データを取得する。そして、音声データ(デジタル音声信号)を音声(アナログ音声信号)に変換し、スピーカを介して外部に出力する。
表示部12は、ディスプレイを備え、制御装置18の制御に従って各種画像を表示する。
表示部12によって表示される画像には、録音画面RW、再生画面PW、これらの画面に含まれる各種のアイコン及び情報が含まれる。録音画面RW、再生画面PW、これらの画面に含まれる各種のアイコン及び情報については、詳細に後述する。
操作部13は、利用者による操作を受け付ける。操作部13は、受け付けた操作を後述する制御装置18へ供給する。
操作部13は、表示部12が備えるディスプレイに重畳して配置されたタッチパネル、ディスプレイに表示されたソフトウェアキーボード、及び音声録音装置1の各種操作ボタンを備える。
撮像装置14は、光学レンズとイメージセンサとを備え、制御装置18の制御に従って被写体を撮像することにより画像を生成する。撮像装置14は、生成した画像を記憶装置17へ供給し、記憶させる。
入出力インタフェース15は、外部機器との間でデータを送受信する。
具体的に、入出力インタフェース15は、記憶装置17が記憶している録音データ17b及び表示データ17cを含む各種情報を、USB(Universal Serial Bus)規格のデータに変換し、USBケーブルを介して外部機器との間で送受信する。
RAM16は、データやプログラムを一時的に記憶し、後述する制御装置18が備えるCPU(Central Processing Unit)のワークメモリとして機能する。
記憶装置17は、ROM(Read Only Memory)と、書き換え可能な不揮発性メモリ(例えば、フラッシュメモリやハードディスク)と、を備え、データやプログラムを固定的に記憶する。
具体的に、記憶装置17は、音声録音装置1全体の制御に必要な制御プログラム17aをROMに記憶する。また、記憶装置17は、音声録音・再生アプリケーションプログラムを含む各種アプリケーションプログラムを、書き換え可能な不揮発性メモリに記憶する。
また、記憶装置17は、録音部10から供給された録音データ17bを記憶する。
また、記憶装置17は、制御装置18によって生成された表示データ17cを記憶する。表示データ17cの詳細については後述する。
制御装置18は、CPUを備え、記憶装置17に記憶された制御プログラム17aを実行することにより音声録音装置1全体を制御する。
また、制御装置18は、記憶装置17に記憶された音声録音・再生アプリケーションプログラムを実行することにより、図2に示すように、音声波形表示部101、受付部102、軸表示部103、強調表示部104、情報付加部105、解析部106、及び解析情報表示部107として機能する。
音声波形表示部101は、録音部10が音声を録音中、その音声の音声波形を表示部12に表示する。
具体的に、音声波形表示部101は、図3に示すように、表示部12によって表示された録音画面RW中に音声波形SWを表示する。録音画面RWは、録音部10が音声を録音中、表示部12によってディスプレイに表示される画面である。音声波形SWの横軸は時間を、縦軸は音声の振幅(音の大きさ)を表す。音声波形表示部101は、録音部10から録音された音声を取得し、取得した音声に基づいて波形描画用データを生成して表示部12へ供給する。表示部12は、供給された波形描画用データに基づいて音声波形SWを表示する。
受付部102は、指定された遡及時間を受け付ける。受付部102が受け付ける遡及時間は複数ある。
軸表示部103は、受付部102が受け付ける複数の遡及時間それぞれに対応する軸を音声波形SW上に表示する。
本実施の形態において、軸表示部103は、図3に示すように、受付部102が受け付ける遡及時間「0秒」、「−5秒」、「−10秒」それぞれに対応する軸アイコンA、A、A10を音声波形SW上に表示する。軸アイコンAは、音声波形SW上の現在時間(音声波形SWが表示部12に表示された時間)に対応する位置に表示される。軸アイコンAは、音声波形SW上の、現在時間から5秒だけ前の時間に対応する位置に表示される。軸アイコンA10は、音声波形SW上の、現在時間から10秒だけ前の時間に対応する位置に表示される。
録音画面RWは、遡及時間を指定するためのボタンアイコンである指定ボタンB、B、B10を含んでいる。指定ボタンB、B、B10は、それぞれ、受付部102が受け付ける遡及時間「0秒」、「−5秒」、「−10秒」それぞれに対応する。指定ボタンB、B、B10の何れかが利用者によって押下されると、受付部102は、押下された指定ボタンに対応する遡及時間を、指定された遡及時間として受け付ける。例えば、指定ボタンBが押下されると、指定ボタンBに対応する遡及時間「−5秒」が、指定された遡及時間として受付部102に受け付けられる。
強調表示部104は、受付部102が複数の遡及時間のうち指定された遡及時間を受け付けたことに応じて、その受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する。
具体的に、受付部102が指定された遡及時間を受け付けると、これに応答して、強調表示部104は、その受け付けた遡及時間に対応する軸アイコンのみを他の軸アイコンより太く表示する(強調表示する)。例えば、指定ボタンBが押下されたことに応じて、指定ボタンBに対応する遡及時間「−5秒」が指定された遡及時間として受付部102に受け付けられると、強調表示部104は、図3に示すように、「−5秒」に対応する軸アイコンである軸アイコンAを他の軸アイコンA、A10より太く表示する(強調表示する)。
情報付加部105は、表示部12に表示された音声波形SW上において、基準時間から遡及時間分遡った位置に付加情報を表示する。
付加情報とは、属性情報や文書、画像が対応付けられた情報である。本実施の形態において、情報付加部105は、図3に示す録音画面RW中のマークアイコンIm、メモアイコンIt、写真アイコンIpを付加情報として表示する。マークアイコンImは、属性情報が対応付けられたアイコンである。メモアイコンItは、文書が対応付けられたアイコンである。写真アイコンIpは、画像が対応付けられたアイコンである。
本実施の形態において、基準時間は、利用者が、図3に示す録音画面RW中のマークボタンBm、メモボタンBt、写真ボタンBpのうち何れかを押下した時間である。
マークボタンBmは、マークアイコンImを表示させるためのボタンアイコンである。利用者がマークボタンBmを押下すると、情報付加部105は、音声波形SW上の、押下が行われた時間(基準時間)から遡及時間分遡った位置に、マークアイコンImを表示する。メモボタンBtはメモアイコンItを、写真ボタンBpは写真アイコンIpを、それぞれ表示させるためのボタンアイコンである。
解析部106は、録音部10が録音した音声を解析して解析情報を取得する。解析情報表示部107は、表示部12に表示された音声波形SWと共にこの解析情報を表示する。
具体的に、解析部106は、音声の録音が終了した後、録音された音声に対して有声区間検出処理を施すことにより、録音された音声のうち、人間の発した声を含む音声区間(有声区間)を示す情報を解析情報として取得する。有声区間検出処理において、解析部106は、音声の録音が終了した後、録音部10によって取得された全ての音声データに基づいて取得された閾値を用い、任意の公知技術に従って有声区間を検出する。
以下、上述の構成を有する音声録音装置1が音声録音処理を実行する動作を、図4〜図6を参照しながら詳細に説明する。
なお、説明は省略するものの、音声録音装置1をスマートフォンで実現した場合には、音声録音処理の他にも、通常のスマートフォンと同様に、電話通信、メールの送受信、ウェブページの閲覧等の各種動作を実行可能である。
音声録音処理の実行を所望する利用者は、音声録音装置1が備える操作部13を操作することにより、音声録音・再生アプリケーションプログラムを起動するように指示する。
操作部13を介して指示を受け付けると、制御装置18は、音声録音・再生アプリケーションプログラムを記憶装置17から読み出してRAM16に展開する。
音声録音・再生アプリケーションプログラムが起動された状態において、利用者が、操作部13を操作することにより、音声録音・再生アプリケーションプログラムが備える複数の動作モードのうちの1つである「音声録音モード」を選択すると、制御装置18は、図4のフローチャートに示す音声録音処理を開始する。
音声録音処理を開始すると、まず、表示部12に録音画面RWを表示させ(ステップS101)、録音開始ボタンRSが押下されたか否かを判別する(ステップS102)。
録音開始ボタンRSが押下されていないと判別すると(ステップS102;NO)、処理はステップS102へ戻る。録音開始ボタンRSが押下されたと判別すると(ステップS102;YES)、録音部10に音声の録音を開始させる(ステップS103)。
音声波形表示部101は、ステップS103で録音された音声に基づいて波形描画用データを生成して表示部12へ供給し(ステップS104)、音声波形SWを表示する(ステップS105)。また、音声波形表示部101は、生成した波形描画用データを記憶装置17へ供給し、記憶させる。
軸表示部103は、受付部102が受け付け可能な複数の遡及時間それぞれに対応する軸(軸アイコンA、A、A10)を音声波形SW上に表示する(ステップS106)。
次に、遡及時間を指定するためのボタンアイコンである指定ボタンB、B、B10のうち何れかが押下されたか否かを判別する(ステップS107)。指定ボタンの何れも押下されていないと判別すると(ステップS107;NO)、処理はステップS110へ移る。
指定ボタンの何れかが押下されたと判別すると(ステップS107;YES)、押下された指定ボタンに対応する遡及時間を指定された遡及時間として受付部102が受け付ける(ステップS108)。そして、強調表示部104が、軸アイコンA、A、A10のうち、ステップS108で受付部102が受け付けた遡及時間に対応する軸(軸アイコン)を強調表示する(ステップS109)。
次に、マークボタンBm、メモボタンBt、写真ボタンBpのうち何れかが押下されたか否かを判別する(ステップS110)。何れも押下されていないと判別すると(ステップS110;NO)、処理はステップS112へ移る。
マークボタンBm、メモボタンBt、写真ボタンBpのうち何れかが押下されたと判別すると(ステップS110;YES)、情報付加部105が付加情報表示処理を実行し(ステップS111)、表示部12に表示された音声波形SW上に付加情報を表示する。
ここで、ステップS111の付加情報表示処理の詳細を、図5のフローチャートを参照しながら説明する。
マークボタンBm、メモボタンBt、写真ボタンBpのうち何れかのボタンアイコンが押下されたと図4のフローチャートのステップS110において判別されたことに応じて付加情報表示処理を開始すると、まず、当該ボタンアイコンが押下された時間を基準時間として取得する(ステップS201)。そして、押下されたボタンアイコンがマークボタンBmであるか否かを判別する(ステップS202)。マークボタンBmではないと判別すると(ステップS202;NO)、処理はステップS203へ移る。
押下されたボタンアイコンがマークボタンBmであると判別すると(ステップS202;YES)、利用者による、マークアイコンImに対応付ける属性情報の選択を受け付ける(ステップS212)。
本実施の形態では、「Important(重要)」、「Forget(聞き逃し)」、及び「Not Understand(理解できず)」の3種類の属性情報のうち何れかをマークアイコンImに対応付けることができる。制御装置18は、マークボタンBmが押下されたことに応じて、これら3種類の属性情報のうち何れかを利用者が選択するためのメニュー画面MWを、録音画面RWに重畳して表示部12に表示する。利用者が、操作部13を操作することにより、メニュー画面MW上で属性情報を選択すると、制御装置18は操作部13を介してこの選択を受け付ける。
情報付加部105は、表示部12に表示された音声波形SW上の、ステップS201で取得した基準時間から図4のフローチャートのステップS108で受け付けた指定された遡及時間分遡った位置に、マークアイコンImとステップS212で選択された属性情報を示す属性アイコンIfとを表示する(ステップS213)。そして、表示データ17cを生成し(ステップS207)、生成した表示データ17cを記憶装置17へ供給して記憶させ、付加情報表示処理を終了する。
ここで、表示データ17cは、表示部12に表示された音声波形SW上に付加情報を表示するための情報である。
表示データ17cは、図6に示すように、付加情報の種類と、付加情報に対応付けられた情報と、付加情報の表示される位置と、を互いに対応付けて含んでいる。付加情報の表示される位置は、付加情報がその音声波形SW上に表示される音声データの識別番号と、音声波形SW上の付加情報が表示される位置に対応する音声データ中の時間と、によって示されている。
例えば、図6の表示データ17cは、「属性情報「Important」」が対応付けられた「マークアイコンIm」を、識別番号「0001」が付与された音声データの音声波形SW上の、その音声データ中の時間「00時09分12秒」に対応する位置に表示するべきことを示している。
ステップS213にてマークアイコンImと属性アイコンIfとを表示した後、ステップS207にて表示データ17cを生成する場合、ステップS212で選択を受け付けた属性情報がマークアイコンImに対応付けられた情報として表示データ17cに格納される。また、このマークアイコンImの表示される位置として、ステップS213にて音声波形SW上に表示した際の位置が表示データ17cに格納される。
図5のフローチャートに戻って、ステップS203において、メモボタンBtが押下されたか否かを判別する。
メモボタンBtが押下されたと判別すると(ステップS203;YES)、利用者がメモ(文書)を入力するためのメモ入力画面を録音画面RWに重畳して表示部12に表示させる(ステップS208)。そして、利用者によるメモの入力を、操作部13を介して受け付け(ステップS209)、利用者が入力したメモの保存を指示したか否かを判別する(ステップS210)。メモの保存が指示されていないと判別すると(ステップS210;NO)、処理はステップS209へ戻る。
メモの保存が指示されたと判別すると(ステップS210;YES)、情報付加部105は、表示部12に表示された音声波形SW上の、ステップS201で取得した基準時間から図4のフローチャートのステップS108で受け付けた指定された遡及時間分遡った位置に、メモアイコンItを表示する(ステップS211)。そして、表示データ17cを生成し(ステップS207)、生成した表示データ17cを記憶装置17へ供給して記憶させ、付加情報表示処理を終了する。
ステップS211でメモアイコンItを表示した後、ステップS207で表示データ17cを生成する場合、ステップS210でメモ(文書)保存の指示を受け付ける(ステップS210;YES)直前のステップS209において入力を受け付けていたメモ(文書)を、このメモアイコンItに対応付けられた情報として表示データ17cに格納する。また、このメモアイコンItの表示される位置として、ステップS211にて音声波形SW上に表示した際の位置が表示データ17cに格納される。
図5のフローチャートの付加情報表示処理は、図4のフローチャートのステップS110においてマークボタンBm、メモボタンBt、写真ボタンBpのうち何れかが押下されたと判別された(ステップS110;YES)ことに応じて開始された。マークボタンBmが押下されなかったと判別され(ステップS202;NO)、メモボタンBtが押下されなかったと判別された(ステップS203;NO)場合、写真ボタンBpが押下されたことを意味する。
従って、ステップS203において、メモボタンBtが押下されていないと判別すると(ステップS203;NO)、写真ボタンBpが押下されたと判別し(ステップS204)、撮像装置14を制御して被写体を撮像させ、画像を生成させる(ステップS205)。
情報付加部105は、表示部12に表示された音声波形SW上の、ステップS201で取得した基準時間から図4のフローチャートのステップS108で受け付けた指定された遡及時間分遡った位置に、写真アイコンIpを表示する(ステップS206)。そして、表示データ17cを生成し(ステップS207)、生成した表示データ17cを記憶装置17へ供給して記憶させ、付加情報表示処理を終了する。
ステップS206で写真アイコンIpを表示した後、ステップS207で表示データ17cを生成する場合、ステップS205で生成した画像を、この写真アイコンIpに対応付けられた情報として表示データ17cに格納する。また、この写真アイコンIpの表示される位置として、ステップS206にて音声波形SW上に表示した際の位置が表示データ17cに格納される。
図4のフローチャートに戻って、ステップS111の付加情報表示処理を終えた後、操作部13を介して音声録音終了の指示を受け付けたか否かを判別する(ステップS112)。音声録音終了の指示を受け付けていないと判別すると(ステップS112;NO)、処理はステップS103へ戻る。
音声録音終了の指示を受け付けたと判別すると(ステップS112;YES)、解析部106が録音された音声に有声区間検出処理を施し(ステップS113)、音声録音処理を終了する。
具体的に、ステップS113の有声区間検出処理において、解析部106は、音声の録音が終了した後、録音終了までに録音部10によって取得された全ての音声データに基づいて取得された閾値を用い、任意の公知技術に従って有声区間を検出する。解析部106は、ステップS113の有声区間検出処理によって検出された有声区間を示す情報を解析情報として取得し、この解析情報を記憶装置17へ供給し、記憶させる。
以下、上述の音声録音処理の具体例を、図7〜図11を参照しながら詳細に説明する。
音声録音処理を開始すると、まず、表示部12に図7に示す録音画面RWを表示させ(ステップS101)、録音画面RWが含む録音開始ボタンRSが押下されたか否かを判別する(ステップS102)。
録音開始ボタンRSが押下されたと判別すると(ステップS102;YES)、録音部10に音声の録音を開始させる(ステップS103)。
音声波形表示部101は、ステップS103で録音された音声に基づいて波形描画用データを生成して表示部12へ供給し(ステップS104)、図8に示す音声波形SWを表示させる(ステップS105)。また、音声波形表示部101は、生成した波形描画用データを記憶装置17へ供給し、記憶させる。
軸表示部103は、指定された遡及時間として受付部102が受け付け可能な遡及時間にそれぞれ対応する軸(軸アイコンA、A、A10)を、図8に示すように、表示部12に表示された音声波形SW上に表示する(ステップS106)。
本実施の形態では、デフォルトの遡及時間として「0秒」が設定されている。これに対応して、図8に示すように、デフォルトの遡及時間「0秒」に対応する軸アイコンAが他の軸アイコンA、A10よりも太く表示されている(他の軸アイコンより強調する態様で表示されている)。また、デフォルトの遡及時間「0秒」に対応する指定ボタンBも強調表示されている(他の指定ボタンB、B10よりも明るく表示されている)。
次に、遡及時間を指定するためのボタンアイコンである指定ボタンB、B、B10のうち何れかが押下されたか否かを判別する(ステップS107)。
ここで、利用者が、指定ボタンB10を押下したものとして説明する。
利用者が指定ボタンB10を押下すると、指定ボタンの何れかが押下されたと判別され(ステップS107;YES)、押下された指定ボタンB10に対応する遡及時間「−10秒」を指定された遡及時間として受付部102が受け付ける(ステップS108)。そして、強調表示部104が、軸アイコンA、A、A10のうち、ステップS108で受付部102が受け付けた遡及時間「−10秒」に対応する軸アイコンA10を、図9に示すように、他の軸アイコンA、Aよりも太く表示する(他の軸アイコンA、Aより強調する態様で表示する)(ステップS109)。
また、本実施の形態では、ステップS107において押下されたと判別した指定ボタン(ここでは、指定ボタンB10)を、図9に示すように、強調表示する(他の指定ボタンB、B、B10よりも明るく表示する)。
次に、マークボタンBm、メモボタンBt、写真ボタンBpのうち何れかが押下されたか否かを判別する(ステップS110)。
ここで、利用者が、マークボタンBmを押下したものとして説明する。
利用者がマークボタンBmを押下すると、マークボタンBm、メモボタンBt、写真ボタンBpのうち何れかが押下されたと判別され(ステップS110;YES)、付加情報表示処理が実行され(ステップS111)、表示部12に表示された音声波形SW上にマークアイコンImと属性アイコンIfとが付加情報として表示される。
図5のフローチャートを参照して、ステップS111の付加情報表示処理を開始すると、まず、マークボタンBmが押下された時間を基準時間として取得する(ステップS201)。そして、押下されたボタンアイコンがマークボタンBmであるか否かを判別する(ステップS202)。ここでは、マークボタンBmが押下された場合を例に説明しているので、押下されたボタンアイコンがマークボタンBmであると判別され(ステップS202;YES)、利用者による、マークアイコンImに対応付ける属性情報の選択を受け付ける(ステップS212)。
具体的に、制御装置18は、表示部12を制御して、図10に示すように、録音画面RWに重畳してメニュー画面MWを表示させる。利用者が、操作部13を操作することにより、メニュー画面MW上で、3種類の属性情報(「Important(重要)」、「Forget(聞き逃し)」、及び「Not Understand(理解できず)」)のうち何れかを選択すると、制御装置18は操作部13を介してこの選択を受け付ける。
ここで、利用者が、マークアイコンImに対応付ける属性情報として属性情報「Important」を選択したものとして説明する。
情報付加部105は、図11に示すように、表示部12に表示された音声波形SW上の、ステップS201で取得した基準時間から図4のフローチャートのステップS108で受け付けた指定された遡及時間分遡った位置に、マークアイコンImとステップS212で選択された属性情報「Important」を示す属性アイコンIfとを表示する(ステップS213)。
また、本実施の形態では、図11に示すように、表示部12に表示された音声波形SW上の、基準時間とマークアイコンIm及び属性アイコンIfとの間の区間を網掛け表示する。
そして、表示データ17cを生成し(ステップS207)、生成した表示データ17cを記憶装置17へ供給して記憶させ、付加情報表示処理を終了する。具体的に、ステップS212で選択を受け付けた属性情報「Important」をマークアイコンImに対応付けられた情報として、ステップS213にて音声波形SW上に表示した際の位置をこのマークアイコンImの表示される位置として、格納することによって表示データ17cを生成する。
図4のフローチャートに戻って、ステップS111の付加情報表示処理を実行してマークアイコンImと属性アイコンIfとを表示した後、操作部13を介して音声録音終了の指示を受け付けたか否かを判別する(ステップS112)。音声録音終了の指示を受け付けていないと判別すると(ステップS112;NO)、処理はステップS103へ戻る。
音声録音終了の指示を受け付けたと判別すると(ステップS112;YES)、解析部106が録音された音声に有声区間検出処理を施し(ステップS113)、音声録音処理を終了する。
次に、音声録音装置1が音声再生処理を実行する動作を、図12及び13を参照しながら詳細に説明する。
音声再生処理の実行を所望する利用者は、音声録音装置1が備える操作部13を操作することにより、音声録音・再生アプリケーションプログラムを起動するように指示する。操作部13を介して指示を受け付けると、制御装置18は、音声録音・再生アプリケーションプログラムを記憶装置17から読み出してRAM16に展開する。
音声録音・再生アプリケーションプログラムが起動された状態において、利用者が、操作部13を操作することにより、音声録音・再生アプリケーションプログラムが備える複数の動作モードのうちの1つである「音声再生モード」を選択する。
「音声再生モード」を選択した後、利用者は、操作部13を操作して、再生を所望する録音データ17bを選択する。録音データ17bが選択されると、制御装置18は、図12のフローチャートに示す音声再生処理を開始する。
音声再生処理を開始すると、まず、図13に示す再生画面PWを表示部12に表示させ(ステップS301)、図13の再生開始ボタンPSが押下されたか否かを判別する(ステップS302)。再生開始ボタンPSが押下されていないと判別すると(ステップS302;NO)、処理はステップS302へ戻る。
再生開始ボタンPSが押下されたと判別すると(ステップS302;YES)、利用者が選択した録音データ17bを記憶装置17から読み出して音声出力部11へ供給し、この録音データ17bに基づいて音声を出力させる(ステップS303)。
音声波形表示部101は、録音データ17bに対応する波形描画用データを記憶装置17から読み出して表示部12へ供給し、この波形描画用データに基づいて音声波形SWを表示させる(ステップS304)。
情報付加部105は、録音データ17bに対応する表示データ17cを記憶装置17から読み出して表示部12へ供給し、この表示データ17cに基づいて付加情報(マークアイコンIm、メモアイコンIt、写真アイコンIp)を表示する(ステップS305)。例えば、情報付加部105は、図13に示すように、マークアイコンImを表示データ17cに基づいて表示する。この際、マークアイコンImが表示されている位置は、音声を録音中、図5のフローチャートのステップS213において当該マークアイコンImが表示された位置と同じである。
解析情報表示部107は、録音データ17bに対応する解析情報(録音データ17bが含む音声データのうち、人間の発する声を含む音声区間(有声区間)を示す情報)を記憶装置17から読み出し、この解析情報を音声波形SWと共に表示部12に表示する(ステップS306)。具体的に、解析情報表示部107は、図13に示すように、有声区間を示す網掛けアイコンVSを、解析情報として、音声波形SWと共に再生画面PW中に表示する。
次に、マークアイコンIm、メモアイコンIt、写真アイコンIpのうち何れかが押下されたか否かを判別する(ステップS307)。何れも押下されていないと判別すると(ステップS307;NO)、処理はステップS308へ移る。
マークアイコンIm、メモアイコンIt、写真アイコンIpのうち何れかが押下されたと判別すると(ステップS307;YES)、押下されたボタンアイコンに対応する処理を実行し(ステップS310)、処理はステップS308へ移る。
具体的に、マークアイコンImが押下されると、対応する処理として、その押下されたマークアイコンImが表示された位置まで音声再生位置をスキップする。
メモアイコンItが押下されると、対応する処理として、その押下されたメモアイコンItに対応付けられたメモ(文書)を表示する。
写真アイコンIpが押下されると、対応する処理として、その押下された写真アイコンIpに対応付けられた画像を表示する。
次に、操作ボタンOB1〜OB12のうち何れかが押下されたか否かを判別する(ステップS308)。何れの操作ボタンも押下されていないと判別すると(ステップS308;NO)、処理はステップS309へ移る。
操作ボタンOB1〜OB12のうち何れかが押下されたと判別すると(ステップS308;YES)、押下された操作ボタンに対応する処理を実行し(ステップS311)、処理はステップS309へ移る。
具体的に、操作ボタンOB1〜OB3が押下されると、対応する処理として、押下された時間から、それぞれ「−5秒」、「−10秒」、「−15秒」だけ前に再生位置をスキップする。
操作ボタンOB4が押下されると、対応する処理として、ノイズ(雑音)を低減する。
操作ボタンOB5〜OB8が押下されると、対応する処理として、音声の再生速度を、それぞれ「0.5倍」、「1.0倍」、「2.0倍」、「3.0倍」に変化させる。
操作ボタンOB9が押下されると、対応する処理として、有声区間(音声のうち、人間の発した声を含む音声区間)以外の音声区間をスキップする。
操作ボタンOB10〜OB12が押下されると、対応する処理として、押下された時間から、それぞれ「15秒」、「10秒」、「5秒」だけ後に再生位置をスキップする。
ステップS309において、音声データが終了時間まで再生されたか否かを判別する。音声データが終了時間まで再生されていないと判別すると(ステップS309;NO)、処理はステップS303へ移る。
音声データが終了時間まで再生されたと判別すると(ステップS309;YES)、音声再生処理を終了する。
以上説明したように、本実施の形態に係る音声録音装置1は、音声を録音中、直前に録音された音声に対応付けて、属性情報やメモ(文書)、画像が対応付けられた付加情報(マークアイコンIm、メモアイコンIt、写真アイコンIp)を表示する。利用者は、録音された音声を後で再生する際、付加情報を参照することにより、聞き逃した箇所や重要な内容の含まれている箇所を特定することができる。
すなわち、本実施の形態に係る音声録音装置1は、録音された音声を後で再生する場合に備えて、音声を録音中、直前に録音された音声に対して、聞き逃した箇所または重要な内容の含まれている箇所を特定できる情報(付加情報)を対応付けることができる。従って、音声録音中における利用者の操作性を向上することができる。
(第2の実施の形態)
第1の実施の形態に係る音声録音装置1は、音声を録音中、表示部12に表示された音声波形SWと共に、属性情報やメモ(文書)、画像が対応付けられた付加情報(マークアイコンIm、メモアイコンIt、写真アイコンIp)を表示した。
音声を録音中、付加情報以外の情報を音声波形SWと共に表示することを利用者が所望する場合がある。
以下、音声を録音中、付加情報と、録音された音声を解析して取得された解析情報と、を音声波形SWと共に表示する音声録音装置1の機能及び動作を説明する。
本実施の形態に係る音声録音装置1は、第1の実施の形態に係る音声録音装置1と概ね共通の構成を有する。ただし、解析部106及び解析情報表示部107の機能が一部異なる。
第1の実施の形態に係る解析部106は、音声の録音が終了した後、録音された音声に対して有声区間検出処理を施すことにより有声区間を示す情報を解析情報として取得した。
本実施の形態に係る解析部106は、音声の録音が終了した後に有声区間検出処理を実行すると共に、音声の録音中、録音中の音声に対して有声区間検出事前処理を施すことにより仮の有声区間を示す情報を解析情報として取得する。
以下、有声区間検出事前処理と、仮の有声区間と、について詳細に説明する。
有声区間検出処理においては、音声の録音が終了した後、録音終了までに取得された全ての音声データに基づいて取得された閾値を用いて、音声のうち、人間の発した声を含む音声区間を検出する。これに対し、有声区間検出事前処理においては、音声の録音中、各時点までに取得された音声データに基づいて取得された閾値を用いて、音声のうち、人間の発した声を含む音声区間を検出する。
同じく音声データに基づいて取得される閾値ではあるものの、有声区間検出事前処理で用いられる閾値は、有声区間検出処理で用いられる閾値よりも、取得の基礎となる音声データの量が少ないため、不適切な閾値である可能性が高い。従って、人間の発した声を含む音声区間として有声区間検出処理によって検出された音声区間は、人間の発した声を含む音声区間として有声区間検出事前処理によって検出された音声区間よりも、実際に人間の発した声を含む音声区間である可能性が高い。このため、前者から後者を区別するために、前者を「有声区間」、後者を「仮の有声区間」と称する。
また、解析部106は、音声の録音中、録音中の音声を対象とした音声認識によって認識された音声が示すテキストを解析情報として取得する。
また、解析部106は、音声の録音中、録音中の音声を対象としたスペクトル分析を行い、このスペクトル分析の結果を示すサウンドスペクトログラムを解析情報として取得する。サウンドスペクトログラムの横軸は時間を、縦軸は周波数を、濃淡は各周波数成分の強度を表す。
第1の実施の形態に係る解析情報表示部107は、音声の再生中、表示部12に表示された音声波形SWと共に解析情報を表示した。本実施の形態に係る解析情報表示部107は、音声の録音中、表示部12に表示された音声波形SWと共に解析情報を表示する。
以下、上述の構成を有する本実施の形態に係る音声録音装置1が音声録音処理を実行する動作を、図14及び15を参照して説明する。
本実施の形態に係る音声録音装置1は、図4のフローチャートに示す音声録音処理、及び図5のフローチャートに示す付加情報表示処理と概ね共通の処理を実行する。
ただし、本実施の形態に係る音声録音装置1は、図4のフローチャートのステップS105の処理を実行した後、ステップS106の処理を実行する前に、図14のフローチャートに示すステップS401〜S406の処理を実行する。
具体的に、音声波形表示部101がステップS105の処理を実行して録音画面RW中に音声波形SWを表示部12に表示した後、解析部106が、図4のフローチャートのステップS103において録音部10が録音した音声を対象として音声区間検出事前処理を実行し、仮の有声区間を示す情報を解析情報として取得する(ステップS401)。
そして、解析情報表示部107が、ステップS401で解析情報として取得された仮の有声区間を示す情報を、表示部12に表示された音声波形SWと共に表示する(ステップS402)。
具体的に、解析情報表示部107は、図15に示すように、録音画面RW中において、仮の有声区間を示す網掛けアイコンPVSを、音声波形SWと共に表示する。
次に、解析部106は、ステップS103において録音部10が録音した音声を対象とした音声認識を行い、この音声認識によって認識された音声が示すテキストを解析情報として取得する(ステップS403)。
そして、解析情報表示部107が、ステップS403で解析情報として取得された全てのテキストTXを、図15に示すように、表示部12に表示された音声波形SWと共に表示する(ステップS404)。
次に、解析部106は、ステップS103において録音部10が録音した音声を対象としたスペクトル分析を行い、このスペクトル分析の結果を示すサウンドスペクトログラムを解析情報として取得する(ステップS405)。
そして、解析情報表示部107が、ステップS405で解析情報として取得されたサウンドスペクトログラムSPを、図15に示すように、表示部12に表示された音声波形SWと共に表示する(ステップS406)。
ステップS406の処理を終えた後、処理は図4のフローチャートのステップS106へ移る。
なお、本実施の形態に係る音声録音装置1は、ステップS401で音声区間検出事前処理を実行して仮の有声区間を示す情報を解析情報として取得した後、図4のフローチャートのステップS113で音声区間検出処理を実行して有声区間を示す情報を解析情報として取得する。音声録音装置1は、これらの処理によって得られた解析情報のうち、有声区間を示す解析情報のみを記憶装置17へ供給し、記憶させる。
本実施の形態に係る音声録音装置1が音声再生処理を実行する際、解析情報表示部107は、記憶装置17に記憶された解析情報に基づいて有声区間を示す情報を表示する一方、不正確である可能性が比較的高い仮の有声区間を示す情報は表示しない。
以上説明したように、本実施の形態に係る音声録音装置1は、音声を録音中、付加情報と、録音された音声を解析して取得された解析情報と、を音声波形SWと共に表示する。
すなわち、本実施の形態に係る音声録音装置1は、録音された音声を後で再生する場合に備えて、音声を録音中、直前に録音された音声に対して、付加情報(録音された音声を後で再生する際、聞き逃した箇所または重要な内容の含まれている箇所を特定できる情報)を対応付けると共に、解析情報を表示することもできる。従って、音声録音中における利用者の操作性を向上することができる。
以上に本発明の実施の形態について説明したが、これらの実施の形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施の形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
上記実施の形態では、録音部10〜記憶装置17、及び制御装置18によって実現される音声波形表示部101〜解析情報表示部107が、単一の装置(音声録音装置1)に備えられていた。
録音部10〜記憶装置17、及び制御装置18によって実現される音声波形表示部101〜解析情報表示部107は、それぞれ別々の装置に備えられていてもよい。例えば、録音部10がある装置(例えば、ヘッドセット)に備えられる一方、表示部12が別の装置(例えば、テレビ)に備えられ、その他の構成(音声出力部11、操作部13〜記憶装置17、音声波形表示部101〜解析情報表示部107)はさらに別の装置(例えば、ヘッドセットから録音された音声を取得すると共に、テレビを制御して各種画像を表示させるノートパソコン)に備えられていてもよい。
上記実施の形態で、音声録音装置1は、表示部12に表示された音声波形SW上に、基準時間から遡及時間分遡った位置に付加情報を表示した。この際、基準時間は、利用者がマークボタンBm、メモボタンBt、写真ボタンBpの何れかを押下した時間であった。
基準時間は、利用者が任意の所定操作を行った時間とすることができる。例えば、利用者が指定ボタンB、B、B10を押下した時間(受付部102が指定された遡及時間を受け付けた時間)を基準時間としてもよい。
上記実施の形態で、付加情報の例として、マークアイコンIm、メモアイコンIt、写真アイコンIpを挙げて説明した。
付加情報はこれに限らず、任意の情報であってよい。例えば、付加情報は、音声データが対応付けられたアイコンであってもよい。
上記実施の形態では、メモアイコンItに、メモボタンBtを押下した後に利用者が入力したメモ(文書)が対応付けられた。
メモアイコンItには、これに限らず、任意の文書を対応付けることができる。例えば、予め外部から取得し記憶していた文書をメモアイコンItに対応付けてもよい。
上記実施の形態では、写真アイコンIpに、写真ボタンBpが押下されたと判別したことに応じて撮像装置14が生成した画像を対応付けた。
写真アイコンIpには、これに限らず、任意の画像を対応付けることができる。例えば、予め外部から取得し記憶していた画像を写真アイコンIpに対応付けてもよい。
上記実施の形態で、強調表示部104は、受付部102が指定された遡及時間として受け付けた遡及時間に対応する軸(軸アイコン)を他の遡及時間に対応する軸よりも太く表示した。
強調表示部104は、この他の任意の方法によって、遡及時間として受け付けられた時間に対応する軸を他の軸より強調する態様で表示することができる。例えば、軸表示部103は、受け付けられた時間に対応する軸を、他の軸よりも明るく表示してもよい。また、受け付けられた時間に対応する軸を、他の軸とは異なる色で表示することもできる。
上記実施の形態では、本発明に係る音声録音装置を単独の機能を有する個別の装置として説明したが、スマートフォン、コンピュータ、ボイスレコーダ、デジタルカメラ、PDA(Personal Digital Assistance)等の任意の電子機器によって実現することもできる。
具体的には、スマートフォン、コンピュータ、ボイスレコーダ、デジタルカメラ、PDA等を本発明に係る音声録音装置として動作させるためのプログラムを、これらの電子機器が読み取り可能な記録媒体(例えば、メモリカードやCD−ROM(Compact Disc Read−Only Memory)、DVD−ROM(Digital Versatile Disc Read−Only Memory)等)に格納して配布し、インストールすることにより本発明に係る音声録音装置を実現することができる。
あるいは、上記プログラムを、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置(例えば、ディスク装置等)に格納しておき、スマートフォン、コンピュータ、ボイスレコーダ、デジタルカメラ、PDA等がこのプログラムをダウンロードすることによって本発明に係る音声録音装置を実現してもよい。
また、本発明に係る音声録音装置の機能を、オペレーティングシステム(OS:Operating System)とアプリケーションプログラムとの協働又は分担により実現する場合には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、アプリケーションプログラムを搬送波に重畳し、通信ネットワークを介して配信してもよい。例えば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)にアプリケーションプログラムを掲示し、ネットワークを介してアプリケーションプログラムを配信してもよい。そして、このアプリケーションプログラムをコンピュータにインストールして起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、本発明に係る音声録音装置を実現してもよい。
以上、本発明の好ましい実施の形態について説明したが、本発明は係る特定の実施の形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願当初の特許請求の範囲に記載された発明を付記する。
(付記1)
音声を録音する録音手段と、
指定された遡及時間を受け付ける受付手段と、
利用者が所定操作を行ったことに応じて、前記録音手段によって録音された音声において、基準時間から前記遡及時間分遡った位置に付加情報を付加する情報付加手段と、
を備える、
ことを特徴とする音声録音装置。
(付記2)
前記基準時間は、前記録音手段が音声を録音中、利用者が所定操作を行った時間である、
ことを特徴とする付記1に記載の音声録音装置。
(付記3)
前記付加情報は、属性情報が対応付けられたアイコン、文書が対応付けられたアイコンまたは画像が対応付けられたアイコンのうち、少なくとも何れか1つのアイコンである、
ことを特徴とする付記1または2に記載の音声録音装置。
(付記4))
前記録音手段が音声を録音中、該音声の音声波形を表示手段に表示する音声波形表示手段を備え、
前記情報付加手段は、利用者が所定操作を行ったことに応じて、前記表示手段に表示された音声波形上において、基準時間から前記遡及時間分遡った位置に付加情報を表示する、
ことを特徴とする付記1乃至3の何れか一つに記載の音声録音装置。
(付記5)
前記録音手段が音声を録音中、該音声を解析して解析情報を取得する解析手段と、
前記表示手段に表示された音声波形と共に前記解析情報を表示する解析情報表示手段と、
をさらに備える、
ことを特徴とする付記4に記載の音声録音装置。
(付記6)
前記解析情報は、前記音声のうち、人間の発した声を含む音声区間を示す情報、該音声を対象とした音声認識によって認識された音声が示すテキストまたは該音声を対象としたスペクトル分析の結果を示すサウンドスペクトログラムのうち、少なくとも何れか1つである、
ことを特徴とする付記5に記載の音声録音装置。
(付記7)
前記受付手段が受け付ける遡及時間は複数あり、
前記複数の遡及時間それぞれに対応する軸を前記録音された音声の音声波形上に表示する軸表示手段と、
前記受付手段が複数の遡及時間のうち指定された遡及時間を受け付けたことに応じて、該受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する強調表示手段と、
をさらに備える、
ことを特徴とする付記1乃至6の何れか一つに記載の音声録音装置。
(付記8)
音声を録音する録音ステップと、
指定された遡及時間を受け付ける受付ステップと、
利用者が所定操作を行ったことに応じて、前記録音ステップで録音された音声において、基準時間から前記遡及時間分遡った位置に付加情報を付加する情報付加ステップと、
を含む、
ことを特徴とする音声録音方法。
(付記9)
コンピュータを、
音声を録音する録音手段、
指定された遡及時間を受け付ける受付手段、
利用者が所定操作を行ったことに応じて、前記録音手段によって録音された音声において、基準時間から前記遡及時間分遡った位置に付加情報を付加する情報付加手段、
として機能させるためのプログラム。
1…音声録音装置、10…録音部、11…音声出力部、12…表示部、13…操作部、14…撮像装置、15…入出力インタフェース、16…RAM、17…記憶装置、17a…制御プログラム、17b…録音データ、17c…表示データ、18…制御装置、101…音声波形表示部、102…受付部、103…軸表示部、104…強調表示部、105…情報付加部、106…解析部、107…解析情報表示部、RW…録音画面、SW…音声波形、Im…マークアイコン、It…メモアイコン、Ip…写真アイコン、If…属性アイコン、A10、A、A…軸アイコン、B10、B、B…指定ボタン、Bm…マークボタン、Bt…メモボタン、Bp…写真ボタン、RS…録音開始ボタン、RE…録音停止ボタン、MW…メニュー画面、PW…再生画面、VS…有声区間を示す網掛けアイコン、PS…再生開始ボタン、OB1〜OB12…操作ボタン、PVS…仮の有声区間を示す網掛けアイコン、SP…サウンドスペクトログラム、TX…テキスト

Claims (12)

  1. 音声を録音する録音手段と、
    複数の遡及時間それぞれに対応する軸を前記録音された音声の音声波形上に表示する軸表示手段と、
    前記複数の遡及時間の中から一つの遡及時間の指定を受け付ける受付手段と、
    前記一つの遡及時間の指定を前記受付手段が受け付けたことに応じて、該受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する強調表示手段と、
    ユーザ操作に応じて、前記録音手段によって録音された音声において、基準時間から前記一つの遡及時間分遡った位置に付加情報を付加する情報付加手段と、
    を備える、
    ことを特徴とする音声録音装置。
  2. 前記基準時間は、前記録音手段が音声を録音中、前記ユーザ操作を受け付けた時間である、
    ことを特徴とする請求項に記載の音声録音装置。
  3. 前記付加情報は、属性情報が対応付けられたアイコン、文書が対応付けられたアイコンまたは画像が対応付けられたアイコンのうち、少なくとも何れか1つのアイコンである、
    ことを特徴とする請求項またはに記載の音声録音装置。
  4. 前記録音手段が音声を録音中、該音声の音声波形を表示手段に表示する音声波形表示手段を備え、
    前記情報付加手段は、前記ユーザ操作に応じて、前記表示手段に表示された音声波形上において、基準時間から前記一つの遡及時間分遡った位置に付加情報を表示する、
    ことを特徴とする請求項乃至の何れか一項に記載の音声録音装置。
  5. 前記録音手段が音声を録音中、該音声を解析して解析情報を取得する解析手段と、
    前記録音手段が録音中の音声の音声波形と共に前記解析情報を表示する解析情報表示手段と、
    をさらに備える、
    ことを特徴とする請求項1乃至の何れか一項に記載の音声録音装置。
  6. 前記解析情報は、前記音声のうち、人間の発した声を含む音声区間を示す情報、該音声を対象とした音声認識によって認識された音声が示すテキストまたは該音声を対象としたスペクトル分析の結果を示すサウンドスペクトログラムのうち、少なくとも何れか1つである、
    ことを特徴とする請求項に記載の音声録音装置。
  7. 音声を録音する録音手段と、
    第一の遡及時間と、当該第一の遡及時間とは異なる第二の遡及時間と、の中から一つの遡及時間の指定を受け付ける受付手段と、
    ユーザ操作に応じて、前記録音手段によって録音された音声において、当該ユーザ操作を受け付けた時間から、前記受付手段により受け付けた一つの遡及時間分遡った位置に、付加情報を付加する情報付加手段と、
    を備える、
    ことを特徴とする音声録音装置。
  8. 前記情報付加手段が前記付加情報の付加を行った後、前記第一の遡及時間と前記第二の遡及時間との中から一つの遡及時間の指定を受け付ける第二の受付手段と、
    ユーザ操作に応じて、前記録音手段によって録音された音声において、当該ユーザ操作を受け付けた時間から、前記第二の受付手段により受け付けた一つの遡及時間分遡った位置に、第二の付加情報を付加する第二の情報付加手段と、
    を備える、
    ことを特徴とする請求項に記載の音声録音装置。
  9. 音声を録音する録音ステップと、
    複数の遡及時間それぞれに対応する軸を前記録音された音声の音声波形上に表示する軸表示ステップと、
    前記複数の遡及時間の中から一つの遡及時間の指定を受け付ける受付ステップと、
    前記一つの遡及時間の指定を前記受付ステップで受け付けたことに応じて、該受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する強調表示ステップと、
    ユーザ操作に応じて、前記録音ステップで録音された音声において、基準時間から前記一つの遡及時間分遡った位置に付加情報を付加する情報付加ステップと、
    を含む、
    ことを特徴とする音声録音方法。
  10. 音声を録音する録音ステップと、
    第一の遡及時間と、当該第一の遡及時間とは異なる第二の遡及時間と、の中から一つの遡及時間の指定を受け付ける受付ステップと、
    ユーザ操作に応じて、前記録音ステップで録音された音声において、当該ユーザ操作を受け付けた時間から、前記受付ステップで受け付けた一つの遡及時間分遡った位置に、付加情報を付加する情報付加ステップと、
    を含む、
    ことを特徴とする音声録音方法。
  11. コンピュータを、
    音声を録音する録音手段、
    複数の遡及時間それぞれに対応する軸を前記録音された音声の音声波形上に表示する軸表示手段、
    前記複数の遡及時間の中から一つの遡及時間の指定を受け付ける受付手段、
    前記一つの遡及時間の指定を前記受付手段が受け付けたことに応じて、該受け付けた遡及時間に対応する軸のみを他の軸より強調する態様で表示する強調表示手段、
    ユーザ操作に応じて、前記録音手段によって録音された音声において、基準時間から前記一つの遡及時間分遡った位置に付加情報を付加する情報付加手段、
    として機能させるためのプログラム。
  12. コンピュータを、
    音声を録音する録音手段、
    第一の遡及時間と、当該第一の遡及時間とは異なる第二の遡及時間と、の中から一つの遡及時間の指定を受け付ける受付手段、
    ユーザ操作に応じて、前記録音手段によって録音された音声において、当該ユーザ操作を受け付けた時間から、前記受付手段により受け付けた一つの遡及時間分遡った位置に、付加情報を付加する情報付加手段、
    として機能させるためのプログラム。
JP2015035026A 2015-02-25 2015-02-25 音声録音装置、音声録音方法、及びプログラム Active JP6060989B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015035026A JP6060989B2 (ja) 2015-02-25 2015-02-25 音声録音装置、音声録音方法、及びプログラム
US15/013,793 US9754621B2 (en) 2015-02-25 2016-02-02 Appending information to an audio recording
CN201610094347.6A CN105915831B (zh) 2015-02-25 2016-02-19 声音记录装置、声音记录方法以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015035026A JP6060989B2 (ja) 2015-02-25 2015-02-25 音声録音装置、音声録音方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016156978A JP2016156978A (ja) 2016-09-01
JP6060989B2 true JP6060989B2 (ja) 2017-01-18

Family

ID=56690532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015035026A Active JP6060989B2 (ja) 2015-02-25 2015-02-25 音声録音装置、音声録音方法、及びプログラム

Country Status (3)

Country Link
US (1) US9754621B2 (ja)
JP (1) JP6060989B2 (ja)
CN (1) CN105915831B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD781907S1 (en) * 2016-01-19 2017-03-21 Apple Inc. Display screen or portion thereof with graphical user interface
USD803856S1 (en) * 2016-02-19 2017-11-28 Samsung Electronics Co., Ltd. Display screen or portion thereof with graphical user interface
USD787556S1 (en) * 2016-04-01 2017-05-23 Google Inc. Display screen or portion thereof with icon
CN106603840A (zh) * 2016-12-07 2017-04-26 北京奇虎科技有限公司 基于移动终端的音频数据处理方法及装置
US10127943B1 (en) 2017-03-02 2018-11-13 Gopro, Inc. Systems and methods for modifying videos based on music
JP6845446B2 (ja) * 2017-03-31 2021-03-17 株式会社オプティム 音声内容記録システム、方法及びプログラム
CN108694937A (zh) * 2017-04-05 2018-10-23 陈荣伟 一种数字视音频监控系统中音频可视化监控的方法
JP6729635B2 (ja) * 2017-12-25 2020-07-22 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
CN108269587B (zh) * 2017-12-29 2021-10-29 一诺仪器(中国)有限公司 光缆敲击信号显示方法及系统
CN108492833A (zh) * 2018-03-30 2018-09-04 江西科技学院 语音信息采集方法、即时通信系统、移动终端及存储介质
US11150864B2 (en) * 2018-04-02 2021-10-19 Microsoft Technology Licensing, Llc Displaying enhancement items associated with an audio recording
CN110119240A (zh) * 2019-04-17 2019-08-13 维沃移动通信有限公司 一种录屏方法和一种移动终端
US11326935B2 (en) 2019-10-21 2022-05-10 Wistron Corporation Method and system for vision-based defect detection
TWI761715B (zh) * 2019-10-21 2022-04-21 緯創資通股份有限公司 缺陷檢測視覺化方法及其系統
JP7042246B2 (ja) * 2019-11-25 2022-03-25 フジテック株式会社 昇降装置の遠隔制御システム
TWI744177B (zh) * 2020-11-04 2021-10-21 緯創資通股份有限公司 缺陷檢測視覺化方法及其系統

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0998212A (ja) * 1995-09-29 1997-04-08 Hitachi Ltd 音声の通話録音方法
JPH09146590A (ja) 1995-11-20 1997-06-06 Sanyo Electric Co Ltd 音声録音装置及び録音方法
EP0977172A4 (en) * 1997-03-19 2000-12-27 Hitachi Ltd METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO
US6184898B1 (en) * 1998-03-26 2001-02-06 Comparisonics Corporation Waveform display utilizing frequency-based coloring and navigation
JP4222665B2 (ja) 1998-10-27 2009-02-12 オリンパス株式会社 音声記録再生装置
JP3555840B2 (ja) * 1998-11-02 2004-08-18 シャープ株式会社 音声録音再生機能を有する電子機器
US6876729B1 (en) * 1999-11-16 2005-04-05 Avaya Technology Corp. Bookmarking voice messages
US7747655B2 (en) * 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
JP4035822B2 (ja) * 2003-04-14 2008-01-23 ソニー株式会社 音声データ編集装置、音声データ編集方法及び音声データ編集プログラム
JP2009145435A (ja) * 2007-12-12 2009-07-02 O Chuhei 複数の機器に使用される不特定話者音声認識エンジンをインターネットを介して個別のユーザに提供するシステム及び方法
JP2009145434A (ja) * 2007-12-12 2009-07-02 O Chuhei 音声認識システム
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
JP4727755B2 (ja) * 2009-10-06 2011-07-20 シャープ株式会社 電子文書処理装置、電子文書表示装置、電子文書処理方法、電子文書処理プログラム、および記録媒体
US20110306397A1 (en) * 2010-06-11 2011-12-15 Harmonix Music Systems, Inc. Audio and animation blending
US8990092B2 (en) * 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
KR101977072B1 (ko) 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기

Also Published As

Publication number Publication date
US20160247533A1 (en) 2016-08-25
JP2016156978A (ja) 2016-09-01
CN105915831B (zh) 2019-03-15
US9754621B2 (en) 2017-09-05
CN105915831A (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
JP6060989B2 (ja) 音声録音装置、音声録音方法、及びプログラム
JP2024041816A (ja) コメント追加方法及び電子デバイス
JP5144424B2 (ja) 撮像装置及び情報処理方法
KR102657519B1 (ko) 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법
US20150058007A1 (en) Method for modifying text data corresponding to voice data and electronic device for the same
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
CN105210364A (zh) 在视频回放期间的动态音频空间感改变
WO2016197708A1 (zh) 一种录音方法及终端
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP7406874B2 (ja) 電子機器、その制御方法、およびそのプログラム
EP3605356A1 (en) Method and device for quickly inserting text of speech carrier
CN110943908A (zh) 语音消息发送方法、电子设备及介质
JP2017129720A (ja) 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
CN113079419A (zh) 应用程序的视频处理方法和电子设备
US9412380B2 (en) Method for processing data and electronic device thereof
CN107886975B (zh) 音频的处理方法、装置、存储介质及电子设备
KR101968669B1 (ko) 통화 서비스 제공 방법 및 컴퓨터 프로그램
JP6852478B2 (ja) 通信端末、通信プログラム及び通信方法
JP2009260718A (ja) 画像再生装置及び画像再生処理プログラム
CN104660819B (zh) 移动设备以及访问移动设备中文件的方法
CN104318923B (zh) 一种语音处理方法、装置及终端
CN111159550A (zh) 一种房屋相关信息显示、输入房屋相关信息的方法和装置
CN109509464B (zh) 一种把文本朗读录制为音频的方法及装置
CN112584225A (zh) 视频录制处理方法、视频播放控制方法及电子设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161128

R150 Certificate of patent or registration of utility model

Ref document number: 6060989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150