JP2016090774A5 - - Google Patents

Download PDF

Info

Publication number
JP2016090774A5
JP2016090774A5 JP2014224159A JP2014224159A JP2016090774A5 JP 2016090774 A5 JP2016090774 A5 JP 2016090774A5 JP 2014224159 A JP2014224159 A JP 2014224159A JP 2014224159 A JP2014224159 A JP 2014224159A JP 2016090774 A5 JP2016090774 A5 JP 2016090774A5
Authority
JP
Japan
Prior art keywords
sound source
digest
source type
section
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014224159A
Other languages
English (en)
Other versions
JP6413653B2 (ja
JP2016090774A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2014224159A priority Critical patent/JP6413653B2/ja
Priority claimed from JP2014224159A external-priority patent/JP6413653B2/ja
Publication of JP2016090774A publication Critical patent/JP2016090774A/ja
Publication of JP2016090774A5 publication Critical patent/JP2016090774A5/ja
Application granted granted Critical
Publication of JP6413653B2 publication Critical patent/JP6413653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (20)

  1. 音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、
    算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、
    を備える、情報処理装置。
  2. 前記音源種別スコアは、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び雑音らしさを示すノイズスコアの少なくともいずれかを含む、
    請求項1に記載の情報処理装置。
  3. 前記声スコアは、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び前記音声を発している特定の人物らしさを示す特定声スコアの少なくともいずれかを更に含む、
    請求項2に記載の情報処理装置。
  4. 前記音源種別スコア算出部は、前記音声情報の特徴を示す特徴量に基づいて、前記音源種別スコアを算出する、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記特徴量は、前記音声情報についての、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ、MFCC、収音位置間での相関、及び音源方位の特性を示す物理量のうちの少なくとも1つを含む、
    請求項4に記載の情報処理装置。
  6. 前記ダイジェスト区間決定部は、生成する前記ダイジェストのモードに基づいて前記ダイジェストに含める前記音声の音源種別を決定し、前記音声情報の中で、決定した音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、
    請求項1〜5のいずれか1項に記載の情報処理装置。
  7. 前記モードは、単一の音源種別の前記音声のみを含むように前記ダイジェストを生成する単一音源モード、複数の音源種別の前記音声を所定の割合で含むように前記ダイジェストを生成する複数音源モード、及び、同一の前記音源種別に分類される前記音声の中から多様な前記音声が含まれるように前記ダイジェストを生成する多様性反映モード、の少なくともいずれかから選択される、
    請求項6に記載の情報処理装置。
  8. 前記モードが前記単一音源モードである場合には、前記ダイジェスト区間決定部は、指定された一の音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、
    請求項7に記載の情報処理装置。
  9. 前記モードが前記複数音源モードである場合には、前記ダイジェスト区間決定部は、前記ダイジェストに含める前記音声の時間長さを音源種別ごとに設定し、音源種別ごとに前記音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの前記時間長さと略等しくなるような前記区間を、前記ダイジェスト区間として決定する、
    請求項7に記載の情報処理装置。
  10. 前記モードが前記多様性反映モードである場合には、前記ダイジェスト区間決定部は、同一の音源種別内での前記音声情報の特徴を示す特徴量のばらつき及び同一の前記音源種別内での前記音声が発せられた時刻のばらつきを算出し、前記特徴量のばらつき及び前記時刻のばらつきがより大きくなるように、前記ダイジェスト区間を決定する、
    請求項7に記載の情報処理装置。
  11. 前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第1の区間と、前記音源種別スコアが所定のしきい値よりも低い第2の区間と、が連続して存在しており、かつ、前記第2の区間の時間長さが所定の時間よりも短い場合には、前記第1及び第2の区間をともに含むように前記ダイジェスト区間を決定する、
    請求項6〜10のいずれか1項に記載の情報処理装置。
  12. 前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第1の区間の時間長さが、人にとって音声として認識できない長さである場合には、前記第1の区間を含まないように前記ダイジェスト区間を決定する、
    請求項6〜11のいずれか1項に記載の情報処理装置。
  13. 前記音源種別スコア算出部は、予め全てが取得されている前記音声情報について、前記音源種別スコアを算出し、
    前記ダイジェスト区間決定部は、予め全てが取得されている前記音声情報の前記ダイジェストを生成する、
    請求項1〜12のいずれか1項に記載の情報処理装置。
  14. 前記音源種別スコア算出部は、現在まさに取得され続けている前記音声情報について、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得される度に、前記スコア算出区間ごとに前記音源種別スコアを算出し、
    前記ダイジェスト区間決定部は、前記音声情報が取得されている間、前記音声情報の前記ダイジェストを随時更新しながら生成する、
    請求項1〜12のいずれか1項に記載の情報処理装置。
  15. 前記ダイジェスト区間決定部は、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、
    これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除する、
    請求項14に記載の情報処理装置。
  16. 外部の音声を収音する音声収音部、を更に備え、
    前記音声情報は、前記音声収音部によって収音された外部音声に係る音声情報である、
    請求項1〜15のいずれか1項に記載の情報処理装置。
  17. データベース化された前記音声情報が保存される記憶部、を更に備え、
    前記音源種別スコア算出部は、データベース化された前記音声情報に対して音源種別スコアを算出し、
    前記ダイジェスト区間決定部は、データベース化された前記音声情報に対して前記ダイジェスト区間を決定する、
    請求項1〜15のいずれか1項に記載の情報処理装置。
  18. 前記音声情報と、前記ダイジェスト区間決定部によって決定されたダイジェスト区間についての情報と、に基づいて、前記音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する出力音声生成部、を更に備える、
    請求項1〜17のいずれか1項に記載の情報処理装置。
  19. プロセッサが、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出することと、
    算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定することと、
    を含む、情報処理方法。
  20. コンピュータのプロセッサに、
    音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する機能と、
    算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定する機能と、
    を実現させる、プログラム。
JP2014224159A 2014-11-04 2014-11-04 情報処理装置、情報処理方法及びプログラム Active JP6413653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014224159A JP6413653B2 (ja) 2014-11-04 2014-11-04 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014224159A JP6413653B2 (ja) 2014-11-04 2014-11-04 情報処理装置、情報処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018188776A Division JP6683231B2 (ja) 2018-10-04 2018-10-04 情報処理装置および情報処理方法

Publications (3)

Publication Number Publication Date
JP2016090774A JP2016090774A (ja) 2016-05-23
JP2016090774A5 true JP2016090774A5 (ja) 2017-03-16
JP6413653B2 JP6413653B2 (ja) 2018-10-31

Family

ID=56016213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014224159A Active JP6413653B2 (ja) 2014-11-04 2014-11-04 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6413653B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108574771A (zh) * 2017-03-10 2018-09-25 峰范(北京)科技有限公司 信息收集与处理系统及其语音播放装置、处理方法
JP7196066B2 (ja) * 2017-05-26 2022-12-26 ソニーセミコンダクタソリューションズ株式会社 データ処理装置、データ処理方法、プログラム、及び、データ処理システム
JP7166796B2 (ja) * 2018-06-13 2022-11-08 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4491700B2 (ja) * 1999-08-26 2010-06-30 ソニー株式会社 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7349477B2 (en) * 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
WO2007013407A1 (ja) * 2005-07-27 2007-02-01 Matsushita Electric Industrial Co., Ltd. ダイジェスト生成装置、ダイジェスト生成方法、ダイジェスト生成プログラムを格納した記録媒体、およびダイジェスト生成装置に用いる集積回路
JP2008022103A (ja) * 2006-07-11 2008-01-31 Matsushita Electric Ind Co Ltd テレビ番組動画像ハイライト抽出装置及び方法
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路

Similar Documents

Publication Publication Date Title
CN108288468B (zh) 语音识别方法及装置
CN109166564A (zh) 为歌词文本生成乐曲的方法、装置及计算机可读存储介质
CN106157979B (zh) 一种获取人声音高数据的方法和装置
CN102664016A (zh) 唱歌评测方法及系统
US11069364B1 (en) Device arbitration using acoustic characteristics
US20180268809A1 (en) Voice keyword detection apparatus and voice keyword detection method
JP2016090774A5 (ja)
JP2015118185A5 (ja)
CN105718486B (zh) 在线哼唱检索方法及系统
JP2017144521A5 (ja)
Mehrabi et al. Similarity measures for vocal-based drum sample retrieval using deep convolutional auto-encoders
Van Balen et al. Corpus Analysis Tools for Computational Hook Discovery.
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
CN109741724B (zh) 制作歌曲的方法、装置及智能音响
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN110827789B (zh) 音乐生成方法、电子装置及计算机可读存储介质
JP2019219456A (ja) 音声認識システム、及び音声認識装置
JP2017120633A5 (ja)
CN104217731A (zh) 一种快速识别独奏乐曲乐谱的方法
JP2019212034A5 (ja)
Rocha et al. Music emotion recognition: The importance of melodic features
CN109410972B (zh) 生成音效参数的方法、装置及存储介质
JP5391150B2 (ja) 音響モデル学習用ラベル作成装置、その方法及びプログラム
CN107133344B (zh) 一种数据处理方法及装置
CN105956040A (zh) 音乐信息网络中社交关系影响下的歌曲流行度分析方法