JP4405418B2 - 情報処理装置及びその方法 - Google Patents
情報処理装置及びその方法 Download PDFInfo
- Publication number
- JP4405418B2 JP4405418B2 JP2005100212A JP2005100212A JP4405418B2 JP 4405418 B2 JP4405418 B2 JP 4405418B2 JP 2005100212 A JP2005100212 A JP 2005100212A JP 2005100212 A JP2005100212 A JP 2005100212A JP 4405418 B2 JP4405418 B2 JP 4405418B2
- Authority
- JP
- Japan
- Prior art keywords
- key
- search
- sound data
- search key
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、第1の実施形態の音響処理装置について図1から図6に基づいて説明する。
図1は本発明の第1の実施形態に関わる音響処理装置の概略構成図である。
次に第1の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。
図2は、検索キーを含む音データの一例を示すものである。キー音取得部21によって図2に示す音が取得された場合を例に、変化点検出部31の詳細な処理を説明する。
図3は本実施形態における変化点検出部31の処理フローチャートを示している。
Si=√((Xi−X1)2+(Yi−Y1)2)
ここでSiが小さいほどモデルとの類似度が高いことを示している。各モデルに対して距離が算出され、その値が小さなカテゴリに分類される。各モデルとの距離からこのフレームは音響カテゴリAと判断される。
同様の処理が繰り返された後に、図2における時刻a)19:17のフレームが処理されている場合を考える。ここで直前のフレームは音響カテゴリBに属しているとする。
続いて、図2に示す音データに対する変化点検出部31の処理結果が図5に例示する変化点リストであった場合を例に、検索キー生成部41の詳細な処理を説明する。
なお、本実施形態では、指定点を含む前後の変化点から両端フリーでキー区間を決定する方法について説明したが、指定点及び変化点によってキー区間を決定できるならばどのような方法でも構わない。
次に、第2の実施形態に関わる音響処理装置について図7から図10に基づいて説明する。
図8は本実施形態における変化点検出部31の処理フローチャートを示している。
Si=√((Xi−X1)2+(Yi−Y1)2)<Ti
入力(1)では、モデルとの距離が閾値以内に収まるイベントはないためこのフレームでは音響イベントは発生しなかったと判断される。
同様の処理が繰り返された後に、図9におけるX)の開始時刻(以降イベントの先頭を−s、イベントの末尾を−eのサフィックスをつけて表現する)3:15を含むフレームが処理されている場合を考える。ここで直前のフレームでは音響イベントは検知されていない。
次に、本発明の第3の実施形態の音響処理装置について図11から図14に基づいて説明する。
図11は第3の実施形態に関わる音響処理装置の概略構成図である。
次に、第3の実施形態に関わる音響処理装置の詳細な処理について具体例を用いて説明する。
キー音取得部21によって図2に示す音が取得された場合を例に、変化点検出部32の詳細な処理を説明する。
続いて、図2に示す音データに対する変化点検出部31の処理結果が変化点のリストが図13に示すものであった場合を例に、検索キー生成部42の詳細な処理を説明する。
次に、本発明の第4の実施形態について図15に基づいて説明する。
次に、本発明の第5の実施形態について図16から図19に基づいて説明する。
図16は第5の実施形態に関わる映像音響処理装置の概略構成図である。
次に、第5の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。
図17は、検索キーを含む映像音データの一例を示すものである。キー映像取得部12によって図17に示す画像データが取得された場合を例に、変化点検出部32の詳細な処理を説明する。
図18は本実施形態における変化点検出部33の処理フローチャートを示している。
同様の処理が繰り返された後に、図17におけるα)2:04を含むフレーム(すなわち、画像データ)が処理されている場合を考える。ここで直前のフレームでは映像イベントは検知されていないとする。
次に、本発明の第6の実施形態について図20から図22に基づいて説明する。
図20は、第6の実施形態に関わる映像音響処理装置の概略構成図である。
次に、第6の実施形態に関わる映像音響処理装置の詳細な処理について具体例を用いて説明する。
図21は、検索キーを含む映像音データの一例を示すものである。キー映像取得部12によって図21に示す映像及び音が取得された場合を例に、変化点検出部34の詳細な処理を説明する。
まず、音データに対する処理から説明する。
続いて、画像データに対する処理を説明する。
次に、本発明の第7の実施形態について図23、図24、図26に基づいて説明する。
第7の実施形態に関わる音響処理装置の概略構成図は第1の実施形態と同一のものであるが、指定点取得部51において利用者から複数の指定点を取得する点、及び検索キー生成部41が複数の指定点及び変化点から検索キーの区間を決定する点が、以前の実施形態と異なっている。
本実施形態の詳細な処理について具体例を用いて説明する。
12 キー映像取得部
21 キー音取得部
22 キー音抽出部
23 キー音抽出部
31 変化点検出部
32 変化点検出部
33 変化点検出部
34 変化点検出部
41 検索キー生成部
42 検索キー生成部
51 指定点取得部
52 指定点取得部
53 指定点取得部
61 検索映像取得部
71 検索音取得部
72 検索音抽出部
81 音響検索部
91 検索結果記録部
100 検索キー管理部
200 記憶媒体
Claims (11)
- 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出するキー映像音データを取得するキー映像音取得手段と、
前記キー映像音データからキー音データを抽出するキー音抽出手段と、
前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。 - 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出するためのキー音データを取得するキー音取得手段と、
前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
前記キー音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。 - 検索対象となる検索音データ、または、検索映像音データを検索キーで検索する情報処理装置において、
前記検索キーを抽出する映像音データを取得するキー映像音取得手段と、
前記キー映像音データからキー音データを抽出するキー音抽出手段と、
前記キー音データを音響特徴パラメータに変換して、この変換した音響特徴パラメータの変化の出現した時刻を変化点として検出する音響変化点検出手段と、
前記キー映像音データにおける画像データを画像特徴パラメータに変換し、この変換した画像特徴パラメータの変化の出現した時刻を変化点として検出する画像変化点検出手段と、
前記キー音データ、または、前記映像音データの全体または一部区間を指定するための時刻を指定点として一または複数取得する指定点取得手段と、
前記音に基づく変化点及び前記指定点、または、前記画像に基づく変化点及び前記指定点の少なくとも一つ以上に基づいて検索キー区間を決定し、前記キー音データにおける前記検索キー区間に対応する部分に基づいて検索キーを生成する検索キー生成手段と、
を具備し、
前記検索キー生成手段は、
前記一つの指定点の前後の変化点を間の区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の前の変化点までの区間を前記検索キー区間と決定するか、
前記一つの指定点から、該指定点の後の変化点までの区間を前記検索キー区間と決定するか、
または、前記2つの指定点で決められた指定区間にもっとも近い外側または内側にある2つの変化点の間を前記検索キー区間と決定する、
ことを特徴とする情報処理装置。 - 前記キー音取得手段は、前記検索キーを抽出するための映像音データからキー音データを取得する
ことを特徴とする請求項2記載の情報処理装置。 - 前記音響変化点検出手段は、
前記キー音データを所定の時間幅を有する検出区間単位に分割し、
前記検出区間単位に分割されたキー音データを音響特徴パラメータに変換し、
前記検出区間を予め規定された複数の音響カテゴリのいずれかに分類し、
前記分類された音響カテゴリが前後の検出区間の音響カテゴリの分類と異なる検出区間を変化点として検出する
ことを特徴とする請求項2、または、3に記載の情報処理装置。 - 前記音響変化点検出手段は、
前記キー音データを検出区間単位に分割し、
前記検出区間単位に分割された音データを音響特徴パラメータに変換し、
前記検出区間において予め規定された1つもしくは複数の音響イベントが発生するか否かを検出し、
前記音響イベントが発生する検出区間を変化点として検出する
ことを特徴とする請求項2、または、3に記載の情報処理装置。 - 前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分の音データを含む
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記検索キーは、前記キー音データにおける前記検索キー区間に対応する部分から抽出した音響特徴パラメータを含む
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記検索キーは、前記キー音データを同定するためのキー音同定情報を含む
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記検索音データを取得する検索音取得手段と、
前記生成した検索キーと前記検索音データとを比較して、所定の条件を満たす前記検索音データの部分を表す検索結果を取得する音響検索手段と、
を具備することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記検索音取得手段は、前記検索映像音データから前記検索音データを取得する
ことを特徴とする請求項10に記載の情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005100212A JP4405418B2 (ja) | 2005-03-30 | 2005-03-30 | 情報処理装置及びその方法 |
US11/390,395 US20060224616A1 (en) | 2005-03-30 | 2006-03-28 | Information processing device and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005100212A JP4405418B2 (ja) | 2005-03-30 | 2005-03-30 | 情報処理装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006279898A JP2006279898A (ja) | 2006-10-12 |
JP4405418B2 true JP4405418B2 (ja) | 2010-01-27 |
Family
ID=37071839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005100212A Expired - Fee Related JP4405418B2 (ja) | 2005-03-30 | 2005-03-30 | 情報処理装置及びその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060224616A1 (ja) |
JP (1) | JP4405418B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4786384B2 (ja) | 2006-03-27 | 2011-10-05 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
JP4224095B2 (ja) * | 2006-09-28 | 2009-02-12 | 株式会社東芝 | 情報処理装置、情報処理プログラムおよび情報処理システム |
JP4945236B2 (ja) * | 2006-12-27 | 2012-06-06 | 株式会社東芝 | 映像コンテンツ表示装置、映像コンテンツ表示方法及びそのプログラム |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
WO2010140195A1 (ja) | 2009-06-05 | 2010-12-09 | 株式会社 東芝 | 映像編集装置 |
JP5242826B1 (ja) * | 2012-03-22 | 2013-07-24 | 株式会社東芝 | 情報処理装置及び情報処理方法 |
JP6078441B2 (ja) * | 2013-07-03 | 2017-02-08 | 日本電信電話株式会社 | モデル処理装置、分析装置、それらの方法およびプログラム |
JP6093670B2 (ja) * | 2013-08-07 | 2017-03-08 | 日本電信電話株式会社 | モデル処理装置、モデル処理方法、およびプログラム |
WO2016175792A1 (en) * | 2015-04-29 | 2016-11-03 | Hewlett Packard Enterprise Development Lp | Inhibiting electromagnetic field-based eavesdropping |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60003549T2 (de) * | 1999-04-30 | 2004-04-29 | Thomson Licensing S.A., Boulogne | Verfahren und vorrichtung zur verarbeitung von digital kodierten audiodaten |
US20050038819A1 (en) * | 2000-04-21 | 2005-02-17 | Hicken Wendell T. | Music Recommendation system and method |
EP1431956A1 (en) * | 2002-12-17 | 2004-06-23 | Sony France S.A. | Method and apparatus for generating a function to extract a global characteristic value of a signal contents |
GB0406512D0 (en) * | 2004-03-23 | 2004-04-28 | British Telecomm | Method and system for semantically segmenting scenes of a video sequence |
JP2006331591A (ja) * | 2005-05-30 | 2006-12-07 | Sony Corp | 情報処理装置および方法、並びにプログラム |
-
2005
- 2005-03-30 JP JP2005100212A patent/JP4405418B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-28 US US11/390,395 patent/US20060224616A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2006279898A (ja) | 2006-10-12 |
US20060224616A1 (en) | 2006-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4405418B2 (ja) | 情報処理装置及びその方法 | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP4466564B2 (ja) | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
CN100394438C (zh) | 信息处理装置及其方法 | |
JP4873018B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
KR20070118038A (ko) | 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램 | |
WO2004002144A1 (ja) | メタデータ作成装置、その作成方法および検索装置 | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
JP2001333379A (ja) | オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法 | |
CN101101779A (zh) | 数据记录和再现设备以及产生元数据的方法 | |
JP4491700B2 (ja) | 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置 | |
WO2016197708A1 (zh) | 一种录音方法及终端 | |
JP2019148681A (ja) | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム | |
JP2010262413A (ja) | 音声情報抽出装置 | |
JP3781715B2 (ja) | メタデータ制作装置及び検索装置 | |
KR101727587B1 (ko) | 디지털 녹취 파일 녹취록 생성 방법 | |
KR20060089922A (ko) | 음성 인식을 이용한 데이터 추출 장치 및 방법 | |
JP2006311462A (ja) | コンテンツ検索装置及びその方法 | |
JP2004289530A (ja) | 記録再生装置 | |
JP4235635B2 (ja) | データ検索装置及びその制御方法 | |
JP4531546B2 (ja) | 制御信号を利用したインデックス付与システム | |
JP4272611B2 (ja) | 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006054517A (ja) | 情報提示装置、方法及びプログラム | |
JP2009049667A (ja) | 情報処理装置、その処理方法およびプログラム | |
JP2006338550A (ja) | メタデータ作成装置及びメタデータ作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091104 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |