JP4018678B2 - データ管理方法および装置 - Google Patents
データ管理方法および装置 Download PDFInfo
- Publication number
- JP4018678B2 JP4018678B2 JP2004236070A JP2004236070A JP4018678B2 JP 4018678 B2 JP4018678 B2 JP 4018678B2 JP 2004236070 A JP2004236070 A JP 2004236070A JP 2004236070 A JP2004236070 A JP 2004236070A JP 4018678 B2 JP4018678 B2 JP 4018678B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech recognition
- voice
- acoustic model
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013523 data management Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Devices (AREA)
Description
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備える。
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備える。
本実施形態では、データ管理装置の例として、デジタルカメラで撮像した画像を管理する画像管理システムの例を挙げて説明する。まず、図1、図4、図5を参照して本実施形態が形成する画像管理システムのハードウエア構成の概要を説明する。本実施形態では、図1(a)に示すように、デジタルカメラで撮った画像をPCにアップロードし、音声アノテーションを手がかりにPC上で画像を検索するケースで説明する。図1(a)において、デジタルカメラ101は、インターフェースケーブル(本例ではUSBケーブルとする)103を介して、PC102に画像をアップロードする。
[音声データ付与方法1]:画像の撮影後、例えばシャッターボタンを継続して押すことにより、シャッターボタンが押されている間を音声入力期間とし、この期間にマイク407より入力された音声情報を当該画像に関連付ける、
[音声データ付与方法2]:音声データを付与したい画像データを液晶表示器404に表示した状態で、所定の操作とともに音声入力を行うことで、当該画像データに音声情報を関連付ける、
といった手順で実施できる。
上記実施形態では、音響モデルとして、雑音環境に応じた音響モデルを使用し、検索時にも、雑音環境を指定するようにしていた。しかし、音声の付与条件として、雑音環境ではなく、発声者の性別を用いることも可能である。この場合、音響モデルとして、例えば、男性音響モデル、女性音響モデルを用意し、音声認識では、音声データに対してそれぞれの音響モデルを用いて認識した結果をすべて画像に付与する。検索時には、図12に示すように、音声メモ付与者の性別を選択するプルダウンメニューで性別を選択し、その選択に合致する音響モデルで認識した音声認識結果を用いて検索の一致度計算処理を行う。
第1実施形態では、PC102において複数種類の音声認識処理(複数種類の音響モデル)を適用して複数種類の認識結果を得、これらを画像に関連付けて記憶しておき、検索条件として指定された音声入力条件に対応した認識結果を抽出し、抽出した認識結果の範囲で検索文字列による検索を実施した。しかしながら、この場合、ユーザは検索したい画像に関連付けられた音声がどのような音声入力条件で入力されたかを覚えておく必要がある。第2実施形態では、デジタルカメラ101において画像データに関連付けられた音声データを登録する際に、音声入力条件を示す情報を当該音声データに含ませる。例えば、音声データの属性情報の一つとして音声入力条件を持たせる。
Claims (10)
- 検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備えることを特徴とするデータ管理装置。 - 前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項1記載のデータ管理装置。
- 前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項2記載のデータ管理装置。
- 前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項1記載のデータ管理装置。
- 検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備えることを特徴とするデータ管理方法。 - 前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項5記載のデータ管理方法。
- 前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項6記載のデータ管理方法。
- 前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項5記載のデータ管理方法。
- 請求項5乃至8のいずれかに記載のデータ管理方法をコンピュータによって実行させるための制御プログラム。
- 請求項9に記載の制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236070A JP4018678B2 (ja) | 2004-08-13 | 2004-08-13 | データ管理方法および装置 |
US11/201,013 US20060036441A1 (en) | 2004-08-13 | 2005-08-10 | Data-managing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236070A JP4018678B2 (ja) | 2004-08-13 | 2004-08-13 | データ管理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006053827A JP2006053827A (ja) | 2006-02-23 |
JP4018678B2 true JP4018678B2 (ja) | 2007-12-05 |
Family
ID=35801083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004236070A Expired - Fee Related JP4018678B2 (ja) | 2004-08-13 | 2004-08-13 | データ管理方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060036441A1 (ja) |
JP (1) | JP4018678B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
WO2007076529A2 (en) * | 2005-12-28 | 2007-07-05 | The Trustees Of Columbia University In The City Of New York | A system and method for accessing images with a novel user interface and natural language processing |
US8301995B2 (en) * | 2006-06-22 | 2012-10-30 | Csr Technology Inc. | Labeling and sorting items of digital data by use of attached annotations |
JP5274324B2 (ja) * | 2009-03-19 | 2013-08-28 | 株式会社エヌ・ティ・ティ・ドコモ | 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法 |
US8903847B2 (en) * | 2010-03-05 | 2014-12-02 | International Business Machines Corporation | Digital media voice tags in social networks |
US20120244842A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Data Session Synchronization With Phone Numbers |
US20120246238A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Asynchronous messaging tags |
US8688090B2 (en) | 2011-03-21 | 2014-04-01 | International Business Machines Corporation | Data session preferences |
US8903726B2 (en) * | 2012-05-03 | 2014-12-02 | International Business Machines Corporation | Voice entry of sensitive information |
CN104700831B (zh) * | 2013-12-05 | 2018-03-06 | 国际商业机器公司 | 分析音频文件的语音特征的方法和装置 |
JP2015207181A (ja) * | 2014-04-22 | 2015-11-19 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2017113370A1 (zh) * | 2015-12-31 | 2017-07-06 | 华为技术有限公司 | 声纹检测的方法和装置 |
CN109710750A (zh) * | 2019-01-23 | 2019-05-03 | 广东小天才科技有限公司 | 一种搜题方法及学习设备 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5729741A (en) * | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
US6374260B1 (en) * | 1996-05-24 | 2002-04-16 | Magnifi, Inc. | Method and apparatus for uploading, indexing, analyzing, and searching media content |
US6504571B1 (en) * | 1998-05-18 | 2003-01-07 | International Business Machines Corporation | System and methods for querying digital image archives using recorded parameters |
US6563536B1 (en) * | 1998-05-20 | 2003-05-13 | Intel Corporation | Reducing noise in an imaging system |
US6721001B1 (en) * | 1998-12-16 | 2004-04-13 | International Business Machines Corporation | Digital camera with voice recognition annotation |
US6369908B1 (en) * | 1999-03-31 | 2002-04-09 | Paul J. Frey | Photo kiosk for electronically creating, storing and distributing images, audio, and textual messages |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6789061B1 (en) * | 1999-08-25 | 2004-09-07 | International Business Machines Corporation | Method and system for generating squeezed acoustic models for specialized speech recognizer |
US6499016B1 (en) * | 2000-02-28 | 2002-12-24 | Flashpoint Technology, Inc. | Automatically storing and presenting digital images using a speech-based command language |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
JP2003219327A (ja) * | 2001-09-28 | 2003-07-31 | Canon Inc | 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
KR100770637B1 (ko) * | 2002-12-12 | 2007-10-29 | 후지필름 가부시키가이샤 | 디지털 카메라 |
US7324943B2 (en) * | 2003-10-02 | 2008-01-29 | Matsushita Electric Industrial Co., Ltd. | Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing |
US7272562B2 (en) * | 2004-03-30 | 2007-09-18 | Sony Corporation | System and method for utilizing speech recognition to efficiently perform data indexing procedures |
-
2004
- 2004-08-13 JP JP2004236070A patent/JP4018678B2/ja not_active Expired - Fee Related
-
2005
- 2005-08-10 US US11/201,013 patent/US20060036441A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2006053827A (ja) | 2006-02-23 |
US20060036441A1 (en) | 2006-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060036441A1 (en) | Data-managing apparatus and method | |
US20210294833A1 (en) | System and method for rich media annotation | |
WO2021109678A1 (zh) | 视频生成方法、装置、电子设备及存储介质 | |
US7831598B2 (en) | Data recording and reproducing apparatus and method of generating metadata | |
JP2892901B2 (ja) | プレゼンテーションの獲得、管理およびプレイバック用自動化システム及び方法 | |
JP4466564B2 (ja) | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
US8385588B2 (en) | Recording audio metadata for stored images | |
JP3895892B2 (ja) | マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体 | |
WO2004002144A1 (ja) | メタデータ作成装置、その作成方法および検索装置 | |
KR20070118038A (ko) | 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램 | |
JP2009026108A (ja) | 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法 | |
JP2006512007A (ja) | マルチメディア文書における多モード特性に注釈を付けるためのシステムおよび方法 | |
CA2227371A1 (en) | Automatic report generation system and method | |
JP2000184258A (ja) | 音声認識注釈を有するデジタル・カメラ | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
CN110166650A (zh) | 视频集的生成方法及装置、计算机设备与可读介质 | |
JP2014146066A (ja) | 文書データ生成装置、文書データ生成方法及びプログラム | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
US20060082664A1 (en) | Moving image processing unit, moving image processing method, and moving image processing program | |
JP2005346259A (ja) | 情報処理装置及び情報処理方法 | |
JP2007207031A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
WO2007058268A1 (ja) | 対応付け装置 | |
TWI496470B (zh) | Digital stethoscope for extensive collection of clinical lung tone signals | |
JP2003208083A (ja) | 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体 | |
JP5573402B2 (ja) | 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100928 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110928 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120928 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130928 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |