JP6392051B2 - 電子機器、方法およびプログラム - Google Patents
電子機器、方法およびプログラム Download PDFInfo
- Publication number
- JP6392051B2 JP6392051B2 JP2014192588A JP2014192588A JP6392051B2 JP 6392051 B2 JP6392051 B2 JP 6392051B2 JP 2014192588 A JP2014192588 A JP 2014192588A JP 2014192588 A JP2014192588 A JP 2014192588A JP 6392051 B2 JP6392051 B2 JP 6392051B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- utterance section
- playback
- recording
- screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 230000010354 integration Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005057 finger movement Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
Description
Claims (12)
- タッチパネルを有するディスプレイと、
音声データを記憶する不揮発性メモリと、
音声録音再生プログラムを実行するプロセッサと、
を具備し、
前記プロセッサは、
前記ディスプレイ上に少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示し、
前記録音画面を用いて録音した前記音声データを前記不揮発性メモリに記憶し、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生し、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示し、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させ、
前記編集モードにおいて、第1話者の第1発話区間と第2話者の第2発話区間を統合する操作が実行された時、前記第2話者として識別されている全ての前記第2発話区間を前記第1話者の前記第1発話区間に一括して修正する、
電子機器。 - 前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記プロセッサは、
前記話者マークの前記第1話者に対応する位置を長押しした時、再生モードから編集モードに移行させ、
前記第1話者に対応する前記話者マークから前記第2話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行する、
請求項1に記載の電子機器。 - 前記プロセッサは、前記第1発話区間への統合が完了した場合、又は前記ディスプレイ上の前記発話区間を示す発話区間バーの表示領域、および前記特定エリアの表示領域以外をタッチすると、前記編集モードから前記再生モードに復帰する請求項1に記載の電子機器。
- 前記プロセッサは、前記編集モードにおいて、第3話者から第4話者に変更したい前記発話区間バーをタッチしたことを受けて、そのタッチされた発話区間を前記第3話者から前記第4話者に修正し、前記第3話者と識別されている他の話者区間は修正しない請求項1に記載の電子機器。
- 前記プロセッサは、前記音声データを録音する時、簡易的な第1手法により話者を識別して前記不揮発性メモリに記憶し、前記不揮発性メモリに記憶した前記音声データを本格的な第2手法により再度話者を識別して、その識別結果をインデックスデータとして前記不揮発性メモリに記憶し、前記インデックスデータに基づき前記発話区間を示す発話区間バーの話者を識別可能に表示する請求項1に記載の電子機器。
- タッチパネルを有するディスプレイ上に、少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示し、
前記録音画面を用いて録音した音声データを不揮発性メモリに記憶し、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生し、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示し、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させ、
前記編集モードにおいて、第1話者の第1発話区間と第2話者の第2発話区間を統合する操作が実行された時、前記第2話者として識別されている全ての前記第2発話区間を前記第1話者の前記第1発話区間に一括して修正する、
電子機器の方法。 - 前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記話者マークの前記第1話者に対応する位置を長押しした時、再生モードから編集モードに移行させ、
前記第1話者に対応する前記話者マークから前記第2話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行する、
請求項6に記載の方法。 - コンピュータに、
タッチパネルを有するディスプレイ上に、少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示するステップと、
前記録音画面を用いて録音した音声データを不揮発性メモリに記憶するステップと、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生するステップと、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示するステップと、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させるステップと、
前記編集モードにおいて、第1話者の第1発話区間と第2話者の第2発話区間を統合する操作が実行された時、前記第2話者として識別されている全ての前記第2発話区間を前記第1話者の前記第1発話区間に一括して修正するステップと、
を実行させるためのプログラム。 - 前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記話者マークの前記第1話者に対応する位置を長押しした時、再生モードから編集モードに移行させるステップと、
前記第1話者に対応する前記話者マークから前記第2話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行するステップと、
を実行させる請求項8に記載のプログラム。 - 前記第1発話区間への統合が完了した場合、又は前記ディスプレイ上の前記発話区間を示す発話区間バーの表示領域、および前記特定エリアの表示領域以外をタッチすると、前記編集モードから前記再生モードに復帰するステップを実行させる請求項8に記載のプログラム。
- 前記編集モードにおいて、第3話者から第4話者に変更したい前記発話区間バーをタッチしたことを受けて、そのタッチされた発話区間を前記第3話者から前記第4話者に修正し、前記第3話者と識別されている他の話者区間は修正しないステップを実行させる請求項8に記載のプログラム。
- 前記音声データを録音する時、簡易的な第1手法により話者を識別して前記不揮発性メモリに記憶し、前記不揮発性メモリに記憶した前記音声データを本格的な第2手法により再度話者を識別して、その識別結果をインデックスデータとして前記不揮発性メモリに記憶し、前記インデックスデータに基づき前記発話区間を示す発話区間バーの話者を識別可能に表示するステップを実行させる請求項8に記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014192588A JP6392051B2 (ja) | 2014-09-22 | 2014-09-22 | 電子機器、方法およびプログラム |
US14/662,609 US9536526B2 (en) | 2014-09-22 | 2015-03-19 | Electronic device with speaker identification, method and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014192588A JP6392051B2 (ja) | 2014-09-22 | 2014-09-22 | 電子機器、方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018152416A Division JP6672399B2 (ja) | 2018-08-13 | 2018-08-13 | 電子機器 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016062071A JP2016062071A (ja) | 2016-04-25 |
JP2016062071A5 JP2016062071A5 (ja) | 2017-10-19 |
JP6392051B2 true JP6392051B2 (ja) | 2018-09-19 |
Family
ID=55526327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014192588A Active JP6392051B2 (ja) | 2014-09-22 | 2014-09-22 | 電子機器、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9536526B2 (ja) |
JP (1) | JP6392051B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113544772A (zh) * | 2019-03-15 | 2021-10-22 | 富士通株式会社 | 编辑支持程序、编辑支持方法和编辑支持装置 |
US11704087B2 (en) | 2020-02-03 | 2023-07-18 | Google Llc | Video-informed spatial audio expansion |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3745403B2 (ja) * | 1994-04-12 | 2006-02-15 | ゼロックス コーポレイション | オーディオデータセグメントのクラスタリング方法 |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
JP2006330170A (ja) * | 2005-05-24 | 2006-12-07 | Nhk Engineering Services Inc | 記録文書作成支援システム |
JP2007256498A (ja) | 2006-03-22 | 2007-10-04 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP5385677B2 (ja) | 2009-05-12 | 2014-01-08 | 日本電信電話株式会社 | 対話状態分割装置とその方法、そのプログラムと記録媒体 |
JP5174068B2 (ja) | 2010-03-11 | 2013-04-03 | 株式会社東芝 | 信号分類装置 |
US9053750B2 (en) * | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
US20130144414A1 (en) * | 2011-12-06 | 2013-06-06 | Cisco Technology, Inc. | Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort |
CN105659324B (zh) * | 2013-08-20 | 2019-01-22 | 英特尔公司 | 协作音频对话证明 |
-
2014
- 2014-09-22 JP JP2014192588A patent/JP6392051B2/ja active Active
-
2015
- 2015-03-19 US US14/662,609 patent/US9536526B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9536526B2 (en) | 2017-01-03 |
JP2016062071A (ja) | 2016-04-25 |
US20160086608A1 (en) | 2016-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10592198B2 (en) | Audio recording/playback device | |
JP6265401B2 (ja) | メディアを再生するための方法および端末 | |
US20160163331A1 (en) | Electronic device and method for visualizing audio data | |
US8619046B2 (en) | Information processing apparatus, notification method, and program | |
JP4818427B2 (ja) | 情報処理装置及び画面選択方法 | |
EP3279786A1 (en) | Terminal control method and device, and terminal | |
KR101811219B1 (ko) | 손가락 추적을 이용한 휴대 단말기 제어 방법 및 장치 | |
JP6509516B2 (ja) | 電子機器、方法及びプログラム | |
KR20080104099A (ko) | 입력 장치 및 그 입력 방법 | |
JP2016156996A (ja) | 電子機器、方法及びプログラム | |
US20150160731A1 (en) | Method of recognizing gesture through electronic device, electronic device, and computer readable recording medium | |
US10770077B2 (en) | Electronic device and method | |
JP2018073287A (ja) | 情報処理装置及び情報処理方法 | |
WO2016152200A1 (ja) | 情報処理システムおよび情報処理方法 | |
JP6569926B2 (ja) | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム | |
US20190129517A1 (en) | Remote control by way of sequences of keyboard codes | |
KR20110049275A (ko) | 객체 출력이 가능한 다이얼을 구비한 휴대용 단말기의 장치 및 방법 | |
JP6392051B2 (ja) | 電子機器、方法およびプログラム | |
WO2016045468A1 (zh) | 一种语音输入控制的方法、装置及终端 | |
JP2023519389A (ja) | スクラッチパッド作成方法及び電子機器 | |
US20120151409A1 (en) | Electronic Apparatus and Display Control Method | |
JP6672399B2 (ja) | 電子機器 | |
JP6472823B2 (ja) | 信号処理装置、信号処理方法および属性付与装置 | |
JP5242748B2 (ja) | 情報処理装置及び画面選択方法 | |
US20170092334A1 (en) | Electronic device and method for visualizing audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170907 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180822 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6392051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 Free format text: JAPANESE INTERMEDIATE CODE: R313121 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |