JP6128146B2 - 音声検索装置、音声検索方法及びプログラム - Google Patents
音声検索装置、音声検索方法及びプログラム Download PDFInfo
- Publication number
- JP6128146B2 JP6128146B2 JP2015033952A JP2015033952A JP6128146B2 JP 6128146 B2 JP6128146 B2 JP 6128146B2 JP 2015033952 A JP2015033952 A JP 2015033952A JP 2015033952 A JP2015033952 A JP 2015033952A JP 6128146 B2 JP6128146 B2 JP 6128146B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- display
- search
- candidate section
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000007704 transition Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
- G06F16/639—Presentation of query results using playlists
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
例えば、特許文献1には、音声検索に際してユーザが検索キーワードを音声入力し、その音声入力された検索キーワードと一致する音声が発話されている箇所を検索する音声検索装置が開示されている。
入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索手段と、
前記検索手段が検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御手段と、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生手段と、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御手段と、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御手段と、
を備え、
前記第三表示制御手段は、前記音声再生手段による前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示する、
ことを特徴とする。
図1に示すように、音声検索装置100は、マイク110、スピーカ120、表示部130、入力部140、制御部150、記憶部160を備える。この音声検索装置100は、録音音声からユーザが入力した検索語を音声検索する装置であって、例えば、PC(Personal Computer)、ボイスレコーダ、スマートフォンなどである。この実施形態では、音声検索装置100は、一例として、スマートフォンであることを前提に説明する。
スピーカ120は、音声を可聴音として外部出力する音声出力部である。
表示部130は、例えば、LCD(Liquid Crystal Display)やEL(Electroluminescence)ディスプレイなどによって構成され、音声検索結果などを表示する。
なお、この音声検索処理のプログラムは、音声検索装置100のユーザが予め音声検索用のスマホアプリケーションをダウンロードして、インストールしておくことで制御部150が実行可能となる。
受付部151は、入力された検索語を受け付ける。この検索語は、音声検索のための検索キーワードであって、漢字、平仮名、片仮名、アルファベットなどからなるテキストである。
受付部151は、ユーザが検索ボックス131に入力した検索語(図2では「あいうえお」)を受け付ける。
図3の検索結果リスト133において、ユーザが再生ボタン136aを押下したとする。すると、再生部154は、候補アイコン135aが識別する候補区間の音声データを記憶部160から読み出して、スピーカ120を通して外部出力する。この際、表示制御部153は、再生部154による候補区間の音声の再生に伴って、表示部130の波形表示領域132に表示された音声波形上で再生位置を表示する。この再生位置は、図3に示すように、実線Pとその実線Pの位置を特定する指先カーソルとで示される。なお、候補区間の音声の再生に伴って表示するのは、音声波形に限らず、音声データの再生に伴う時間の推移を表す表示情報、例えば、先頭からの経過時間が所定間隔で示される棒状の表示体等を表示するようにしてもよい。以下では音声波形を表示するものとして説明を続ける。
次に、表示制御部153は、検索された候補区間を一覧表示する(ステップS15)。具体的には、表示制御部153は、候補区間を識別する候補アイコン135を尤度順で検索結果リスト133に表示する(図2参照)。
検索結果処理において、まず、受付部151は、再生ボタン136の押下がされたか否か判定する(ステップS21)。再生ボタン136の押下がされていないと判定した場合(ステップS21;No)、終了ボタン138の押下がされたか否か判定する(ステップS27)。終了ボタン138が押下されていないと判定した場合(ステップS27;No)、ステップS21に戻る。ここでは、再生ボタン136又は終了ボタン138の何れかが押下されるまで待機しておく(ステップS21とS27のループ)。
具体的には、上記実施形態では、各処理に係る各機能を実現するためのプログラムが、制御部150のROMに予め記憶されているものとして説明した。しかし、図1の各部の機能を実現させるためのプログラムを、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)及びMO(Magneto-Optical Disc)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の各部の機能を実現することができるコンピュータを構成してもよい。また、プログラムをインターネット等の通信ネットワーク上のサーバ装置が有するディスク装置等に格納しておき、例えば、コンピュータがダウンロード等することができるようにしてもよい。
録音音声を記憶する記憶手段と、
入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索手段と、
前記検索手段が検索した候補区間の音声を再生する再生手段と、
前記再生手段による前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御手段と、
を備えたことを特徴とする音声検索装置。
前記表示制御手段は、前記検索手段が検索した複数の候補区間それぞれを識別する候補識別情報を、検索結果として表示手段に表示し、
前記再生手段は、前記表示手段に表示された候補識別情報うち、ユーザが選択した候補識別情報が識別する候補区間の音声を再生する、
ことを特徴とする付記1に記載の音声検索装置。
前記表示制御手段は、前記複数の候補区間それぞれを識別する候補識別情報を尤度順に前記表示手段に表示する、
ことを特徴とする付記2に記載の音声検索装置。
前記表示制御手段は、前記候補区間の音声の再生後に、ユーザから該再生した音声が検索語が発声された音声と一致することを示す指示があった場合、前記表示情報に前記マークを付加する、
ことを特徴とする付記1乃至3の何れか一つに記載の音声検索装置。
前記表示制御手段は、前記再生手段による候補区間の音声の再生に伴って、前記表示情報に再生位置を付加する、
ことを特徴とする付記1乃至4の何れか一つに記載の音声検索装置。
前記表示制御手段は、前記マークに付帯する前記検索語のテキストを表示手段に表示する、
ことを特徴とする付記1乃至5の何れか一つに記載の音声検索装置。
前記再生手段は、前記表示制御手段がマークを付加後に前記録音音声を再生する際、該マークが特定する発声位置から音声を再生する、
ことを特徴とする付記1乃至6の何れか一つに記載の音声検索装置。
前記録音音声の時間の推移を表す表示情報は音声波形である、
ことを特徴とする付記1乃至7の何れか一つに記載の音声検索装置。
録音音声を記憶する記憶ステップと、
入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間の音声を再生する再生ステップと、
前記再生ステップにおける前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御ステップと、
を備えたことを特徴とする音声検索方法。
コンピュータを、
録音音声を記憶する記憶手段、
入力された検索語を受け付ける受付手段、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索手段、
前記検索手段が検索した候補区間の音声を再生する再生手段、
前記再生手段による前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御手段、
として機能させるためのプログラム。
Claims (9)
- 入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索手段と、
前記検索手段が検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御手段と、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生手段と、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御手段と、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御手段と、
を備え、
前記第三表示制御手段は、前記音声再生手段による前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示する、
ことを特徴とする音声検索装置。 - 前記第一表示制御手段は、前記区間識別手段により識別される前記候補区間の音声の再生指示を受け付ける再生受付手段を、前記表示手段にさらに表示し、
前記音声再生手段は、ユーザ操作に基づいて前記再生受付手段により前記候補区間の音声の再生指示を受け付けると、再生指示を受け付けた当該再生受付手段に対応する前記候補区間の音声を再生する、
ことを特徴とする請求項1に記載の音声検索装置。 - 前記検索手段は、複数の前記候補区間を前記録音音声から検索し、
前記第一表示制御手段は、前記複数の候補区間を互いに識別する複数の前記区間識別手段を、当該複数の区間識別手段に対応する前記複数の候補区間の尤度順に、前記表示手段に表示する、
ことを特徴とする請求項2に記載の音声検索装置。 - 前記受付手段は、前記検索語をテキストにより受け付ける、
ことを特徴とする請求項1乃至3の何れか一項に記載の音声検索装置。 - 前記第三表示制御手段は、前記位置特定手段に対応する位置に、前記検索語として受け付けたテキストを、前記音声表示情報とともに、前記表示手段に表示する、
ことを特徴とする請求項1乃至4の何れか一項に記載の音声検索装置。 - 前記音声再生手段は、前記第三表示制御手段により前記表示手段に表示された前記位置特定手段によって特定される位置から、前記録音音声の再生を行う、
ことを特徴とする請求項1乃至5の何れか一項に記載の音声検索装置。 - 前記第三表示制御手段は、前記音声表示情報として、音声波形を表示する、
ことを特徴とする請求項1乃至6の何れか一項に記載の音声検索装置。 - 入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御ステップと、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生ステップと、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御ステップと、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御ステップと、
を含み、
前記第三表示制御ステップは、前記音声再生ステップにおける前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示することを含む、
ことを特徴とするコンピュータにより実行される音声検索方法。 - コンピュータに、
入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御ステップと、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生ステップと、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御ステップと、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御ステップと、
を実行させ、
前記第三表示制御ステップは、前記音声再生ステップにおける前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示することを含む、
ためのコンピュータ読取り可能なプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015033952A JP6128146B2 (ja) | 2015-02-24 | 2015-02-24 | 音声検索装置、音声検索方法及びプログラム |
US15/013,681 US9734871B2 (en) | 2015-02-24 | 2016-02-02 | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
CN201610091055.7A CN105912558A (zh) | 2015-02-24 | 2016-02-18 | 声音检索装置和声音检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015033952A JP6128146B2 (ja) | 2015-02-24 | 2015-02-24 | 音声検索装置、音声検索方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016157225A JP2016157225A (ja) | 2016-09-01 |
JP6128146B2 true JP6128146B2 (ja) | 2017-05-17 |
Family
ID=56693326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015033952A Active JP6128146B2 (ja) | 2015-02-24 | 2015-02-24 | 音声検索装置、音声検索方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9734871B2 (ja) |
JP (1) | JP6128146B2 (ja) |
CN (1) | CN105912558A (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366442B1 (en) * | 2015-05-06 | 2019-07-30 | Amazon Technologies, Inc. | Systems and methods to update shopping cart |
US10726547B2 (en) | 2017-05-18 | 2020-07-28 | Welch Allyn, Inc. | Fundus image capturing |
USD881938S1 (en) * | 2017-05-18 | 2020-04-21 | Welch Allyn, Inc. | Electronic display screen of a medical device with an icon |
WO2019065345A1 (ja) | 2017-09-28 | 2019-04-04 | 日本電気株式会社 | 録音再生システム、録音再生方法、録音装置、記録媒体および録画装置 |
JP6729635B2 (ja) * | 2017-12-25 | 2020-07-22 | カシオ計算機株式会社 | 音声認識装置、ロボット、音声認識方法及び記録媒体 |
US10909485B2 (en) | 2018-09-28 | 2021-02-02 | Evernote Corporation | Relationship-based search |
US11361168B2 (en) | 2018-10-16 | 2022-06-14 | Rovi Guides, Inc. | Systems and methods for replaying content dialogue in an alternate language |
CN109920409B (zh) * | 2019-02-19 | 2021-07-09 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
USD913315S1 (en) * | 2019-05-31 | 2021-03-16 | Apple Inc. | Electronic device with graphical user interface |
JP2021135276A (ja) * | 2020-02-28 | 2021-09-13 | 日本電産株式会社 | 音源可視化装置および音源可視化プログラム |
JP6953597B1 (ja) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3664499B2 (ja) * | 1994-08-16 | 2005-06-29 | 富士通株式会社 | 音声情報の処理方法及びその装置 |
US6404856B1 (en) * | 1998-04-10 | 2002-06-11 | Fuji Xerox Co., Ltd. | System for recording, annotating and indexing audio data |
US6603921B1 (en) * | 1998-07-01 | 2003-08-05 | International Business Machines Corporation | Audio/video archive system and method for automatic indexing and searching |
US6876729B1 (en) * | 1999-11-16 | 2005-04-05 | Avaya Technology Corp. | Bookmarking voice messages |
US6697796B2 (en) * | 2000-01-13 | 2004-02-24 | Agere Systems Inc. | Voice clip search |
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
JP2001290496A (ja) | 2000-04-07 | 2001-10-19 | Ricoh Co Ltd | 音声検索装置および音声検索方法および記録媒体 |
CA2502412A1 (en) * | 2002-06-26 | 2004-01-08 | Custom Speech Usa, Inc. | A method for comparing a transcribed text file with a previously created file |
JP4080965B2 (ja) * | 2003-07-15 | 2008-04-23 | 株式会社東芝 | 情報提示装置及び情報提示方法 |
JP2005107617A (ja) * | 2003-09-29 | 2005-04-21 | Sony Corp | 音声データ検索装置。 |
JP5313466B2 (ja) * | 2007-06-28 | 2013-10-09 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声の再生に同期して音声の内容を表示させる技術 |
US8209171B2 (en) * | 2007-08-07 | 2012-06-26 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
JP5239600B2 (ja) * | 2008-08-04 | 2013-07-17 | 富士通株式会社 | 話者判別プログラム、話者判別装置、および話者判別方法 |
CN102236686A (zh) * | 2010-05-07 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 语音分段式歌曲检索方法 |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
CN103021412B (zh) * | 2012-12-28 | 2014-12-10 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN103000176B (zh) * | 2012-12-28 | 2014-12-10 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
JP2014219831A (ja) * | 2013-05-08 | 2014-11-20 | オリンパスイメージング株式会社 | 音声記録再生装置、音声記録再生装置の制御方法、および制御プログラム |
-
2015
- 2015-02-24 JP JP2015033952A patent/JP6128146B2/ja active Active
-
2016
- 2016-02-02 US US15/013,681 patent/US9734871B2/en active Active
- 2016-02-18 CN CN201610091055.7A patent/CN105912558A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN105912558A (zh) | 2016-08-31 |
US20160247542A1 (en) | 2016-08-25 |
JP2016157225A (ja) | 2016-09-01 |
US9734871B2 (en) | 2017-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6128146B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
US20060206339A1 (en) | System and method for voice-enabled media content selection on mobile devices | |
JP2015026069A (ja) | 表示コンテンツに対応付けてオーディオを記録する表示記録方法を実現するためのプログラム、当該表示記録方法および表示記録装置 | |
JP2014219614A (ja) | オーディオ装置、ビデオ装置及びコンピュータプログラム | |
KR101164379B1 (ko) | 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법 | |
CN111901665B (zh) | 教学资源播放方法、设备及存储介质 | |
JP4741406B2 (ja) | ノンリニア編集装置およびそのプログラム | |
JP5765593B2 (ja) | 動画再生装置、動画再生方法、動画再生プログラム、動画再生制御装置、動画再生制御方法及び動画再生制御プログラム | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
KR20110053397A (ko) | 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기 | |
JP2018097239A (ja) | 音声再生装置及びプログラム | |
JP4485966B2 (ja) | カラオケシステム | |
JP2005321706A (ja) | 電子書籍の再生方法及びその装置 | |
JP2013092912A (ja) | 情報処理装置、情報処理方法、並びにプログラム | |
JP4651317B2 (ja) | 楽曲選択装置 | |
JP6746886B2 (ja) | 学習支援装置及びその学習支援装置用のプログラム | |
JP4172655B2 (ja) | ゲームシステム、プログラムおよび情報記憶媒体 | |
JP2016062062A (ja) | 音声出力装置、音声出力プログラムおよび音声出力方法 | |
JP5765592B2 (ja) | 動画再生装置、動画再生方法、動画再生プログラム、動画再生制御装置、動画再生制御方法及び動画再生制御プログラム | |
JP2009092977A (ja) | 車載装置および楽曲検索システム | |
JP4581052B2 (ja) | 録音再生装置、録音再生方法、およびプログラム | |
KR101576683B1 (ko) | 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법 | |
JP6587459B2 (ja) | カラオケイントロにおける曲紹介システム | |
TW201342120A (zh) | 電子設備中自動翻頁的方法 | |
JP2008022978A (ja) | ゲームシステム、プログラムおよび情報記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6128146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |