JP2012146302A - 音声をテキストに変換する装置及び方法 - Google Patents
音声をテキストに変換する装置及び方法 Download PDFInfo
- Publication number
- JP2012146302A JP2012146302A JP2012000478A JP2012000478A JP2012146302A JP 2012146302 A JP2012146302 A JP 2012146302A JP 2012000478 A JP2012000478 A JP 2012000478A JP 2012000478 A JP2012000478 A JP 2012000478A JP 2012146302 A JP2012146302 A JP 2012146302A
- Authority
- JP
- Japan
- Prior art keywords
- module
- speaker
- data
- voice
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
Abstract
【課題】音声をテキストに変換する装置及び方法を提供することを目的とする。
【解決手段】音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、格納モジュールは異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、音声受信モジュールは、外部の音声信号を受け取り、音声識別モジュールは、前記音声信号を音声データに変換してから、格納モジュールから前記音声データに対応するテキストデータを探して制御モジュールに送信し、話者識別モジュールは、格納モジュールから前記音声信号に対応する話者データを探して制御モジュールに送信し、制御モジュールは、前記テキストデータ及び前記話者データを表示モジュールに表示させる。
【選択図】図1
【解決手段】音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、格納モジュールは異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、音声受信モジュールは、外部の音声信号を受け取り、音声識別モジュールは、前記音声信号を音声データに変換してから、格納モジュールから前記音声データに対応するテキストデータを探して制御モジュールに送信し、話者識別モジュールは、格納モジュールから前記音声信号に対応する話者データを探して制御モジュールに送信し、制御モジュールは、前記テキストデータ及び前記話者データを表示モジュールに表示させる。
【選択図】図1
Description
本発明は、音声識別に関するものであり、特に音声をテキストに変換する装置及び方法に関するものである。
ミーティング又はトレーニングの間、重要な内容を全て記録することが重要であるが、記録をしている最中又は途中で離れて、一部の内容を聞き逃してしまうことがある。このような問題を解決するために、音声をテキストに変換する装置を使用して、音声をテキストデータに変換してメモリに格納する。
しかし、音声をテキストに変換する装置によって、音声をテキストデータに変換してメモリに格納すると、テキストデータでは異なる話者の音声に対応して話者を識別することができない。
本発明の目的は、前記課題を解決し、異なる話者の音声信号に対応して異なる話者を識別することができる、音声をテキストに変換する装置及び方法を提供することである。
本発明に係る音声をテキストに変換する装置は、音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させる。
本発明に係る音声をテキストに変換する方法は、異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用され、外部の音声信号を受け取るステップと、前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、前記テキストデータ及び前記話者データを表示するステップと、を備える。
本発明の音声をテキストに変換する装置及び方法によれば、異なる話者の音声信号を受け取ると、異なる話者の前記音声信号に対応するテキストデータ及び話者データを識別して表示するので、ユーザーは異なる話者に対応するテキストデータを効率的に調べることができる。
図1は、本発明の実施形態に係る音声をテキストに変換する装置の構成図である。前記音声をテキストに変換する装置は、格納モジュール10と、音声識別モジュール20と、制御モジュール30と、音声受信モジュール40と、話者識別モジュール50と、表示モジュール60と、を備える。
前記格納モジュール10は、異なる話者の音声データに対応するテキストデータ及び異なる話者の音声信号に対応する各々の話者データを予め格納している。
前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。
前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信する。
前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
図1及び図2を参照すると、本発明の実施形態に係る音声をテキストに変換する方法は、以下のステップを備える。
ステップS201において、前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。本実施形態において、マイクロフォンによって外部の音声信号を受け取る。
ステップS202において、前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信し、前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
ステップS203において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
図1〜図3を参照すると、前記ステップS202の話者識別過程は、以下のステップを備える。
ステップS301において、前記話者識別モジュール50は、前記音声信号に対してサンプリングする。
ステップS302において、前記話者識別モジュール50は、前記格納モジュール10からサンプリングした前記音声信号に対応する、予め格納されている話者データを探す。
ステップS303において、前記話者識別モジュール50は、サンプリングした前記音声信号に対応する話者データを確定する。
ステップS304において、前記話者識別モジュール50は、確定した前記話者データに対応する音声信号の持続時間を確定し、且つ確定した前記話者データ及び前記持続時間を前記制御モジュール30に送信する。
図1、図2及び図4を参照すると、前記ステップS203の前記テキストデータ及び前記話者データを表示する過程は、以下のステップを備える。
ステップS401において、前記制御モジュール30は、前記音声信号の持続時間を受信する。
ステップS402において、前記制御モジュール30は、前記持続時間内の前記話者データに対応するテキストデータを確定する。
ステップS403において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
本発明の音声をテキストに変換する装置は、異なる音声信号を受け取ると、異なる前記音声信号に対応するテキストデータ及び話者データを識別し且つ表示することができる。例えば、司会者及び講演者が別々に発言すると、前記表示モジュール60に「司会者:年中技術表彰大会を開催します、講演者:私は電気回路基板の回路設計に関して報告します」を表示する。
以上、本発明を実施例に基づいて具体的に説明したが、本発明は、上述の実施例に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更が可能であることは勿論であって、本発明の技術的範囲は、以下の特許請求の範囲から決まる。
10 格納モジュール
20 音声識別モジュール
30 制御モジュール
40 音声受信モジュール
50 話者識別モジュール
60 表示モジュール
20 音声識別モジュール
30 制御モジュール
40 音声受信モジュール
50 話者識別モジュール
60 表示モジュール
Claims (4)
- 音声受信モジュール、音声識別モジュール、表示モジュール及び格納モジュールを備えてなる音声をテキストに変換する装置であって、
話者識別モジュール及び制御モジュールをさらに備え、
前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、
前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、
前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、
前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、
前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させることを特徴とする音声をテキストに変換する装置。 - 前記話者識別モジュールは、前記話者データに対応する音声信号の持続時間を確定し、前記制御モジュールは、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを前記表示モジュールに表示させることを特徴とする請求項1に記載の音声をテキストに変換する装置。
- 異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用される音声をテキストに変換する方法であって、
外部の音声信号を受け取るステップと、
前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、
前記テキストデータ及び前記話者データを表示するステップと、
を備えることを特徴とする音声をテキストに変換する方法。 - 前記音声信号に対応する話者データを探すと、前記話者データに対応する音声信号の持続時間を確定し、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを表示することを特徴とする請求項3に記載の音声をテキストに変換する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100100927 | 2011-01-11 | ||
TW100100927A TW201230008A (en) | 2011-01-11 | 2011-01-11 | Apparatus and method for converting voice to text |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012146302A true JP2012146302A (ja) | 2012-08-02 |
Family
ID=46455946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012000478A Pending JP2012146302A (ja) | 2011-01-11 | 2012-01-05 | 音声をテキストに変換する装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120179466A1 (ja) |
JP (1) | JP2012146302A (ja) |
TW (1) | TW201230008A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10044795B2 (en) | 2014-07-11 | 2018-08-07 | Vmware Inc. | Methods and apparatus for rack deployments for virtual computing environments |
US10635423B2 (en) | 2015-06-30 | 2020-04-28 | Vmware, Inc. | Methods and apparatus for software lifecycle management of a virtual computing environment |
US10901721B2 (en) | 2018-09-20 | 2021-01-26 | Vmware, Inc. | Methods and apparatus for version aliasing mechanisms and cumulative upgrades for software lifecycle management |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322077A (ja) * | 1999-05-12 | 2000-11-24 | Sony Corp | テレビジョン装置 |
JP2000352995A (ja) * | 1999-06-14 | 2000-12-19 | Canon Inc | 会議音声処理方法および記録装置、情報記憶媒体 |
JP2001042996A (ja) * | 1999-07-28 | 2001-02-16 | Toshiba Corp | 文書作成装置、文書作成方法 |
JP2005148301A (ja) * | 2003-11-13 | 2005-06-09 | Sony Corp | 音声処理装置と音声処理方法 |
WO2005069171A1 (ja) * | 2004-01-14 | 2005-07-28 | Nec Corporation | 文書対応付け装置、および文書対応付け方法 |
JP2005308950A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 音声処理装置および音声処理システム |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
US20090089055A1 (en) * | 2007-09-27 | 2009-04-02 | Rami Caspi | Method and apparatus for identification of conference call participants |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754631B1 (en) * | 1998-11-04 | 2004-06-22 | Gateway, Inc. | Recording meeting minutes based upon speech recognition |
US6332122B1 (en) * | 1999-06-23 | 2001-12-18 | International Business Machines Corporation | Transcription system for multiple speakers, using and establishing identification |
JP2002091466A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
US20040021765A1 (en) * | 2002-07-03 | 2004-02-05 | Francis Kubala | Speech recognition system for managing telemeetings |
WO2006089355A1 (en) * | 2005-02-22 | 2006-08-31 | Voice Perfect Systems Pty Ltd | A system for recording and analysing meetings |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
DE102007030546A1 (de) * | 2007-06-28 | 2009-01-02 | Pandit, Madhukar, Prof. Dr.-Ing.habil. | Sprechverhaltenüberwachung |
US8438485B2 (en) * | 2009-03-17 | 2013-05-07 | Unews, Llc | System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication |
US20100268534A1 (en) * | 2009-04-17 | 2010-10-21 | Microsoft Corporation | Transcription, archiving and threading of voice communications |
-
2011
- 2011-01-11 TW TW100100927A patent/TW201230008A/zh unknown
- 2011-08-08 US US13/204,960 patent/US20120179466A1/en not_active Abandoned
-
2012
- 2012-01-05 JP JP2012000478A patent/JP2012146302A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322077A (ja) * | 1999-05-12 | 2000-11-24 | Sony Corp | テレビジョン装置 |
JP2000352995A (ja) * | 1999-06-14 | 2000-12-19 | Canon Inc | 会議音声処理方法および記録装置、情報記憶媒体 |
JP2001042996A (ja) * | 1999-07-28 | 2001-02-16 | Toshiba Corp | 文書作成装置、文書作成方法 |
JP2005148301A (ja) * | 2003-11-13 | 2005-06-09 | Sony Corp | 音声処理装置と音声処理方法 |
WO2005069171A1 (ja) * | 2004-01-14 | 2005-07-28 | Nec Corporation | 文書対応付け装置、および文書対応付け方法 |
JP2005308950A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 音声処理装置および音声処理システム |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
US20090089055A1 (en) * | 2007-09-27 | 2009-04-02 | Rami Caspi | Method and apparatus for identification of conference call participants |
Also Published As
Publication number | Publication date |
---|---|
US20120179466A1 (en) | 2012-07-12 |
TW201230008A (en) | 2012-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
JP2010078979A (ja) | 音声録音装置、録音音声検索方法及びプログラム | |
US10038419B1 (en) | Last mile equalization | |
CN104380373B (zh) | 用于名称发音的系统和方法 | |
US8909534B1 (en) | Speech recognition training | |
TW201733376A (zh) | 基於語音識別的即時通信方法和即時通信系統 | |
RU2012136154A (ru) | Одновременные вызовы в режиме конференц-связи с функцией преобразования речи в текст | |
US20180373488A1 (en) | Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio | |
TW201606759A (zh) | 聲音對話內的對話線索 | |
JP2017509009A (ja) | オーディオストリームの中の音楽の追跡 | |
GB201212435D0 (en) | A transcription device and a method for transcribing speech | |
RU2016114565A (ru) | Устройство обработки информации, способ и программа | |
RU2012150996A (ru) | Способ коммуникации пользователя с информационной диалоговой системой | |
US10891959B1 (en) | Voice message capturing system | |
US11553051B2 (en) | Pairing a voice-enabled device with a display device | |
CN102333157A (zh) | 用于移动终端的通话语音记录方法、装置及移动终端 | |
US10909332B2 (en) | Signal processing terminal and method | |
CN106452643B (zh) | 播放控制方法、装置、终端及播放系统 | |
WO2017027397A3 (en) | Event detection for playback management in an audio device | |
JP2012146302A (ja) | 音声をテキストに変換する装置及び方法 | |
EP2913822A1 (en) | Speaker recognition method | |
CN106060694B (zh) | 数字耳机及其听音处理方法 | |
CN102592596A (zh) | 语音文字转换装置及方法 | |
US20170301328A1 (en) | Acoustic system, communication device, and program | |
CN104750452A (zh) | 声音识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141003 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170104 |