JP2012146302A - 音声をテキストに変換する装置及び方法 - Google Patents

音声をテキストに変換する装置及び方法 Download PDF

Info

Publication number
JP2012146302A
JP2012146302A JP2012000478A JP2012000478A JP2012146302A JP 2012146302 A JP2012146302 A JP 2012146302A JP 2012000478 A JP2012000478 A JP 2012000478A JP 2012000478 A JP2012000478 A JP 2012000478A JP 2012146302 A JP2012146302 A JP 2012146302A
Authority
JP
Japan
Prior art keywords
module
speaker
data
voice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012000478A
Other languages
English (en)
Inventor
yuan-fu Huang
遠福 黄
Jeon-Bin Liu
殿斌 劉
Chien-Huang Chang
建▲こう▼ 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hon Hai Precision Industry Co Ltd
Original Assignee
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Precision Industry Co Ltd filed Critical Hon Hai Precision Industry Co Ltd
Publication of JP2012146302A publication Critical patent/JP2012146302A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

【課題】音声をテキストに変換する装置及び方法を提供することを目的とする。
【解決手段】音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、格納モジュールは異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、音声受信モジュールは、外部の音声信号を受け取り、音声識別モジュールは、前記音声信号を音声データに変換してから、格納モジュールから前記音声データに対応するテキストデータを探して制御モジュールに送信し、話者識別モジュールは、格納モジュールから前記音声信号に対応する話者データを探して制御モジュールに送信し、制御モジュールは、前記テキストデータ及び前記話者データを表示モジュールに表示させる。
【選択図】図1

Description

本発明は、音声識別に関するものであり、特に音声をテキストに変換する装置及び方法に関するものである。
ミーティング又はトレーニングの間、重要な内容を全て記録することが重要であるが、記録をしている最中又は途中で離れて、一部の内容を聞き逃してしまうことがある。このような問題を解決するために、音声をテキストに変換する装置を使用して、音声をテキストデータに変換してメモリに格納する。
しかし、音声をテキストに変換する装置によって、音声をテキストデータに変換してメモリに格納すると、テキストデータでは異なる話者の音声に対応して話者を識別することができない。
本発明の目的は、前記課題を解決し、異なる話者の音声信号に対応して異なる話者を識別することができる、音声をテキストに変換する装置及び方法を提供することである。
本発明に係る音声をテキストに変換する装置は、音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させる。
本発明に係る音声をテキストに変換する方法は、異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用され、外部の音声信号を受け取るステップと、前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、前記テキストデータ及び前記話者データを表示するステップと、を備える。
本発明の音声をテキストに変換する装置及び方法によれば、異なる話者の音声信号を受け取ると、異なる話者の前記音声信号に対応するテキストデータ及び話者データを識別して表示するので、ユーザーは異なる話者に対応するテキストデータを効率的に調べることができる。
本発明の実施形態に係る音声をテキストに変換する装置の構成図である。 本発明の実施形態に係る音声をテキストに変換する方法のフローチャートである。 本発明の実施形態に係る音声をテキストに変換する方法における話者識別過程のフローチャートである。 本発明の実施形態に係る音声をテキストに変換する方法における話者及びテキストを表示する過程のフローチャートである。
図1は、本発明の実施形態に係る音声をテキストに変換する装置の構成図である。前記音声をテキストに変換する装置は、格納モジュール10と、音声識別モジュール20と、制御モジュール30と、音声受信モジュール40と、話者識別モジュール50と、表示モジュール60と、を備える。
前記格納モジュール10は、異なる話者の音声データに対応するテキストデータ及び異なる話者の音声信号に対応する各々の話者データを予め格納している。
前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。
前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信する。
前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
図1及び図2を参照すると、本発明の実施形態に係る音声をテキストに変換する方法は、以下のステップを備える。
ステップS201において、前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。本実施形態において、マイクロフォンによって外部の音声信号を受け取る。
ステップS202において、前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信し、前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
ステップS203において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
図1〜図3を参照すると、前記ステップS202の話者識別過程は、以下のステップを備える。
ステップS301において、前記話者識別モジュール50は、前記音声信号に対してサンプリングする。
ステップS302において、前記話者識別モジュール50は、前記格納モジュール10からサンプリングした前記音声信号に対応する、予め格納されている話者データを探す。
ステップS303において、前記話者識別モジュール50は、サンプリングした前記音声信号に対応する話者データを確定する。
ステップS304において、前記話者識別モジュール50は、確定した前記話者データに対応する音声信号の持続時間を確定し、且つ確定した前記話者データ及び前記持続時間を前記制御モジュール30に送信する。
図1、図2及び図4を参照すると、前記ステップS203の前記テキストデータ及び前記話者データを表示する過程は、以下のステップを備える。
ステップS401において、前記制御モジュール30は、前記音声信号の持続時間を受信する。
ステップS402において、前記制御モジュール30は、前記持続時間内の前記話者データに対応するテキストデータを確定する。
ステップS403において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
本発明の音声をテキストに変換する装置は、異なる音声信号を受け取ると、異なる前記音声信号に対応するテキストデータ及び話者データを識別し且つ表示することができる。例えば、司会者及び講演者が別々に発言すると、前記表示モジュール60に「司会者:年中技術表彰大会を開催します、講演者:私は電気回路基板の回路設計に関して報告します」を表示する。
以上、本発明を実施例に基づいて具体的に説明したが、本発明は、上述の実施例に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更が可能であることは勿論であって、本発明の技術的範囲は、以下の特許請求の範囲から決まる。
10 格納モジュール
20 音声識別モジュール
30 制御モジュール
40 音声受信モジュール
50 話者識別モジュール
60 表示モジュール

Claims (4)

  1. 音声受信モジュール、音声識別モジュール、表示モジュール及び格納モジュールを備えてなる音声をテキストに変換する装置であって、
    話者識別モジュール及び制御モジュールをさらに備え、
    前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、
    前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、
    前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、
    前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、
    前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させることを特徴とする音声をテキストに変換する装置。
  2. 前記話者識別モジュールは、前記話者データに対応する音声信号の持続時間を確定し、前記制御モジュールは、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを前記表示モジュールに表示させることを特徴とする請求項1に記載の音声をテキストに変換する装置。
  3. 異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用される音声をテキストに変換する方法であって、
    外部の音声信号を受け取るステップと、
    前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、
    前記テキストデータ及び前記話者データを表示するステップと、
    を備えることを特徴とする音声をテキストに変換する方法。
  4. 前記音声信号に対応する話者データを探すと、前記話者データに対応する音声信号の持続時間を確定し、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを表示することを特徴とする請求項3に記載の音声をテキストに変換する方法。
JP2012000478A 2011-01-11 2012-01-05 音声をテキストに変換する装置及び方法 Pending JP2012146302A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW100100927 2011-01-11
TW100100927A TW201230008A (en) 2011-01-11 2011-01-11 Apparatus and method for converting voice to text

Publications (1)

Publication Number Publication Date
JP2012146302A true JP2012146302A (ja) 2012-08-02

Family

ID=46455946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012000478A Pending JP2012146302A (ja) 2011-01-11 2012-01-05 音声をテキストに変換する装置及び方法

Country Status (3)

Country Link
US (1) US20120179466A1 (ja)
JP (1) JP2012146302A (ja)
TW (1) TW201230008A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10044795B2 (en) 2014-07-11 2018-08-07 Vmware Inc. Methods and apparatus for rack deployments for virtual computing environments
US10635423B2 (en) 2015-06-30 2020-04-28 Vmware, Inc. Methods and apparatus for software lifecycle management of a virtual computing environment
US10901721B2 (en) 2018-09-20 2021-01-26 Vmware, Inc. Methods and apparatus for version aliasing mechanisms and cumulative upgrades for software lifecycle management

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2005308950A (ja) * 2004-04-20 2005-11-04 Sony Corp 音声処理装置および音声処理システム
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US20090089055A1 (en) * 2007-09-27 2009-04-02 Rami Caspi Method and apparatus for identification of conference call participants

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6332122B1 (en) * 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
WO2006089355A1 (en) * 2005-02-22 2006-08-31 Voice Perfect Systems Pty Ltd A system for recording and analysing meetings
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
DE102007030546A1 (de) * 2007-06-28 2009-01-02 Pandit, Madhukar, Prof. Dr.-Ing.habil. Sprechverhaltenüberwachung
US8438485B2 (en) * 2009-03-17 2013-05-07 Unews, Llc System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
US20100268534A1 (en) * 2009-04-17 2010-10-21 Microsoft Corporation Transcription, archiving and threading of voice communications

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2005308950A (ja) * 2004-04-20 2005-11-04 Sony Corp 音声処理装置および音声処理システム
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US20090089055A1 (en) * 2007-09-27 2009-04-02 Rami Caspi Method and apparatus for identification of conference call participants

Also Published As

Publication number Publication date
US20120179466A1 (en) 2012-07-12
TW201230008A (en) 2012-07-16

Similar Documents

Publication Publication Date Title
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
JP2010078979A (ja) 音声録音装置、録音音声検索方法及びプログラム
US10038419B1 (en) Last mile equalization
CN104380373B (zh) 用于名称发音的系统和方法
US8909534B1 (en) Speech recognition training
TW201733376A (zh) 基於語音識別的即時通信方法和即時通信系統
RU2012136154A (ru) Одновременные вызовы в режиме конференц-связи с функцией преобразования речи в текст
US20180373488A1 (en) Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio
TW201606759A (zh) 聲音對話內的對話線索
JP2017509009A (ja) オーディオストリームの中の音楽の追跡
GB201212435D0 (en) A transcription device and a method for transcribing speech
RU2016114565A (ru) Устройство обработки информации, способ и программа
RU2012150996A (ru) Способ коммуникации пользователя с информационной диалоговой системой
US10891959B1 (en) Voice message capturing system
US11553051B2 (en) Pairing a voice-enabled device with a display device
CN102333157A (zh) 用于移动终端的通话语音记录方法、装置及移动终端
US10909332B2 (en) Signal processing terminal and method
CN106452643B (zh) 播放控制方法、装置、终端及播放系统
WO2017027397A3 (en) Event detection for playback management in an audio device
JP2012146302A (ja) 音声をテキストに変換する装置及び方法
EP2913822A1 (en) Speaker recognition method
CN106060694B (zh) 数字耳机及其听音处理方法
CN102592596A (zh) 语音文字转换装置及方法
US20170301328A1 (en) Acoustic system, communication device, and program
CN104750452A (zh) 声音识别系统及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170104