JP2012146302A

JP2012146302A - 音声をテキストに変換する装置及び方法

Info

Publication number: JP2012146302A
Application number: JP2012000478A
Authority: JP
Inventors: yuan-fu Huang; 遠福黄; Jeon-Bin Liu; 殿斌劉; Chien-Huang Chang; 建▲こう▼ 張
Original assignee: Hon Hai Precision Industry Co Ltd
Current assignee: Hon Hai Precision Industry Co Ltd
Priority date: 2011-01-11
Filing date: 2012-01-05
Publication date: 2012-08-02
Also published as: US20120179466A1; TW201230008A

Abstract

【課題】音声をテキストに変換する装置及び方法を提供することを目的とする。
【解決手段】音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、格納モジュールは異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、音声受信モジュールは、外部の音声信号を受け取り、音声識別モジュールは、前記音声信号を音声データに変換してから、格納モジュールから前記音声データに対応するテキストデータを探して制御モジュールに送信し、話者識別モジュールは、格納モジュールから前記音声信号に対応する話者データを探して制御モジュールに送信し、制御モジュールは、前記テキストデータ及び前記話者データを表示モジュールに表示させる。
【選択図】図１

Description

本発明は、音声識別に関するものであり、特に音声をテキストに変換する装置及び方法に関するものである。

ミーティング又はトレーニングの間、重要な内容を全て記録することが重要であるが、記録をしている最中又は途中で離れて、一部の内容を聞き逃してしまうことがある。このような問題を解決するために、音声をテキストに変換する装置を使用して、音声をテキストデータに変換してメモリに格納する。

しかし、音声をテキストに変換する装置によって、音声をテキストデータに変換してメモリに格納すると、テキストデータでは異なる話者の音声に対応して話者を識別することができない。

本発明の目的は、前記課題を解決し、異なる話者の音声信号に対応して異なる話者を識別することができる、音声をテキストに変換する装置及び方法を提供することである。

本発明に係る音声をテキストに変換する装置は、音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させる。

本発明に係る音声をテキストに変換する方法は、異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用され、外部の音声信号を受け取るステップと、前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、前記テキストデータ及び前記話者データを表示するステップと、を備える。

本発明の音声をテキストに変換する装置及び方法によれば、異なる話者の音声信号を受け取ると、異なる話者の前記音声信号に対応するテキストデータ及び話者データを識別して表示するので、ユーザーは異なる話者に対応するテキストデータを効率的に調べることができる。

本発明の実施形態に係る音声をテキストに変換する装置の構成図である。本発明の実施形態に係る音声をテキストに変換する方法のフローチャートである。本発明の実施形態に係る音声をテキストに変換する方法における話者識別過程のフローチャートである。本発明の実施形態に係る音声をテキストに変換する方法における話者及びテキストを表示する過程のフローチャートである。

図１は、本発明の実施形態に係る音声をテキストに変換する装置の構成図である。前記音声をテキストに変換する装置は、格納モジュール１０と、音声識別モジュール２０と、制御モジュール３０と、音声受信モジュール４０と、話者識別モジュール５０と、表示モジュール６０と、を備える。

前記格納モジュール１０は、異なる話者の音声データに対応するテキストデータ及び異なる話者の音声信号に対応する各々の話者データを予め格納している。

前記音声受信モジュール４０は、外部の音声信号を受け取って前記音声識別モジュール２０及び前記話者識別モジュール５０に送信する。

前記音声識別モジュール２０は、前記音声信号を音声データに変換してから、前記格納モジュール１０から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール３０に送信する。

前記話者識別モジュール５０は、前記格納モジュール１０から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール３０に送信する。

前記制御モジュール３０は、前記テキストデータ及び前記話者データを前記表示モジュール６０に表示させる。

図１及び図２を参照すると、本発明の実施形態に係る音声をテキストに変換する方法は、以下のステップを備える。

ステップＳ２０１において、前記音声受信モジュール４０は、外部の音声信号を受け取って前記音声識別モジュール２０及び前記話者識別モジュール５０に送信する。本実施形態において、マイクロフォンによって外部の音声信号を受け取る。

ステップＳ２０２において、前記音声識別モジュール２０は、前記音声信号を音声データに変換してから、前記格納モジュール１０から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール３０に送信し、前記話者識別モジュール５０は、前記格納モジュール１０から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール３０に送信する。

ステップＳ２０３において、前記制御モジュール３０は、前記テキストデータ及び前記話者データを前記表示モジュール６０に表示させる。

図１〜図３を参照すると、前記ステップＳ２０２の話者識別過程は、以下のステップを備える。

ステップＳ３０１において、前記話者識別モジュール５０は、前記音声信号に対してサンプリングする。

ステップＳ３０２において、前記話者識別モジュール５０は、前記格納モジュール１０からサンプリングした前記音声信号に対応する、予め格納されている話者データを探す。

ステップＳ３０３において、前記話者識別モジュール５０は、サンプリングした前記音声信号に対応する話者データを確定する。

ステップＳ３０４において、前記話者識別モジュール５０は、確定した前記話者データに対応する音声信号の持続時間を確定し、且つ確定した前記話者データ及び前記持続時間を前記制御モジュール３０に送信する。

図１、図２及び図４を参照すると、前記ステップＳ２０３の前記テキストデータ及び前記話者データを表示する過程は、以下のステップを備える。

ステップＳ４０１において、前記制御モジュール３０は、前記音声信号の持続時間を受信する。

ステップＳ４０２において、前記制御モジュール３０は、前記持続時間内の前記話者データに対応するテキストデータを確定する。

ステップＳ４０３において、前記制御モジュール３０は、前記テキストデータ及び前記話者データを前記表示モジュール６０に表示させる。

本発明の音声をテキストに変換する装置は、異なる音声信号を受け取ると、異なる前記音声信号に対応するテキストデータ及び話者データを識別し且つ表示することができる。例えば、司会者及び講演者が別々に発言すると、前記表示モジュール６０に「司会者：年中技術表彰大会を開催します、講演者：私は電気回路基板の回路設計に関して報告します」を表示する。

以上、本発明を実施例に基づいて具体的に説明したが、本発明は、上述の実施例に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更が可能であることは勿論であって、本発明の技術的範囲は、以下の特許請求の範囲から決まる。

１０格納モジュール
２０音声識別モジュール
３０制御モジュール
４０音声受信モジュール
５０話者識別モジュール
６０表示モジュール

Claims

音声受信モジュール、音声識別モジュール、表示モジュール及び格納モジュールを備えてなる音声をテキストに変換する装置であって、
話者識別モジュール及び制御モジュールをさらに備え、
前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、
前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、
前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、
前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、
前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させることを特徴とする音声をテキストに変換する装置。
前記話者識別モジュールは、前記話者データに対応する音声信号の持続時間を確定し、前記制御モジュールは、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを前記表示モジュールに表示させることを特徴とする請求項１に記載の音声をテキストに変換する装置。
異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用される音声をテキストに変換する方法であって、
外部の音声信号を受け取るステップと、
前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、
前記テキストデータ及び前記話者データを表示するステップと、
を備えることを特徴とする音声をテキストに変換する方法。
前記音声信号に対応する話者データを探すと、前記話者データに対応する音声信号の持続時間を確定し、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを表示することを特徴とする請求項３に記載の音声をテキストに変換する方法。