JP2001142487A - 音声データ入力システム - Google Patents
音声データ入力システムInfo
- Publication number
- JP2001142487A JP2001142487A JP32157799A JP32157799A JP2001142487A JP 2001142487 A JP2001142487 A JP 2001142487A JP 32157799 A JP32157799 A JP 32157799A JP 32157799 A JP32157799 A JP 32157799A JP 2001142487 A JP2001142487 A JP 2001142487A
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- text
- group
- voice
- management server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】
【課題】 音声チャット目的等に使用可能で、出力デー
タの明瞭度が高く、処理能力を大きくする。 【解決手段】 複数の通信端末の一つである利用者端末
1は、入力した音声データの一部を音声入力部11で認
識して入力データ処理部12でテキストに変換して管理
サーバー2に送信する。また、複数の利用者端末の各々
から入力された音声データ群と該音声データ群に対応す
るテキスト群とを管理サーバー2から受信して上記音声
データ群を音声出力すると共に上記テキスト群を画面表
示する。管理サーバー2は、接続した利用者端末から受
信した音声データ群とテキスト群のうち、テキストに変
換されていない音声データを認識してテキストに変換
し、該変換実行後の音声データ群とテキスト群とを送信
者情報と共に上記接続した全ての通信端末に送信する。
タの明瞭度が高く、処理能力を大きくする。 【解決手段】 複数の通信端末の一つである利用者端末
1は、入力した音声データの一部を音声入力部11で認
識して入力データ処理部12でテキストに変換して管理
サーバー2に送信する。また、複数の利用者端末の各々
から入力された音声データ群と該音声データ群に対応す
るテキスト群とを管理サーバー2から受信して上記音声
データ群を音声出力すると共に上記テキスト群を画面表
示する。管理サーバー2は、接続した利用者端末から受
信した音声データ群とテキスト群のうち、テキストに変
換されていない音声データを認識してテキストに変換
し、該変換実行後の音声データ群とテキスト群とを送信
者情報と共に上記接続した全ての通信端末に送信する。
Description
【0001】
【発明の属する技術分野】本発明は、音声データ入力シ
ステムに関し、特に、複数の通信端末からの同時音声入
力を許容する音声チャットに適した音声データ入力シス
テムに関する。
ステムに関し、特に、複数の通信端末からの同時音声入
力を許容する音声チャットに適した音声データ入力シス
テムに関する。
【0002】
【従来の技術】従来は、音声データ入力システムは、パ
ーソナルコンピュータ等の利用者端末から入力された原
音声データのみ、或いは、該原音声データを音声認識し
た結果として出力されるテキストデータのみを取り扱っ
ていた。
ーソナルコンピュータ等の利用者端末から入力された原
音声データのみ、或いは、該原音声データを音声認識し
た結果として出力されるテキストデータのみを取り扱っ
ていた。
【0003】
【発明が解決しようとする課題】従来の音声データ入力
システムは、操作指令の入力や、ワードプロセッサの入
力、或いはチャット(音声による会話)目的等の、比較
的短い実時間での処理が要求される場合の入力システム
としては不向きであった。その理由は、一般的には、音
声データ入力システムの音声認識部を搭載しているパー
ソナルコンピュータ等の利用者端末の能力が、当該音声
認識部に要求される処理能力よりも遙に小さいからであ
り、また、よしんば、その処理能力を大きくしたとして
も、マルチタスク処理による負荷が重なる場合には、同
様に実時間処理には耐えられなくなる可能性があった。
システムは、操作指令の入力や、ワードプロセッサの入
力、或いはチャット(音声による会話)目的等の、比較
的短い実時間での処理が要求される場合の入力システム
としては不向きであった。その理由は、一般的には、音
声データ入力システムの音声認識部を搭載しているパー
ソナルコンピュータ等の利用者端末の能力が、当該音声
認識部に要求される処理能力よりも遙に小さいからであ
り、また、よしんば、その処理能力を大きくしたとして
も、マルチタスク処理による負荷が重なる場合には、同
様に実時間処理には耐えられなくなる可能性があった。
【0004】また、音声チャットに使用する場合には、
同時発声があり得るため、スピーカからは、複数の音声
が重なって再生される場合があり、聞き手にとっては、
聞き取り難くなる場合が生じていた。
同時発声があり得るため、スピーカからは、複数の音声
が重なって再生される場合があり、聞き手にとっては、
聞き取り難くなる場合が生じていた。
【0005】さらに、音声チャットのための音声認識処
理を管理サーバーにも分担させる従来方式の場合、管理
サーバーの処理能力が実時間処理に必要な能力を超えて
いる場合には、溢れ出た音声データを消滅させてしまう
ことがあった。
理を管理サーバーにも分担させる従来方式の場合、管理
サーバーの処理能力が実時間処理に必要な能力を超えて
いる場合には、溢れ出た音声データを消滅させてしまう
ことがあった。
【0006】今後、VoIP(Voice over IP)の普及を
迎え、インターネットやプライベートイントラネット、
またはエクストラネット等のネットワークを使用する場
合の音声伝送の処理能力が高まることが期待され、音声
認識処理を管理サーバーにも分担させる方式の信頼性の
高い音声チャットシステムを開発することが課題であっ
た。
迎え、インターネットやプライベートイントラネット、
またはエクストラネット等のネットワークを使用する場
合の音声伝送の処理能力が高まることが期待され、音声
認識処理を管理サーバーにも分担させる方式の信頼性の
高い音声チャットシステムを開発することが課題であっ
た。
【0007】本発明は、以上のような従来の音声データ
入力システムにおける問題点に鑑みてなされたものであ
り、音声チャット目的等に使用することができる、入力
データの明瞭度が高くて処理能力の大きい音声データ入
力システムを提供することを目的とする。
入力システムにおける問題点に鑑みてなされたものであ
り、音声チャット目的等に使用することができる、入力
データの明瞭度が高くて処理能力の大きい音声データ入
力システムを提供することを目的とする。
【0008】
【課題を解決するための手段】本発明では上記課題を解
決するために、1または2以上のユーザの通信端末から
入力した話者の発言を、ネットワークを介して接続した
管理サーバーと協同してテキストに変換する音声データ
入力システムにおいて、入力した音声データの一部また
は全てを認識してテキストに変換する手段と、前記音声
データを前記テキストと共に管理サーバーに送信する手
段を備え、前記複数の通信端末の各々から入力された音
声データ群と該音声データ群に対応するテキスト群とを
前記管理サーバーから受信して前記音声データ群を音声
出力すると共に前記テキスト群を画面表示する通信端末
と、接続した前記通信端末から受信した音声データ群と
テキスト群のうち、テキストに変換されていない音声デ
ータを認識してテキストに変換する手段を備え、前記変
換手段の実行後に、音声データ群とテキスト群とを送信
者情報と共に前記接続した全ての通信端末に送信する管
理サーバーとを有することを特徴とする音声データ入力
システムが提供される。
決するために、1または2以上のユーザの通信端末から
入力した話者の発言を、ネットワークを介して接続した
管理サーバーと協同してテキストに変換する音声データ
入力システムにおいて、入力した音声データの一部また
は全てを認識してテキストに変換する手段と、前記音声
データを前記テキストと共に管理サーバーに送信する手
段を備え、前記複数の通信端末の各々から入力された音
声データ群と該音声データ群に対応するテキスト群とを
前記管理サーバーから受信して前記音声データ群を音声
出力すると共に前記テキスト群を画面表示する通信端末
と、接続した前記通信端末から受信した音声データ群と
テキスト群のうち、テキストに変換されていない音声デ
ータを認識してテキストに変換する手段を備え、前記変
換手段の実行後に、音声データ群とテキスト群とを送信
者情報と共に前記接続した全ての通信端末に送信する管
理サーバーとを有することを特徴とする音声データ入力
システムが提供される。
【0009】即ち、本発明では、複数の通信端末(以
後、「利用者端末」と呼称することもある)の各話者か
らの発言が重複する場合には、管理サーバーが、これを
時間軸上で1列に整列させることにより、音声チャット
利用時等の同時発言があり得る場面においても、利用者
端末側において、上記各話者の発言を異なる時間帯で再
生し得ることを可能にすると共に、音声認識の処理能力
を向上させている。
後、「利用者端末」と呼称することもある)の各話者か
らの発言が重複する場合には、管理サーバーが、これを
時間軸上で1列に整列させることにより、音声チャット
利用時等の同時発言があり得る場面においても、利用者
端末側において、上記各話者の発言を異なる時間帯で再
生し得ることを可能にすると共に、音声認識の処理能力
を向上させている。
【0010】より具体的には、管理サーバーが、複数の
利用者端末の音声データ処理要求を受け付けて、受信デ
ータを、該受信データが付加されているタイムスタンプ
の順に並べ、この時、時間軸上での重複発言が生じた音
声データについては、該重複発言を整理して時間軸上に
1列に並べると共に、従来は各利用者端末の音声認識部
のみで行っていた音声認識処理の負荷を管理サーバーも
分担する構成とすることにより、パーソナルコンピュー
タ等の利用者端末の能力が、当該音声認識部に要求され
る処理能力よりも遙に小さい場合でも、実時間処理内で
のテキスト変換処理を可能としている。なお、テキスト
変換処理で得られたテキストと、それに対応する音声デ
ータは、上記複数の利用者端末の全てに送信される。
利用者端末の音声データ処理要求を受け付けて、受信デ
ータを、該受信データが付加されているタイムスタンプ
の順に並べ、この時、時間軸上での重複発言が生じた音
声データについては、該重複発言を整理して時間軸上に
1列に並べると共に、従来は各利用者端末の音声認識部
のみで行っていた音声認識処理の負荷を管理サーバーも
分担する構成とすることにより、パーソナルコンピュー
タ等の利用者端末の能力が、当該音声認識部に要求され
る処理能力よりも遙に小さい場合でも、実時間処理内で
のテキスト変換処理を可能としている。なお、テキスト
変換処理で得られたテキストと、それに対応する音声デ
ータは、上記複数の利用者端末の全てに送信される。
【0011】また、チャット発言の重複が激しくなる場
合に対処する手段として、管理サーバーが、負荷状況か
ら実時間内での処理が不可能となる事態の発生を予測し
て、接続されている全ての利用者端末に対して事前に入
力制限することにより、負荷がシステム全体の処理能力
を超えそうになった場合にも、入力された音声データが
溢れ出て消滅してしまうような事態の発生を防止してい
る。
合に対処する手段として、管理サーバーが、負荷状況か
ら実時間内での処理が不可能となる事態の発生を予測し
て、接続されている全ての利用者端末に対して事前に入
力制限することにより、負荷がシステム全体の処理能力
を超えそうになった場合にも、入力された音声データが
溢れ出て消滅してしまうような事態の発生を防止してい
る。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の実施の形態に係
る音声データ入力システムの全体構成を示すブロック図
である。
を参照して説明する。図1は、本発明の実施の形態に係
る音声データ入力システムの全体構成を示すブロック図
である。
【0013】本実施の形態に係る音声データ入力システ
ムは、複数の通信端末間のチャット用であり、上記複数
の通信端末から発せられた発言の各々をテキストデータ
に変換して、原音声データと共に上記複数の通信端末の
それぞれに送信するものであり、利用者端末1を代表と
して示す複数の通信端末と、管理サーバー2と、上記の
両者を結ぶ(インターネットを範疇に含む)ネットワー
ク10を含む。
ムは、複数の通信端末間のチャット用であり、上記複数
の通信端末から発せられた発言の各々をテキストデータ
に変換して、原音声データと共に上記複数の通信端末の
それぞれに送信するものであり、利用者端末1を代表と
して示す複数の通信端末と、管理サーバー2と、上記の
両者を結ぶ(インターネットを範疇に含む)ネットワー
ク10を含む。
【0014】上記複数の通信端末の一つである利用者端
末1は、使用者の音声データを入力して、その一部また
は全てをテキストコード列(文字列)に変換する音声入
力部11と、テキストコード列からテキスト(文)を切
り出し、音声データと上記テキストとを併せて形成した
送信データにタイムスタンプを付加する入力データ処理
部12と、管理サーバー2から入力制限警告が送信され
て来た時に音声入力部11の変換処理を一時停止せしめ
る入力制限部13と、管理サーバー2とネットワーク1
0を介して音声データ群とテキスト群とをやり取りする
送受信部20と、上記音声データ群とテキスト群とを入
出力処理する受信データ処理部14と、上記音声データ
群とテキスト群とを一時的に保管するメモリ15と、上
記音声データ群とテキスト群とを表示するための制御を
行う表示部16と、上記音声データを再生処理する再生
部17と、上記音声データ群とテキスト群とを表示する
画面18と、上記音声データを音声出力するスピーカ1
9を含む。
末1は、使用者の音声データを入力して、その一部また
は全てをテキストコード列(文字列)に変換する音声入
力部11と、テキストコード列からテキスト(文)を切
り出し、音声データと上記テキストとを併せて形成した
送信データにタイムスタンプを付加する入力データ処理
部12と、管理サーバー2から入力制限警告が送信され
て来た時に音声入力部11の変換処理を一時停止せしめ
る入力制限部13と、管理サーバー2とネットワーク1
0を介して音声データ群とテキスト群とをやり取りする
送受信部20と、上記音声データ群とテキスト群とを入
出力処理する受信データ処理部14と、上記音声データ
群とテキスト群とを一時的に保管するメモリ15と、上
記音声データ群とテキスト群とを表示するための制御を
行う表示部16と、上記音声データを再生処理する再生
部17と、上記音声データ群とテキスト群とを表示する
画面18と、上記音声データを音声出力するスピーカ1
9を含む。
【0015】管理サーバー2は、接続要求があった上記
複数の利用者端末とネットワーク10を介して音声デー
タ群とテキスト群とをやり取りする送受信部30と、受
信データを受け付けてタイムスタンプ順に並べる受信デ
ータ受付部21と、受信したデータの処理が実時間内で
終わらなくなる事態の発生を予防するために、受信した
データを時間軸上で整列して時間軸管理を行う時間軸管
理部22と、受信データの一部または全てにテキストに
変換されていないデータがあれば、該データを音声認識
してテキストに変換する受信データ処理部23と、発信
開始時刻等をキーとしてソート処理された上記テキスト
と送信者情報とを送受信部30とネットワーク10を介
して上記複数の利用者端末の各々に送信する受信データ
処理部と、上記テキストと送信者情報とを保管して発信
開始時刻等をキーとしてソート処理するデータベース2
4を含む。
複数の利用者端末とネットワーク10を介して音声デー
タ群とテキスト群とをやり取りする送受信部30と、受
信データを受け付けてタイムスタンプ順に並べる受信デ
ータ受付部21と、受信したデータの処理が実時間内で
終わらなくなる事態の発生を予防するために、受信した
データを時間軸上で整列して時間軸管理を行う時間軸管
理部22と、受信データの一部または全てにテキストに
変換されていないデータがあれば、該データを音声認識
してテキストに変換する受信データ処理部23と、発信
開始時刻等をキーとしてソート処理された上記テキスト
と送信者情報とを送受信部30とネットワーク10を介
して上記複数の利用者端末の各々に送信する受信データ
処理部と、上記テキストと送信者情報とを保管して発信
開始時刻等をキーとしてソート処理するデータベース2
4を含む。
【0016】なお、上記で、原音声データを音声認識す
る負荷を、上記の利用者端末と管理サーバー2とでどの
ように配分べきかは、管理サーバー2に選択機能(負荷
配分計画)を設けることが可能である。
る負荷を、上記の利用者端末と管理サーバー2とでどの
ように配分べきかは、管理サーバー2に選択機能(負荷
配分計画)を設けることが可能である。
【0017】また、上記選択機能は、例えば、上記利用
者端末に選択スイッチ等の機械的手段を設けて使用者に
より機械的になすことも可能であるし、上記利用者端末
が、実時間内で処理を完了させるべきことを勘案して、
適宜、自動的に管理サーバー2に負荷を割り当てる方法
も可能である。
者端末に選択スイッチ等の機械的手段を設けて使用者に
より機械的になすことも可能であるし、上記利用者端末
が、実時間内で処理を完了させるべきことを勘案して、
適宜、自動的に管理サーバー2に負荷を割り当てる方法
も可能である。
【0018】図2は、本発明の実施の形態に係る音声デ
ータ入力システムの時間軸管理部の機能を示すタイミン
グチャートである。図2(a)は、時間軸管理部22の
データ整列機能を示し、図2(b)は、時間軸管理部2
2のオーバーフロー警告処理を示す。
ータ入力システムの時間軸管理部の機能を示すタイミン
グチャートである。図2(a)は、時間軸管理部22の
データ整列機能を示し、図2(b)は、時間軸管理部2
2のオーバーフロー警告処理を示す。
【0019】図2(a)では、複数の利用者端末から同
時進行される発言に重複が出たために、1単位の原音声
データの一部が時間軸上で重なり合っている状態が示さ
れている。
時進行される発言に重複が出たために、1単位の原音声
データの一部が時間軸上で重なり合っている状態が示さ
れている。
【0020】これらの発言の各々(発言1乃至発言3)
は、時間軸管理部22によって適当に圧縮され、先着順
に時間軸上に1列に整列される(なお、上記の圧縮処理
については後述する)。
は、時間軸管理部22によって適当に圧縮され、先着順
に時間軸上に1列に整列される(なお、上記の圧縮処理
については後述する)。
【0021】なお、上記の、圧縮されて先着順に時間軸
上に1列に整列させられた音声データ列の先頭には、そ
のことを示すためのコード(以下、「整列操作コード」
と呼称する)が付加される(以後、上記の整列操作コー
ドが付加された音声データ列を「整頓データ」と呼称す
る)。
上に1列に整列させられた音声データ列の先頭には、そ
のことを示すためのコード(以下、「整列操作コード」
と呼称する)が付加される(以後、上記の整列操作コー
ドが付加された音声データ列を「整頓データ」と呼称す
る)。
【0022】また、上記の発言が重複した原音声データ
も、使用者の選択により、上記の音声データ列に続けて
付加することが可能であるが、該付加がなされたか否か
を区別するためのコードも、上記整列操作コードに含め
ることが可能である。
も、使用者の選択により、上記の音声データ列に続けて
付加することが可能であるが、該付加がなされたか否か
を区別するためのコードも、上記整列操作コードに含め
ることが可能である。
【0023】図2(b)では、接続されている全ての利
用者端末に入力制限警告を発信すべき場合を示してい
る。即ち、現在までの原音声データの列(重複があって
整列すべきものは整列後の列)が時間軸上に占める時間
(上記列の総合計時間)が所定の時間STを超える場合
は、管理サーバー2は、接続されている全ての利用者端
末に入力制限警告を発信する。上記警告は、実時間内で
の処理が不可能になる事態が発生する可能性があること
を警告するものである。
用者端末に入力制限警告を発信すべき場合を示してい
る。即ち、現在までの原音声データの列(重複があって
整列すべきものは整列後の列)が時間軸上に占める時間
(上記列の総合計時間)が所定の時間STを超える場合
は、管理サーバー2は、接続されている全ての利用者端
末に入力制限警告を発信する。上記警告は、実時間内で
の処理が不可能になる事態が発生する可能性があること
を警告するものである。
【0024】図3は、本発明の実施の形態に係る音声デ
ータ入力システムの原音声データを圧縮する方法を示す
説明図である。図3(a)は、時間軸方向に均一に時間
圧縮するケースを示し、図3(b)は、無音部を削除す
るケースを示し、図3(c)は、コンテキスト上の不要
な発声を削除するケースを示す。
ータ入力システムの原音声データを圧縮する方法を示す
説明図である。図3(a)は、時間軸方向に均一に時間
圧縮するケースを示し、図3(b)は、無音部を削除す
るケースを示し、図3(c)は、コンテキスト上の不要
な発声を削除するケースを示す。
【0025】原音声列の状態は、該原音声の入力手段に
よって様々に変化する。音列の切れ目が、話者による空
白部の挿入や、区切り釦の押下などによってなされる場
合には、これらを識別することが可能である。また、ト
ランシーバー等に採用されているPush to Talk釦に対応
させることも可能である。
よって様々に変化する。音列の切れ目が、話者による空
白部の挿入や、区切り釦の押下などによってなされる場
合には、これらを識別することが可能である。また、ト
ランシーバー等に採用されているPush to Talk釦に対応
させることも可能である。
【0026】図4は、本発明の実施の形態に係る音声デ
ータ入力システムの動作を示すフローチャートである。
図4(a)は、上記複数の利用者端末の一つである利用
者端末1における音声データの入力と該入力された音声
データの処理動作を示し、図4(b)は、利用者端末1
における音声データとテキストとの出力動作を示し、図
4(c)は、管理サーバー2における音声データとテキ
ストとの処理動作を示す。
ータ入力システムの動作を示すフローチャートである。
図4(a)は、上記複数の利用者端末の一つである利用
者端末1における音声データの入力と該入力された音声
データの処理動作を示し、図4(b)は、利用者端末1
における音声データとテキストとの出力動作を示し、図
4(c)は、管理サーバー2における音声データとテキ
ストとの処理動作を示す。
【0027】以下、図1乃至3を参照しつつ、本実施の
形態に係る音声データ入力システムの動作を説明する。
まず、図4(a)のステップA1では、上記複数の利用
者端末の一つである利用者端末1の送受信部20が、管
理サーバー2からの入力制限警報を受信した時は、入力
制限部13が、音声入力部11の動作を、警告解除が出
されるまで待機させる。上記の警告解除の方式は、警告
解除信号を管理サーバー2から送信させる方式としても
よいし、所定時間の経過を待って自動的に解除する方式
としてもよい。
形態に係る音声データ入力システムの動作を説明する。
まず、図4(a)のステップA1では、上記複数の利用
者端末の一つである利用者端末1の送受信部20が、管
理サーバー2からの入力制限警報を受信した時は、入力
制限部13が、音声入力部11の動作を、警告解除が出
されるまで待機させる。上記の警告解除の方式は、警告
解除信号を管理サーバー2から送信させる方式としても
よいし、所定時間の経過を待って自動的に解除する方式
としてもよい。
【0028】また、送受信部20が、管理サーバー2か
らの入力制限警報を受信していない時、または、警告解
除が出された時は、ステップA2にて、音声入力部11
が、使用者(話者)の発言をマイク111から入力す
る。次に、ステップA3では、音声認識部112が、前
述の所定の負荷配分計画に基づいて、上記の音声データ
の一部または全てを音声認識することによりテキストコ
ード列に変換する。ステップA4では、入力データ処理
部12が、上記のテキストコード列を文節してテキスト
(文)を切り出し、該切り出したテキスト毎に送信時刻
をタイムスタンプする。次に、ステップA5では、上記
のテキスト単位に、元の音声データと対応するテキスト
とを管理サーバー2に送信する。対応するテキストが無
い場合は、元の音声データのみを管理サーバー2に送信
する。
らの入力制限警報を受信していない時、または、警告解
除が出された時は、ステップA2にて、音声入力部11
が、使用者(話者)の発言をマイク111から入力す
る。次に、ステップA3では、音声認識部112が、前
述の所定の負荷配分計画に基づいて、上記の音声データ
の一部または全てを音声認識することによりテキストコ
ード列に変換する。ステップA4では、入力データ処理
部12が、上記のテキストコード列を文節してテキスト
(文)を切り出し、該切り出したテキスト毎に送信時刻
をタイムスタンプする。次に、ステップA5では、上記
のテキスト単位に、元の音声データと対応するテキスト
とを管理サーバー2に送信する。対応するテキストが無
い場合は、元の音声データのみを管理サーバー2に送信
する。
【0029】次に、図4(c)のステップC1では、管
理サーバー2の送受信部30は、複数の利用者端末から
の接続要求を受け付けると共に、音声データ群とテキス
ト群とを利用者端末1から受信する。次に、ステップC
2では、受信データ受付部21が、上記受信した音声デ
ータ群とテキスト群とをタイムスタンプ順に並べる。ス
テップC3では、受信データ処理部23が、上記接続し
た利用者端末側にてテキストに変換されていない音声デ
ータについては、内蔵する音声認識部(図示は省略)に
よりテキストコード列に変換する。その後、ステップC
4にて、受信データ処理部23が、上記のテキストコー
ド列を文節してテキスト(文)を切り出し、出力データ
とする。この後、上記出力データの長さ(総時間)は、
時間軸管理部22に送出される。ステップC5では、受
信データ処理部23が、図2(a)に示すような重複発
言を含む1単位の音声データを時間軸管理部22に送出
して時間軸上に整列させ、実時間内に収めさせる。この
時、時間軸管理部22は、上記の重複した音声データに
対する整列データであることを示すための情報や、元の
重複音声データを付加するか否かを示すための情報をコ
ード化して、出力すべき音声データに整列操作コードと
して追加し、受信データ処理部23に送り返す。ステッ
プC6では、時間軸管理部22が、整頓データの時間軸
上の長さ(総合計時間)が、図2(b)に示すように、
単位区間時間として設けられている所定の時間を超える
場合は、接続したすべての利用者端末に入力制限警告を
送信する。ステップC7では、受信データ処理部23
が、上記整列された音声データ(必要に応じて原音声デ
ータを含む)の群とテキストの群とを送信者情報と共に
データベース24に一旦蓄積し、該データベース上で、
発信時刻等によるソートを実行する。ステップC8で
は、受信データ処理部23が、データベース24上で上
記ソート済の音声データと該音声データに対応するテキ
ストとの群をそれぞれ読み出して、送信者情報と共に、
上記接続した利用者端末の全てに、送受信部30とネッ
トワーク10を介して送信する。
理サーバー2の送受信部30は、複数の利用者端末から
の接続要求を受け付けると共に、音声データ群とテキス
ト群とを利用者端末1から受信する。次に、ステップC
2では、受信データ受付部21が、上記受信した音声デ
ータ群とテキスト群とをタイムスタンプ順に並べる。ス
テップC3では、受信データ処理部23が、上記接続し
た利用者端末側にてテキストに変換されていない音声デ
ータについては、内蔵する音声認識部(図示は省略)に
よりテキストコード列に変換する。その後、ステップC
4にて、受信データ処理部23が、上記のテキストコー
ド列を文節してテキスト(文)を切り出し、出力データ
とする。この後、上記出力データの長さ(総時間)は、
時間軸管理部22に送出される。ステップC5では、受
信データ処理部23が、図2(a)に示すような重複発
言を含む1単位の音声データを時間軸管理部22に送出
して時間軸上に整列させ、実時間内に収めさせる。この
時、時間軸管理部22は、上記の重複した音声データに
対する整列データであることを示すための情報や、元の
重複音声データを付加するか否かを示すための情報をコ
ード化して、出力すべき音声データに整列操作コードと
して追加し、受信データ処理部23に送り返す。ステッ
プC6では、時間軸管理部22が、整頓データの時間軸
上の長さ(総合計時間)が、図2(b)に示すように、
単位区間時間として設けられている所定の時間を超える
場合は、接続したすべての利用者端末に入力制限警告を
送信する。ステップC7では、受信データ処理部23
が、上記整列された音声データ(必要に応じて原音声デ
ータを含む)の群とテキストの群とを送信者情報と共に
データベース24に一旦蓄積し、該データベース上で、
発信時刻等によるソートを実行する。ステップC8で
は、受信データ処理部23が、データベース24上で上
記ソート済の音声データと該音声データに対応するテキ
ストとの群をそれぞれ読み出して、送信者情報と共に、
上記接続した利用者端末の全てに、送受信部30とネッ
トワーク10を介して送信する。
【0030】次に、図4(b)のステップB1では、上
記複数の利用者端末の一つである利用者端末1の送受信
部20が、管理サーバー2からの音声データと該音声デ
ータに対応するテキストの群を受信する。ステップB2
では、受信データ処理部14が、上記受信したデータ群
を、必要に応じてメモリ15に保存する。ステップB3
では、受信データ処理部14が、上記受信したデータ群
中のテキスト群を受信順に表示部16を介して画面18
上に表示する。この時、音声データが整頓データであ
り、重複した原音声に対応するテキストのコード列が無
意味となる可能性がある構成の場合には、整列操作コー
ドの表示だけを実行するようにすることも可能である。
また、上記受信したデータ群中の音声データは、再生部
17を介してスピーカ19から音声出力する。また、ス
テップB4では、逆スクロール等の指示が使用者から入
力された場合は、メモリ15に蓄積した過去分のデータ
を上記の受信データと同様の手段によって再生・表示す
る。
記複数の利用者端末の一つである利用者端末1の送受信
部20が、管理サーバー2からの音声データと該音声デ
ータに対応するテキストの群を受信する。ステップB2
では、受信データ処理部14が、上記受信したデータ群
を、必要に応じてメモリ15に保存する。ステップB3
では、受信データ処理部14が、上記受信したデータ群
中のテキスト群を受信順に表示部16を介して画面18
上に表示する。この時、音声データが整頓データであ
り、重複した原音声に対応するテキストのコード列が無
意味となる可能性がある構成の場合には、整列操作コー
ドの表示だけを実行するようにすることも可能である。
また、上記受信したデータ群中の音声データは、再生部
17を介してスピーカ19から音声出力する。また、ス
テップB4では、逆スクロール等の指示が使用者から入
力された場合は、メモリ15に蓄積した過去分のデータ
を上記の受信データと同様の手段によって再生・表示す
る。
【0031】なお、上記の図4(a)に示す処理と図4
(b)に示す処理とは、マルチタスクとして実行させる
ことが可能である。また、上記実施の形態の説明では、
複数の利用者端末の一つとして利用者端末1の動作を中
心にして述べたが、他の利用者端末も同様の動作を取
る。
(b)に示す処理とは、マルチタスクとして実行させる
ことが可能である。また、上記実施の形態の説明では、
複数の利用者端末の一つとして利用者端末1の動作を中
心にして述べたが、他の利用者端末も同様の動作を取
る。
【0032】
【発明の効果】以上に説明したとおり、本発明では、音
声認識部の負荷を、処理能力が大きい管理サーバーにも
分担させる構成としたので、パーソナルコンピュータ等
の、利用者端末の能力が当該音声認識部に要求される処
理能力よりも遙に小さい場合においても、実時間処理内
でのテキスト変換処理が可能となった。
声認識部の負荷を、処理能力が大きい管理サーバーにも
分担させる構成としたので、パーソナルコンピュータ等
の、利用者端末の能力が当該音声認識部に要求される処
理能力よりも遙に小さい場合においても、実時間処理内
でのテキスト変換処理が可能となった。
【0033】また、複数の利用者端末の話者からの発言
が重複する場合には、これらを時間軸上で1列に整列さ
せるようにしたので、音声チャット等の同時発言があり
得る場面においても、各々の発言を異なる時間帯で再生
することが可能となった。
が重複する場合には、これらを時間軸上で1列に整列さ
せるようにしたので、音声チャット等の同時発言があり
得る場面においても、各々の発言を異なる時間帯で再生
することが可能となった。
【0034】さらに、チャット参加者の重複発言が激し
くなる場合への対処手段として、負荷状況から実時間内
での処理が不可能となる事態の発生を予測して、事前に
入力制限するようにしたので、負荷が処理能力を超えそ
うになった場合にも、入力された音声データが溢れ出て
消滅してしまうような事態の発生を防止することができ
た。
くなる場合への対処手段として、負荷状況から実時間内
での処理が不可能となる事態の発生を予測して、事前に
入力制限するようにしたので、負荷が処理能力を超えそ
うになった場合にも、入力された音声データが溢れ出て
消滅してしまうような事態の発生を防止することができ
た。
【図1】本発明の実施の形態に係る音声データ入力シス
テムの全体構成を示すブロック図である。
テムの全体構成を示すブロック図である。
【図2】本発明の実施の形態に係る音声データ入力シス
テムの時間軸管理部の機能を示すタイミングチャートで
ある。
テムの時間軸管理部の機能を示すタイミングチャートで
ある。
【図3】本発明の実施の形態に係る音声データ入力シス
テムの原音声データを圧縮する方法を示す説明図であ
る。
テムの原音声データを圧縮する方法を示す説明図であ
る。
【図4】本発明の実施の形態に係る音声データ入力シス
テムの動作を示すフローチャートである。
テムの動作を示すフローチャートである。
1……利用者端末、2……管理サーバー、10……ネッ
トワーク、11……音声入力部、12……入力データ処
理部、13……入力制限部、14,23……受信データ
処理部、15……メモリ、16……表示部、17……再
生部、18……画面、19……スピーカ、20,30…
…送受信部、21……受信データ受付部、22……時間
軸管理部、24……データベース、111……マイク、
112……音声認識部
トワーク、11……音声入力部、12……入力データ処
理部、13……入力制限部、14,23……受信データ
処理部、15……メモリ、16……表示部、17……再
生部、18……画面、19……スピーカ、20,30…
…送受信部、21……受信データ受付部、22……時間
軸管理部、24……データベース、111……マイク、
112……音声認識部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 11/00 302 G10L 3/00 551A 571M Fターム(参考) 5B089 GA11 GA21 JA18 JB01 JB05 JB11 JB17 KA04 KC46 KC52 KH14 LB13 LB14 5D015 KK03 LL01 LL09 LL12 5K101 KK00 NN08 NN18 9A001 CC07 EE04 HH17 JJ25 JJ27 KK54
Claims (7)
- 【請求項1】 1または2以上のユーザの通信端末から
入力した話者の発言を、ネットワークを介して接続した
管理サーバーと協同してテキストに変換する音声データ
入力システムにおいて、 入力した音声データの一部または全てを認識してテキス
トに変換する手段と、前記音声データを前記テキストと
共に管理サーバーに送信する手段を備え、前記複数の通
信端末の各々から入力された音声データ群と該音声デー
タ群に対応するテキスト群とを前記管理サーバーから受
信して前記音声データ群を音声出力すると共に前記テキ
スト群を画面表示する通信端末と、 接続した前記通信端末から受信した音声データ群とテキ
スト群のうち、テキストに変換されていない音声データ
を認識してテキストに変換する手段を備え、前記変換手
段の実行後に、音声データ群とテキスト群とを送信者情
報と共に前記接続した全ての通信端末に送信する管理サ
ーバーとを有することを特徴とする音声データ入力シス
テム。 - 【請求項2】 前記通信端末から前記管理サーバーに送
信する前記音声データと前記テキストとにタイムスタン
プを付加することを特徴とする請求項1記載の音声デー
タ入力システム。 - 【請求項3】 前記接続した通信端末から受信した音声
データ群とテキスト群とを付加されているタイムスタン
プ順に並べることを特徴とする請求項1記載の音声デー
タ入力システム。 - 【請求項4】 前記接続した通信端末から受信した音声
データ群のうち、輻輳する発言がある部分については、
該輻輳した発言の各々を時間軸上に1列に整列させる整
頓処理を実行することを特徴とする請求項1記載の音声
データ入力システム。 - 【請求項5】 前記整頓処理に際して、前記接続した前
記通信端末から受信した音声データに対して時間軸方向
の均一な圧縮,無音部の削除,及びコンテキスト上の不
要な発声の除去を範疇に含む圧縮処理を実行することを
特徴とする請求項4記載の音声データ入力システム。 - 【請求項6】 前記整頓処理と前記圧縮処理を実行後の
1単位の音声データの時間軸上の長さが所定の長さを超
えた場合に、前記接続した全ての通信端末に対して入力
制限を警告するための信号を発信することを特徴とする
請求項5記載の音声データ入力システム。 - 【請求項7】 前記入力制限を警告する信号を受信した
前記通信端末は、話者の発言の入力を制限することを特
徴とする請求項6記載の音声データ入力システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32157799A JP2001142487A (ja) | 1999-11-11 | 1999-11-11 | 音声データ入力システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32157799A JP2001142487A (ja) | 1999-11-11 | 1999-11-11 | 音声データ入力システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001142487A true JP2001142487A (ja) | 2001-05-25 |
Family
ID=18134125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32157799A Pending JP2001142487A (ja) | 1999-11-11 | 1999-11-11 | 音声データ入力システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001142487A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005222535A (ja) * | 2004-01-15 | 2005-08-18 | Microsoft Corp | 複数の入力モダリティを使用して複数ユーザからの入力を与えられる共有ディスプレイを制御するシステムとプロセス |
JP2012044294A (ja) * | 2010-08-16 | 2012-03-01 | Nec Infrontia Corp | 録音メッセージ再生装置、録音メッセージ再生方法および録音メッセージ再生プログラム |
WO2013089236A1 (ja) * | 2011-12-14 | 2013-06-20 | エイディシーテクノロジー株式会社 | 通信システムおよび端末装置 |
JP2014010456A (ja) * | 2012-06-28 | 2014-01-20 | Lg Electronics Inc | 移動端末機及びその音声認識方法 |
WO2017061149A1 (ja) * | 2015-10-08 | 2017-04-13 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2017182075A (ja) * | 2017-05-01 | 2017-10-05 | 株式会社ニコン | 情報処理装置 |
US10269355B2 (en) | 2015-03-18 | 2019-04-23 | Kabushiki Kaisha Toshiba | Data processing device, data processing method, and computer program product |
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
WO2020153251A1 (ja) * | 2019-01-22 | 2020-07-30 | 株式会社ソニー・インタラクティブエンタテインメント | ボイスチャット装置、ボイスチャット方法及びプログラム |
JP2020136784A (ja) * | 2019-02-14 | 2020-08-31 | 株式会社ナカヨ | インターカムシステム、インターカム端末、およびインターカム通話方法 |
CN112489659A (zh) * | 2020-11-17 | 2021-03-12 | 北京百度网讯科技有限公司 | 基于输入法的数据处理方法、系统、服务器及终端设备 |
US20230083706A1 (en) * | 2020-02-28 | 2023-03-16 | Kabushiki Kaisha Toshiba | Communication management apparatus and method |
-
1999
- 1999-11-11 JP JP32157799A patent/JP2001142487A/ja active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005222535A (ja) * | 2004-01-15 | 2005-08-18 | Microsoft Corp | 複数の入力モダリティを使用して複数ユーザからの入力を与えられる共有ディスプレイを制御するシステムとプロセス |
JP2012044294A (ja) * | 2010-08-16 | 2012-03-01 | Nec Infrontia Corp | 録音メッセージ再生装置、録音メッセージ再生方法および録音メッセージ再生プログラム |
JP2018082484A (ja) * | 2011-12-14 | 2018-05-24 | エイディシーテクノロジー株式会社 | 通信システムおよび通信装置 |
JP2018067920A (ja) * | 2011-12-14 | 2018-04-26 | エイディシーテクノロジー株式会社 | 通信システムおよび端末装置 |
JPWO2013089236A1 (ja) * | 2011-12-14 | 2015-04-27 | エイディシーテクノロジー株式会社 | 通信システムおよび端末装置 |
US9613639B2 (en) | 2011-12-14 | 2017-04-04 | Adc Technology Inc. | Communication system and terminal device |
WO2013089236A1 (ja) * | 2011-12-14 | 2013-06-20 | エイディシーテクノロジー株式会社 | 通信システムおよび端末装置 |
JP2014010456A (ja) * | 2012-06-28 | 2014-01-20 | Lg Electronics Inc | 移動端末機及びその音声認識方法 |
US10269355B2 (en) | 2015-03-18 | 2019-04-23 | Kabushiki Kaisha Toshiba | Data processing device, data processing method, and computer program product |
JPWO2017061149A1 (ja) * | 2015-10-08 | 2018-08-02 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN107004414A (zh) * | 2015-10-08 | 2017-08-01 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
WO2017061149A1 (ja) * | 2015-10-08 | 2017-04-13 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN107004414B (zh) * | 2015-10-08 | 2020-11-13 | 索尼公司 | 信息处理设备、信息处理方法及记录介质 |
US10304460B2 (en) | 2016-09-16 | 2019-05-28 | Kabushiki Kaisha Toshiba | Conference support system, conference support method, and computer program product |
JP2017182075A (ja) * | 2017-05-01 | 2017-10-05 | 株式会社ニコン | 情報処理装置 |
WO2020153251A1 (ja) * | 2019-01-22 | 2020-07-30 | 株式会社ソニー・インタラクティブエンタテインメント | ボイスチャット装置、ボイスチャット方法及びプログラム |
CN113302682A (zh) * | 2019-01-22 | 2021-08-24 | 索尼互动娱乐股份有限公司 | 语音聊天装置、语音聊天方法和程序 |
JP2020136784A (ja) * | 2019-02-14 | 2020-08-31 | 株式会社ナカヨ | インターカムシステム、インターカム端末、およびインターカム通話方法 |
JP7153841B2 (ja) | 2019-02-14 | 2022-10-17 | 株式会社ナカヨ | インターカムシステム、インターカム端末、およびインターカム通話方法 |
US20230083706A1 (en) * | 2020-02-28 | 2023-03-16 | Kabushiki Kaisha Toshiba | Communication management apparatus and method |
CN112489659A (zh) * | 2020-11-17 | 2021-03-12 | 北京百度网讯科技有限公司 | 基于输入法的数据处理方法、系统、服务器及终端设备 |
CN112489659B (zh) * | 2020-11-17 | 2024-02-13 | 阿波罗智联(北京)科技有限公司 | 基于输入法的数据处理方法、系统、服务器及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7844454B2 (en) | Apparatus and method for providing voice recognition for multiple speakers | |
JP4973894B2 (ja) | オーバラップするメディアメッセージを調整するシステム及び方法 | |
CN102017513B (zh) | 用于实时网络通信的方法、实时多语种通信的方法及系统 | |
US6539084B1 (en) | Intercom system | |
EP0935378B1 (en) | System and methods for automatic call and data transfer processing | |
DE68928298T2 (de) | Antwortregelungssystem | |
WO2021051506A1 (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
US5784568A (en) | Multi-party audio chat system which allows individual user utterances to be staged separately to render received utterances in order | |
US7822050B2 (en) | Buffering, pausing and condensing a live phone call | |
JP2010141804A (ja) | オペレータ管理システム、その方法、及びプログラム | |
JP2001142487A (ja) | 音声データ入力システム | |
US11115765B2 (en) | Centrally controlling communication at a venue | |
US11978443B2 (en) | Conversation assistance device, conversation assistance method, and program | |
JPH08195763A (ja) | ネットワークの音声通信チャネル | |
CN113194203A (zh) | 一种用于听障人士的沟通系统、接听拨打方法及通讯系统 | |
US6501751B1 (en) | Voice communication with simulated speech data | |
JP6875905B2 (ja) | 通話制御システム及び通話制御方法 | |
DE60018971T2 (de) | Verfahren und gerät zum aufbau eines telefonanrufes | |
US11651779B2 (en) | Voice processing system, voice processing method, and storage medium storing voice processing program | |
JP2008141348A (ja) | 通信装置 | |
JP2005292476A (ja) | 顧客応対方法及び装置 | |
JP2002101203A (ja) | 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体 | |
CN113556313A (zh) | 一种基于ai技术的实时对讲干预与告警平台 | |
JP2000333150A (ja) | テレビ会議システム | |
CN110534084A (zh) | 一种基于FreeSWITCH的智能语音控制方法及系统 |