JP2003140681A - VoiceXML音声会議方式 - Google Patents
VoiceXML音声会議方式Info
- Publication number
- JP2003140681A JP2003140681A JP2001335932A JP2001335932A JP2003140681A JP 2003140681 A JP2003140681 A JP 2003140681A JP 2001335932 A JP2001335932 A JP 2001335932A JP 2001335932 A JP2001335932 A JP 2001335932A JP 2003140681 A JP2003140681 A JP 2003140681A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- xml
- data
- speaker
- conference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 音声会議サービスに関するネットワークの負
荷軽減と、機能追加や応用アプリケーション開発の容易
化とを図ることが可能なVoice XML音声会議方
式を提供する。 【解決手段】 会議参加者の音声入力はASR4−1
〜4−n経由でテキスト化される。話者設定制御部11
−1〜11−nはテキスト化されている音声データに設
定されたタグを割り当てる。Voice XMLコンバ
ータ12−1〜12−nは話者のテキスト化された音声
データと設定タグとを合成してVoiceXMLに変換
する。Voice XML合成部23は入力されてくる
Voice XMLを合成し、全話者分の合成したVo
ice XMLを生成する。Voice XML配信部
25は生成されたVoice XMLをクライアントP
C1−1〜1−nに送信する。
荷軽減と、機能追加や応用アプリケーション開発の容易
化とを図ることが可能なVoice XML音声会議方
式を提供する。 【解決手段】 会議参加者の音声入力はASR4−1
〜4−n経由でテキスト化される。話者設定制御部11
−1〜11−nはテキスト化されている音声データに設
定されたタグを割り当てる。Voice XMLコンバ
ータ12−1〜12−nは話者のテキスト化された音声
データと設定タグとを合成してVoiceXMLに変換
する。Voice XML合成部23は入力されてくる
Voice XMLを合成し、全話者分の合成したVo
ice XMLを生成する。Voice XML配信部
25は生成されたVoice XMLをクライアントP
C1−1〜1−nに送信する。
Description
【0001】
【発明の属する技術分野】本発明はVoice XML
音声会議方式に関し、特に二者以上の音声会議サービス
に関する。
音声会議方式に関し、特に二者以上の音声会議サービス
に関する。
【0002】
【従来の技術】従来、二者以上の音声会議サービスにお
いては、二者以上の話者からの音声をネットワーク内で
アナログもしくはディジタル化して重畳し、それを話者
に聞かせることでサービスを実現している。
いては、二者以上の話者からの音声をネットワーク内で
アナログもしくはディジタル化して重畳し、それを話者
に聞かせることでサービスを実現している。
【0003】
【発明が解決しようとする課題】上述した従来の音声会
議サービスでは、圧縮技術を用いても、データ再現のた
めにリアルタイムで数Kbpsの速度がネットワーク側
に必要となり、ネットワークにおいて話者が増えるほど
負荷がかかるという問題がある。この場合、ディジタル
化した音声データ自体は単にPCM(Pulse Co
de Modulation)化したものであり、デー
タ量はサンプリングしたデータ量そのものである。
議サービスでは、圧縮技術を用いても、データ再現のた
めにリアルタイムで数Kbpsの速度がネットワーク側
に必要となり、ネットワークにおいて話者が増えるほど
負荷がかかるという問題がある。この場合、ディジタル
化した音声データ自体は単にPCM(Pulse Co
de Modulation)化したものであり、デー
タ量はサンプリングしたデータ量そのものである。
【0004】また、例えば、会議の議事録を作成するソ
フトウェア等を開発しようとした場合、だれが何を喋っ
ているのかを音声分解して洗い出し、その上で各音声を
認識してデータ化するということが余儀なくされ、開発
して量販化しようとすれば、現実的な開発手法及び解決
手法でなく、実現が難しいという問題がある。つまり、
音声再現において機能追加や応用アプリケーション開発
が容易でないという問題がある。
フトウェア等を開発しようとした場合、だれが何を喋っ
ているのかを音声分解して洗い出し、その上で各音声を
認識してデータ化するということが余儀なくされ、開発
して量販化しようとすれば、現実的な開発手法及び解決
手法でなく、実現が難しいという問題がある。つまり、
音声再現において機能追加や応用アプリケーション開発
が容易でないという問題がある。
【0005】そこで、本発明の目的は上記の問題点を解
消し、音声会議サービスに関するネットワークの負荷軽
減と、機能追加や応用アプリケーション開発の容易化と
を図ることができるVoice XML音声会議方式を
提供することにある。
消し、音声会議サービスに関するネットワークの負荷軽
減と、機能追加や応用アプリケーション開発の容易化と
を図ることができるVoice XML音声会議方式を
提供することにある。
【0006】
【課題を解決するための手段】本発明によるVoice
XML音声会議方式は、Voice XML(ext
ensible markup language)を
用いて音声会議サービスを提供するVoice XML
音声会議方式であって、音声入力後に音声自体をテキス
ト化し、そこに話者の設定と音声自体の擬態化の概念を
設定データとして取り入れたアバター設定とを付与し、
それらのデータを前記Voice XMLのデータに変
換するようにしている。
XML音声会議方式は、Voice XML(ext
ensible markup language)を
用いて音声会議サービスを提供するVoice XML
音声会議方式であって、音声入力後に音声自体をテキス
ト化し、そこに話者の設定と音声自体の擬態化の概念を
設定データとして取り入れたアバター設定とを付与し、
それらのデータを前記Voice XMLのデータに変
換するようにしている。
【0007】すなわち、本発明のVoice XML音
声会議方式は、音声会議を実現するための利用されるカ
ンファレンスサーバと、会議参加者が用いるクライアン
トPC(パーソナルコンピュータ)とに上記の課題を解
決するための手段を設けている。
声会議方式は、音声会議を実現するための利用されるカ
ンファレンスサーバと、会議参加者が用いるクライアン
トPC(パーソナルコンピュータ)とに上記の課題を解
決するための手段を設けている。
【0008】まず、カンファレンスサーバは音声会議の
サービス機能を提供するサーバであり、カンファレンス
アプリケーションが搭載され、ネットワーク機能部に接
続されている。これらカンファレンスアプリケーション
とネットワーク機能部との間には、カンファレンスアプ
リケーションとのインタフェースとしてI/O(入出
力)インタフェースと、その命令内容で音声自体の擬態
化であるアバターを索引してくるアバター索引部と、V
oice XML(extensible marku
p language)(音声対応のインタネット記述
言語)のタグ合成を行うVoice XML合成部と、
実際に合成したVoice XMLをネットワーク機能
部経由でクライアントPCに配信するVoice XM
L配信部とが設けられており、さらにアバター自体のデ
ータを管理収容するアバターデータベース(DB)がア
バター索引部に接続されている。
サービス機能を提供するサーバであり、カンファレンス
アプリケーションが搭載され、ネットワーク機能部に接
続されている。これらカンファレンスアプリケーション
とネットワーク機能部との間には、カンファレンスアプ
リケーションとのインタフェースとしてI/O(入出
力)インタフェースと、その命令内容で音声自体の擬態
化であるアバターを索引してくるアバター索引部と、V
oice XML(extensible marku
p language)(音声対応のインタネット記述
言語)のタグ合成を行うVoice XML合成部と、
実際に合成したVoice XMLをネットワーク機能
部経由でクライアントPCに配信するVoice XM
L配信部とが設けられており、さらにアバター自体のデ
ータを管理収容するアバターデータベース(DB)がア
バター索引部に接続されている。
【0009】クライントPCにおいてはVoice X
MLでの送受信に関する基本機能として、入力した音声
を認識するASR(Automatic Speech
recognition)と、音声出力でテキストか
ら音声に変換するTTS(Text to Speec
h)と、カンファレンスサーバと送受するネットワーク
機能部とに接続されている。
MLでの送受信に関する基本機能として、入力した音声
を認識するASR(Automatic Speech
recognition)と、音声出力でテキストか
ら音声に変換するTTS(Text to Speec
h)と、カンファレンスサーバと送受するネットワーク
機能部とに接続されている。
【0010】また、クライントPCにおいては、上記の
課題を解決するための手段として、ASR及びTTSと
ネットワーク機能部との間に、ASRによって変換され
たテキストについて、予め設定された話者毎に割り振っ
たXMLタグを付与したり、TTSで音声に変換するた
めに、Voice XMLからキストデータを作成する
話者設定制御部と、音声入力時にVoice XMLに
テキストデータを再構成するVoice XMLコンバ
ータと、音声出力時にVoice XMLの中からXM
Lタグから話者自身のタグを減算する自己タグ減算部と
が設けられている。
課題を解決するための手段として、ASR及びTTSと
ネットワーク機能部との間に、ASRによって変換され
たテキストについて、予め設定された話者毎に割り振っ
たXMLタグを付与したり、TTSで音声に変換するた
めに、Voice XMLからキストデータを作成する
話者設定制御部と、音声入力時にVoice XMLに
テキストデータを再構成するVoice XMLコンバ
ータと、音声出力時にVoice XMLの中からXM
Lタグから話者自身のタグを減算する自己タグ減算部と
が設けられている。
【0011】上記の構成において、I/Oインタフェー
スはカンファレンスアプリケーションとアバター索引部
及びVoice XML合成部との間に配設され、それ
ぞれとの間の制御情報送受を受け持つ。
スはカンファレンスアプリケーションとアバター索引部
及びVoice XML合成部との間に配設され、それ
ぞれとの間の制御情報送受を受け持つ。
【0012】Voice XML合成部はネットワーク
機能部とI/Oインタフェースとの間に配設され、複数
のクライントPCから入力されてくるVoice XM
Lを合成し、全話者分の合成したVoice XMLを
生成する。この生成されたVoice XMLを実際に
ネットワーク機能部経由でクライアントPCに送信する
のがVoice XML配信部である。
機能部とI/Oインタフェースとの間に配設され、複数
のクライントPCから入力されてくるVoice XM
Lを合成し、全話者分の合成したVoice XMLを
生成する。この生成されたVoice XMLを実際に
ネットワーク機能部経由でクライアントPCに送信する
のがVoice XML配信部である。
【0013】Voice XMLはテキストデータであ
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。
【0014】その割り当て設定に沿ってアバターの設定
を行うのがアバター索引部である。予め会議参加者とそ
の際の割り当てデータを保持しているのがアバターデー
タベースであり、アバター索引部はそのアバターデータ
ベースからデータを引き出して、実際に合成されたVo
ice XMLに対してその情報を付加する仕組みを持
つ。
を行うのがアバター索引部である。予め会議参加者とそ
の際の割り当てデータを保持しているのがアバターデー
タベースであり、アバター索引部はそのアバターデータ
ベースからデータを引き出して、実際に合成されたVo
ice XMLに対してその情報を付加する仕組みを持
つ。
【0015】クライアントPCに接続されるASRと、
TTSと、ネットワーク機能部とはいづれも既存技術で
ある。会議参加者の音声入力はASR経由でテキスト化
されて話者設定制御部に入力される。逆に、話者に伝え
る会議音声(複数の参加者の音声を合わせたもの)はV
oicxe XMLであり、予め設定しておいた話者の
設定情報を参照しながら、TTSに送ることで音声出力
される。
TTSと、ネットワーク機能部とはいづれも既存技術で
ある。会議参加者の音声入力はASR経由でテキスト化
されて話者設定制御部に入力される。逆に、話者に伝え
る会議音声(複数の参加者の音声を合わせたもの)はV
oicxe XMLであり、予め設定しておいた話者の
設定情報を参照しながら、TTSに送ることで音声出力
される。
【0016】上述したアバターデータベース、話者設定
制御部に設定する設定データ及びその方法は既存技術の
プロパティ設定と同等である。話者設定制御部は、上述
したように、音声の入力及び出力に関する制御と、もう
ひとつVoice XMLに関する制御とがあり、入力
方向ではテキスト化されている音声データに、設定され
たタグを割り当てる機能を持ち、出力方向では合成され
たVoice XMLデータの中から音声化するデータ
をTTSに渡す機能を持つ。
制御部に設定する設定データ及びその方法は既存技術の
プロパティ設定と同等である。話者設定制御部は、上述
したように、音声の入力及び出力に関する制御と、もう
ひとつVoice XMLに関する制御とがあり、入力
方向ではテキスト化されている音声データに、設定され
たタグを割り当てる機能を持ち、出力方向では合成され
たVoice XMLデータの中から音声化するデータ
をTTSに渡す機能を持つ。
【0017】Voice XMLコンバータは話者のテ
キスト化された音声データと、話者設定制御部の設定タ
グとを合成し、W3C(XML等のインタネット技術の
標準化団体)の定めるRFC(Request for
Comments)に沿ってVoice XMLに変
換し、ネットワーク機能部に送信する機能を持つ。
キスト化された音声データと、話者設定制御部の設定タ
グとを合成し、W3C(XML等のインタネット技術の
標準化団体)の定めるRFC(Request for
Comments)に沿ってVoice XMLに変
換し、ネットワーク機能部に送信する機能を持つ。
【0018】自己タグ減算部はネットワーク機能部から
受信したVoice XMLを話者設定制御部に渡す機
能を持つが、そのまま渡すと自分の声も再現して聞こえ
てしまうため、それを防止するために自己の設定タグと
データとを削除(減算)する機能を有している。
受信したVoice XMLを話者設定制御部に渡す機
能を持つが、そのまま渡すと自分の声も再現して聞こえ
てしまうため、それを防止するために自己の設定タグと
データとを削除(減算)する機能を有している。
【0019】上記のように、本発明のVoice XM
L音声会議方式では、複数の参加人員の音声合成と音声
自体の擬態化(アバター)とによって、音声会議サービ
スに関するネットワークの負荷軽減と、機能追加や応用
アプリケーション開発の容易化とを図ることが可能とな
る。
L音声会議方式では、複数の参加人員の音声合成と音声
自体の擬態化(アバター)とによって、音声会議サービ
スに関するネットワークの負荷軽減と、機能追加や応用
アプリケーション開発の容易化とを図ることが可能とな
る。
【0020】
【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。図1は本発明の一実施例による
Voice XML音声会議システムの構成を示すブロ
ック図である。図1において、本発明の一実施例による
Voice XML音声会議システムは会議参加者が用
いるクライアントPC(パーソナルコンピュータ)1−
1〜1−nと、音声会議を実現するための利用されるカ
ンファレンスサーバ2と、ネットワーク機能部3と,入
力した音声を認識するASR(Automatic S
peech recognition)4−1〜4−n
と、音声出力でテキストから音声に変換するTTS(T
ext to Speech)5−1〜5−nとから構
成されている。
面を参照して説明する。図1は本発明の一実施例による
Voice XML音声会議システムの構成を示すブロ
ック図である。図1において、本発明の一実施例による
Voice XML音声会議システムは会議参加者が用
いるクライアントPC(パーソナルコンピュータ)1−
1〜1−nと、音声会議を実現するための利用されるカ
ンファレンスサーバ2と、ネットワーク機能部3と,入
力した音声を認識するASR(Automatic S
peech recognition)4−1〜4−n
と、音声出力でテキストから音声に変換するTTS(T
ext to Speech)5−1〜5−nとから構
成されている。
【0021】カンファレンスサーバ2は音声会議のサー
ビス機能を提供するサーバであり、カンファレンスアプ
リケーション21が搭載され、ネットワーク機能部3に
接続されている。これらカンファレンスアプリケーショ
ン21とネットワーク機能部3との間には、カンファレ
ンスアプリケーション21とのインタフェースとしてI
/O(入出力)インタフェース22と、その命令内容で
アバターを索引してくるアバター索引部24と、Voi
ce XML(extensible markup
language)(音声対応のインタネット記述言
語)のタグ合成を行うVoice XML合成部23
と、実際に合成したVoice XMLをネットワーク
機能部経由でクライアントPC1−1〜1−nに配信す
るVoiceXML配信部25とが設けられており、さ
らにアバター自体のデータを管理収容するアバターデー
タベース(DB)26がアバター索引部24に接続され
ている。
ビス機能を提供するサーバであり、カンファレンスアプ
リケーション21が搭載され、ネットワーク機能部3に
接続されている。これらカンファレンスアプリケーショ
ン21とネットワーク機能部3との間には、カンファレ
ンスアプリケーション21とのインタフェースとしてI
/O(入出力)インタフェース22と、その命令内容で
アバターを索引してくるアバター索引部24と、Voi
ce XML(extensible markup
language)(音声対応のインタネット記述言
語)のタグ合成を行うVoice XML合成部23
と、実際に合成したVoice XMLをネットワーク
機能部経由でクライアントPC1−1〜1−nに配信す
るVoiceXML配信部25とが設けられており、さ
らにアバター自体のデータを管理収容するアバターデー
タベース(DB)26がアバター索引部24に接続され
ている。
【0022】クライントPC1−1〜1−nにおいては
Voice XMLでの送受信に関する基本機能とし
て、カンファレンスサーバ2と送受するためのネットワ
ーク機能部3に接続されている。
Voice XMLでの送受信に関する基本機能とし
て、カンファレンスサーバ2と送受するためのネットワ
ーク機能部3に接続されている。
【0023】また、クライントPC1−1〜1−nにお
いては、上記の課題を解決するための手段として、AS
R4−1〜4−n及びTTS5−1〜5−nとネットワ
ーク機能部3との間に、ASR4−1〜4−nによって
変換されたテキストについて、予め設定された話者毎に
割り振ったXMLタグを付与したり、TTS5−1〜5
−nで音声に変換するために、Voice XMLから
キストデータを作成する話者設定制御部11−1〜11
−nと、音声入力時にVoice XMLにテキストデ
ータを再構成するVoice XMLコンバータ12−
1〜12−nと、音声出力時にVoice XMLの中
からXMLタグから話者自身のタグを減算する自己タグ
減算部13−1〜13−nとが設けられている。
いては、上記の課題を解決するための手段として、AS
R4−1〜4−n及びTTS5−1〜5−nとネットワ
ーク機能部3との間に、ASR4−1〜4−nによって
変換されたテキストについて、予め設定された話者毎に
割り振ったXMLタグを付与したり、TTS5−1〜5
−nで音声に変換するために、Voice XMLから
キストデータを作成する話者設定制御部11−1〜11
−nと、音声入力時にVoice XMLにテキストデ
ータを再構成するVoice XMLコンバータ12−
1〜12−nと、音声出力時にVoice XMLの中
からXMLタグから話者自身のタグを減算する自己タグ
減算部13−1〜13−nとが設けられている。
【0024】上記の構成において、I/Oインタフェー
ス22はカンファレンスアプリケーション21とアバタ
ー索引部24及びVoice XML合成部23との間
に配設され、それぞれとの間の制御情報送受を受け持
つ。
ス22はカンファレンスアプリケーション21とアバタ
ー索引部24及びVoice XML合成部23との間
に配設され、それぞれとの間の制御情報送受を受け持
つ。
【0025】Voice XML合成部23はネットワ
ーク機能部3とI/Oインタフェース22との間に配設
され、複数のクライントPC1−1〜1−nから入力さ
れてくるVoice XMLを合成し、全話者分の合成
したVoice XMLを生成する。Voice XM
L配信部25はVoice XML合成部23で生成さ
れたVoice XMLを実際にネットワーク機能部3
経由でクライアントPC1−1〜1−nに送信する。
ーク機能部3とI/Oインタフェース22との間に配設
され、複数のクライントPC1−1〜1−nから入力さ
れてくるVoice XMLを合成し、全話者分の合成
したVoice XMLを生成する。Voice XM
L配信部25はVoice XML合成部23で生成さ
れたVoice XMLを実際にネットワーク機能部3
経由でクライアントPC1−1〜1−nに送信する。
【0026】Voice XMLはテキストデータであ
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。
【0027】アバター索引部24はその割り当て設定に
沿ってアバターの設定を行う。アバターデータベース2
6には予め会議参加者とその際の割り当てデータが保持
されており、アバター索引部24はそのアバターデータ
ベース26からデータを引き出し、実際の合成されたV
oice XMLにその情報を付加する。
沿ってアバターの設定を行う。アバターデータベース2
6には予め会議参加者とその際の割り当てデータが保持
されており、アバター索引部24はそのアバターデータ
ベース26からデータを引き出し、実際の合成されたV
oice XMLにその情報を付加する。
【0028】ここで、アバターとは音声自体の擬態化で
あり、会議サービスに参加する際に、参加者自身の声を
ネットワークで送らずに、分身となる声情報を持った代
理(分身)の情報である。具体的には、基準音声周波
数、音声ピッチ、音質等の情報を持ち、各個人毎に設定
した音声合成のための基礎データ(PCでテキストから
音声に替える時点での基準データ)として管理される。
あり、会議サービスに参加する際に、参加者自身の声を
ネットワークで送らずに、分身となる声情報を持った代
理(分身)の情報である。具体的には、基準音声周波
数、音声ピッチ、音質等の情報を持ち、各個人毎に設定
した音声合成のための基礎データ(PCでテキストから
音声に替える時点での基準データ)として管理される。
【0029】クライアントPC1−1〜1−nに接続さ
れるASR4−1〜4−nと、TTS5−1〜5−n
と、ネットワーク機能部3とはそれぞれ既存技術で実現
することができる。
れるASR4−1〜4−nと、TTS5−1〜5−n
と、ネットワーク機能部3とはそれぞれ既存技術で実現
することができる。
【0030】会議参加者の音声入力はASR4−1〜4
−n経由でテキスト化されて話者設定制御部11−1〜
11−nに入力される。逆に、話者に伝える会議音声
(複数の参加者の音声を合わせたもの)はVoicxe
XMLであり、予め設定しておいた話者の設定情報を
参照しながら、TTS5−1〜5−nに送って音声出力
される。
−n経由でテキスト化されて話者設定制御部11−1〜
11−nに入力される。逆に、話者に伝える会議音声
(複数の参加者の音声を合わせたもの)はVoicxe
XMLであり、予め設定しておいた話者の設定情報を
参照しながら、TTS5−1〜5−nに送って音声出力
される。
【0031】上述したアバターデータベース26、話者
設定制御部11−1〜11−nに設定する設定データ及
びその方法は既存技術のプロパティ設定と同等の方法で
実現することができる。
設定制御部11−1〜11−nに設定する設定データ及
びその方法は既存技術のプロパティ設定と同等の方法で
実現することができる。
【0032】話者設定制御部11−1〜11−nは、上
述したように、音声の入力及び出力に関する制御と、も
うひとつVoice XMLに関する制御とがあり、入
力方向ではテキスト化されている音声データに、設定さ
れたタグを割り当てる機能を持ち、出力方向では合成さ
れたVoice XMLデータの中から音声化するデー
タをTTS5−1〜5−nに渡す機能を持つ。
述したように、音声の入力及び出力に関する制御と、も
うひとつVoice XMLに関する制御とがあり、入
力方向ではテキスト化されている音声データに、設定さ
れたタグを割り当てる機能を持ち、出力方向では合成さ
れたVoice XMLデータの中から音声化するデー
タをTTS5−1〜5−nに渡す機能を持つ。
【0033】Voice XMLコンバータ12−1〜
12−nは話者のテキスト化された音声データと、話者
設定制御部11−1〜11−nの設定タグとを合成し、
W3C(XML等のインタネット技術の標準化団体)の
定めるRFC(Request for Commen
ts)に沿ってVoice XMLに変換し、ネットワ
ーク機能部3に送信する。
12−nは話者のテキスト化された音声データと、話者
設定制御部11−1〜11−nの設定タグとを合成し、
W3C(XML等のインタネット技術の標準化団体)の
定めるRFC(Request for Commen
ts)に沿ってVoice XMLに変換し、ネットワ
ーク機能部3に送信する。
【0034】自己タグ減算部13−1〜13−nはネッ
トワーク機能部3から受信したVoice XMLを話
者設定制御部11−1〜11−nに渡す機能を持つが、
そのまま渡すと自分の声も再現して聞こえてしまうた
め、それを防止するために自己の設定タグとデータとを
削除(減算)する機能を有している。
トワーク機能部3から受信したVoice XMLを話
者設定制御部11−1〜11−nに渡す機能を持つが、
そのまま渡すと自分の声も再現して聞こえてしまうた
め、それを防止するために自己の設定タグとデータとを
削除(減算)する機能を有している。
【0035】図2は図1のアバターデータベース26の
構成例を示す図である。図2において、アバターデータ
ベース26は会議カンファレンスの容量に応じた種別記
号を示す<話者アバターコード>と、このコードで登録
する利用者の名前を示す<氏名>と、登録者の性別を示
す<性別>と、登録者の性別や特徴に合わせて選択され
た基準音声周波数を示す<音声周波数>と、登録者の性
別や特徴に合わせて選択された基準音声ピッチを示す<
音声ピッチ>と、利用している母国語(音声認識等で利
用する際のパラメータ)を示す<利用言語>とから構成
されている。尚、上記の<>内はXMLタグを示してい
る。
構成例を示す図である。図2において、アバターデータ
ベース26は会議カンファレンスの容量に応じた種別記
号を示す<話者アバターコード>と、このコードで登録
する利用者の名前を示す<氏名>と、登録者の性別を示
す<性別>と、登録者の性別や特徴に合わせて選択され
た基準音声周波数を示す<音声周波数>と、登録者の性
別や特徴に合わせて選択された基準音声ピッチを示す<
音声ピッチ>と、利用している母国語(音声認識等で利
用する際のパラメータ)を示す<利用言語>とから構成
されている。尚、上記の<>内はXMLタグを示してい
る。
【0036】図3は本発明の一実施例によるVoice
XML音声会議システムの動作を示すシーケンスチャ
ートであり、図4は本発明の一実施例によるVoice
XML音声会議システムにおけるデータブロックの一
例を示す図であり、図5は本発明の一実施例によるVo
ice XML音声会議システムでのVoice XM
Lの合成例を示す図であり、図6は本発明の一実施例に
よるVoice XML音声会議システムでの自己タグ
データの消去例を示す図である。これら図1〜図6を参
照して本発明の一実施例によるVoice XML音声
会議システムの動作について説明する。
XML音声会議システムの動作を示すシーケンスチャ
ートであり、図4は本発明の一実施例によるVoice
XML音声会議システムにおけるデータブロックの一
例を示す図であり、図5は本発明の一実施例によるVo
ice XML音声会議システムでのVoice XM
Lの合成例を示す図であり、図6は本発明の一実施例に
よるVoice XML音声会議システムでの自己タグ
データの消去例を示す図である。これら図1〜図6を参
照して本発明の一実施例によるVoice XML音声
会議システムの動作について説明する。
【0037】既存技術で音声会議サービスを実施する場
合には、複数の話者が各個人に設置されたクライアント
PC1−1〜1−nを持ち、それぞれがカンファレンス
サーバ2のカンファレンスアプリケーション21への接
続要求を行う(図3ステップS1,S11)。
合には、複数の話者が各個人に設置されたクライアント
PC1−1〜1−nを持ち、それぞれがカンファレンス
サーバ2のカンファレンスアプリケーション21への接
続要求を行う(図3ステップS1,S11)。
【0038】カンファレンスアプリケーション21では
I/Oインタフェース22に指示を行い、各接続してき
たクライントPC1−1〜1−n個々に対応して、予め
保管設定してあるアバター情報をアバターデータベース
26から、アバター索引部24に読込ませる(図3ステ
ップS12)。アバター索引部24はその設定情報を、
後に送られてくるVoice XMLのデータとマッチ
ングして処理することができるように保持しておく(図
3の26a参照)。その後、カンファレンスサーバ2は
Voice XML合成部23において、クライアント
PC1−1〜1−nからのVoice XMLデータ入
力を待つ(図3ステップS13)。
I/Oインタフェース22に指示を行い、各接続してき
たクライントPC1−1〜1−n個々に対応して、予め
保管設定してあるアバター情報をアバターデータベース
26から、アバター索引部24に読込ませる(図3ステ
ップS12)。アバター索引部24はその設定情報を、
後に送られてくるVoice XMLのデータとマッチ
ングして処理することができるように保持しておく(図
3の26a参照)。その後、カンファレンスサーバ2は
Voice XML合成部23において、クライアント
PC1−1〜1−nからのVoice XMLデータ入
力を待つ(図3ステップS13)。
【0039】一方、クライントPC1−1〜1−nでは
カンファレンスサーバ2との接続後に、各話者が会話を
始める。音声入力は既存技術のASR4−1〜4−n
で、音声認識されてテキスト化される(図3ステップS
2)。そのテキスト化されたデータを話者設定制御部1
1−1〜11−nで予め設定されている話者設定ととも
にVoice XMLコンバータ12−1〜12−nに
渡す。
カンファレンスサーバ2との接続後に、各話者が会話を
始める。音声入力は既存技術のASR4−1〜4−n
で、音声認識されてテキスト化される(図3ステップS
2)。そのテキスト化されたデータを話者設定制御部1
1−1〜11−nで予め設定されている話者設定ととも
にVoice XMLコンバータ12−1〜12−nに
渡す。
【0040】Voice XMLコンバータ12−1〜
12−nでは、図3に示すように、渡された音声テキス
トデータと話者設定情報とからVoice XMLを生
成する(図3ステップS3,S4)。図3に示すデータ
ブロック例では、“話者アバターコード”という管理コ
ードで、サーバ側にあるアバターデータベース26とリ
ンクし、どのような話者設定であるかを特定することが
できるように考えているが、この部分にタグを設け、個
々に話者の性別やアバターでの声をどのように扱うかと
いう情報設定も可能である。
12−nでは、図3に示すように、渡された音声テキス
トデータと話者設定情報とからVoice XMLを生
成する(図3ステップS3,S4)。図3に示すデータ
ブロック例では、“話者アバターコード”という管理コ
ードで、サーバ側にあるアバターデータベース26とリ
ンクし、どのような話者設定であるかを特定することが
できるように考えているが、この部分にタグを設け、個
々に話者の性別やアバターでの声をどのように扱うかと
いう情報設定も可能である。
【0041】Voice XMLコンバータ12−1〜
12−nはVoice XMLデータブロックをネット
ワーク機能部3経由でカンファレンスサーバ2のVoi
ceXML合成部23に送る。
12−nはVoice XMLデータブロックをネット
ワーク機能部3経由でカンファレンスサーバ2のVoi
ceXML合成部23に送る。
【0042】Voice XML合成部23では各クラ
イントPC1−1〜1−nからのVoice XMLデ
ータブロックを受取り、図5に示すように、Voice
XMLを合成する(図3ステップS14)。この合成
の長さはリアルタイムで任意のタイミングを図り、効率
のいい単位時間で合成単位を生成する。VoiceXM
L合成部23は合成したVoice XMLをVoic
e XML配信部25に送る。
イントPC1−1〜1−nからのVoice XMLデ
ータブロックを受取り、図5に示すように、Voice
XMLを合成する(図3ステップS14)。この合成
の長さはリアルタイムで任意のタイミングを図り、効率
のいい単位時間で合成単位を生成する。VoiceXM
L合成部23は合成したVoice XMLをVoic
e XML配信部25に送る。
【0043】ここで、Voice XML配信部25は
上記のアバター索引部24で保持していたアバター情報
と話者設定の設定コードとを照合し、アバターの設定の
マッチングを行い、クライアントPC1−1〜1−nに
対して変更がないか否かを判断する(図3の26b参
照)。
上記のアバター索引部24で保持していたアバター情報
と話者設定の設定コードとを照合し、アバターの設定の
マッチングを行い、クライアントPC1−1〜1−nに
対して変更がないか否かを判断する(図3の26b参
照)。
【0044】通常、この判断結果は合致するが、合致し
ない場合が考えられる。話者自体がいつも固定のクライ
ントPC1−1〜1−nからとは限らず、例えば社内共
用フロアにあるクライントPCからアクセスがあった場
合等である。この場合には、今現在のクライントPCに
設定されている音声合成用の設定データ等をアクセスし
た話者用に設定変更する必要が生じる。本実施例例では
“話者アバターコード”にて変更設定する仕組みを持
つ。
ない場合が考えられる。話者自体がいつも固定のクライ
ントPC1−1〜1−nからとは限らず、例えば社内共
用フロアにあるクライントPCからアクセスがあった場
合等である。この場合には、今現在のクライントPCに
設定されている音声合成用の設定データ等をアクセスし
た話者用に設定変更する必要が生じる。本実施例例では
“話者アバターコード”にて変更設定する仕組みを持
つ。
【0045】このように、合成してかつ話者の設定が合
致したVoice XMLをネットワーク機能部3経由
で各クライントPC1−1〜1−nに送信する(図3ス
テップS15)。
致したVoice XMLをネットワーク機能部3経由
で各クライントPC1−1〜1−nに送信する(図3ス
テップS15)。
【0046】Voice XMLを受信したクライント
PC1−1〜1−nの自己タグ減算部13−1〜13−
nでは、図6に示すように、自己のタグを削除する(図
3ステップS5)。これは音声が聞こえる時点で、自分
が話した言葉がIP(Internet Protoc
ol)ネットワーク等の蓄積系ネットワークにおいて遅
延が生じ、聞き取りにくくなるからである。
PC1−1〜1−nの自己タグ減算部13−1〜13−
nでは、図6に示すように、自己のタグを削除する(図
3ステップS5)。これは音声が聞こえる時点で、自分
が話した言葉がIP(Internet Protoc
ol)ネットワーク等の蓄積系ネットワークにおいて遅
延が生じ、聞き取りにくくなるからである。
【0047】自己タグ減算部13−1〜13−nは自己
タグを削除したVoice XMLを話者設定制御部1
1−1〜11−nに渡し、話者アバターコードにしたが
って、各話者の音声設定をTSS5−1〜5−nに設定
し(図3ステップS6)、発声内容を発生時刻順に送
る。各話者はTSS5−1〜5−n経由で自分以外の音
声を会話の時間順に聞き取る(図3ステップS7,S
8)。
タグを削除したVoice XMLを話者設定制御部1
1−1〜11−nに渡し、話者アバターコードにしたが
って、各話者の音声設定をTSS5−1〜5−nに設定
し(図3ステップS6)、発声内容を発生時刻順に送
る。各話者はTSS5−1〜5−n経由で自分以外の音
声を会話の時間順に聞き取る(図3ステップS7,S
8)。
【0048】本実施例ではサービスの応用開発容易性が
ある。上記の説明の中で、話者設定制御部11−1〜1
1−nにおいて、Voice XMLのタグ毎にデータ
を分解してテキスト分として扱い、その送受の関係にし
たがって文書化する等の簡易な開発手段で音声会議の議
事録を作成したり、後に議事進行を記録に残して、その
まま再現させることも可能となる。
ある。上記の説明の中で、話者設定制御部11−1〜1
1−nにおいて、Voice XMLのタグ毎にデータ
を分解してテキスト分として扱い、その送受の関係にし
たがって文書化する等の簡易な開発手段で音声会議の議
事録を作成したり、後に議事進行を記録に残して、その
まま再現させることも可能となる。
【0049】図7は本発明の他の実施例によるアバター
データベースの構成例を示す図である。図7において、
本発明の他の実施例によるアバターデータベースは<発
声履歴>を追加した以外は図2に示す本発明の一実施例
によるアバターデータベース26と同様の構成となって
いる。また、本発明の他の実施例によるVoiceXM
L音声会議システムは上述した本発明の一実施例と同様
の構成であり、その動作も上記と同様であるので、それ
らの説明については省略する。
データベースの構成例を示す図である。図7において、
本発明の他の実施例によるアバターデータベースは<発
声履歴>を追加した以外は図2に示す本発明の一実施例
によるアバターデータベース26と同様の構成となって
いる。また、本発明の他の実施例によるVoiceXM
L音声会議システムは上述した本発明の一実施例と同様
の構成であり、その動作も上記と同様であるので、それ
らの説明については省略する。
【0050】<発声履歴>はカンファレンス開催時の会
議名を示す<会議名>と、開催会議の開始時間を示す<
開催日時>と、開催会議の終了時間を示す<閉会日時>
と、発言時間(秒単位で管理)を示す<発声日時>と、
発言者のアバーターコード(上記の話者アバターコー
ド)を示す<発言アバターコード>と、発言者が発言し
た内容を示す<発言内容>とから構成されている。<発
言アバターコード>及び<発言内容>は<閉会日時>ま
で繰返し記録される。尚、上記の<>内は、上記と同様
に、XMLタグを示している。
議名を示す<会議名>と、開催会議の開始時間を示す<
開催日時>と、開催会議の終了時間を示す<閉会日時>
と、発言時間(秒単位で管理)を示す<発声日時>と、
発言者のアバーターコード(上記の話者アバターコー
ド)を示す<発言アバターコード>と、発言者が発言し
た内容を示す<発言内容>とから構成されている。<発
言アバターコード>及び<発言内容>は<閉会日時>ま
で繰返し記録される。尚、上記の<>内は、上記と同様
に、XMLタグを示している。
【0051】図8は本発明の他の実施例によるVoic
e XML音声会議システムの会話録応用例を示す図で
ある。図8に示す議事録はアバターデータベースに上記
のような<発声履歴>をXMLとして残すことで作成さ
れるものであり、このような形態で保存することで、ネ
ットワーク内の多様なアプリケーションでの利用が可能
となる。
e XML音声会議システムの会話録応用例を示す図で
ある。図8に示す議事録はアバターデータベースに上記
のような<発声履歴>をXMLとして残すことで作成さ
れるものであり、このような形態で保存することで、ネ
ットワーク内の多様なアプリケーションでの利用が可能
となる。
【0052】このように、音声会議サービスにおいて、
音声入力後に音声自体をテキスト化し、そこに話者の設
定とアバター設定とを盛り込んで、Voice XML
にして送受することによって、データ再現のためにリア
ルタイムで送受信するためにネットワーク側が必要とす
る速度が数百bpsですみ、ネットワークにおいて話者
が増えてもそれほど負荷がかかることはない。
音声入力後に音声自体をテキスト化し、そこに話者の設
定とアバター設定とを盛り込んで、Voice XML
にして送受することによって、データ再現のためにリア
ルタイムで送受信するためにネットワーク側が必要とす
る速度が数百bpsですみ、ネットワークにおいて話者
が増えてもそれほど負荷がかかることはない。
【0053】本来、Voice XMLのプロトコル自
身は、ボイスポータル等とのインタフェースに用いられ
ることを目的として開発されているが、本発明でこれに
アバターの設定を付加して会話サービスに応用している
点で、単なるボイスポータルインタフェースだけでな
く、会話の手段として用いることができる。
身は、ボイスポータル等とのインタフェースに用いられ
ることを目的として開発されているが、本発明でこれに
アバターの設定を付加して会話サービスに応用している
点で、単なるボイスポータルインタフェースだけでな
く、会話の手段として用いることができる。
【0054】また、例えば既存技術で会議の議事録を作
成するソフトウェア等を開発しようとした場合、誰が何
を喋っているのかを音声分解して洗い出し、その上で各
音声を認識してデータ化するということが余儀なくさ
れ、現実的な開発手法ではない。それに比べ、本実施例
では、Voice XMLのテキストデータを会議の各
話者データ毎にタグをつけて管理し、さらにアバターを
用いて行っているため、各話者の会話内容を分解した
り、合成する機能が容易である。よって、音声再現にお
いて機能追加や応用アプリケーション開発が容易とな
る。
成するソフトウェア等を開発しようとした場合、誰が何
を喋っているのかを音声分解して洗い出し、その上で各
音声を認識してデータ化するということが余儀なくさ
れ、現実的な開発手法ではない。それに比べ、本実施例
では、Voice XMLのテキストデータを会議の各
話者データ毎にタグをつけて管理し、さらにアバターを
用いて行っているため、各話者の会話内容を分解した
り、合成する機能が容易である。よって、音声再現にお
いて機能追加や応用アプリケーション開発が容易とな
る。
【0055】したがって、本発明では音声会議サービス
に関するネットワークの負荷軽減と、機能追加や応用ア
プリケーション開発の容易化とを図ることができる。
に関するネットワークの負荷軽減と、機能追加や応用ア
プリケーション開発の容易化とを図ることができる。
【0056】
【発明の効果】以上説明したように本発明は、Voic
e XMLを用いて音声会議サービスを提供するVoi
ce XML音声会議システムにおいて、音声入力後に
音声自体をテキスト化し、そこに話者の設定と音声自体
の擬態化の概念を設定データとして取り入れたアバター
設定とを付与し、それらのデータをVoice XML
のデータに変換することによって、音声会議サービスに
関するネットワークの負荷軽減と、機能追加や応用アプ
リケーション開発の容易化とを図ることができるという
効果が得られる。
e XMLを用いて音声会議サービスを提供するVoi
ce XML音声会議システムにおいて、音声入力後に
音声自体をテキスト化し、そこに話者の設定と音声自体
の擬態化の概念を設定データとして取り入れたアバター
設定とを付与し、それらのデータをVoice XML
のデータに変換することによって、音声会議サービスに
関するネットワークの負荷軽減と、機能追加や応用アプ
リケーション開発の容易化とを図ることができるという
効果が得られる。
【図1】本発明の一実施例によるVoice XML音
声会議システムの構成を示すブロック図である。
声会議システムの構成を示すブロック図である。
【図2】図1のアバターデータベースの構成例を示す図
である。
である。
【図3】本発明の一実施例によるVoice XML音
声会議システムの動作を示すシーケンスチャートであ
る。
声会議システムの動作を示すシーケンスチャートであ
る。
【図4】本発明の一実施例によるVoice XML音
声会議システムにおけるデータブロックの一例を示す図
である。
声会議システムにおけるデータブロックの一例を示す図
である。
【図5】本発明の一実施例によるVoice XML音
声会議システムでのVoiceXMLの合成例を示す図
である。
声会議システムでのVoiceXMLの合成例を示す図
である。
【図6】本発明の一実施例によるVoice XML音
声会議システムでの自己タグデータの消去例を示す図で
ある。
声会議システムでの自己タグデータの消去例を示す図で
ある。
【図7】本発明の他の実施例によるアバターデータベー
スの構成例を示す図である。
スの構成例を示す図である。
【図8】本発明の他の実施例によるVoice XML
音声会議システムの会話録応用例を示す図である。
音声会議システムの会話録応用例を示す図である。
1−1〜1−n クライアントPC
2 カンファレンスサーバ
3 ネットワーク機能部
4−1〜4−n ASR
5−1〜5−n TTS
11−1〜11−n 話者設定制御部
12−1〜12−n Voice XMLコンバータ
13−1〜13−n 自己タグ減算部
21 カンファレンスアプリケーション
22 I/Oインタフェース
23 Voice XML合成部
24 アバター索引部
25 Voice XML配信部
26 アバターデータベース
─────────────────────────────────────────────────────
フロントページの続き
(51)Int.Cl.7 識別記号 FI テーマコート゛(参考)
G10L 3/00 561H
Claims (2)
- 【請求項1】 Voice XML(extensib
le markuplanguage)を用いて音声会
議サービスを提供するVoice XML音声会議方式
であって、音声入力後に音声自体をテキスト化し、そこ
に話者の設定と音声自体の擬態化の概念を設定データと
して取り入れたアバター設定とを付与し、それらのデー
タを前記Voice XMLのデータに変換するように
したことを特徴とするVoice XML音声会議方
式。 - 【請求項2】 前記話者の設定と前記アバター設定とを
用いて前記Voice XMLのデータにおける各話者
の会話内容の分解や合成を行うようにしたことを特徴と
する請求項1記載のVoice XML音声会議方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001335932A JP2003140681A (ja) | 2001-11-01 | 2001-11-01 | VoiceXML音声会議方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001335932A JP2003140681A (ja) | 2001-11-01 | 2001-11-01 | VoiceXML音声会議方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003140681A true JP2003140681A (ja) | 2003-05-16 |
Family
ID=19150851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001335932A Pending JP2003140681A (ja) | 2001-11-01 | 2001-11-01 | VoiceXML音声会議方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003140681A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018060568A (ja) * | 2007-08-16 | 2018-04-12 | クリムソン コーポレイション | 音声を利用できるテルネットインターフェイス |
US10873621B1 (en) | 2014-08-20 | 2020-12-22 | Ivanti, Inc. | Terminal emulation over html |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
-
2001
- 2001-11-01 JP JP2001335932A patent/JP2003140681A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018060568A (ja) * | 2007-08-16 | 2018-04-12 | クリムソン コーポレイション | 音声を利用できるテルネットインターフェイス |
US10938886B2 (en) | 2007-08-16 | 2021-03-02 | Ivanti, Inc. | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10873621B1 (en) | 2014-08-20 | 2020-12-22 | Ivanti, Inc. | Terminal emulation over html |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9214154B2 (en) | Personalized text-to-speech services | |
US6618704B2 (en) | System and method of teleconferencing with the deaf or hearing-impaired | |
US6173250B1 (en) | Apparatus and method for speech-text-transmit communication over data networks | |
KR101442312B1 (ko) | 도메인이 상이한 실시간 다중 언어 통신 서비스 기반형 개방 아키텍처 | |
US20050232166A1 (en) | Mixed mode conferencing | |
US6035273A (en) | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes | |
US9325749B2 (en) | Methods and apparatus to manage conference call activity with internet protocol (IP) networks | |
US6678659B1 (en) | System and method of voice information dissemination over a network using semantic representation | |
US8842580B2 (en) | System and method for providing internet based phone conferences using multiple codecs | |
EP1798945A1 (en) | System and methods for enabling applications of who-is-speaking (WIS) signals | |
KR101901920B1 (ko) | 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법 | |
US20120004910A1 (en) | System and method for speech processing and speech to text | |
JP2006528804A (ja) | 電話ユーザがインスタント・メッセージングベースの会議に参加できるようにするための方法、システム、およびコンピュータ・プログラム(テレチャット・システムを使用する拡張会議サービスへのアクセス) | |
US8831185B2 (en) | Personal home voice portal | |
JP2003140674A (ja) | 音声合成システム及び音声合成方法 | |
JPH10136327A (ja) | ディスクトップ会議システム | |
AU773325B2 (en) | Telephone system and telephone method | |
US6501751B1 (en) | Voice communication with simulated speech data | |
JP2003140681A (ja) | VoiceXML音声会議方式 | |
JP2002101205A (ja) | 会議支援装置及び方法並びにこれに利用される記憶媒体 | |
CN114143401A (zh) | 一种电话客服应答适配方法和装置 | |
JPH10215331A (ja) | 音声会議システムとその情報端末装置 | |
US6498834B1 (en) | Speech information communication system | |
US20030065512A1 (en) | Communication device and a method for transmitting and receiving of natural speech | |
JP2002101203A (ja) | 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061010 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070220 |