JP2003140681A

JP2003140681A - ＶｏｉｃｅＸＭＬ音声会議方式

Info

Publication number: JP2003140681A
Application number: JP2001335932A
Authority: JP
Inventors: Shinji Matsuda; 眞次松田
Original assignee: NEC Engineering Ltd
Current assignee: NEC Engineering Ltd
Priority date: 2001-11-01
Filing date: 2001-11-01
Publication date: 2003-05-16

Abstract

(57)【要約】【課題】音声会議サービスに関するネットワークの負
荷軽減と、機能追加や応用アプリケーション開発の容易
化とを図ることが可能なＶｏｉｃｅＸＭＬ音声会議方
式を提供する。【解決手段】会議参加者の音声入力はＡＳＲ４−１
〜４−ｎ経由でテキスト化される。話者設定制御部１１
−１〜１１−ｎはテキスト化されている音声データに設
定されたタグを割り当てる。ＶｏｉｃｅＸＭＬコンバ
ータ１２−１〜１２−ｎは話者のテキスト化された音声
データと設定タグとを合成してＶｏｉｃｅＸＭＬに変換
する。ＶｏｉｃｅＸＭＬ合成部２３は入力されてくる
ＶｏｉｃｅＸＭＬを合成し、全話者分の合成したＶｏ
ｉｃｅＸＭＬを生成する。ＶｏｉｃｅＸＭＬ配信部
２５は生成されたＶｏｉｃｅＸＭＬをクライアントＰ
Ｃ１−１〜１−ｎに送信する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はＶｏｉｃｅＸＭＬ
音声会議方式に関し、特に二者以上の音声会議サービス
に関する。

【０００２】

【従来の技術】従来、二者以上の音声会議サービスにお
いては、二者以上の話者からの音声をネットワーク内で
アナログもしくはディジタル化して重畳し、それを話者
に聞かせることでサービスを実現している。

【０００３】

【発明が解決しようとする課題】上述した従来の音声会
議サービスでは、圧縮技術を用いても、データ再現のた
めにリアルタイムで数Ｋｂｐｓの速度がネットワーク側
に必要となり、ネットワークにおいて話者が増えるほど
負荷がかかるという問題がある。この場合、ディジタル
化した音声データ自体は単にＰＣＭ（ＰｕｌｓｅＣｏ
ｄｅＭｏｄｕｌａｔｉｏｎ）化したものであり、デー
タ量はサンプリングしたデータ量そのものである。

【０００４】また、例えば、会議の議事録を作成するソ
フトウェア等を開発しようとした場合、だれが何を喋っ
ているのかを音声分解して洗い出し、その上で各音声を
認識してデータ化するということが余儀なくされ、開発
して量販化しようとすれば、現実的な開発手法及び解決
手法でなく、実現が難しいという問題がある。つまり、
音声再現において機能追加や応用アプリケーション開発
が容易でないという問題がある。

【０００５】そこで、本発明の目的は上記の問題点を解
消し、音声会議サービスに関するネットワークの負荷軽
減と、機能追加や応用アプリケーション開発の容易化と
を図ることができるＶｏｉｃｅＸＭＬ音声会議方式を
提供することにある。

【０００６】

【課題を解決するための手段】本発明によるＶｏｉｃｅ
ＸＭＬ音声会議方式は、ＶｏｉｃｅＸＭＬ（ｅｘｔ
ｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）を
用いて音声会議サービスを提供するＶｏｉｃｅＸＭＬ
音声会議方式であって、音声入力後に音声自体をテキス
ト化し、そこに話者の設定と音声自体の擬態化の概念を
設定データとして取り入れたアバター設定とを付与し、
それらのデータを前記ＶｏｉｃｅＸＭＬのデータに変
換するようにしている。

【０００７】すなわち、本発明のＶｏｉｃｅＸＭＬ音
声会議方式は、音声会議を実現するための利用されるカ
ンファレンスサーバと、会議参加者が用いるクライアン
トＰＣ（パーソナルコンピュータ）とに上記の課題を解
決するための手段を設けている。

【０００８】まず、カンファレンスサーバは音声会議の
サービス機能を提供するサーバであり、カンファレンス
アプリケーションが搭載され、ネットワーク機能部に接
続されている。これらカンファレンスアプリケーション
とネットワーク機能部との間には、カンファレンスアプ
リケーションとのインタフェースとしてＩ／Ｏ（入出
力）インタフェースと、その命令内容で音声自体の擬態
化であるアバターを索引してくるアバター索引部と、Ｖ
ｏｉｃｅＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕ
ｐｌａｎｇｕａｇｅ）（音声対応のインタネット記述
言語）のタグ合成を行うＶｏｉｃｅＸＭＬ合成部と、
実際に合成したＶｏｉｃｅＸＭＬをネットワーク機能
部経由でクライアントＰＣに配信するＶｏｉｃｅＸＭ
Ｌ配信部とが設けられており、さらにアバター自体のデ
ータを管理収容するアバターデータベース（ＤＢ）がア
バター索引部に接続されている。

【０００９】クライントＰＣにおいてはＶｏｉｃｅＸ
ＭＬでの送受信に関する基本機能として、入力した音声
を認識するＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈ
ｒｅｃｏｇｎｉｔｉｏｎ）と、音声出力でテキストか
ら音声に変換するＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃ
ｈ）と、カンファレンスサーバと送受するネットワーク
機能部とに接続されている。

【００１０】また、クライントＰＣにおいては、上記の
課題を解決するための手段として、ＡＳＲ及びＴＴＳと
ネットワーク機能部との間に、ＡＳＲによって変換され
たテキストについて、予め設定された話者毎に割り振っ
たＸＭＬタグを付与したり、ＴＴＳで音声に変換するた
めに、ＶｏｉｃｅＸＭＬからキストデータを作成する
話者設定制御部と、音声入力時にＶｏｉｃｅＸＭＬに
テキストデータを再構成するＶｏｉｃｅＸＭＬコンバ
ータと、音声出力時にＶｏｉｃｅＸＭＬの中からＸＭ
Ｌタグから話者自身のタグを減算する自己タグ減算部と
が設けられている。

【００１１】上記の構成において、Ｉ／Ｏインタフェー
スはカンファレンスアプリケーションとアバター索引部
及びＶｏｉｃｅＸＭＬ合成部との間に配設され、それ
ぞれとの間の制御情報送受を受け持つ。

【００１２】ＶｏｉｃｅＸＭＬ合成部はネットワーク
機能部とＩ／Ｏインタフェースとの間に配設され、複数
のクライントＰＣから入力されてくるＶｏｉｃｅＸＭ
Ｌを合成し、全話者分の合成したＶｏｉｃｅＸＭＬを
生成する。この生成されたＶｏｉｃｅＸＭＬを実際に
ネットワーク機能部経由でクライアントＰＣに送信する
のがＶｏｉｃｅＸＭＬ配信部である。

【００１３】ＶｏｉｃｅＸＭＬはテキストデータであ
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。

【００１４】その割り当て設定に沿ってアバターの設定
を行うのがアバター索引部である。予め会議参加者とそ
の際の割り当てデータを保持しているのがアバターデー
タベースであり、アバター索引部はそのアバターデータ
ベースからデータを引き出して、実際に合成されたＶｏ
ｉｃｅＸＭＬに対してその情報を付加する仕組みを持
つ。

【００１５】クライアントＰＣに接続されるＡＳＲと、
ＴＴＳと、ネットワーク機能部とはいづれも既存技術で
ある。会議参加者の音声入力はＡＳＲ経由でテキスト化
されて話者設定制御部に入力される。逆に、話者に伝え
る会議音声（複数の参加者の音声を合わせたもの）はＶ
ｏｉｃｘｅＸＭＬであり、予め設定しておいた話者の
設定情報を参照しながら、ＴＴＳに送ることで音声出力
される。

【００１６】上述したアバターデータベース、話者設定
制御部に設定する設定データ及びその方法は既存技術の
プロパティ設定と同等である。話者設定制御部は、上述
したように、音声の入力及び出力に関する制御と、もう
ひとつＶｏｉｃｅＸＭＬに関する制御とがあり、入力
方向ではテキスト化されている音声データに、設定され
たタグを割り当てる機能を持ち、出力方向では合成され
たＶｏｉｃｅＸＭＬデータの中から音声化するデータ
をＴＴＳに渡す機能を持つ。

【００１７】ＶｏｉｃｅＸＭＬコンバータは話者のテ
キスト化された音声データと、話者設定制御部の設定タ
グとを合成し、Ｗ３Ｃ（ＸＭＬ等のインタネット技術の
標準化団体）の定めるＲＦＣ（Ｒｅｑｕｅｓｔｆｏｒ
Ｃｏｍｍｅｎｔｓ）に沿ってＶｏｉｃｅＸＭＬに変
換し、ネットワーク機能部に送信する機能を持つ。

【００１８】自己タグ減算部はネットワーク機能部から
受信したＶｏｉｃｅＸＭＬを話者設定制御部に渡す機
能を持つが、そのまま渡すと自分の声も再現して聞こえ
てしまうため、それを防止するために自己の設定タグと
データとを削除（減算）する機能を有している。

【００１９】上記のように、本発明のＶｏｉｃｅＸＭ
Ｌ音声会議方式では、複数の参加人員の音声合成と音声
自体の擬態化（アバター）とによって、音声会議サービ
スに関するネットワークの負荷軽減と、機能追加や応用
アプリケーション開発の容易化とを図ることが可能とな
る。

【００２０】

【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。図１は本発明の一実施例による
ＶｏｉｃｅＸＭＬ音声会議システムの構成を示すブロ
ック図である。図１において、本発明の一実施例による
ＶｏｉｃｅＸＭＬ音声会議システムは会議参加者が用
いるクライアントＰＣ（パーソナルコンピュータ）１−
１〜１−ｎと、音声会議を実現するための利用されるカ
ンファレンスサーバ２と、ネットワーク機能部３と，入
力した音声を認識するＡＳＲ（ＡｕｔｏｍａｔｉｃＳ
ｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）４−１〜４−ｎ
と、音声出力でテキストから音声に変換するＴＴＳ（Ｔ
ｅｘｔｔｏＳｐｅｅｃｈ）５−１〜５−ｎとから構
成されている。

【００２１】カンファレンスサーバ２は音声会議のサー
ビス機能を提供するサーバであり、カンファレンスアプ
リケーション２１が搭載され、ネットワーク機能部３に
接続されている。これらカンファレンスアプリケーショ
ン２１とネットワーク機能部３との間には、カンファレ
ンスアプリケーション２１とのインタフェースとしてＩ
／Ｏ（入出力）インタフェース２２と、その命令内容で
アバターを索引してくるアバター索引部２４と、Ｖｏｉ
ｃｅＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐ
ｌａｎｇｕａｇｅ）（音声対応のインタネット記述言
語）のタグ合成を行うＶｏｉｃｅＸＭＬ合成部２３
と、実際に合成したＶｏｉｃｅＸＭＬをネットワーク
機能部経由でクライアントＰＣ１−１〜１−ｎに配信す
るＶｏｉｃｅＸＭＬ配信部２５とが設けられており、さ
らにアバター自体のデータを管理収容するアバターデー
タベース（ＤＢ）２６がアバター索引部２４に接続され
ている。

【００２２】クライントＰＣ１−１〜１−ｎにおいては
ＶｏｉｃｅＸＭＬでの送受信に関する基本機能とし
て、カンファレンスサーバ２と送受するためのネットワ
ーク機能部３に接続されている。

【００２３】また、クライントＰＣ１−１〜１−ｎにお
いては、上記の課題を解決するための手段として、ＡＳ
Ｒ４−１〜４−ｎ及びＴＴＳ５−１〜５−ｎとネットワ
ーク機能部３との間に、ＡＳＲ４−１〜４−ｎによって
変換されたテキストについて、予め設定された話者毎に
割り振ったＸＭＬタグを付与したり、ＴＴＳ５−１〜５
−ｎで音声に変換するために、ＶｏｉｃｅＸＭＬから
キストデータを作成する話者設定制御部１１−１〜１１
−ｎと、音声入力時にＶｏｉｃｅＸＭＬにテキストデ
ータを再構成するＶｏｉｃｅＸＭＬコンバータ１２−
１〜１２−ｎと、音声出力時にＶｏｉｃｅＸＭＬの中
からＸＭＬタグから話者自身のタグを減算する自己タグ
減算部１３−１〜１３−ｎとが設けられている。

【００２４】上記の構成において、Ｉ／Ｏインタフェー
ス２２はカンファレンスアプリケーション２１とアバタ
ー索引部２４及びＶｏｉｃｅＸＭＬ合成部２３との間
に配設され、それぞれとの間の制御情報送受を受け持
つ。

【００２５】ＶｏｉｃｅＸＭＬ合成部２３はネットワ
ーク機能部３とＩ／Ｏインタフェース２２との間に配設
され、複数のクライントＰＣ１−１〜１−ｎから入力さ
れてくるＶｏｉｃｅＸＭＬを合成し、全話者分の合成
したＶｏｉｃｅＸＭＬを生成する。ＶｏｉｃｅＸＭ
Ｌ配信部２５はＶｏｉｃｅＸＭＬ合成部２３で生成さ
れたＶｏｉｃｅＸＭＬを実際にネットワーク機能部３
経由でクライアントＰＣ１−１〜１−ｎに送信する。

【００２６】ＶｏｉｃｅＸＭＬはテキストデータであ
り、そのまま音声化で処理を行うと、誰が話しているの
かが判らなくなる。そこで、各話者毎に話し声や性別に
あわせて変更する必要がある。

【００２７】アバター索引部２４はその割り当て設定に
沿ってアバターの設定を行う。アバターデータベース２
６には予め会議参加者とその際の割り当てデータが保持
されており、アバター索引部２４はそのアバターデータ
ベース２６からデータを引き出し、実際の合成されたＶ
ｏｉｃｅＸＭＬにその情報を付加する。

【００２８】ここで、アバターとは音声自体の擬態化で
あり、会議サービスに参加する際に、参加者自身の声を
ネットワークで送らずに、分身となる声情報を持った代
理（分身）の情報である。具体的には、基準音声周波
数、音声ピッチ、音質等の情報を持ち、各個人毎に設定
した音声合成のための基礎データ（ＰＣでテキストから
音声に替える時点での基準データ）として管理される。

【００２９】クライアントＰＣ１−１〜１−ｎに接続さ
れるＡＳＲ４−１〜４−ｎと、ＴＴＳ５−１〜５−ｎ
と、ネットワーク機能部３とはそれぞれ既存技術で実現
することができる。

【００３０】会議参加者の音声入力はＡＳＲ４−１〜４
−ｎ経由でテキスト化されて話者設定制御部１１−１〜
１１−ｎに入力される。逆に、話者に伝える会議音声
（複数の参加者の音声を合わせたもの）はＶｏｉｃｘｅ
ＸＭＬであり、予め設定しておいた話者の設定情報を
参照しながら、ＴＴＳ５−１〜５−ｎに送って音声出力
される。

【００３１】上述したアバターデータベース２６、話者
設定制御部１１−１〜１１−ｎに設定する設定データ及
びその方法は既存技術のプロパティ設定と同等の方法で
実現することができる。

【００３２】話者設定制御部１１−１〜１１−ｎは、上
述したように、音声の入力及び出力に関する制御と、も
うひとつＶｏｉｃｅＸＭＬに関する制御とがあり、入
力方向ではテキスト化されている音声データに、設定さ
れたタグを割り当てる機能を持ち、出力方向では合成さ
れたＶｏｉｃｅＸＭＬデータの中から音声化するデー
タをＴＴＳ５−１〜５−ｎに渡す機能を持つ。

【００３３】ＶｏｉｃｅＸＭＬコンバータ１２−１〜
１２−ｎは話者のテキスト化された音声データと、話者
設定制御部１１−１〜１１−ｎの設定タグとを合成し、
Ｗ３Ｃ（ＸＭＬ等のインタネット技術の標準化団体）の
定めるＲＦＣ（ＲｅｑｕｅｓｔｆｏｒＣｏｍｍｅｎ
ｔｓ）に沿ってＶｏｉｃｅＸＭＬに変換し、ネットワ
ーク機能部３に送信する。

【００３４】自己タグ減算部１３−１〜１３−ｎはネッ
トワーク機能部３から受信したＶｏｉｃｅＸＭＬを話
者設定制御部１１−１〜１１−ｎに渡す機能を持つが、
そのまま渡すと自分の声も再現して聞こえてしまうた
め、それを防止するために自己の設定タグとデータとを
削除（減算）する機能を有している。

【００３５】図２は図１のアバターデータベース２６の
構成例を示す図である。図２において、アバターデータ
ベース２６は会議カンファレンスの容量に応じた種別記
号を示す＜話者アバターコード＞と、このコードで登録
する利用者の名前を示す＜氏名＞と、登録者の性別を示
す＜性別＞と、登録者の性別や特徴に合わせて選択され
た基準音声周波数を示す＜音声周波数＞と、登録者の性
別や特徴に合わせて選択された基準音声ピッチを示す＜
音声ピッチ＞と、利用している母国語（音声認識等で利
用する際のパラメータ）を示す＜利用言語＞とから構成
されている。尚、上記の＜＞内はＸＭＬタグを示してい
る。

【００３６】図３は本発明の一実施例によるＶｏｉｃｅ
ＸＭＬ音声会議システムの動作を示すシーケンスチャ
ートであり、図４は本発明の一実施例によるＶｏｉｃｅ
ＸＭＬ音声会議システムにおけるデータブロックの一
例を示す図であり、図５は本発明の一実施例によるＶｏ
ｉｃｅＸＭＬ音声会議システムでのＶｏｉｃｅＸＭ
Ｌの合成例を示す図であり、図６は本発明の一実施例に
よるＶｏｉｃｅＸＭＬ音声会議システムでの自己タグ
データの消去例を示す図である。これら図１〜図６を参
照して本発明の一実施例によるＶｏｉｃｅＸＭＬ音声
会議システムの動作について説明する。

【００３７】既存技術で音声会議サービスを実施する場
合には、複数の話者が各個人に設置されたクライアント
ＰＣ１−１〜１−ｎを持ち、それぞれがカンファレンス
サーバ２のカンファレンスアプリケーション２１への接
続要求を行う（図３ステップＳ１，Ｓ１１）。

【００３８】カンファレンスアプリケーション２１では
Ｉ／Ｏインタフェース２２に指示を行い、各接続してき
たクライントＰＣ１−１〜１−ｎ個々に対応して、予め
保管設定してあるアバター情報をアバターデータベース
２６から、アバター索引部２４に読込ませる（図３ステ
ップＳ１２）。アバター索引部２４はその設定情報を、
後に送られてくるＶｏｉｃｅＸＭＬのデータとマッチ
ングして処理することができるように保持しておく（図
３の２６ａ参照）。その後、カンファレンスサーバ２は
ＶｏｉｃｅＸＭＬ合成部２３において、クライアント
ＰＣ１−１〜１−ｎからのＶｏｉｃｅＸＭＬデータ入
力を待つ（図３ステップＳ１３）。

【００３９】一方、クライントＰＣ１−１〜１−ｎでは
カンファレンスサーバ２との接続後に、各話者が会話を
始める。音声入力は既存技術のＡＳＲ４−１〜４−ｎ
で、音声認識されてテキスト化される（図３ステップＳ
２）。そのテキスト化されたデータを話者設定制御部１
１−１〜１１−ｎで予め設定されている話者設定ととも
にＶｏｉｃｅＸＭＬコンバータ１２−１〜１２−ｎに
渡す。

【００４０】ＶｏｉｃｅＸＭＬコンバータ１２−１〜
１２−ｎでは、図３に示すように、渡された音声テキス
トデータと話者設定情報とからＶｏｉｃｅＸＭＬを生
成する（図３ステップＳ３，Ｓ４）。図３に示すデータ
ブロック例では、“話者アバターコード”という管理コ
ードで、サーバ側にあるアバターデータベース２６とリ
ンクし、どのような話者設定であるかを特定することが
できるように考えているが、この部分にタグを設け、個
々に話者の性別やアバターでの声をどのように扱うかと
いう情報設定も可能である。

【００４１】ＶｏｉｃｅＸＭＬコンバータ１２−１〜
１２−ｎはＶｏｉｃｅＸＭＬデータブロックをネット
ワーク機能部３経由でカンファレンスサーバ２のＶｏｉ
ｃｅＸＭＬ合成部２３に送る。

【００４２】ＶｏｉｃｅＸＭＬ合成部２３では各クラ
イントＰＣ１−１〜１−ｎからのＶｏｉｃｅＸＭＬデ
ータブロックを受取り、図５に示すように、Ｖｏｉｃｅ
ＸＭＬを合成する（図３ステップＳ１４）。この合成
の長さはリアルタイムで任意のタイミングを図り、効率
のいい単位時間で合成単位を生成する。ＶｏｉｃｅＸＭ
Ｌ合成部２３は合成したＶｏｉｃｅＸＭＬをＶｏｉｃ
ｅＸＭＬ配信部２５に送る。

【００４３】ここで、ＶｏｉｃｅＸＭＬ配信部２５は
上記のアバター索引部２４で保持していたアバター情報
と話者設定の設定コードとを照合し、アバターの設定の
マッチングを行い、クライアントＰＣ１−１〜１−ｎに
対して変更がないか否かを判断する（図３の２６ｂ参
照）。

【００４４】通常、この判断結果は合致するが、合致し
ない場合が考えられる。話者自体がいつも固定のクライ
ントＰＣ１−１〜１−ｎからとは限らず、例えば社内共
用フロアにあるクライントＰＣからアクセスがあった場
合等である。この場合には、今現在のクライントＰＣに
設定されている音声合成用の設定データ等をアクセスし
た話者用に設定変更する必要が生じる。本実施例例では
“話者アバターコード”にて変更設定する仕組みを持
つ。

【００４５】このように、合成してかつ話者の設定が合
致したＶｏｉｃｅＸＭＬをネットワーク機能部３経由
で各クライントＰＣ１−１〜１−ｎに送信する（図３ス
テップＳ１５）。

【００４６】ＶｏｉｃｅＸＭＬを受信したクライント
ＰＣ１−１〜１−ｎの自己タグ減算部１３−１〜１３−
ｎでは、図６に示すように、自己のタグを削除する（図
３ステップＳ５）。これは音声が聞こえる時点で、自分
が話した言葉がＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃ
ｏｌ）ネットワーク等の蓄積系ネットワークにおいて遅
延が生じ、聞き取りにくくなるからである。

【００４７】自己タグ減算部１３−１〜１３−ｎは自己
タグを削除したＶｏｉｃｅＸＭＬを話者設定制御部１
１−１〜１１−ｎに渡し、話者アバターコードにしたが
って、各話者の音声設定をＴＳＳ５−１〜５−ｎに設定
し（図３ステップＳ６）、発声内容を発生時刻順に送
る。各話者はＴＳＳ５−１〜５−ｎ経由で自分以外の音
声を会話の時間順に聞き取る（図３ステップＳ７，Ｓ
８）。

【００４８】本実施例ではサービスの応用開発容易性が
ある。上記の説明の中で、話者設定制御部１１−１〜１
１−ｎにおいて、ＶｏｉｃｅＸＭＬのタグ毎にデータ
を分解してテキスト分として扱い、その送受の関係にし
たがって文書化する等の簡易な開発手段で音声会議の議
事録を作成したり、後に議事進行を記録に残して、その
まま再現させることも可能となる。

【００４９】図７は本発明の他の実施例によるアバター
データベースの構成例を示す図である。図７において、
本発明の他の実施例によるアバターデータベースは＜発
声履歴＞を追加した以外は図２に示す本発明の一実施例
によるアバターデータベース２６と同様の構成となって
いる。また、本発明の他の実施例によるＶｏｉｃｅＸＭ
Ｌ音声会議システムは上述した本発明の一実施例と同様
の構成であり、その動作も上記と同様であるので、それ
らの説明については省略する。

【００５０】＜発声履歴＞はカンファレンス開催時の会
議名を示す＜会議名＞と、開催会議の開始時間を示す＜
開催日時＞と、開催会議の終了時間を示す＜閉会日時＞
と、発言時間（秒単位で管理）を示す＜発声日時＞と、
発言者のアバーターコード（上記の話者アバターコー
ド）を示す＜発言アバターコード＞と、発言者が発言し
た内容を示す＜発言内容＞とから構成されている。＜発
言アバターコード＞及び＜発言内容＞は＜閉会日時＞ま
で繰返し記録される。尚、上記の＜＞内は、上記と同様
に、ＸＭＬタグを示している。

【００５１】図８は本発明の他の実施例によるＶｏｉｃ
ｅＸＭＬ音声会議システムの会話録応用例を示す図で
ある。図８に示す議事録はアバターデータベースに上記
のような＜発声履歴＞をＸＭＬとして残すことで作成さ
れるものであり、このような形態で保存することで、ネ
ットワーク内の多様なアプリケーションでの利用が可能
となる。

【００５２】このように、音声会議サービスにおいて、
音声入力後に音声自体をテキスト化し、そこに話者の設
定とアバター設定とを盛り込んで、ＶｏｉｃｅＸＭＬ
にして送受することによって、データ再現のためにリア
ルタイムで送受信するためにネットワーク側が必要とす
る速度が数百ｂｐｓですみ、ネットワークにおいて話者
が増えてもそれほど負荷がかかることはない。

【００５３】本来、ＶｏｉｃｅＸＭＬのプロトコル自
身は、ボイスポータル等とのインタフェースに用いられ
ることを目的として開発されているが、本発明でこれに
アバターの設定を付加して会話サービスに応用している
点で、単なるボイスポータルインタフェースだけでな
く、会話の手段として用いることができる。

【００５４】また、例えば既存技術で会議の議事録を作
成するソフトウェア等を開発しようとした場合、誰が何
を喋っているのかを音声分解して洗い出し、その上で各
音声を認識してデータ化するということが余儀なくさ
れ、現実的な開発手法ではない。それに比べ、本実施例
では、ＶｏｉｃｅＸＭＬのテキストデータを会議の各
話者データ毎にタグをつけて管理し、さらにアバターを
用いて行っているため、各話者の会話内容を分解した
り、合成する機能が容易である。よって、音声再現にお
いて機能追加や応用アプリケーション開発が容易とな
る。

【００５５】したがって、本発明では音声会議サービス
に関するネットワークの負荷軽減と、機能追加や応用ア
プリケーション開発の容易化とを図ることができる。

【００５６】

【発明の効果】以上説明したように本発明は、Ｖｏｉｃ
ｅＸＭＬを用いて音声会議サービスを提供するＶｏｉ
ｃｅＸＭＬ音声会議システムにおいて、音声入力後に
音声自体をテキスト化し、そこに話者の設定と音声自体
の擬態化の概念を設定データとして取り入れたアバター
設定とを付与し、それらのデータをＶｏｉｃｅＸＭＬ
のデータに変換することによって、音声会議サービスに
関するネットワークの負荷軽減と、機能追加や応用アプ
リケーション開発の容易化とを図ることができるという
効果が得られる。

【図面の簡単な説明】

【図１】本発明の一実施例によるＶｏｉｃｅＸＭＬ音
声会議システムの構成を示すブロック図である。

【図２】図１のアバターデータベースの構成例を示す図
である。

【図３】本発明の一実施例によるＶｏｉｃｅＸＭＬ音
声会議システムの動作を示すシーケンスチャートであ
る。

【図４】本発明の一実施例によるＶｏｉｃｅＸＭＬ音
声会議システムにおけるデータブロックの一例を示す図
である。

【図５】本発明の一実施例によるＶｏｉｃｅＸＭＬ音
声会議システムでのＶｏｉｃｅＸＭＬの合成例を示す図
である。

【図６】本発明の一実施例によるＶｏｉｃｅＸＭＬ音
声会議システムでの自己タグデータの消去例を示す図で
ある。

【図７】本発明の他の実施例によるアバターデータベー
スの構成例を示す図である。

【図８】本発明の他の実施例によるＶｏｉｃｅＸＭＬ
音声会議システムの会話録応用例を示す図である。

【符号の説明】

１−１〜１−ｎクライアントＰＣ２カンファレンスサーバ３ネットワーク機能部４−１〜４−ｎＡＳＲ５−１〜５−ｎＴＴＳ１１−１〜１１−ｎ話者設定制御部１２−１〜１２−ｎＶｏｉｃｅＸＭＬコンバータ１３−１〜１３−ｎ自己タグ減算部２１カンファレンスアプリケーション２２Ｉ／Ｏインタフェース２３ＶｏｉｃｅＸＭＬ合成部２４アバター索引部２５ＶｏｉｃｅＸＭＬ配信部２６アバターデータベース

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５６１Ｈ

Claims

【特許請求の範囲】

【請求項１】ＶｏｉｃｅＸＭＬ（ｅｘｔｅｎｓｉｂ
ｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）を用いて音声会
議サービスを提供するＶｏｉｃｅＸＭＬ音声会議方式
であって、音声入力後に音声自体をテキスト化し、そこ
に話者の設定と音声自体の擬態化の概念を設定データと
して取り入れたアバター設定とを付与し、それらのデー
タを前記ＶｏｉｃｅＸＭＬのデータに変換するように
したことを特徴とするＶｏｉｃｅＸＭＬ音声会議方
式。
【請求項２】前記話者の設定と前記アバター設定とを
用いて前記ＶｏｉｃｅＸＭＬのデータにおける各話者
の会話内容の分解や合成を行うようにしたことを特徴と
する請求項１記載のＶｏｉｃｅＸＭＬ音声会議方式。