JP2003316375A

JP2003316375A - 分散ディクテーションシステム、プログラム及び記憶媒体

Info

Publication number: JP2003316375A
Application number: JP2002126494A
Authority: JP
Inventors: Toshihiko Umeda; 俊彦楳田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-04-26
Filing date: 2002-04-26
Publication date: 2003-11-07

Abstract

(57)【要約】【課題】音声認識処理を行うホストコンピュータと、
発言者の音声を入力する複数の端末装置を分散配置した
分散ディクテーションシステムにおいて、例えば音声認
識結果のテキストを端末装置で容易に修正できるように
する。【解決手段】分散ディクテーションシステムにおい
て、音声認識処理開始指示を入力させる認識指示ボタン
１１、準備完了通知に応じて音声を入力するマイク１
２、入力された音声を符号化する符号化部１４、前記音
声認識処理開始指示および符号化された音声データをホ
ストコンピュータ２へ送信する通信処理部１６を端末装
置１に備え、受信した音声認識処理開始指示に応じて認
識処理を行える状態にして準備完了通知を端末装置１へ
返送させ、受信した前記音声データを復号化するメッセ
ージ処理部２１、復号化された音声を認識してテキスト
データを作成する音声認識エンジン２８、そのテキスト
データを端末装置１へ返送する通信処理部２６をホスト
コンピュータ２に備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を入力す
る装置とディクテーション処理を行う装置とがＬＡＮま
たは広域ネットワークを介して接続された別々の装置で
構成された分散ディクテーションシステムに関し、特に
リアルタイム処理が可能な分散ディクテーションシステ
ムに関するものである。

【０００２】

【従来の技術】ディクテーションシステムを音声入力部
と音声認識部の配置形態で分類し、さらに処理時間で分
類すると、単一配置型バッチ処理型単一配置型リアルタイム処理型（例えば音声ワードプ
ロセッシング）分散配置型バッチ処理型（例えば特開平１１−５０６
２５３号記載のもの）分散配置型リアルタイム処理型（例えば、ＴＶ会議、
電話の言語変換）に分けられる。前記において、バッチ処理とは、まず、
音声を入力して記憶し、その後、記憶しておいた音声デ
ータを読み出して音声認識処理を行うものであり、リア
ルタイム処理とは、音声を入力しながら、並行して音声
認識処理を行い、その結果を返すものである。また、単
一配置型とは、一つの装置内において音声入力と音声認
識の両方を行う配置形態のものである。前記した４つの
型のうち、本発明の分散ディクテーションシステムは分
散配置型のリアルタイム処理型に属する。なお、さら
に、話者が特定されるものか、不特定なものかにより特
定話者、不特定話者対応型に分けられるが、本発明では
話者は問わない。一方、本発明に係わる音声認識につい
ては、認識率向上のために、認識アルゴリズムの改良、
参照データの多量具備および改良などが行われており、
近年、認識率が実用レベルと言える水準へ到達しつつあ
る。このうち、参照データを多量に具備して認識率向上
を図る例としては、特開２０００−５１６７４９公報に
示された「語構成源テキストを語構成目標テキストに翻
訳する機械構成の方法及び装置」があるが、この従来技
術では、辞書モデル、位置合わせモデル、および言語モ
デルを並列に参照・処理することにより、認識パターン
に合致する確率値の最大を求める。また、特開平６−３
１８０９６号公報に示された「言語モデリングシステム
及び言語モデルを形成する方法」も同様のカテゴリの従
来技術であり、良好な認識結果が期待される。

【０００３】さらに、このような音声認識技術を利用し
た従来技術として、複数の音声入力装置を分散配置し、
音声認識処理装置を共有利用するシステムが提供されて
いる。例えば、中継を行う交換機に相当する装置におい
て、ＴＶ会議や電話会議の言語変換、つまり、言語翻訳
サービスを行うものである。この従来技術では、発言者
の音声を認識して、いったん内部文字化し、その文字を
音声合成して話し相手側に音響伝送する。しかし、発言
者自身にその音声認識内容を戻す構成は相互会話では基
本的に無意味であるし、会話の妨害になるので、提供さ
れていない。また、音声認識技術を利用した他の従来技
術として、ディクテーション処理を分散処理する技術が
特開平１１−５０６２５３号公報に示された「音声信号
を記憶するディクテーション装置」に示唆開示されてい
る。しかし、この従来技術はバッチ処理型で、本発明の
属するリアルタイム処理分野には適用が難しい。

【０００４】

【発明が解決しようとする課題】しかしながら、前記し
た、参照データを多量に具備する音声認識技術について
は、日々増加する参照データを管理する負担が大きく、
さらに、参照データ自体の記憶容量コストが大きいとい
う問題があり、この解決が望まれている。そこで、参照
データの管理を一元化し、音声認識を行う１台のホスト
コンピュータと、発言者の音声を入力処理する複数台の
端末装置を分散配置し、ホストコンピュータを共有して
用いれば、参照データの管理が総合的に軽くなる。しか
し、その場合、音声入力後、端末装置において直ちに認
識結果のテキストを表示させることができないとか、前
記端末装置において、ある程度の誤認識がところどころ
に混在したテキスト部分を修正しづらいという新たな問
題が発生する。つまり、元の発言内容を聞き直して人為
的に誤認識テキストを修正する際に、その端末装置にお
ける録音データと、ホストコンピュータから転送される
認識処理結果としてのディクテーションテキストとの対
応を取る手段がないために使い勝手が悪くなり、さら
に、同様の理由で、例えば録音部分の頭出しをテキスト
文字に対応させて行うというような、録音データとディ
クテーションテキストとを連携させる付加価値技術の開
発を妨げている。本発明の目的は、このような従来技術
の問題を解決することであり、具体的には、音声認識処
理を行うホストコンピュータと、発言者の音声を入力・
処理する複数の端末装置を分散配置し、ホストコンピュ
ータをネットワーク接続で共有利用する分散ディクテー
ションシステムにおいて、適切なタイミングで音声入力
を開始させることにより、音声入力後、端末装置におい
て直ちに認識結果のテキストを表示させることができる
ようにしたり、音声認識によるテキスト文字結果を容易
に修正できるようにしたりすることにある。

【０００５】

【課題を解決するための手段】前記の課題を解決するた
めに、請求項１記載の発明では、ネットワークに接続さ
れた端末装置とホストコンピュータとによりディクテー
ションを行う分散ディクテーションシステムにおいて、
ホストコンピュータに対して与える音声認識処理開始指
示を入力させる指示手段と、ホストコンピュータからの
準備完了通知に応じて音声を入力する音声入力手段と、
その音声入力手段により入力された音声を符号化する符
号化手段と、前記音声認識処理開始指示および符号化さ
れた音声データをホストコンピュータへ送信する送信手
段とを前記端末装置に備え、前記端末装置から前記音声
認識処理開始指示および音声データを受信する受信手段
と、前記音声認識処理開始指示に応じて認識処理を行え
る状態にし、準備完了通知を前記端末装置へ返送する準
備完了通知手段と、受信した前記音声データを復号化す
る復号化手段と、復号化された音声を認識してテキスト
データを作成するテキスト作成手段と、作成した前記テ
キストデータを前記端末装置へ返送する返送手段とをホ
ストコンピュータに備えたことを特徴とする。また、請
求項２記載の発明では、ネットワークに接続された端末
装置とホストコンピュータとによりディクテーションを
行う分散ディクテーションシステムにおいて、音声入力
手段により入力された音声を符号化する符号化手段と、
音声入力が行われた日時を示す日時情報を管理する時間
管理手段と、符号化された音声データと前記日時情報を
ホストコンピュータへ送信する送信手段とを端末装置に
備え、前記端末装置から前記音声データおよび日時情報
を受信する受信手段と、受信した前記音声データを復号
化する復号化手段と、復号化された音声を認識してテキ
ストデータを作成するテキスト作成手段と、作成した前
記テキストデータと対応した前記日時情報とを前記端末
装置へ返送する返送手段とをホストコンピュータに備
え、端末装置内の前記時間管理手段を、さらに、ホスト
コンピュータから返送された日時情報を管理するように
構成したことを特徴とする。また、請求項３記載の発明
では、請求項２記載の発明において、前記時間管理手段
により管理された日時情報を記録手段に記録する構成に
したことを特徴とする。また、請求項４記載の発明で
は、ネットワークに接続された端末装置とホストコンピ
ュータとによりディクテーションを行う分散ディクテー
ションシステムにおいて、音声入力手段により入力され
た音声を符号化する符号化手段と、符号化され音声デー
タをホストコンピュータへ送信する送信手段と、受信し
たテキストデータをブロック化するブロック化手段と、
そのブロック化手段によりブロック化されたテキストデ
ータを再生表示するモニタ表示手段とを端末装置に備
え、前記端末装置から音声データを受信する受信手段
と、受信した前記音声データを復号化する復号化手段
と、復号化された音声を認識してテキストデータを作成
するテキスト作成手段と、作成した前記テキストデータ
を前記端末装置へ返送する返送手段とをホストコンピュ
ータに備えたことを特徴とする。また、請求項５記載の
発明では、情報処理装置上で実行されるプログラムにお
いて、請求項１乃至請求項４のいずれか１項に記載の分
散ディクテーションシステムを実現するプログラムとし
たことを特徴とする。また、請求項６記載の発明では、
プログラムを記憶した記憶媒体において、請求項５記載
のプログラムを記憶したことを特徴とする。

【０００６】

【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図１は本発明の第１の実施例を
示す分散ディクテーションシステムの説明図である。図
示したように、この実施例の分散ディクテーションシス
テムでは、広域ネットワーク（複数の通信網にまたがる
通信を可能にするインターネットプロトコルを用いたネ
ットワーク、以下、単にネットワークと称す）３などに
接続された端末装置１において、例えば３名の会議出席
者がそれぞれ、議題に対する発言を述べ合う。その際、
議長または書記が、ホワイトボードや電子黒板、または
会議場所に備えられた書き込み機能付き大型ディスプレ
イを用いて発言者の意見を「板書き」する。この端末装
置１はマイクロホンを備え、マイクロホンからの音声入
力内容を、ネットワーク３を介してホストコンピュータ
２へ送信し、そのホストコンピュータ２において音声認
識を行い、その認識結果を端末装置１へテキストデータ
で返す。そして、端末装置１の大型ディスプレイ１８に
発言録テキストを表示する。

【０００７】図２に、端末装置１およびホストコンピュ
ータ２の構成を示す。図示したように、この端末装置１
は、音声認識処理を起動させるための認識指示ボタン１
１、音声を入力するマイクロホン１２、前記認識指示ボ
タン１１からの信号を検出して音声認識処理を起動させ
る起動部１３、前記マイクロホン１２により入力された
音声を符号化して音声データを生成する符号化部１４、
ホストコンピュータ２から送られてきたテキストデータ
を表示させたり保存・管理したりするテキスト管理部１
５、ネットワーク３に接続されているホストコンピュー
タ２や他の端末装置１との通信のための通信処理を行う
通信処理部１６、外部記憶装置（例えばハードディスク
装置）１７、および大型ディスプレイ１８などを備えて
いる。なお、端末装置１のうち矩形で囲んだ部分は端末
装置本体である。また、この実施例では、請求項１記載
の指示手段、音声入力手段、符号化手段、および送信手
段が、それぞれその順に、認識指示ボタン１１および起
動部１３、マイクロホン１２、符号化部１４、および通
信処理部１６により実現される。また、ホストコンピュ
ータ２は、受信したメッセージを処理するメッセージ処
理部２１、受信した音声データについて音声認識を行う
音声認識部２２、その音声認識の際に用いる音響モデ
ル、ボキャブラリ、言語モデルの各データを記憶する参
照メモリ２３、２４、２５、ネットワーク３に接続され
ている各端末装置１などとの通信のための通信処理を行
う通信処理部２６、外部記憶装置２７などを備える。な
お、前記音声認識部２２および参照メモリ２３、２４、
２５は音声認識エンジン２８を構成する。また、この実
施例では、請求項１記載の受信手段および返送手段、準
備完了通知手段および復号化手段、テキスト作成手段、
返送手段が、それぞれその順に、通信処理部２６、メッ
セージ処理部２１、音声認識エンジン２８により実現さ
れる。

【０００８】図３に、この実施例の動作フローを示す。
以下、図３に従って、この実施例の動作を説明する。ま
ず、会議参加者が、ホストコンピュータ２における音声
認識を起動させるために、端末装置１に備えた認識指示
ボタン１１を押す。これにより、起動部１２は、認識指
示ボタン１１が押されたことを検知し、予め設定されて
いる当該端末装置１の端末ＩＤ（端末識別符号）を含む
音声認識サービス要求を通信処理部１６に渡す。こうし
て、通信処理部１６は、ホストコンピュータ２のアドレ
スを宛先として指定してメッセージ送出する（Ｓ１）。
なお、この要求プロトコルとしては、例えばITU H.450
シリーズに規定された手順を用いる。また、通信媒体は
ネットワーク中のＬＡＮについては例えばイーサネット
（登録商標）ケーブルであり、このようなＬＡＮと公衆
網を用いたＩＰベースの通信を行う。これにより、ホス
トコンピュータ２では、通信処理部２６により、端末装
置１からのメッセージを受信し（Ｓ２）、メッセージ処
理部２１がそのメッセージ内容を処理する。つまり、受
信したメッセージが音声認識サービス要求か否かを判定
し（Ｓ３）、そうであれば（Ｓ３でＹｅｓ）、送信元端
末装置１のユーザーＩＤを自己の（または別のホストコ
ンピュータの）外部記憶装置２７に蓄えたユーザーデー
タベース（ＤＢ）と照合してサービス提供の可否を確認
する（Ｓ４）。そして、可であれば、音声認識部（音声
認識モジュール）２２を起動し（Ｓ５）、その音声認識
エンジン２８が用いる音響モデル、ボキャブラリ、言語
モデルの各データを参照メモリ２３、２４、２５に展開
し、音声認識エンジン２８の作業準備を完了する（Ｓ
６）。この準備完了で、音声認識部２２は端末装置１の
アドレスを宛先として指定し、準備完了通知メッセージ
を通信処理部２６を用いて送出する（Ｓ７）。こうし
て、端末装置１では、テキスト管理部１５が、この準備
完了通知メッセージを通信処理部１６を介して受信し
（Ｓ８）、ホストコンピュータ２の音声認識処理の準備
完了をＧＵＩ（グラフィックユーザーインタフェース）
による表示、ＬＥＤ（発光ダイオード）による表示、ま
たは音響ブザーなどにより利用者に知らせる（Ｓ９）。
これに応じて、利用者は、マイクロホン１２を用いて、
例えば「いちばんめのあんわしすてむのぜんめんこう
しん」、少し間を置き、「けんとうきげんわねんまつ」
というように発言を開始する。そして、入力された音声
信号を符号化部１４においてＡ／Ｄ変換し、符号化圧縮
処理を行い、予め規定されたフレーム単位でホストコン
ピュータ２へ送信する（Ｓ１０）。例えば、ＩＴＵで規
定されたG.722 SB-ADPCM方式で音声の圧縮処理を行い、
通信処理部１６により、７ＫＨｚ帯域の音質を６４Ｋｂ
ｐｓで送信するのである。

【０００９】ホストコンピュータ２では、通信処理部２
６がメッセージを受信すると（Ｓ１１）、音声データか
否かを判定し（Ｓ１２）、音声データであれば（Ｓ１２
でＹｅｓ）、メッセージ処理部２１が、適切な受信バッ
ファリングを行い、バッファリングした圧縮音声データ
を音声認識部２２に適する形式のデータに復号化する。
そして、音声認識を実行する（Ｓ１３）。つまり、音声
認識部２２は参照メモリ２３、２４、２５に展開した音
響モデル、ボキャブラリ、言語モデルの各データを参照
し、言語理解を行うのである。続いて、音声認識部２２
はその認識結果をテキスト化し、「一番目の案はシステ
ムの全面更新」「検討期限は年末」を得る。そして、こ
の認識結果のテキストメッセージを端末装置１のアドレ
スを宛先として指定して、通信処理部２６を用いて送信
する（Ｓ１４）。こうして、端末装置１において、この
認識結果メッセージを通信処理部１６により受信し（Ｓ
１５）、テキスト管理部１５が、受信したテキストデー
タを外部記憶装置１７に記憶する。または、そのテキス
トを大型ディスプレイ１８に図１に示したように表示す
る（Ｓ１６）。なお、前記において、ITU H.450シリー
ズに規定された手順は一例であり、独自の処理手順を用
いてもよく、さらに、G.722 SB-ADPCM方式の符号化（コ
ード化）形式は、G.727「the Packetized Voice Protoc
ol（ＰＶＰ）」に従う形式、他のＩＴＵ規定形式、また
はＩＭＴＣ（International Multimedia Teleconferenc
ing Consortium）で定めた形式でもよい。また、ホスト
コンピュータ２は従来型のメインフレームやＵＮＩＸ
（登録商標）−ＯＳのワークステーション、またはＷｉ
ｎｄｏｗｓＮＴ（登録商標）、Ｗｉｎｄｏｗｓ（登録商
標）２０００／ＸＰなどのプラットフォームでもよく、
音声認識部２２を共用利用すれば、本発明によった分散
ディクテーションシステムを構成するホストコンピュー
タとして用いることができる。

【００１０】また、音響モデル、ボキャブラリ、言語モ
デルの各データをホストコンピュータ２に直接バス接続
された外部記憶装置２７に格納する必要はなく、ＮＡＳ
（Network Attached Storage）や別のホストコンピュー
タのデータべースに格納されたものを呼び出し、呼び出
した各データを参照メモリ２３、２４、２５に展開する
構成でもよい。また、通信媒体はＩＰＶ４またはＩＰＶ
６のＩＰベースの通信を行う銅線ケーブル、光ファイバ
ケーブル、赤外線または電波でもよく、媒体の種別を特
定するものではない。また、認識指示ボタン１１は電気
的スイッチで構成するほか、端末装置１に備えたキーボ
ード（図示せず）に割り当てたファンクションキー、ま
たはマウスやタッチパネルなどにより指示される表示さ
れたアイコンで構成してもよい。また、マイクロホン１
２は１本を参加者で共用してもよいし、複数のマイクロ
ホン１２をミキサーに接続して各人に配置してもよい。
なお、このミキサーは単純な混合タイプではなく、入力
選択式であり、例えば、オーディオテクニカ社AT-MX35
1、またはATCS-50とATCS-C50の組み合わせを用いる。さ
らに、先の認識指示ボタン１１はATCS-50に備えたマイ
ク選択ボタンと兼用し、各人の発言毎に手動でボタンを
押すことでトリガーを与えてもよい。また、ネットワー
クは複数のネットワークにまたがった広域ネットワーク
でなく、ＬＡＮのみの構成でもよい。こうして、この実
施例によれば、音声認識処理を行うホストコンピュータ
と、発言者の音声を入力・処理する複数の端末装置とが
分散配置されていても、準備完了通知を待って音声入力
を開始することにより、音声入力後直ちに音声認識を開
始することができ、したがって、端末装置において直ち
に認識結果のテキストを表示させることができ、以後、
音声入力に対して実用に耐える応答性でディクテーショ
ン結果としてのテキスト表示を行うことができる。

【００１１】次に、本発明の第２の実施例について説明
する。図４は第２の実施例を示す端末装置１ａの構成ブ
ロックである。図示したように、この実施例の端末装置
１ａは、第１の実施例の構成（図２参照）に加えてブロ
ック処理部１９を備え、端末装置１ａにテキストデータ
をバッファリングし、ブロック単位の表示を行う。な
お、この実施例では、請求項４記載の音声入力手段、符
号化手段、送信手段、ブロック化手段、モニタ表示手段
が、それぞれその順に、マイクロホン１２、符号化部１
４、通信処理部１６、大型ディスプレイ１８により実現
され、受信手段および返送手段、復号化手段、テキスト
作成手段が、それぞれその順に、通信処理部２６、メッ
セージ処理部２１、音声認識エンジン２８により実現さ
れる。このような構成で、この実施例では、音声で入力
され、テキスト化されるデータを時系列でブロック化
し、それぞれのブロックを所定のルールに従って数が増
えるシーケンス番号で管理し、同一シーケンス番号に属
するテキストデータを同一ブロックに属するテキストと
して表示する。なお、前記所定のルールとは、認識指示
ボタン１１が押下され続けていれば（認識指示状態であ
れば）、所定の押下時間までは同一シーケンス番号とす
るということである。図５に、ブロック処理部１９など
により実行されるシーケンス番号生成の動作フローを示
す。この実施例では、起動部１１は検出した認識指示ボ
タン１１の状態をブロック処理部１９に与えるように構
成しており、図５に示したように、ブロック処理部１９
は起動部１１により与えられる認識指示ボタン１１の状
態を周期的に取得し（Ｓ２１）、認識指示状態（押下状
態）であれば（Ｓ２２でＹｅｓ）、メモリ（例えばＲＡ
Ｍ）の所定領域に設けた時間カウンタが所定の値に達し
ているか否かににより、認識指示状態開始から所定の時
間が経過しているか否かを判定する（Ｓ２３）。そし
て、経過していなければ（Ｓ２３でＮｏ）、時間カウン
タの値を１増やし（インクリメントし）（Ｓ２４）、所
定周期後にステップＳ２１から繰り返す。それに対し
て、ステップＳ２３において、所定の時間が経過してい
ると判定されたならば（Ｓ２３でＹｅｓ）、時間カウン
タをリセットし（値を０にし）（Ｓ２５）、さらに、シ
ーケンスカウンタをインクリメントしてシーケンス番号
を１増やす（Ｓ２７）。一方、ステップＳ２２におい
て、認識指示状態でないと判定されたならば（Ｓ２２で
Ｎｏ）、時間カウンタを停止させ、リセットし（Ｓ２
６）、さらに、シーケンスカウンタをインクリメントし
てシーケンス番号を１増やす（Ｓ２７）。

【００１２】次に、図６に示した動作フローに従って、
前記したようなシーケンス番号を用いて行うブロック化
表示の動作を説明する。なお、この実施例では、テキス
ト管理部１５は、ホストコンピュータ２から準備完了通
知メッセージ（第１の実施例のステップＳ７参照）やテ
キストデータを受信したとき、その旨をブロック処理部
１９に通知する。そのような構成で、この実施例では、
まず、ブロック処理部１９がテキスト管理部１５からの
受信通知を待つ（Ｓ３１）。そして、受信通知があり、
その受信通知が準備完了通知メッセージであるならば
（Ｓ３２でＹｅｓ）、音声認識処理の準備完了をＧＵＩ
（グラフィックユーザーインタフェース）を用いて表示
し、利用者に知らせる（Ｓ３３）。また、受信通知がテ
キストデータの受信通知であるならば（Ｓ３２でＮ
ｏ）、シーケンス番号が前回のシーケンス番号確認時
（前回のこのステップ実行時）と同一か否かを判定する
（Ｓ３４）。こうして、シーケンス番号が同一であると
判定されたならば（Ｓ３４でＹｅｓ）、ブロック処理部
１９は受信したテキストデータをバッファメモリに蓄え
（Ｓ３６）、ステップＳ３１に戻り、次のテキストデー
タ受信を待つ。それに対して、テキストデータの受信が
回を重ねるうちに、ステップＳ３４において、シーケン
ス番号が同一でないと判定されたならば（Ｓ３４でＮ
ｏ）、ブロック処理部１９はバッファメモリに蓄えたテ
キストデータを一つのブロックとして大型ディスプレイ
１８に表示し、さらに、図４の右上に示した表示例のよ
うに囲み線で囲み、認識したテキストが同一ブロックで
あることを利用者に判りやすく表示する。

【００１３】なお、前記した囲み線表示に当たっては、
バッファメモリに蓄えたテキストデータを表示する際に
その文字数を数え、さらに、表示する文字のフォントの
大きさから囲み枠の大きさを求める。例えば、縦横の大
きさが４８×４２（ｄｏｔ）のフォントを１行に２０文
字で３行表示すると、囲み枠の大きさは、縦：４８×３
＝１４４（ｄｏｔ）となり、横：４２×２０＝８４０
（ｄｏｔ）となる。この縦：１４４（ｄｏｔ）横：８４
０（ｄｏｔ）の枠を左上の文字位置から描画することで
得られる。また、ブロック処理部１９は文字の表示配置
に関するレイアウト情報も備えている。例えば、１〜１０文字：１行１１〜２０文字：１行あたり１０文字で２行２１〜３０文字：１行あたり１０文字で３行というようなレイアウトテーブルを備えるのである。表
示配置の好みにより、このようなレイアウトテーブルを
複数種類備え、音声認識開始前にブロック処理部１９に
指示していずれかのレイアウトテーブルを選択すること
も可能である。このようなレイアウト表示によれば、一
つのブロックに属する発言内容のテキストをカード風に
表示でき、従来必要であった書記役の利用者の手間を省
くことができる。こうして、この実施例によれば、利用
者の意図通りにテキストをブロック化することができる
ので、例えば、端末装置において、その端末装置におけ
る録音データを用いて元の発言内容を聞き直し、誤認識
テキストを人為的に修正する際に、その録音データとホ
ストコンピュータから転送された認識処理結果としての
テキストデータとの対応を容易に取ることができる。

【００１４】ところで、ネットワークシステムにおいて
は伝送遅延が存在し、その遅延時間はネットワークトラ
フィックにより刻一と変化することが知られている。そ
のため、ネットワークに接続された各端末装置／コンピ
ュータでは時間管理を行っているが、各端末装置／コン
ピュータで微妙にその管理時間が異なる。そこで、各端
末装置／コンピュータ間の時間合わせも提案されるに至
っているが、どの提案も、実施においては、合理的メリ
ットが見出せず、現在においては時間管理は相変わらず
各各端末装置／コンピュータの管理者に任されているの
が現状である。この問題は本発明が係わる分散ディクテ
ーションシステムにおいても同様である。というのは、
ネットワーク上に配置された端末装置１とホストコンピ
ュータ２で音声認識処理を分散的に実施する場合、いつ
入力または記録された音声データであるかという特定を
行い、特定された音声データについてディクテーション
処理を行ったりテキスト文を編集処理したりしたいとい
う要望があり、そのため、時間管理が必要であるからで
ある。

【００１５】本発明の第３の実施例は、前記したような
時間管理の問題を解決して、前記したような利用者の要
望に応えようというものである。以下、図７および図８
により、この実施例について説明する。図７はこの実施
例の分散ディクテーションシステムの構成であり、図示
したように、図２に示した第１の実施例の構成に対し
て、端末装置側に時間管理部２０を追加し、また、ホス
トコンピュータ側にマージ処理部２９を追加している。
なお、この実施例では、請求項２記載の音声入力手段、
符号化手段、送信手段、時間管理手段が、それぞれその
順に、マイクロホン１２、符号化部１４、通信処理部１
６、時間管理部２０により実現され、受信手段および返
送手段、復号化手段、テキスト作成手段が、それぞれそ
の順に、通信処理部２６、メッセージ処理部２１、音声
認識エンジン２８により実現される。

【００１６】以下、図８に従って、この実施例の動作を
説明する。図８において、ステップＳ４１〜Ｓ４９は第
１の実施例のステップＳ１〜Ｓ９と同様であるので説明
を省略する。その後、端末装置１はホストコンピュータ
２へ音声認識サービス要求メッセージを送信し（Ｓ５
０）、続いて、起動部１３が、予め決められた間隔で当
該端末装置のシステム時間（現在時刻）を日時情報とし
て時間管理部２０から取得し、通信処理部１６により、
時間通知メッセージをホストコンピュータ２へ送信する
（Ｓ５１）。ホストコンピュータ２では、メッセージを
受信すると（Ｓ５２）、そのメッセージが音声メッセー
ジか時間通知メッセージかを判定し（Ｓ５３）、時間通
知メッセージの場合は（Ｓ５３でＮｏ）、マージ処理部
２９が時間通知メッセージ中に設定されている端末装置
のシステム時間をメモリ内の端末時間一時保存領域に保
存する（Ｓ５４）。なお、この保存領域は２段階構造に
なっており、直前とその一つ前の時間をシフト保存す
る。また、受信したメッセージが音声データであると判
断されたならば（Ｓ５３でＹｅｓ）、第１の実施例と同
様にして音声認識を行う（Ｓ５５）。次に、マージ処理
部２９が、認識処理結果で得たテキストデータを先に一
時保存した端末装置のシステム時間とマージし（Ｓ５
６）、システム時間とテキストデータが一体となったメ
ッセージを端末装置へ送信する（Ｓ５７）。これによ
り、端末装置１においては、このシステム時間とテキス
トデータが一体となったメッセージを受信し（Ｓ５
８）、テキスト管理部１５が、外部記憶装置１７に時間
付テキストデータとして記憶する。また、大型ディスプ
レイ１８に、時間情報を削除してテキストのみ表示する
（図１参照）（Ｓ５９）。こうして、この実施例によれ
ば、発言時の実時間に対して、端末装置・ホストコンピ
ュータ間の通信のために数十ミリ秒から数秒の遅延時
間、音声認識処理のために数十ミリ秒の遅延時間が発生
するにもかかわらず、ほぼ実際に発言したときの時刻付
きで会話のディクテーション結果を得ることができる。
なお、図９に示したように、図７に示した端末装置に、
さらにブロック処理部１９を追加し、第２の実施例の動
作と第３の実施例の動作の両方を行えるようにしてもよ
い。

【００１７】また、本発明の第４の実施例では、第１の
実施例と同様にして、端末装置１において、発言者の音
声をマイクロホン１２により入力し、符号化部１４によ
りＡ／Ｄ変換・符号化圧縮を行い、ホストコンピュータ
２へ送信する際、符号化部１４は、当該端末装置１のシ
ステム時間を時間管理部２０から取得し、図１０の上部
に示した形式で、そのシステム時間をシーケンス番号な
どとともに符号化圧縮した音声データに付加し、外部記
憶装置１７に連続的に記録する。一方、ホストコンピュ
ータ２から送られてきた処理結果のテキストデータを図
１０の下部に示したような形式で連続的に記録する。こ
れにより、時間情報をキーに、録音した音声データとデ
ィクテーション処理したテキストデータの対応を取るこ
とができる。例えば、図１１に示したようにテキスト表
示した部分のシーケンス３の「今日は新しいメンバーの
ハナコ・・・」を指定し、その時間に相当する音声録音
部分の再生を図１０に示した音声記録部分から再生する
のである。以上、本発明の実施例を説明したが、説明し
たような分散ディクテーションシステムを構成している
端末装置用のプログラムおよびホストコンピュータ用の
プログラムをそれぞれ着脱可能な記憶媒体に記憶し、そ
れぞれの記憶媒体をこれまで本発明によった分散ディク
テーション処理を行えなかった端末装置およびホストコ
ンピュータとしての情報処理装置に装着することによ
り、または、そのようなプログラムをネットワークを介
してそのような情報処理装置へ転送することにより、そ
の情報処理装置を用いて本発明によった分散ディクテー
ション処理を行うこともできる。なお、前記において、
着脱可能な記憶媒体とは、例えばＣＤ−ＲＯＭ、ＤＶ
Ｄ、ＣＭＴストリーム・テープなどである。

【００１８】

【発明の効果】以上説明したように、本発明によれば、
請求項１記載の発明では、端末装置において音声認識処
理開始指示が入力され、その音声認識開始指示がホスト
コンピュータに送信され、ホストコンピュータでは、そ
の音声認識処理開始指示に応じて認識処理が行える状態
にされ、準備完了通知が端末装置へ返送され、端末装置
では、その準備完了通知に応じて音声が入力され、入力
された音声が符号化され、符号化された音声データがホ
ストコンピュータへ送信され、ホストコンピュータで
は、受信した音声データが復号化され、復号化された音
声を認識してテキストデータが作成され、作成したテキ
ストデータが端末装置へ返送されるので、音声認識処理
を行うホストコンピュータと、発言者の音声を入力・処
理する端末装置とが分散配置されていても、準備完了状
態のホストコンピュータが、音声入力後直ちに音声認識
を開始することができ、したがって、端末装置において
直ちに認識結果のテキストを表示させることができる。
また、請求項２記載の発明では、端末装置において、入
力された音声が符号化され、音声入力が行われた日時を
示す日時情報と符号化された音声データがホストコンピ
ュータへ送信され、ホストコンピュータでは、受信した
音声データが復号化され、復号化された音声を認識して
テキストデータが作成され、作成されたテキストデータ
とそれに対応した日時情報とが端末装置へ返送され、端
末装置では、ホストコンピュータから返送された日時情
報が管理されるので、時間情報をキーに、録音した音声
データとディクテーション処理したテキストデータの対
応を取る場合、時間のずれがなくなる。また、請求項３
記載の発明では、請求項２記載の発明において、録音し
た音声データとディクテーション処理したテキストデー
タの日時情報が記録されるので、時間情報をキーにして
録音した音声データとディクテーション処理したテキス
トデータの対応を取り、音声認識によるテキスト文字結
果を容易に修正したりすることができる。

【００１９】また、請求項４記載の発明では、端末装置
において、入力された音声が符号化され、符号化され音
声データがホストコンピュータへ送信され、ホストコン
ピュータでは、受信した音声データが復号化され、復号
化された音声を認識してテキストデータが作成され、作
成されたテキストデータが端末装置へ返送され、端末装
置では、受信したテキストデータがブロック化され、ブ
ロック化されたテキストデータが再生表示されるので、
誤認識テキストを人為的に修正する際に、その録音デー
タとホストコンピュータから転送された認識処理結果と
してのテキストデータとの対応を容易に取ることができ
る。また、請求項５記載の発明では、請求項１乃至請求
項４のいずれか１項に記載の分散ディクテーションシス
テムを実現するプログラムを情報処理装置上で実行する
ことができるので、情報処理装置を用いて請求項１乃至
請求項４のいずれか１項に記載の発明の効果を得ること
ができる。また、請求項６記載の発明では、請求項５記
載のプログラムを着脱可能な記憶媒体に記憶することが
できるので、その記憶媒体をこれまで請求項１乃至請求
項４のいずれか１項に記載の発明によった分散ディクテ
ーション処理を行えなかった端末装置およびホストコン
ピュータとしての情報処理装置に装着することにより、
その情報処理装置を用いて請求項１乃至請求項４のいず
れか１項に記載の発明の効果を得ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示す分散ディクテーシ
ョンシステムの説明図。

【図２】本発明の第１の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。

【図３】本発明の第１の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。

【図４】本発明の第２の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。

【図５】本発明の第２の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。

【図６】本発明の第２の実施例を示す分散ディクテーシ
ョンシステムの他の動作フロー図。

【図７】本発明の第３の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。

【図８】本発明の第３の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。

【図９】本発明の第３の実施例を示す分散ディクテーシ
ョンシステムの他の構成ブロック図。

【図１０】本発明の第４の実施例を示す分散ディクテー
ションシステムの説明図。

【図１１】本発明の第４の実施例を示す分散ディクテー
ションシステムの画面図。

【符号の説明】

１端末装置、２ホストコンピュータ、３ネットワ
ーク、１１認識指示ボタン、１２マイクロホン、１
３起動部、１４符号化部、１５テキスト管理部、
１６通信処理部、１７外部記憶装置、１８大型デ
ィスプレイ、１９ブロック処理部、２０時間管理
部、２１メッセージ処理部、２２音声認識部、２８
音声認識エンジン、２９マージ処理部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５５１Ｋ５６１Ｃ５６１Ｈ

Claims

【特許請求の範囲】

【請求項１】ネットワークに接続された端末装置とホ
ストコンピュータとによりディクテーションを行う分散
ディクテーションシステムにおいて、前記ホストコンピュータに対して与える音声認識処理開
始指示を入力させる指示手段と、前記ホストコンピュー
タからの準備完了通知に応じて音声を入力する音声入力
手段と、該音声入力手段により入力された音声を符号化
する符号化手段と、前記音声認識処理開始指示および符
号化された音声データをホストコンピュータへ送信する
送信手段とを前記端末装置に備え、前記端末装置から前記音声認識処理開始指示および音声
データを受信する受信手段と、前記音声認識処理開始指
示に応じて認識処理を行える状態にし、準備完了通知を
前記端末装置へ返送する準備完了通知手段と、受信した
前記音声データを復号化する復号化手段と、復号化され
た音声を認識してテキストデータを作成するテキスト作
成手段と、作成した前記テキストデータを前記端末装置
へ返送する返送手段と、をホストコンピュータに備えた
ことを特徴とする分散ディクテーションシステム。
【請求項２】ネットワークに接続された端末装置とホ
ストコンピュータとによりディクテーションを行う分散
ディクテーションシステムにおいて、音声入力手段により入力された音声を符号化する符号化
手段と、音声入力が行われた日時を示す日時情報を管理
する時間管理手段と、符号化された音声データと前記日
時情報をホストコンピュータへ送信する送信手段と、を
端末装置に備え、前記端末装置から前記音声データおよ
び日時情報を受信する受信手段と、受信した前記音声デ
ータを復号化する復号化手段と、復号化された音声を認
識してテキストデータを作成するテキスト作成手段と、
作成した前記テキストデータと対応した前記日時情報と
を前記端末装置へ返送する返送手段と、をホストコンピ
ュータに備え、端末装置内の前記時間管理手段を、さらに、ホストコン
ピュータから返送された日時情報を管理するように構成
したことを特徴とする分散ディクテーションシステム。
【請求項３】請求項２記載の分散ディクテーションシ
ステムにおいて、前記時間管理手段により管理された日
時情報を記録手段に記録する構成にしたことを特徴とす
る分散ディクテーションシステム。
【請求項４】ネットワークに接続された端末装置とホ
ストコンピュータとによりディクテーションを行う分散
ディクテーションシステムにおいて、音声入力手段により入力された音声を符号化する符号化
手段と、符号化され音声データをホストコンピュータへ
送信する送信手段と、受信したテキストデータをブロッ
ク化するブロック化手段と、該ブロック化手段によりブ
ロック化されたテキストデータを再生表示するモニタ表
示手段とを端末装置に備え、前記端末装置から音声データを受信する受信手段と、受
信した前記音声データを復号化する復号化手段と、復号
化された音声を認識してテキストデータを作成するテキ
スト作成手段と、作成した前記テキストデータを前記端
末装置へ返送する返送手段と、をホストコンピュータに
備えたことを特徴とする分散ディクテーションシステ
ム。
【請求項５】情報処理装置上で実行されるプログラム
において、請求項１乃至請求項４のいずれか１項に記載
の分散ディクテーションシステムを実現するプログラム
であることを特徴とするプログラム。
【請求項６】プログラムを記憶した記憶媒体におい
て、請求項５記載のプログラムを記憶したことを特徴と
する記憶媒体。