JP2003316375A - 分散ディクテーションシステム、プログラム及び記憶媒体 - Google Patents

分散ディクテーションシステム、プログラム及び記憶媒体

Info

Publication number
JP2003316375A
JP2003316375A JP2002126494A JP2002126494A JP2003316375A JP 2003316375 A JP2003316375 A JP 2003316375A JP 2002126494 A JP2002126494 A JP 2002126494A JP 2002126494 A JP2002126494 A JP 2002126494A JP 2003316375 A JP2003316375 A JP 2003316375A
Authority
JP
Japan
Prior art keywords
voice
host computer
terminal device
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002126494A
Other languages
English (en)
Inventor
Toshihiko Umeda
俊彦 楳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002126494A priority Critical patent/JP2003316375A/ja
Publication of JP2003316375A publication Critical patent/JP2003316375A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識処理を行うホストコンピュータと、
発言者の音声を入力する複数の端末装置を分散配置した
分散ディクテーションシステムにおいて、例えば音声認
識結果のテキストを端末装置で容易に修正できるように
する。 【解決手段】 分散ディクテーションシステムにおい
て、音声認識処理開始指示を入力させる認識指示ボタン
11、準備完了通知に応じて音声を入力するマイク1
2、入力された音声を符号化する符号化部14、前記音
声認識処理開始指示および符号化された音声データをホ
ストコンピュータ2へ送信する通信処理部16を端末装
置1に備え、受信した音声認識処理開始指示に応じて認
識処理を行える状態にして準備完了通知を端末装置1へ
返送させ、受信した前記音声データを復号化するメッセ
ージ処理部21、復号化された音声を認識してテキスト
データを作成する音声認識エンジン28、そのテキスト
データを端末装置1へ返送する通信処理部26をホスト
コンピュータ2に備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を入力す
る装置とディクテーション処理を行う装置とがLANま
たは広域ネットワークを介して接続された別々の装置で
構成された分散ディクテーションシステムに関し、特に
リアルタイム処理が可能な分散ディクテーションシステ
ムに関するものである。
【0002】
【従来の技術】ディクテーションシステムを音声入力部
と音声認識部の配置形態で分類し、さらに処理時間で分
類すると、 単一配置型 バッチ処理型 単一配置型 リアルタイム処理型(例えば音声ワードプ
ロセッシング) 分散配置型 バッチ処理型(例えば特開平11−506
253号記載のもの) 分散配置型 リアルタイム処理型(例えば、TV会議、
電話の言語変換) に分けられる。前記において、バッチ処理とは、まず、
音声を入力して記憶し、その後、記憶しておいた音声デ
ータを読み出して音声認識処理を行うものであり、リア
ルタイム処理とは、音声を入力しながら、並行して音声
認識処理を行い、その結果を返すものである。また、単
一配置型とは、一つの装置内において音声入力と音声認
識の両方を行う配置形態のものである。前記した4つの
型のうち、本発明の分散ディクテーションシステムは分
散配置型のリアルタイム処理型に属する。なお、さら
に、話者が特定されるものか、不特定なものかにより特
定話者、不特定話者対応型に分けられるが、本発明では
話者は問わない。一方、本発明に係わる音声認識につい
ては、認識率向上のために、認識アルゴリズムの改良、
参照データの多量具備および改良などが行われており、
近年、認識率が実用レベルと言える水準へ到達しつつあ
る。このうち、参照データを多量に具備して認識率向上
を図る例としては、特開2000−516749公報に
示された「語構成源テキストを語構成目標テキストに翻
訳する機械構成の方法及び装置」があるが、この従来技
術では、辞書モデル、位置合わせモデル、および言語モ
デルを並列に参照・処理することにより、認識パターン
に合致する確率値の最大を求める。また、特開平6−3
18096号公報に示された「言語モデリングシステム
及び言語モデルを形成する方法」も同様のカテゴリの従
来技術であり、良好な認識結果が期待される。
【0003】さらに、このような音声認識技術を利用し
た従来技術として、複数の音声入力装置を分散配置し、
音声認識処理装置を共有利用するシステムが提供されて
いる。例えば、中継を行う交換機に相当する装置におい
て、TV会議や電話会議の言語変換、つまり、言語翻訳
サービスを行うものである。この従来技術では、発言者
の音声を認識して、いったん内部文字化し、その文字を
音声合成して話し相手側に音響伝送する。しかし、発言
者自身にその音声認識内容を戻す構成は相互会話では基
本的に無意味であるし、会話の妨害になるので、提供さ
れていない。また、音声認識技術を利用した他の従来技
術として、ディクテーション処理を分散処理する技術が
特開平11−506253号公報に示された「音声信号
を記憶するディクテーション装置」に示唆開示されてい
る。しかし、この従来技術はバッチ処理型で、本発明の
属するリアルタイム処理分野には適用が難しい。
【0004】
【発明が解決しようとする課題】しかしながら、前記し
た、参照データを多量に具備する音声認識技術について
は、日々増加する参照データを管理する負担が大きく、
さらに、参照データ自体の記憶容量コストが大きいとい
う問題があり、この解決が望まれている。そこで、参照
データの管理を一元化し、音声認識を行う1台のホスト
コンピュータと、発言者の音声を入力処理する複数台の
端末装置を分散配置し、ホストコンピュータを共有して
用いれば、参照データの管理が総合的に軽くなる。しか
し、その場合、音声入力後、端末装置において直ちに認
識結果のテキストを表示させることができないとか、前
記端末装置において、ある程度の誤認識がところどころ
に混在したテキスト部分を修正しづらいという新たな問
題が発生する。つまり、元の発言内容を聞き直して人為
的に誤認識テキストを修正する際に、その端末装置にお
ける録音データと、ホストコンピュータから転送される
認識処理結果としてのディクテーションテキストとの対
応を取る手段がないために使い勝手が悪くなり、さら
に、同様の理由で、例えば録音部分の頭出しをテキスト
文字に対応させて行うというような、録音データとディ
クテーションテキストとを連携させる付加価値技術の開
発を妨げている。本発明の目的は、このような従来技術
の問題を解決することであり、具体的には、音声認識処
理を行うホストコンピュータと、発言者の音声を入力・
処理する複数の端末装置を分散配置し、ホストコンピュ
ータをネットワーク接続で共有利用する分散ディクテー
ションシステムにおいて、適切なタイミングで音声入力
を開始させることにより、音声入力後、端末装置におい
て直ちに認識結果のテキストを表示させることができる
ようにしたり、音声認識によるテキスト文字結果を容易
に修正できるようにしたりすることにある。
【0005】
【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、ネットワークに接続さ
れた端末装置とホストコンピュータとによりディクテー
ションを行う分散ディクテーションシステムにおいて、
ホストコンピュータに対して与える音声認識処理開始指
示を入力させる指示手段と、ホストコンピュータからの
準備完了通知に応じて音声を入力する音声入力手段と、
その音声入力手段により入力された音声を符号化する符
号化手段と、前記音声認識処理開始指示および符号化さ
れた音声データをホストコンピュータへ送信する送信手
段とを前記端末装置に備え、前記端末装置から前記音声
認識処理開始指示および音声データを受信する受信手段
と、前記音声認識処理開始指示に応じて認識処理を行え
る状態にし、準備完了通知を前記端末装置へ返送する準
備完了通知手段と、受信した前記音声データを復号化す
る復号化手段と、復号化された音声を認識してテキスト
データを作成するテキスト作成手段と、作成した前記テ
キストデータを前記端末装置へ返送する返送手段とをホ
ストコンピュータに備えたことを特徴とする。また、請
求項2記載の発明では、ネットワークに接続された端末
装置とホストコンピュータとによりディクテーションを
行う分散ディクテーションシステムにおいて、音声入力
手段により入力された音声を符号化する符号化手段と、
音声入力が行われた日時を示す日時情報を管理する時間
管理手段と、符号化された音声データと前記日時情報を
ホストコンピュータへ送信する送信手段とを端末装置に
備え、前記端末装置から前記音声データおよび日時情報
を受信する受信手段と、受信した前記音声データを復号
化する復号化手段と、復号化された音声を認識してテキ
ストデータを作成するテキスト作成手段と、作成した前
記テキストデータと対応した前記日時情報とを前記端末
装置へ返送する返送手段とをホストコンピュータに備
え、端末装置内の前記時間管理手段を、さらに、ホスト
コンピュータから返送された日時情報を管理するように
構成したことを特徴とする。また、請求項3記載の発明
では、請求項2記載の発明において、前記時間管理手段
により管理された日時情報を記録手段に記録する構成に
したことを特徴とする。また、請求項4記載の発明で
は、ネットワークに接続された端末装置とホストコンピ
ュータとによりディクテーションを行う分散ディクテー
ションシステムにおいて、音声入力手段により入力され
た音声を符号化する符号化手段と、符号化され音声デー
タをホストコンピュータへ送信する送信手段と、受信し
たテキストデータをブロック化するブロック化手段と、
そのブロック化手段によりブロック化されたテキストデ
ータを再生表示するモニタ表示手段とを端末装置に備
え、前記端末装置から音声データを受信する受信手段
と、受信した前記音声データを復号化する復号化手段
と、復号化された音声を認識してテキストデータを作成
するテキスト作成手段と、作成した前記テキストデータ
を前記端末装置へ返送する返送手段とをホストコンピュ
ータに備えたことを特徴とする。また、請求項5記載の
発明では、情報処理装置上で実行されるプログラムにお
いて、請求項1乃至請求項4のいずれか1項に記載の分
散ディクテーションシステムを実現するプログラムとし
たことを特徴とする。また、請求項6記載の発明では、
プログラムを記憶した記憶媒体において、請求項5記載
のプログラムを記憶したことを特徴とする。
【0006】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の第1の実施例を
示す分散ディクテーションシステムの説明図である。図
示したように、この実施例の分散ディクテーションシス
テムでは、広域ネットワーク(複数の通信網にまたがる
通信を可能にするインターネットプロトコルを用いたネ
ットワーク、以下、単にネットワークと称す)3などに
接続された端末装置1において、例えば3名の会議出席
者がそれぞれ、議題に対する発言を述べ合う。その際、
議長または書記が、ホワイトボードや電子黒板、または
会議場所に備えられた書き込み機能付き大型ディスプレ
イを用いて発言者の意見を「板書き」する。この端末装
置1はマイクロホンを備え、マイクロホンからの音声入
力内容を、ネットワーク3を介してホストコンピュータ
2へ送信し、そのホストコンピュータ2において音声認
識を行い、その認識結果を端末装置1へテキストデータ
で返す。そして、端末装置1の大型ディスプレイ18に
発言録テキストを表示する。
【0007】図2に、端末装置1およびホストコンピュ
ータ2の構成を示す。図示したように、この端末装置1
は、音声認識処理を起動させるための認識指示ボタン1
1、音声を入力するマイクロホン12、前記認識指示ボ
タン11からの信号を検出して音声認識処理を起動させ
る起動部13、前記マイクロホン12により入力された
音声を符号化して音声データを生成する符号化部14、
ホストコンピュータ2から送られてきたテキストデータ
を表示させたり保存・管理したりするテキスト管理部1
5、ネットワーク3に接続されているホストコンピュー
タ2や他の端末装置1との通信のための通信処理を行う
通信処理部16、外部記憶装置(例えばハードディスク
装置)17、および大型ディスプレイ18などを備えて
いる。なお、端末装置1のうち矩形で囲んだ部分は端末
装置本体である。また、この実施例では、請求項1記載
の指示手段、音声入力手段、符号化手段、および送信手
段が、それぞれその順に、認識指示ボタン11および起
動部13、マイクロホン12、符号化部14、および通
信処理部16により実現される。また、ホストコンピュ
ータ2は、受信したメッセージを処理するメッセージ処
理部21、受信した音声データについて音声認識を行う
音声認識部22、その音声認識の際に用いる音響モデ
ル、ボキャブラリ、言語モデルの各データを記憶する参
照メモリ23、24、25、ネットワーク3に接続され
ている各端末装置1などとの通信のための通信処理を行
う通信処理部26、外部記憶装置27などを備える。な
お、前記音声認識部22および参照メモリ23、24、
25は音声認識エンジン28を構成する。また、この実
施例では、請求項1記載の受信手段および返送手段、準
備完了通知手段および復号化手段、テキスト作成手段、
返送手段が、それぞれその順に、通信処理部26、メッ
セージ処理部21、音声認識エンジン28により実現さ
れる。
【0008】図3に、この実施例の動作フローを示す。
以下、図3に従って、この実施例の動作を説明する。ま
ず、会議参加者が、ホストコンピュータ2における音声
認識を起動させるために、端末装置1に備えた認識指示
ボタン11を押す。これにより、起動部12は、認識指
示ボタン11が押されたことを検知し、予め設定されて
いる当該端末装置1の端末ID(端末識別符号)を含む
音声認識サービス要求を通信処理部16に渡す。こうし
て、通信処理部16は、ホストコンピュータ2のアドレ
スを宛先として指定してメッセージ送出する(S1)。
なお、この要求プロトコルとしては、例えばITU H.450
シリーズに規定された手順を用いる。また、通信媒体は
ネットワーク中のLANについては例えばイーサネット
(登録商標)ケーブルであり、このようなLANと公衆
網を用いたIPベースの通信を行う。これにより、ホス
トコンピュータ2では、通信処理部26により、端末装
置1からのメッセージを受信し(S2)、メッセージ処
理部21がそのメッセージ内容を処理する。つまり、受
信したメッセージが音声認識サービス要求か否かを判定
し(S3)、そうであれば(S3でYes)、送信元端
末装置1のユーザーIDを自己の(または別のホストコ
ンピュータの)外部記憶装置27に蓄えたユーザーデー
タベース(DB)と照合してサービス提供の可否を確認
する(S4)。そして、可であれば、音声認識部(音声
認識モジュール)22を起動し(S5)、その音声認識
エンジン28が用いる音響モデル、ボキャブラリ、言語
モデルの各データを参照メモリ23、24、25に展開
し、音声認識エンジン28の作業準備を完了する(S
6)。この準備完了で、音声認識部22は端末装置1の
アドレスを宛先として指定し、準備完了通知メッセージ
を通信処理部26を用いて送出する(S7)。こうし
て、端末装置1では、テキスト管理部15が、この準備
完了通知メッセージを通信処理部16を介して受信し
(S8)、ホストコンピュータ2の音声認識処理の準備
完了をGUI(グラフィックユーザーインタフェース)
による表示、LED(発光ダイオード)による表示、ま
たは音響ブザーなどにより利用者に知らせる(S9)。
これに応じて、利用者は、マイクロホン12を用いて、
例えば「いちばんめのあんわ しすてむのぜんめんこう
しん」、少し間を置き、「けんとうきげんわねんまつ」
というように発言を開始する。そして、入力された音声
信号を符号化部14においてA/D変換し、符号化圧縮
処理を行い、予め規定されたフレーム単位でホストコン
ピュータ2へ送信する(S10)。例えば、ITUで規
定されたG.722 SB-ADPCM方式で音声の圧縮処理を行い、
通信処理部16により、7KHz帯域の音質を64Kb
psで送信するのである。
【0009】ホストコンピュータ2では、通信処理部2
6がメッセージを受信すると(S11)、音声データか
否かを判定し(S12)、音声データであれば(S12
でYes)、メッセージ処理部21が、適切な受信バッ
ファリングを行い、バッファリングした圧縮音声データ
を音声認識部22に適する形式のデータに復号化する。
そして、音声認識を実行する(S13)。つまり、音声
認識部22は参照メモリ23、24、25に展開した音
響モデル、ボキャブラリ、言語モデルの各データを参照
し、言語理解を行うのである。続いて、音声認識部22
はその認識結果をテキスト化し、「一番目の案はシステ
ムの全面更新」「検討期限は年末」を得る。そして、こ
の認識結果のテキストメッセージを端末装置1のアドレ
スを宛先として指定して、通信処理部26を用いて送信
する(S14)。こうして、端末装置1において、この
認識結果メッセージを通信処理部16により受信し(S
15)、テキスト管理部15が、受信したテキストデー
タを外部記憶装置17に記憶する。または、そのテキス
トを大型ディスプレイ18に図1に示したように表示す
る(S16)。なお、前記において、ITU H.450シリー
ズに規定された手順は一例であり、独自の処理手順を用
いてもよく、さらに、G.722 SB-ADPCM方式の符号化(コ
ード化)形式は、G.727「the Packetized Voice Protoc
ol(PVP)」に従う形式、他のITU規定形式、また
はIMTC(International Multimedia Teleconferenc
ing Consortium)で定めた形式でもよい。また、ホスト
コンピュータ2は従来型のメインフレームやUNIX
(登録商標)−OSのワークステーション、またはWi
ndowsNT(登録商標)、Windows(登録商
標)2000/XPなどのプラットフォームでもよく、
音声認識部22を共用利用すれば、本発明によった分散
ディクテーションシステムを構成するホストコンピュー
タとして用いることができる。
【0010】また、音響モデル、ボキャブラリ、言語モ
デルの各データをホストコンピュータ2に直接バス接続
された外部記憶装置27に格納する必要はなく、NAS
(Network Attached Storage)や別のホストコンピュー
タのデータべースに格納されたものを呼び出し、呼び出
した各データを参照メモリ23、24、25に展開する
構成でもよい。また、通信媒体はIPV4またはIPV
6のIPベースの通信を行う銅線ケーブル、光ファイバ
ケーブル、赤外線または電波でもよく、媒体の種別を特
定するものではない。また、認識指示ボタン11は電気
的スイッチで構成するほか、端末装置1に備えたキーボ
ード(図示せず)に割り当てたファンクションキー、ま
たはマウスやタッチパネルなどにより指示される表示さ
れたアイコンで構成してもよい。また、マイクロホン1
2は1本を参加者で共用してもよいし、複数のマイクロ
ホン12をミキサーに接続して各人に配置してもよい。
なお、このミキサーは単純な混合タイプではなく、入力
選択式であり、例えば、オーディオテクニカ社AT-MX35
1、またはATCS-50とATCS-C50の組み合わせを用いる。さ
らに、先の認識指示ボタン11はATCS-50に備えたマイ
ク選択ボタンと兼用し、各人の発言毎に手動でボタンを
押すことでトリガーを与えてもよい。また、ネットワー
クは複数のネットワークにまたがった広域ネットワーク
でなく、LANのみの構成でもよい。こうして、この実
施例によれば、音声認識処理を行うホストコンピュータ
と、発言者の音声を入力・処理する複数の端末装置とが
分散配置されていても、準備完了通知を待って音声入力
を開始することにより、音声入力後直ちに音声認識を開
始することができ、したがって、端末装置において直ち
に認識結果のテキストを表示させることができ、以後、
音声入力に対して実用に耐える応答性でディクテーショ
ン結果としてのテキスト表示を行うことができる。
【0011】次に、本発明の第2の実施例について説明
する。図4は第2の実施例を示す端末装置1aの構成ブ
ロックである。図示したように、この実施例の端末装置
1aは、第1の実施例の構成(図2参照)に加えてブロ
ック処理部19を備え、端末装置1aにテキストデータ
をバッファリングし、ブロック単位の表示を行う。な
お、この実施例では、請求項4記載の音声入力手段、符
号化手段、送信手段、ブロック化手段、モニタ表示手段
が、それぞれその順に、マイクロホン12、符号化部1
4、通信処理部16、大型ディスプレイ18により実現
され、受信手段および返送手段、復号化手段、テキスト
作成手段が、それぞれその順に、通信処理部26、メッ
セージ処理部21、音声認識エンジン28により実現さ
れる。このような構成で、この実施例では、音声で入力
され、テキスト化されるデータを時系列でブロック化
し、それぞれのブロックを所定のルールに従って数が増
えるシーケンス番号で管理し、同一シーケンス番号に属
するテキストデータを同一ブロックに属するテキストと
して表示する。なお、前記所定のルールとは、認識指示
ボタン11が押下され続けていれば(認識指示状態であ
れば)、所定の押下時間までは同一シーケンス番号とす
るということである。図5に、ブロック処理部19など
により実行されるシーケンス番号生成の動作フローを示
す。この実施例では、起動部11は検出した認識指示ボ
タン11の状態をブロック処理部19に与えるように構
成しており、図5に示したように、ブロック処理部19
は起動部11により与えられる認識指示ボタン11の状
態を周期的に取得し(S21)、認識指示状態(押下状
態)であれば(S22でYes)、メモリ(例えばRA
M)の所定領域に設けた時間カウンタが所定の値に達し
ているか否かににより、認識指示状態開始から所定の時
間が経過しているか否かを判定する(S23)。そし
て、経過していなければ(S23でNo)、時間カウン
タの値を1増やし(インクリメントし)(S24)、所
定周期後にステップS21から繰り返す。それに対し
て、ステップS23において、所定の時間が経過してい
ると判定されたならば(S23でYes)、時間カウン
タをリセットし(値を0にし)(S25)、さらに、シ
ーケンスカウンタをインクリメントしてシーケンス番号
を1増やす(S27)。一方、ステップS22におい
て、認識指示状態でないと判定されたならば(S22で
No)、時間カウンタを停止させ、リセットし(S2
6)、さらに、シーケンスカウンタをインクリメントし
てシーケンス番号を1増やす(S27)。
【0012】次に、図6に示した動作フローに従って、
前記したようなシーケンス番号を用いて行うブロック化
表示の動作を説明する。なお、この実施例では、テキス
ト管理部15は、ホストコンピュータ2から準備完了通
知メッセージ(第1の実施例のステップS7参照)やテ
キストデータを受信したとき、その旨をブロック処理部
19に通知する。そのような構成で、この実施例では、
まず、ブロック処理部19がテキスト管理部15からの
受信通知を待つ(S31)。そして、受信通知があり、
その受信通知が準備完了通知メッセージであるならば
(S32でYes)、音声認識処理の準備完了をGUI
(グラフィックユーザーインタフェース)を用いて表示
し、利用者に知らせる(S33)。また、受信通知がテ
キストデータの受信通知であるならば(S32でN
o)、シーケンス番号が前回のシーケンス番号確認時
(前回のこのステップ実行時)と同一か否かを判定する
(S34)。こうして、シーケンス番号が同一であると
判定されたならば(S34でYes)、ブロック処理部
19は受信したテキストデータをバッファメモリに蓄え
(S36)、ステップS31に戻り、次のテキストデー
タ受信を待つ。それに対して、テキストデータの受信が
回を重ねるうちに、ステップS34において、シーケン
ス番号が同一でないと判定されたならば(S34でN
o)、ブロック処理部19はバッファメモリに蓄えたテ
キストデータを一つのブロックとして大型ディスプレイ
18に表示し、さらに、図4の右上に示した表示例のよ
うに囲み線で囲み、認識したテキストが同一ブロックで
あることを利用者に判りやすく表示する。
【0013】なお、前記した囲み線表示に当たっては、
バッファメモリに蓄えたテキストデータを表示する際に
その文字数を数え、さらに、表示する文字のフォントの
大きさから囲み枠の大きさを求める。例えば、縦横の大
きさが48×42(dot)のフォントを1行に20文
字で3行表示すると、囲み枠の大きさは、縦:48×3
=144(dot)となり、横:42×20=840
(dot)となる。この縦:144(dot)横:84
0(dot)の枠を左上の文字位置から描画することで
得られる。また、ブロック処理部19は文字の表示配置
に関するレイアウト情報も備えている。例えば、 1〜10文字:1行 11〜20文字:1行あたり10文字で2行 21〜30文字:1行あたり10文字で3行 というようなレイアウトテーブルを備えるのである。表
示配置の好みにより、このようなレイアウトテーブルを
複数種類備え、音声認識開始前にブロック処理部19に
指示していずれかのレイアウトテーブルを選択すること
も可能である。このようなレイアウト表示によれば、一
つのブロックに属する発言内容のテキストをカード風に
表示でき、従来必要であった書記役の利用者の手間を省
くことができる。こうして、この実施例によれば、利用
者の意図通りにテキストをブロック化することができる
ので、例えば、端末装置において、その端末装置におけ
る録音データを用いて元の発言内容を聞き直し、誤認識
テキストを人為的に修正する際に、その録音データとホ
ストコンピュータから転送された認識処理結果としての
テキストデータとの対応を容易に取ることができる。
【0014】ところで、ネットワークシステムにおいて
は伝送遅延が存在し、その遅延時間はネットワークトラ
フィックにより刻一と変化することが知られている。そ
のため、ネットワークに接続された各端末装置/コンピ
ュータでは時間管理を行っているが、各端末装置/コン
ピュータで微妙にその管理時間が異なる。そこで、各端
末装置/コンピュータ間の時間合わせも提案されるに至
っているが、どの提案も、実施においては、合理的メリ
ットが見出せず、現在においては時間管理は相変わらず
各各端末装置/コンピュータの管理者に任されているの
が現状である。この問題は本発明が係わる分散ディクテ
ーションシステムにおいても同様である。というのは、
ネットワーク上に配置された端末装置1とホストコンピ
ュータ2で音声認識処理を分散的に実施する場合、いつ
入力または記録された音声データであるかという特定を
行い、特定された音声データについてディクテーション
処理を行ったりテキスト文を編集処理したりしたいとい
う要望があり、そのため、時間管理が必要であるからで
ある。
【0015】本発明の第3の実施例は、前記したような
時間管理の問題を解決して、前記したような利用者の要
望に応えようというものである。以下、図7および図8
により、この実施例について説明する。図7はこの実施
例の分散ディクテーションシステムの構成であり、図示
したように、図2に示した第1の実施例の構成に対し
て、端末装置側に時間管理部20を追加し、また、ホス
トコンピュータ側にマージ処理部29を追加している。
なお、この実施例では、請求項2記載の音声入力手段、
符号化手段、送信手段、時間管理手段が、それぞれその
順に、マイクロホン12、符号化部14、通信処理部1
6、時間管理部20により実現され、受信手段および返
送手段、復号化手段、テキスト作成手段が、それぞれそ
の順に、通信処理部26、メッセージ処理部21、音声
認識エンジン28により実現される。
【0016】以下、図8に従って、この実施例の動作を
説明する。図8において、ステップS41〜S49は第
1の実施例のステップS1〜S9と同様であるので説明
を省略する。その後、端末装置1はホストコンピュータ
2へ音声認識サービス要求メッセージを送信し(S5
0)、続いて、起動部13が、予め決められた間隔で当
該端末装置のシステム時間(現在時刻)を日時情報とし
て時間管理部20から取得し、通信処理部16により、
時間通知メッセージをホストコンピュータ2へ送信する
(S51)。ホストコンピュータ2では、メッセージを
受信すると(S52)、そのメッセージが音声メッセー
ジか時間通知メッセージかを判定し(S53)、時間通
知メッセージの場合は(S53でNo)、マージ処理部
29が時間通知メッセージ中に設定されている端末装置
のシステム時間をメモリ内の端末時間一時保存領域に保
存する(S54)。なお、この保存領域は2段階構造に
なっており、直前とその一つ前の時間をシフト保存す
る。また、受信したメッセージが音声データであると判
断されたならば(S53でYes)、第1の実施例と同
様にして音声認識を行う(S55)。次に、マージ処理
部29が、認識処理結果で得たテキストデータを先に一
時保存した端末装置のシステム時間とマージし(S5
6)、システム時間とテキストデータが一体となったメ
ッセージを端末装置へ送信する(S57)。これによ
り、端末装置1においては、このシステム時間とテキス
トデータが一体となったメッセージを受信し(S5
8)、テキスト管理部15が、外部記憶装置17に時間
付テキストデータとして記憶する。また、大型ディスプ
レイ18に、時間情報を削除してテキストのみ表示する
(図1参照)(S59)。こうして、この実施例によれ
ば、発言時の実時間に対して、端末装置・ホストコンピ
ュータ間の通信のために数十ミリ秒から数秒の遅延時
間、音声認識処理のために数十ミリ秒の遅延時間が発生
するにもかかわらず、ほぼ実際に発言したときの時刻付
きで会話のディクテーション結果を得ることができる。
なお、図9に示したように、図7に示した端末装置に、
さらにブロック処理部19を追加し、第2の実施例の動
作と第3の実施例の動作の両方を行えるようにしてもよ
い。
【0017】また、本発明の第4の実施例では、第1の
実施例と同様にして、端末装置1において、発言者の音
声をマイクロホン12により入力し、符号化部14によ
りA/D変換・符号化圧縮を行い、ホストコンピュータ
2へ送信する際、符号化部14は、当該端末装置1のシ
ステム時間を時間管理部20から取得し、図10の上部
に示した形式で、そのシステム時間をシーケンス番号な
どとともに符号化圧縮した音声データに付加し、外部記
憶装置17に連続的に記録する。一方、ホストコンピュ
ータ2から送られてきた処理結果のテキストデータを図
10の下部に示したような形式で連続的に記録する。こ
れにより、時間情報をキーに、録音した音声データとデ
ィクテーション処理したテキストデータの対応を取るこ
とができる。例えば、図11に示したようにテキスト表
示した部分のシーケンス3の「今日は新しいメンバーの
ハナコ・・・」を指定し、その時間に相当する音声録音
部分の再生を図10に示した音声記録部分から再生する
のである。以上、本発明の実施例を説明したが、説明し
たような分散ディクテーションシステムを構成している
端末装置用のプログラムおよびホストコンピュータ用の
プログラムをそれぞれ着脱可能な記憶媒体に記憶し、そ
れぞれの記憶媒体をこれまで本発明によった分散ディク
テーション処理を行えなかった端末装置およびホストコ
ンピュータとしての情報処理装置に装着することによ
り、または、そのようなプログラムをネットワークを介
してそのような情報処理装置へ転送することにより、そ
の情報処理装置を用いて本発明によった分散ディクテー
ション処理を行うこともできる。なお、前記において、
着脱可能な記憶媒体とは、例えばCD−ROM、DV
D、CMTストリーム・テープなどである。
【0018】
【発明の効果】以上説明したように、本発明によれば、
請求項1記載の発明では、端末装置において音声認識処
理開始指示が入力され、その音声認識開始指示がホスト
コンピュータに送信され、ホストコンピュータでは、そ
の音声認識処理開始指示に応じて認識処理が行える状態
にされ、準備完了通知が端末装置へ返送され、端末装置
では、その準備完了通知に応じて音声が入力され、入力
された音声が符号化され、符号化された音声データがホ
ストコンピュータへ送信され、ホストコンピュータで
は、受信した音声データが復号化され、復号化された音
声を認識してテキストデータが作成され、作成したテキ
ストデータが端末装置へ返送されるので、音声認識処理
を行うホストコンピュータと、発言者の音声を入力・処
理する端末装置とが分散配置されていても、準備完了状
態のホストコンピュータが、音声入力後直ちに音声認識
を開始することができ、したがって、端末装置において
直ちに認識結果のテキストを表示させることができる。
また、請求項2記載の発明では、端末装置において、入
力された音声が符号化され、音声入力が行われた日時を
示す日時情報と符号化された音声データがホストコンピ
ュータへ送信され、ホストコンピュータでは、受信した
音声データが復号化され、復号化された音声を認識して
テキストデータが作成され、作成されたテキストデータ
とそれに対応した日時情報とが端末装置へ返送され、端
末装置では、ホストコンピュータから返送された日時情
報が管理されるので、時間情報をキーに、録音した音声
データとディクテーション処理したテキストデータの対
応を取る場合、時間のずれがなくなる。また、請求項3
記載の発明では、請求項2記載の発明において、録音し
た音声データとディクテーション処理したテキストデー
タの日時情報が記録されるので、時間情報をキーにして
録音した音声データとディクテーション処理したテキス
トデータの対応を取り、音声認識によるテキスト文字結
果を容易に修正したりすることができる。
【0019】また、請求項4記載の発明では、端末装置
において、入力された音声が符号化され、符号化され音
声データがホストコンピュータへ送信され、ホストコン
ピュータでは、受信した音声データが復号化され、復号
化された音声を認識してテキストデータが作成され、作
成されたテキストデータが端末装置へ返送され、端末装
置では、受信したテキストデータがブロック化され、ブ
ロック化されたテキストデータが再生表示されるので、
誤認識テキストを人為的に修正する際に、その録音デー
タとホストコンピュータから転送された認識処理結果と
してのテキストデータとの対応を容易に取ることができ
る。また、請求項5記載の発明では、請求項1乃至請求
項4のいずれか1項に記載の分散ディクテーションシス
テムを実現するプログラムを情報処理装置上で実行する
ことができるので、情報処理装置を用いて請求項1乃至
請求項4のいずれか1項に記載の発明の効果を得ること
ができる。また、請求項6記載の発明では、請求項5記
載のプログラムを着脱可能な記憶媒体に記憶することが
できるので、その記憶媒体をこれまで請求項1乃至請求
項4のいずれか1項に記載の発明によった分散ディクテ
ーション処理を行えなかった端末装置およびホストコン
ピュータとしての情報処理装置に装着することにより、
その情報処理装置を用いて請求項1乃至請求項4のいず
れか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示す分散ディクテーシ
ョンシステムの説明図。
【図2】本発明の第1の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。
【図3】本発明の第1の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。
【図4】本発明の第2の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。
【図5】本発明の第2の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。
【図6】本発明の第2の実施例を示す分散ディクテーシ
ョンシステムの他の動作フロー図。
【図7】本発明の第3の実施例を示す分散ディクテーシ
ョンシステムの構成ブロック図。
【図8】本発明の第3の実施例を示す分散ディクテーシ
ョンシステムの動作フロー図。
【図9】本発明の第3の実施例を示す分散ディクテーシ
ョンシステムの他の構成ブロック図。
【図10】本発明の第4の実施例を示す分散ディクテー
ションシステムの説明図。
【図11】本発明の第4の実施例を示す分散ディクテー
ションシステムの画面図。
【符号の説明】
1 端末装置、2 ホストコンピュータ、3 ネットワ
ーク、11 認識指示ボタン、12 マイクロホン、1
3 起動部、14 符号化部、15 テキスト管理部、
16 通信処理部、17 外部記憶装置、18 大型デ
ィスプレイ、19 ブロック処理部、20 時間管理
部、21 メッセージ処理部、22 音声認識部、28
音声認識エンジン、29 マージ処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 551K 561C 561H

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークに接続された端末装置とホ
    ストコンピュータとによりディクテーションを行う分散
    ディクテーションシステムにおいて、 前記ホストコンピュータに対して与える音声認識処理開
    始指示を入力させる指示手段と、前記ホストコンピュー
    タからの準備完了通知に応じて音声を入力する音声入力
    手段と、該音声入力手段により入力された音声を符号化
    する符号化手段と、前記音声認識処理開始指示および符
    号化された音声データをホストコンピュータへ送信する
    送信手段とを前記端末装置に備え、 前記端末装置から前記音声認識処理開始指示および音声
    データを受信する受信手段と、前記音声認識処理開始指
    示に応じて認識処理を行える状態にし、準備完了通知を
    前記端末装置へ返送する準備完了通知手段と、受信した
    前記音声データを復号化する復号化手段と、復号化され
    た音声を認識してテキストデータを作成するテキスト作
    成手段と、作成した前記テキストデータを前記端末装置
    へ返送する返送手段と、をホストコンピュータに備えた
    ことを特徴とする分散ディクテーションシステム。
  2. 【請求項2】 ネットワークに接続された端末装置とホ
    ストコンピュータとによりディクテーションを行う分散
    ディクテーションシステムにおいて、 音声入力手段により入力された音声を符号化する符号化
    手段と、音声入力が行われた日時を示す日時情報を管理
    する時間管理手段と、符号化された音声データと前記日
    時情報をホストコンピュータへ送信する送信手段と、を
    端末装置に備え、前記端末装置から前記音声データおよ
    び日時情報を受信する受信手段と、受信した前記音声デ
    ータを復号化する復号化手段と、復号化された音声を認
    識してテキストデータを作成するテキスト作成手段と、
    作成した前記テキストデータと対応した前記日時情報と
    を前記端末装置へ返送する返送手段と、をホストコンピ
    ュータに備え、 端末装置内の前記時間管理手段を、さらに、ホストコン
    ピュータから返送された日時情報を管理するように構成
    したことを特徴とする分散ディクテーションシステム。
  3. 【請求項3】 請求項2記載の分散ディクテーションシ
    ステムにおいて、前記時間管理手段により管理された日
    時情報を記録手段に記録する構成にしたことを特徴とす
    る分散ディクテーションシステム。
  4. 【請求項4】 ネットワークに接続された端末装置とホ
    ストコンピュータとによりディクテーションを行う分散
    ディクテーションシステムにおいて、 音声入力手段により入力された音声を符号化する符号化
    手段と、符号化され音声データをホストコンピュータへ
    送信する送信手段と、受信したテキストデータをブロッ
    ク化するブロック化手段と、該ブロック化手段によりブ
    ロック化されたテキストデータを再生表示するモニタ表
    示手段とを端末装置に備え、 前記端末装置から音声データを受信する受信手段と、受
    信した前記音声データを復号化する復号化手段と、復号
    化された音声を認識してテキストデータを作成するテキ
    スト作成手段と、作成した前記テキストデータを前記端
    末装置へ返送する返送手段と、をホストコンピュータに
    備えたことを特徴とする分散ディクテーションシステ
    ム。
  5. 【請求項5】 情報処理装置上で実行されるプログラム
    において、請求項1乃至請求項4のいずれか1項に記載
    の分散ディクテーションシステムを実現するプログラム
    であることを特徴とするプログラム。
  6. 【請求項6】 プログラムを記憶した記憶媒体におい
    て、請求項5記載のプログラムを記憶したことを特徴と
    する記憶媒体。
JP2002126494A 2002-04-26 2002-04-26 分散ディクテーションシステム、プログラム及び記憶媒体 Pending JP2003316375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002126494A JP2003316375A (ja) 2002-04-26 2002-04-26 分散ディクテーションシステム、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002126494A JP2003316375A (ja) 2002-04-26 2002-04-26 分散ディクテーションシステム、プログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2003316375A true JP2003316375A (ja) 2003-11-07

Family

ID=29540894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002126494A Pending JP2003316375A (ja) 2002-04-26 2002-04-26 分散ディクテーションシステム、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2003316375A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005050433A1 (ja) * 2003-11-19 2005-06-02 National Institute Of Information And Communications Technology ネットワーク回線を用いたアナログ信号入出力システム
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
WO2007055233A1 (ja) * 2005-11-08 2007-05-18 Nec Corporation 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
WO2010113438A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 音声認識処理システム、および音声認識処理方法
KR20160004886A (ko) * 2014-07-04 2016-01-13 한국전자통신연구원 모바일 기기를 이용한 음성인식 시스템
JP2020077427A (ja) * 2020-01-14 2020-05-21 ホーチキ株式会社 防災監視設備

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148301A (ja) * 2003-11-13 2005-06-09 Sony Corp 音声処理装置と音声処理方法
WO2005050433A1 (ja) * 2003-11-19 2005-06-02 National Institute Of Information And Communications Technology ネットワーク回線を用いたアナログ信号入出力システム
WO2007055233A1 (ja) * 2005-11-08 2007-05-18 Nec Corporation 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program
WO2010113438A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 音声認識処理システム、および音声認識処理方法
JPWO2010113438A1 (ja) * 2009-03-31 2012-10-04 日本電気株式会社 音声認識処理システム、および音声認識処理方法
US8606574B2 (en) 2009-03-31 2013-12-10 Nec Corporation Speech recognition processing system and speech recognition processing method
JP5533854B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 音声認識処理システム、および音声認識処理方法
KR20160004886A (ko) * 2014-07-04 2016-01-13 한국전자통신연구원 모바일 기기를 이용한 음성인식 시스템
KR102262421B1 (ko) * 2014-07-04 2021-06-08 한국전자통신연구원 모바일 기기를 이용한 음성인식 시스템
JP2020077427A (ja) * 2020-01-14 2020-05-21 ホーチキ株式会社 防災監視設備

Similar Documents

Publication Publication Date Title
US8174559B2 (en) Videoconferencing systems with recognition ability
JP5094804B2 (ja) 会議中継装置及びコンピュータプログラム
JP3237566B2 (ja) 通話方法、音声送信装置及び音声受信装置
AU2003264434B2 (en) Sign language interpretation system and sign language interpretation method
JP2011053629A (ja) 会議中継装置及びコンピュータプログラム
JP2002535932A (ja) マルチメディアメッセージの選択および表示の方法と装置
US20070285505A1 (en) Method and apparatus for video conferencing having dynamic layout based on keyword detection
ES2232188T3 (es) Sistema y metodo para comunicaciones basadas en ip que tiene texto generado a partir del habla.
JP2011065467A (ja) 会議中継装置及びコンピュータプログラム
US20040189791A1 (en) Videophone device and data transmitting/receiving method applied thereto
CN108093653A (zh) 语音提示方法、语音提示程序、语音提示系统及终端装置
JP2003299051A (ja) 情報出力装置および情報出力方法
CN107800860A (zh) 语音处理方法、装置及终端设备
JP2003316375A (ja) 分散ディクテーションシステム、プログラム及び記憶媒体
US6501751B1 (en) Voice communication with simulated speech data
CN109802968A (zh) 一种会议发言系统
KR100945162B1 (ko) 링백톤제공시스템 및 그 방법
JP2002101203A (ja) 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2008028884A (ja) テレビ電話通信をなすコールセンタシステム
JP2004177777A (ja) 議事録作成システム
JPH11272663A (ja) 議事録作成装置及び作成方法及び記録媒体
JP6389348B1 (ja) 音声データ最適化システム
JP6386690B1 (ja) 音声データ最適化システム
JP2004007482A (ja) 電話会議サーバおよび電話会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050421

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080324

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080403

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090804