JP4466666B2

JP4466666B2 - 議事録作成方法、その装置及びそのプログラム

Info

Publication number: JP4466666B2
Application number: JP2007065081A
Authority: JP
Inventors: 周平前川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-14
Filing date: 2007-03-14
Publication date: 2010-05-26
Anticipated expiration: 2027-03-14
Also published as: JP2008225191A; US8082142B2; US20090070102A1

Description

本発明は、議事録を電子的に作成する議事録作成方法、その装置及びそのプログラムに関する。

音声認識と翻訳機能を統合した議事録作成装置は従来存在しない。そこで例えば従来の音声認識を使用し多言語で結果を返すシステムの一例が、特許文献１に記載されている。図１２を参照すると、この発明装置は認識対象の複数の言語の発音辞書１０２および対応する音響モデル１０３と、認識対象の複数の言語の発音辞書１０２で定義される単語を用いて作成された１つの多言語化された認識用文法１０４と、言語に独立な１つの音声分析部１０１および探索部１０５を備え、音声分析部１０１において入力音声から抽出された特徴パラメータに対して、探索部１０５において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果として出力する多言語音声認識方法、装置、およびプログラムである。この発明を議事録作成に応用したとする。その場合、この発明において、ユーザが意識して翻訳用辞書を用意、更新する作業が必要である。
特開２００４−１０１７２７号公報（図１）

多言語間で行われる会議において議事録を作成する場合、会議の参加者が執筆者として会議中に筆記し翻訳のための労力が必要となる。そこで例えば過去の発明において、音声認識による議事録作成が提案されており、この発明を利用して音声認識結果に翻訳機能を適応することで、議事録翻訳に応用することができる。ところが、この施策では発話者の言語で認識されてしまうため、議事録が複数の言語で出力されてしまう問題があった。また、翻訳機能を使用する際、変換元・変換先の翻訳辞書を予め複数用意し、明示的に変換元・変換先言語を指定して翻訳する必要があった。

そこで、本発明は、複数の言語で行われる会議の議事録を作成することが出来る議事録作成方法、その装置及びそのプログラムを提供することを目的とする。

本発明によれば、入力した音声をその言語のテキストデータとする音声認識ステップと、前記テキストデータを所定の言語に翻訳する翻訳ステップと、翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、を備え、前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成方法が提供される。

また、本発明によれば、入力した音声をその言語のテキストデータとする音声認識ステップと、前記テキストデータを所定の言語に翻訳する翻訳ステップと、翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、を備え、前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成方法が提供される。

更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置が提供される。

更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置が提供される。

更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラムが提供される。

更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラムが提供される。

本発明の効果は、会議主催者や会議参加者が明示的に指定をしなくても、確認するのに最適な言語に翻訳して、会議議事録が自動的に作成できることにある。

その理由は、会議開催データと会議参加者のユーザ情報の言語情報から、個々の会議参加者に最も適した翻訳Ｗｅｂサービス接続先を自動的に決定し、翻訳された議事録を取得することができるためである。

以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。

本発明を音声認識ソフトウェアとＷｅｂサービスに適応した具体例で説明する。図８は会議室Ａ、会議室Ｂ、会議開催サーバ・議事録作成サーバ８３０がネットワーク８４０で接続されている。会議開催前に会議主催者８３１が会議開催サーバ８３０にレジュメ等の会議開催情報を登録する（例：会議主催者はアメリカ人で標準英語を話し、主催者が理解できるように標準英語で会議議事録を作成する。会議室Ａの端末８１１を利用する者は標準の日本語を話す者である。会議室Ａの端末８１２の端末８１２を利用する者は関西弁の日本語を話す者である。・・・）。この会議開催情報を集めた会議開催データベースを元に、議題に最も適した言語モデル及び音響モデルを自動的に言語モデル・音響モデル配布Ｗｅｂサービス８５０から選択し、会議開催前に事前にダウンロードを各端末へ行う。また、会議開催データベース８３０を基に、翻訳元情報と翻訳先情報と翻訳における議題に最も適した翻訳先話題を自動的にＷｅｂサービス８６０から選択し、会議開催前に各端末分だけ接続先を決定する。

議題に最も適した翻訳先話題とした具体例としては、例えば英語に翻訳する場合において、化学向けに実施する英語辞書、情報科学向けに実施する英語辞書を想定している。

自動的に選択するためには、次のようなことを行う。すなわち、まず、ＵＲＬのトップドメインで言語圏を決定する（イギリス英語なら.us、日本語へ翻訳するのなら.jp、中国語へ翻訳するのなら.cnを検索する）。この場合、さらにＵＲＬのサブドメインを確認することによりどのような分野のWebサービスかを絞り込む（または、Ｗｅｂサービスへの問い合わせを行い、該当ドメインがどの分野の話題を所持しているかの回答をもらう）。

話題会議室Ａと会議室Ｂの各端末（８１１、８１２、８１３、８２１、８２２）には音声認識プロセスとＩＰ電話サービスが動作しており、端末に接続されたマイクより各国の参加者が会議発言を入力すると、音声がそれぞれの会議室で聞ける。音声認識プロセスは、ダウンロードされた言語モデル・音響モデルに切り替えされた後、音声認識を開始する。これにより自動的に発言者の言語（例：会議参加者８１２が関西弁で発話）毎に最適な認識結果を作成することができる。同時に音声認識結果がネットワーク経由で議事録作成サーバ８３０に送信され、議事録データとして登録される。議事録作成サーバ８３０は議事録を最適な翻訳Ｗｅｂサービス８６０を使用して任意の言語（例：会議参加者８１２が関西弁で発話した内容を標準英語にする）に翻訳することができる。各端末は議事録作成サーバ８３０に接続することにより、翻訳後の議事録を参照することができる。

次に、本発明の実施形態の構成について図面を参照して詳細に説明する。図１を参照すると、本発明の第１の実施形態は、議事録作成部１０とモデル選択部２０と配布Ｗｅｂサービス部３０と翻訳Ｗｅｂサービス４０部を備える。議事録作成部１０は、音声入力手段１０１と、音声認識手段１０２と、議事録作成手段１０３と、議事録表示手段１０４を含む。モデル選択部２０は、会議開催予定入力手段２０１と、会議開催データベース２０２と、モデル選択手段２０３と、翻訳選択手段２０４を含む。配布Ｗｅｂサービス部３０は、言語モデル３０１と、音響モデル３０２と、モデル配布手段３０３を含む。翻訳Ｗｅｂサービス部４０は、翻訳実行手段４０１と、翻訳辞書４０２を含む。

これらの手段はそれぞれ概略つぎのように動作する。会議開催に先立ち、会議の開催情報やレジュメを会議開催予定入力手段２０１にて入力し、会議開催データベース２０２に保存する。モデル選択手段２０３は会議開催データベース２０２の情報を元に適切な配布Ｗｅｂサービス３０を選択し、モデル配布手段３０３にて言語モデル３０１及び音響モデル３０２を議事録作成部１０にダウンロードさせる。翻訳選択手段２０４は、会議開催データベース２０２の情報を元にユーザ毎の認識データ送信先に関して、適切な翻訳実行手段４０１を選択する。音声認識手段１０２は、音声入力手段１０１から入力された発話音声とモデル配布手段３０３から得られた辞書データを元に音声認識プロセスを実行し、認識データを出力し翻訳実行手段４０１に渡す。翻訳実行手段４０１は翻訳判断情報を元に認識データを翻訳し、議事録作成手段１０３に翻訳済み認識データとして送信する。議事録作成手段１０３は、ネットワークを介して会議参加者分の翻訳済み認識データを受信し、議事録データを生成する。また議事録作成手段１０３は、認識前のデータを受信して議事録データを生成することでもできる。議事録表示手段１０４は、議事録データをクライアントの画面上に表示する。翻訳実行手段４０１は、翻訳元言語と翻訳先言語を翻訳選択手段２０４から渡される翻訳判断情報から取得する。認識前のデータとはデジタル音声そのもののことである。

次に、図２のシーケンス図、図３、図４及び図９のアクティビティ図を参照して本発明の第１の実施形態の動作について詳細に説明する。まず、会議開催主催者は会議開催前に予め、会議開催予定入力を行い、会議開催予定データを会議開催サーバに登録する（図２の２１００）。図５に会議開催通知５０１１をＸＭＬデータに変換し、会議開催データ５０２１として登録している例を示している。次に、会議開催サーバ８３０は配布サービスを順に配布サービスの数だけ、配布サービスに含まれる言語モデル、音響モデルが、それぞれ、会議議題と言語情報に最適であるサービスがどれかを検索する。図２では会議議題と言語情報を元に問い合わせていて、会議議題と言語モデルが一致していない回答状況を示している（図２の２１０１）（この他にも、言語情報と音響モデルとが一致しないために、当該配布サービスが採用されない場合がある。）。さらに、配布サービスに会議議題と言語議題を元に問い合わせが起こっており、会議議題と言語情報が、それぞれ、配布サービスの言語モデルと音響モデルに一致した回答状況を示している（図２の２１０２）。言語モデルが会議議題に最適であるかどうかということの意味は、辞書がその分野に適しているかどうかということである。言語モデルと会議議題とが一致するとは、言語モデルが認識結果として出力する際に議題に最も近いものを意味している。ここで一致するとは、認識率が高まるということである。

図３に問い合わせから回答までの詳細を示している。

配布ＷＥＢサービス部３０からＷｅｂ情報を取得し、会議開催データ読み込み３１０と合わせて音響モデル配布指示３２０は配布Ｗｅｂサービスの音響モデル検索３６０に言語・方言情報を送信する。

図４には図３の音響モデル配布指示３２０の詳細を示している。

ユーザ情報読み込み（図４の４２０１）の結果、ユーザ情報から言語情報を取得できる場合、参加者名から国・言語情報を決定する（図４の４２０２、４２０５）。図６に会議開催データ６２０１と共にユーザ情報テーブル６２０２を予め用意して置き、これらのデータを元に会議議題と国・言語情報をモデル選択手段２０３及び翻訳選択手段２０４に送信する例を示している。参加者の情報が未知で参加者名だけでは国・言語情報が特定できない場合は、会議開催場所を読み込み、場所名から国・言語情報を決定する（図４の４２０３、４２０４）。図７に会議開催データ６２０１と共に会議開催場所テーブル７２０２を予め用意しておきデータを元に会議議題と国・言語情報をモデル選択手段２０３及び翻訳選択手段２０４に送信する例を示している。このようにしてどの音響モデルを検索手段３６０の候補にするか絞り込む（図４の４２０６）。

図３の音響モデル検索３６０は送信された言語・方言情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索３６３をＷＥＢサービス・サーバ数だけ行う。見つかった場合、音響モデル二次検索３６１において、ユーザの方言情報と一致する音響モデルを確定し、音響モデル配布準備３６２から配布元ＵＲＬ情報を会議開催サーバに返却する。このようにして音響モデルダウンロード元を決定する。言語モデル配布指示３３０は配布元ＵＲＬへ会議議題情報を送信する。

図４に言語モデル配布指示３３０の詳細を示している。

会議議題情報の中の会議議題をテキストマイニングし（図４の４３０１）、マイニング結果から言語モデルを特定できる場合は、モデル接続先情報をこの時点で決定する（図４の４３０５）。マイニング結果から言語モデルを特定できない場合は、レジュメ情報をテキストマイニングし（図４の４３０２）、同時に参考資料格納先から情報をダウンロード、これらの参考資料のテキストマイニングを実施する（図４の４３０３、４３０４）。両方のマイニング結果からモデル接続先情報を決定する（図４の４３０５）。言語モデル検索３７０は送信された会議議題情報を元に言語モデルを検索する。自サービスに見つからなかった場合、他サービス検索３７２をＷＥＢサービス数だけ行う。言語モデル配布準備３７１において、会議議題情報と一致する言語モデルを確定し、該当ＵＲＬ、サービス情報を会議開催サーバに返却する。音響モデル配布指示３２０、言語モデル配布指示３３０を会議参加者分繰り返すことにより、会議開催前に辞書データを配布準備する。

図２には翻訳元言語情報と翻訳先言語情報を元に翻訳Ｗｅｂサービスに問い合わせていて、翻訳が可能な状況を示している（図２の２１０３）。図９に問い合わせから回答までの詳細を示している。配布ＷＥＢサービスからＷｅｂ情報を取得し、会議開催データを読み込み９１０と合わせて翻訳選択指示９２０は翻訳Ｗｅｂサービスの翻訳辞書検索９４０に翻訳元・翻訳先言語情報を送信する。翻訳元情報は各発話ユーザの言語・方言情報であり、自動的に取得される。翻訳先は会議主催者の言語・方言情報として決定するなど会議で一意に決定できる。また、受信ユーザ毎の言語・方言情報も自動的に取得されるため、翻訳先はこちらにもできる。図９の翻訳辞書検索９４０は送信された翻訳元・翻訳先情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索９４３をＷＥＢサービス・サーバ数だけ行う。見つかった場合、翻訳辞書二次検索９４１において、既に言語モデル選択で作成済みの会議議題情報を参照し、より翻訳精度が上がる該当分野の辞書を確定し、翻訳選択準備９４２から接続先ＵＲＬ情報、サービス情報を会議開催サーバに返却する。このようにして会議参加者分だけ翻訳Ｗｅｂサービス接続先を決定する。

会議開催時間を元に開催前に会議開催サーバは会議参加者に参加可能かを確認し（図２の２１１０及び２１１１）、参加可能者は配布サービスから辞書データのダウンロードを行う（図２の２１１２）。会議開催時間になると、会議開催サーバから議事録作成サーバに会議開催データを送信する（図２の２１２１）。これにより、音声認識を使用し会話情報を議事録として受信することが可能となる（図２の２１２２）。会議議題送信（図２の２１２２）を議事録作成サーバに行うと、翻訳Ｗｅｂサービスに会話情報を送信し（図２の２１２３）、翻訳された情報を議事録作成サーバが受信する。もちろん会議中に翻訳が要らない箇所は、翻訳Ｗｅｂサービスへの会話情報送信は省略することができる。このようにして、会議終了（図２の２１３０）まで議事録作成を行う。

次に、本発明の第１の実施形態の効果について説明する。本発明の第１の実施形態では、会議開催データを元にその議題に合った言語モデル・音響モデルを自動的にダウンロードし、音声認識辞書として適応、かつ会議開催データを元にその議題と参加者に合った翻訳辞書を用意するように構成されているため、議題に合った認識結果とその認識結果を元にした翻訳結果を期待できる（また、本発明の第１の実施形態では、さらに、各地方言→標準語変換を行った言語モデルを用意した場合、会話された各語の方言を標準語に変換してから翻訳を行うため、翻訳元情報を削減することができる）。

次に、本発明の第２の実施形態の構成について図面を参照して説明する。図１０を参照すると、本発明の第２の実施形態の構成は、第１の実施形態の構成において翻訳情報比較手段１０５及び翻訳情報送信手段４０３を追加した構成図である。すなわち第１の実施形態の構成における議事録作成、モデル選択、配布Ｗｅｂサービス及び作成翻訳Ｗｅｂサービスによる処理と同一の処理に加えて、音声認識手段１０２で非同期に翻訳Ｗｅｂサービスに認識データを送信し、翻訳手段４０１による翻訳終了やタイマ等のイベントを契機に、翻訳情報送信手段４０３は翻訳情報比較手段１０５に翻訳済み認識データを送信する。翻訳情報比較手段１０５は、翻訳済みの認識データ、翻訳前の認識データ及び音声データを基に翻訳が正確かどうか比較する。翻訳情報比較手段１０５は修正済みデータを議事録作成手段１０３へ送信する。本発明の第２の実施形態では、会議参加者が会議終了後直ぐに会議議事録の翻訳を必要とせず、違う時間、違う場所にて翻訳済みの議事録を取得したい時に、非同期に翻訳データを取得することができる。こうして、受け取った翻訳済みの議事録を自国語で確認して翻訳結果が変更された議題に合った認識結果を期待できる。

翻訳済みの認識データ、翻訳前の認識データ及び音声データを基に翻訳が正確かどうか比較することは、人手により行う。

図１１で表される内容の図２で表される内容との違いは、図１１において議事録作成サーバと翻訳サービスが非同期で動作することである。これは議事録作成サーバで認識結果による議事録を一度作成しておいて、後から一括で翻訳を行うことを前提としている。

なお、上記の実施形態では、例えば、中国側には英語を中国語に翻訳する同時通訳者がおり、米国側には中国語を英語に翻訳する同時通訳者がいると想定しており、各参加者は、通訳者を通じて、他国の言語での発言を理解できるものとしている。

本発明によれば、スケジューリングされた業務において、予め関連情報を提出しておくことによりデータ選択を自動的に決定すると言った用途に適用できる。例えば、専門用語が非常に多く出てくるような多言語の定期翻訳において、クライアントから音声ファイルをアップロードしＷｅｂサービスによって辞書を予め切り替えることにより、的確な認識結果を表示する翻訳事業といった用途にも適用可能である。

本発明の実施形態による議事録作成装置の主要部の構成を示すブロック図である。本発明の実施形態による議事録作成方法を示すシーケンス図である。本発明の実施形態による音響モデル検索及び言語モデル検索の方法を示す第１のフローチャートである。本発明の実施形態による音響モデル検索及び言語モデル検索の方法を示す第２のフローチャートである。本発明の実施形態による会議開催通知及び会議開催データを示す図である。本発明の実施形態による会議開催データ、ユーザ情報テーブル、モデル選択手段及び翻訳選択手段を示す図である。本発明の実施形態による会議開催データ、開催場所情報テーブル、モデル選択手段及び翻訳選択手段を示す図である。本発明の実施形態による議事録作成装置の構成を示す概念図である。本発明の実施形態による翻訳辞書検索の方法を示すフローチャートである。本発明の他の実施形態による議事録作成装置の主要部の構成を示すブロック図である。本発明の他の実施形態による議事録作成方法を示すシーケンス図である。従来例による音声認識装置の構成を示すブロック図である。

符号の説明

１０議事録作成部
２０モデル選択部
３０配布Ｗｅｂサービス
４０翻訳Ｗｅｂサービス
１０１音声入力手段
１０２音声認識手段
１０３議事録作成手段
１０４議事録表示手段
２０１会議開催予定入力手段
２０２会議開催データベース
２０３モデル選択手段
２０４翻訳選択手段
３０１言語モデル
３０２音響モデル
３０３モデル配布手段
４０１翻訳実行手段
４０２翻訳辞書

Claims

入力した音声をその言語のテキストデータとする音声認識ステップと、
前記テキストデータを所定の言語に翻訳する翻訳ステップと、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、
を備え、
前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、
前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成方法。
入力した音声をその言語のテキストデータとする音声認識ステップと、
前記テキストデータを所定の言語に翻訳する翻訳ステップと、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、
を備え、
前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、
前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成方法。
請求項１又は２に記載の議事録作成方法において、
前記翻訳辞書選択ステップは、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成方法。
請求項１又は２に記載の議事録作成方法において、
前記翻訳辞書選択ステップは、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成方法。
入力した音声をその言語のテキストデータとする音声認識手段と、
前記テキストデータを所定の言語に翻訳する翻訳手段と、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
を備え、
前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置。
入力した音声をその言語のテキストデータとする音声認識手段と、
前記テキストデータを所定の言語に翻訳する翻訳手段と、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
を備え、
前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置。
請求項５又は６に記載の議事録作成装置において、
前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成装置。
請求項５又は６に記載の議事録作成装置において、
前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成装置。
入力した音声をその言語のテキストデータとする音声認識手段と、
前記テキストデータを所定の言語に翻訳する翻訳手段と、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
を備え、
前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラム。
入力した音声をその言語のテキストデータとする音声認識手段と、
前記テキストデータを所定の言語に翻訳する翻訳手段と、
翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
を備え、
前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラム。
請求項９又は１０に記載のプログラムにおいて、
前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とするプログラム。
請求項９又は１０に記載のプログラムにおいて、
前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とするプログラム。