JP2020184007A

JP2020184007A - 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム

Info

Publication number: JP2020184007A
Application number: JP2019087731A
Authority: JP
Inventors: 哲行益子; Tetsuyuki MASUKO
Original assignee: Change Inc
Current assignee: Change Inc
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2020-11-12

Abstract

【課題】簡易な構成で複数の話者が発言する会議での発言をタイムリーにテキスト化する。【解決手段】マイクロフォン１００ごとに、音声録音部２０２はマイクロフォン１００で集音した音声の音量が音量レベル以上となった場合に音声の録音を開始し、発話番号採番部２０３は発言テキスト記憶部２２０に記憶する発話番号をカウントアップした発話番号を発言テキスト記憶部２２０に格納し、音声録音部２０２は音声の音量が音量レベル以上となった後に、さらに音声の音量が音量レベル未満となった場合に音声の録音を終了し、送受信部２０７は音声データおよび発話番号を音声認識サーバ３００に送信し、送信した音声データを変換したテキストデータおよび発話番号を音声認識サーバ３００から受信し、発話番号に対応付けてテキストデータを発言テキスト記憶部２２０に格納し、入出力部２０５は、発話番号に応じた表示領域にテキストデータを表示する。【選択図】図１

Description

本発明は、情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムに関する。

従来、会議の議事録を作成する労力を削減するために、会議での発言をテキスト化して議事録を作成するシステムが数多く提案されている。このような議事録を作成するシステムでは、１本または複数のマイクロフォンから集音した音声を１チャネルの音声データに集約し、集約した音声データを音声認識エンジンで発話者を認識するとともに、発言内容をテキスト化する方法が採られることが多い。しかし、複数の発話者の音声が１つの音声データとして音声認識エンジンに入力されるため、認識精度が低いという問題があった。このような問題を解決するため、発話者ごとにマイクロフォンを用意し、マイクロフォンごとに入力された音声を時系列に合成し、合成した音声に対し音声認識する技術が開示されている（特許文献１参照）。

特開2018-106148公報

しかしながら、上記のような技術は、多くの発話者が発言した音声部分のみを合成し、合成した音声をシステム内での音声認識エンジンで次々に音声認識処理を実行する構成であるため、音声認識処理の負荷が高く、性能の高い情報処理装置でなければ、タイムリーに発言をテキスト化することが難しいという問題があった。

本発明は、上記に鑑みてなされたものであり、簡易な構成で複数の発話者による会議等での発言をタイムリーにテキスト化することができる情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムを提供することを目的とする。

上述した課題を解決するために、本発明では、マイクロフォンごとに、マイクロフォンで集音した音声の音量が、音量レベル記憶手段に記憶するマイクロフォン識別情報に対応付けられた音量レベル以上となった場合に、音声の録音を開始し、音声の音量が音量レベル以上となった場合に、発言テキスト記憶手段に記憶する発話番号をカウントアップした発話番号を発言テキスト記憶手段に格納し、音声の音量が音量レベル以上となった後に、さらに音声の音量が音量レベル未満となった場合に、音声の録音を終了し、録音した音声の音声データおよび発話番号を音声認識サーバに送信し、送信した音声データを変換したテキストデータおよび発話番号を音声認識サーバから受信するとともに、発話番号に対応付けてテキストデータを発言テキスト記憶手段に格納し、発話番号に応じた表示領域にテキストデータを表示することを特徴とする。

上記のように構成した本発明によれば、簡易な構成で複数の発話者による会議等での発言をタイムリーにテキスト化することができるという効果を奏する。

本実施例にかかる音声テキスト化システム１０の構成を示すブロック図である。音量レベル記憶部２１０のデータ構成の一例を示す説明図である。発言テキスト記憶部２２０のデータ構成の一例を示す説明図である。マイクロフォン１００ごとに情報処理装置２００で実行する音声テキスト化処理手順を示すフローチャートである。情報処理装置２００の入出力部２０５の表示画面の一例を示す説明図である。情報処理装置２００で実行するテキスト表示手順を示すフローチャートである。

以下、添付図面を参照し本発明の実施例を説明する。なお、以下の説明は、実施の形態の一例であり、本発明はこれらの実施例に限定されるものではない。

図１は、本実施例にかかる音声テキスト化システム１０の構成を示すブロック図である。図１に示すように、音声テキスト化システム１０は、マイクロフォン１００−１〜ｎ（以下、マイクロフォン１００と示す）、情報処理装置２００と、音声認識サーバ３００−１〜ｍ（以下、音声認識サーバ３００と示す）、情報端末装置４００と、を、ネットワークＮを介して互いに通信可能に接続する。ネットワークＮは、有線または無線であることを問わず、インターネット、イントラネット、ＬＡＮ（Local Area Network）やＶＰＮ（Virtual Private Network）、移動体通信網等の任意の通信ネットワークおよびその組合せである。

マイクロフォン１００は、会議等に参加している利用者（以下、発話者という）それぞれに対し１対１に用意されており、発話者それぞれの音声を集音する。マイクロフォン１００は、対象である発話者の音声を他の発話者の音声より感度よく捉えることができる指向性を有するものがよりよい。マイクロフォン１００は、情報処理装置２００と有線または無線で接続する。

情報処理装置２００は、会議等で発話者が発言した音声の音声データをテキストデータに変換し、変換したテキストデータを表示画面に表示するとともに、議事録を生成するコンピュータである。情報処理装置２００は、音量レベル記憶部２１０と、発言テキスト記憶部２２０と、音声取得部２０１と、音声録音部２０２と、発話番号採番部２０３と、発話時刻取得部２０４と、入出力部２０５と、議事録生成部２０６と、送受信部２０７と、を備える。

図２は、音量レベル記憶部２１０のデータ構成の一例を示す説明図である。音量レベル記憶部２１０は、それぞれのマイクロフォン１００で集音する音声の音量によって発話者が発言したか否かを判断するための情報を記憶する。音量レベル記憶部２１０は、マイクロフォン識別情報と、発話者識別情報と、音量レベルと、その他の情報とを対応付けて記憶する。

マイクロフォン識別情報は、マイクロフォンを一意に識別する情報であり、図２に示すように、“MID001”のようなマイクロフォンＩＤでも、マイクロフォン１００を情報処理装置２００に接続した際に自動認識するマイクロフォンの名称や型番等であってもよい。発話者識別情報は、マイクロフォンに対し音声を発する発話者を一意に識別する情報であり、“UID10103”のような発話者ＩＤであっても、会議等での識別が可能であれば、発話者の氏名や単なる番号等であってもよい。

音量レベルは、発話者が使用するマイクロフォンにおいて発話者が発言したか否かを判断するための音声の音量である。発話者によって音声の大きさが異なるとともに、使用するマイクロフォンの性能によっても発話者が発言を開始したか否かを判断する音量が異なるため、発話者、すなわちマイクロフォンごとに音量レベルを設定する。音量レベルについては、予め設定しても、会議等の開始時や途中でも自由に変更してもよい。

その他の情報としては、例えば発話者識別情報とは別に発話者の氏名や所属等を記憶しておくことで、議事録作成時の発話者識別情報とともに、または発話者識別情報に代えて発話者の氏名および所属等を記述してもよい。

図３は、発言テキスト記憶部２２０のデータ構成の一例を示す説明図である。発言テキスト記憶部２２０は、マイクロフォン１００で集音した発話者の音声を変換したテキストデータを記憶する。発言テキスト記憶部２２０は、発話番号と、発話時刻と、発話者識別情報と、テキストデータと、その他の情報とを対応付けて記憶する。

発話番号は、発話者の発言の順番を示す番号である。発話番号は、マイクロフォン１００から発話者の音声が入力された場合に、発話順に発話番号を採番し発言テキスト記憶部２２０に格納する。発話時刻は、発話者の音声が入力された時を計時した時刻である。発話者識別情報は、上述の通り、マイクロフォンに対し音声を発する発話者を一意に識別する情報であり、マイクロフォン識別情報に対応付けられた発話者識別情報を発言テキスト記憶部２２０に格納する。テキストデータは、発話者の発言である音声を音声認識によってテキストに変換した結果である。発話番号が採番され格納されていても、音声認識サーバ３００から音声データを変換したテキストデータを受信していなければ、図３のテキストデータの記憶領域３１のようにテキストデータは格納されない。その他の情報として音声データを記憶してもよい。

音声取得部２０１は、マイクロフォン１００から集音した音声を取得する。音声取得部２０１は、マイクロフォン１００の各チャネルに対し入力された音声を各チャンネルそれぞれに取得する。

音声録音部２０２は、マイクロフォン１００の各チャネルから音声取得部２０１によって取得した音声それぞれに対し、その音声の音量が音量レベル記憶部２１０に記憶する音量レベル以上になったと判断した場合に音声の録音を開始し、音声の録音を開始した後であって、さらに音声の音量が音量レベル未満になったと判断した場合に音声の録音を終了する。これによって、一人の発話者の１つの発言が１つの音声ファイルとして生成される。音声ファイルは、例えば非圧縮音声ファイルである、ＷＡＶフォーマットやＡＩＦＦフォーマット等である。

発話番号採番部２０３は、音声録音部２０２によって音声の録音を開始した際に、発言テキスト記憶部２２０に記憶する発話番号の最後の番号を１つカウントアップし、新たな発言の発話番号として採番し発言テキスト記憶部２２０に格納する。例えば図３において、現在の発話番号が“１２”の場合は（３２）、１２を１つカウントアップした“１３”を次の記憶領域３３に格納する。

発話時刻取得部２０４は、音声録音部２０２によって音声の録音を開始した際の時刻を計時し、計時した時刻を発話番号採番部２０３によって採番し格納した発話番号に対応付けて発言テキスト記憶部２２０に格納する。例えば図３において、発話番号が“１３”の場合は発話時刻の記憶領域３４に格納する。

入出力部２０５は、入力部と出力部を備え、入力部はキーボード、マウス等の入力装置および入力制御部であり、出力部はディスプレイ、スピーカ等の出力装置および出力制御部である。出力部は発言テキスト記憶部２２０に記憶する発話時刻、発話者識別情報、テキストデータ等を発話番号順に表示画面に表示する。

議事録生成部２０６は、発言テキスト記憶部２２０に記憶する発話時刻と発話者識別情報とテキストデータを発話番号順に記述する議事録を生成する。より具体的には、議事録生成部２０６は、発言テキスト記憶部２２０から発話番号と発話時刻と発話者識別情報とテキストデータを読込み、読込んだ発話時刻と発話者識別情報とテキストデータを発話番号順に所定のフォーマットに従って記述した議事録ファイルを生成する。

送受信部２０７は、音声録音部２０２によって録音した音声データと、発話番号採番部２０３によって採番した発話番号を音声認識サーバ３００に送信する。送受信部２０７は、マイクロフォン１００の各チャネルから取得した音声の録音が終了するごとに、発話番号の順番に関係なく、音声データと発話番号を音声認識サーバ３００に送信する。このように、１つの発言の音声の録音が終了するごとに、１つの発言の音声データを音声認識サーバ３００に送信することができるため、他の処理を待つことなく音声認識処理を実行することができる。

送受信部２０７は、音声認識サーバ３００から送信されたテキストデータと発話番号を受信し、受信したテキストデータを発言テキスト記憶部２２０に発話番号に対応付けて格納する。これにより、処理負荷の高い音声認識処理を情報処理装置２００で実行することなく、音声をテキストに変換することができる。

音声認識サーバ３００は、情報処理装置２００から送信された音声データに対し音声認識処理を実行しテキストデータを生成する。音声認識サーバ３００は、情報処理装置２００とネットワークＮを介して接続する１または複数のサーバであり、情報処理装置２００以外で音声認識処理を実行し、さらに複数のサーバによる音声認識処理を実行することによって情報処理装置２００の動作環境や処理能力に依存することなく、タイムリーに音声をテキスト化することができる。

情報端末装置４００は、情報処理装置２００が配置された会議室等で開催される会議等に遠隔地から参加する発話者が操作するコンピュータであり、ネットワークＮを介し情報処理装置２００に接続する。情報端末装置４００は、パーソナルコンピュータであるほか、スマートフォンやタブレット端末等であってもよい。

上述のように構成された音声テキスト化システム１０において、マイクロフォン１００から取得した音声ごとに情報処理装置２００で実行する音声テキスト化処理について説明する。図４は、情報処理装置２００で実行する音声テキスト化処理手順を示すフローチャートである。

マイクロフォン１００の各チャネルに対し、音声取得部２０１は、マイクロフォン１００に対応付けられたマイクロフォン識別情報をマイクロフォン１００から取得する（ステップＳ４０１）。音声取得部２０１は、マイクロフォン識別情報に対応付けられた発話者識別情報と音量レベルを音量レベル記憶部２１０から取得する（ステップＳ４０２）。音声取得部２０１は、マイクロフォン１００から取得する音声の音量が音量レベル以上となったか否かを判断する（ステップＳ４０３）。音声の音量が音量レベル以上ではない場合（ステップＳ４０３：Ｎｏ）、すなわち発言が開始されていないと判断した場合はステップＳ４０３を繰り返す。

音声の音量が音量レベル以上であると判断した場合（ステップＳ４０３：Ｙｅｓ）、すなわち発言が開始されたと判断した場合、音声録音部２０２は、音声の録音を開始する（ステップＳ４０４）。発話番号採番部２０３は、発言テキスト記憶部２２０に記憶する発話番号の最後の番号を１カウントアップし、新たな発言に対する発話番号を採番し発言テキスト記憶部２２０に格納する（ステップＳ４０５）。発話時刻取得部２０４は、図示しないタイマ部で計時した時刻を発話時刻として取得し発話番号に対応付けて発言テキスト記憶部２２０に格納する（ステップＳ４０６）。発話番号採番部２０３は、発話者識別情報を発言テキスト記憶部２２０に格納する（ステップＳ４０７）。

音声取得部２０１は、マイクロフォン１００から取得する音声の音量が音量レベル未満となったか否かを判断する（ステップＳ４０８）。マイクロフォン１００から取得する音声の音量が音量レベル未満となっていないと判断した場合（ステップＳ４０８：Ｎｏ）、すなわち発言が継続している場合は、ステップＳ４０８を繰り返す。マイクロフォン１００から取得する音声の音量が音量レベル未満となったと判断した場合（ステップＳ４０８：Ｙｅｓ）、すなわち発言が終了した場合は、音声録音部２０２は、音声の録音を終了する（ステップＳ４０９）。送受信部２０７は、音声を開始から終了まで録音した音声データと発話番号を音声認識サーバ３００に送信する。（ステップＳ４１０）。

入出力部２０５は、発言テキスト記憶部２２０に記憶する発話時刻と発話者識別情報を発話番号順に表示画面に表示する（ステップＳ４１１）。図５は、情報処理装置２００の入出力部２０５の表示画面の一例を示す説明図である。図５に示す表示画面５１は、発言テキスト記憶部２２０に記憶する発話時刻と発話者識別情報とテキストデータを発話時刻と発話者と発言として表示した例である。なお発言の表示領域には、音声データを変換したテキストデータを表示するが、音声データを音声認識サーバ３００に送信した後であり、かつ、音声認識結果であるテキストデータを受信していない場合は、発言テキスト記憶部２２０にテキストデータが存在しないため、空白にするか表示領域５２のように“認識中”を表示してもよい。またマイクロフォン１００から取得した音声の音量が音量レベル以上であり（ステップＳ４０３：Ｙｅｓ）、かつ、音声の音量が音量レベル未満ではない場合は（ステップＳ４０８：Ｎｏ）、発話者が発言中であると判断されるため、表示領域５３に“発言中”を表示してもよい。

このように、発話者ごとに用意されたマイクロフォン１００のそれぞれにおいて、１つの発言ごとに音声データ（音声ファイル）を生成し、生成した音声データを音声認識サーバ３００に送信することによって音声認識処理を情報処理装置２００に処理負荷を掛けずに実行することができる。

上述のように構成された音声テキスト化システム１０の情報処理装置２００で実行するテキスト表示処理について説明する。図６は、情報処理装置２００で実行するテキスト表示手順を示すフローチャートである。

送受信部２０７は、テキストデータと発話番号を音声認識サーバ３００から受信したか否かを判断する（ステップＳ６０１）。テキストデータと発話番号を音声認識サーバ３００から受信していないと判断した場合は（ステップＳ６０１：Ｎｏ）、ステップＳ６０１を繰り返す。テキストデータと発話番号を音声認識サーバ３００から受信したと判断した場合は（ステップＳ６０１：Ｙｅｓ）、発話番号に対応付けてテキストデータを発言テキスト記憶部２２０に格納する。図３に示すテキストデータの記憶領域３５のように、音声認識サーバ３００から送信されたテキストデータを発話番号に対応付けて格納する（ステップＳ６０２）。このように、発言テキスト記憶部２２０に発話番号に対応付けてテキストデータを格納するため、音声認識サーバ３００からテキストデータと発話番号をランダムに受信しても適切に発言テキスト記憶部２２０に格納することができる。

入出力部２０５は、表示画面に表示しない発話番号に対応付けられた表示領域にテキストデータを表示する（ステップＳ６０３）。図５の発言の表示領域５４に示すように、表示画面に表示していない発話番号“７”に対応付けて音声認識したテキストデータを表示画面に表示する。

入出力部２０５は、議事録生成の指示を受付けたか否かを判断する（ステップＳ６０４）。議事録生成の指示を受付けないと判断した場合は（ステップＳ６０４：Ｎｏ）、ステップＳ６０１に戻り、音声認識サーバ３００からテキストデータと発話番号を受信する。議事録生成の指示を受付けたと判断した場合は（ステップＳ６０４：Ｙｅｓ）、議事録生成部２０６は、議事録を生成する（ステップＳ６０５）。より具体的には、議事録生成部２０６は、発言テキスト記憶部２２０に記憶する発話番号、発話時刻、発話者識別情報、テキストデータを取得し、取得した発話時刻、発話者識別情報、テキストデータを発話番号順に所定のフォーマットに記述することによって議事録ファイルを生成する。なお所定のフォーマットでの議事録ファイルの生成に代えて、発言テキスト記憶部２２０に記憶する発話時刻、発話者識別情報、テキストデータをＣＳＶ形式で書出し、一般的なアプリケーションソフトウェアで編集等を行なってもよい。

このように、情報処理装置２００は発話者ごとに用意したマイクロフォン１００によって集音した音声を１つの発言ごとに音声データを生成することによって、どの発話者の発言かを音声で判断する必要がなく、また複数の発言者が同時に発言した場合であっても発言の音声が混ざることもないため、簡易な音声認識処理で個々の発言をテキスト化することができる。また情報処理装置２００は、生成した音声データを発言番号とともに、ネットワークで接続された音声認識サーバ３００に送信しテキストに変換することによって、情報処理装置２００の性能や動作環境に依存することなく、簡易な構成でタイムリーな音声のテキスト化および議事録の生成が可能になる。

他の実施例として、ネットワークＮを介して接続された情報端末装置４００の操作者が会議に参加する場合は、マイクロフォン１００から発話者の発する音声を集音することに代えて、送受信部２０７によって情報端末装置４００で集音した音声を受信することによって、遠隔地で会議等に参加している場合であっても、発言の音声に対し発話番号が採番されて音声認識されたテキストデータが情報処理装置２００の表示画面に表示されるとともに、発言テキスト記憶部２２０に格納され、議事録に発言を記載することができる。

また図６のフローチャートのステップＳ６０３において、表示画面にテキストデータを表示した際に、テキストデータに対する編集の入力を受付けてもよい。これによって、音声認識での誤りを修正したり、文言の追加や削除、修正をすることができる。テキストデータを画面上で修正した場合は、修正内容を発言テキスト記憶部２２０に格納する。これによって、議事録にも修正が反映されることとなる。

上述した実施例にかかる情報処理装置２００、音声認識サーバ３００、情報端末装置４００のハードウェア構成は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）等の外部記憶装置、通信制御装置等を備えた通常のコンピュータであり、ＲＯＭやＲＡＭ、ＨＤＤ等に記憶されたプログラムをＣＰＵが読み出し動作させることによって、上述した構成や機能を実現する。

情報処理装置２００、音声認識サーバ３００、情報端末装置４００で動作するプログラムは、インターネット等のネットワークＮに接続されたコンピュータ上に格納しておき、ネットワークＮ経由でダウンロードさせることにより提供したり、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＤＶＤ、ＵＳＢメモリ、ＳＤカード等のコンピュータで読取り可能な記録媒体に記録し提供してもよい。また、上述した機能や処理を実現するプログラムは、ＡＰＩ（Application Programming Interface）やＳａａＳ（Software as a Service）、クラウドコンピューティングという利用形態で提供してもよい。

なお、本発明は、上述した実施例そのままに限定されるものではなく、必ずしも物理的に図示のように構成されている必要はない。また、本発明は、実施例で説明した構成要素の全部または一部を、各種の負荷や使用状況などに応じ、任意の単位で機能的または物理的に分割、統合、入替、変形または削除して構成することができる。

Ｎ…ネットワーク、１０…音声テキスト化システム、１００…マイクロフォン、２００…情報処理装置、２０１…音声取得部、２０２…音声録音部、２０３…発話番号採番部、２０４…発話時刻取得部、２０５…入出力部、２０６…議事録生成部、２０７…送受信部、２１０…音量レベル記憶部、２２０…発言テキスト記憶部、３００…音声認識サーバ、４００…情報端末装置

Claims

発話者ごとのマイクロフォンを有線または無線で接続する情報処理装置において、
前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、
前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声の録音を開始する音声録音手段と、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番手段と、を備え、
前記音声録音手段は、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音手段によって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する送信手段と、
前記送信手段によって送信した前記音声データを変換したテキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納する受信手段と、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示手段と、
を備えることを特徴とする情報処理装置。
前記音量レベル記憶手段は、前記マイクロフォン識別情報に対応付けて前記発話者を識別する発話者識別情報を記憶し、
前記発言テキスト記憶手段は、さらに前記発話者識別情報を記憶し、
前記発話番号採番手段は、前記マイクロフォン識別情報に対応付けられた前記発話者識別情報を前記発言テキスト記憶手段に記憶し、
前記表示手段は、前記テキストデータに対応付けて、前記発話者識別情報を表示すること、を特徴とする請求項１に記載の情報処理装置。
前記音声の音量が前記音量レベル以上となった際の時刻を取得し、取得した前記時刻を前記発言テキスト記憶手段に格納する発話時刻取得手段、をさらに備えることを特徴とする請求項１または請求項２に記載の情報処理装置。
前記発言テキスト記憶手段に記憶する前記テキストデータおよび前記発話者識別情報を前記発話番号順に記述する議事録を生成する議事録生成手段、をさらに備えることを特徴とする請求項２に記載の情報処理装置。
発話者ごとのマイクロフォンと、前記マイクロフォンを有線または無線で接続する情報処理装置と、音声認識サーバと、を備える音声テキスト化システムにおいて、
前記情報処理装置は、
前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、
前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声の録音を開始する音声録音手段と、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番手段と、を備え、
前記音声録音手段は、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音手段によって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する音声送信手段と、を備え、
前記音声認識サーバは、
前記音声データおよび前記発話番号を前記情報処理装置から受信する音声受信手段と、
前記音声受信手段によって受信した前記音声データをテキストデータに変換する音声認識手段と、
前記音声認識手段によって変換した前記テキストデータおよび前記発話番号を前記情報処理装置に送信するテキスト送信手段と、を備え、
前記情報処理装置は、
前記テキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納するテキスト受信手段と、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示手段と、
を備えることを特徴とする音声テキスト化システム。
発話者ごとのマイクロフォンを有線または無線で接続し、前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、を備えるコンピュータで実行される音声テキスト化方法において、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声を録音する音声録音ステップと、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番ステップと、を含み、
前記音声録音ステップは、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音ステップによって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する送信ステップと、
前記送信ステップによって送信した前記音声データを変換したテキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納する受信ステップと、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示ステップと、
を含むことを特徴とする音声テキスト化方法。
請求項６に記載した音声テキスト化方法をコンピュータに実行させることを特徴とする音声テキスト化プログラム。