JP2020184007A - 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム - Google Patents
情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム Download PDFInfo
- Publication number
- JP2020184007A JP2020184007A JP2019087731A JP2019087731A JP2020184007A JP 2020184007 A JP2020184007 A JP 2020184007A JP 2019087731 A JP2019087731 A JP 2019087731A JP 2019087731 A JP2019087731 A JP 2019087731A JP 2020184007 A JP2020184007 A JP 2020184007A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- text
- microphone
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 43
- 238000006243 chemical reaction Methods 0.000 title claims description 20
- 238000000034 method Methods 0.000 title claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】簡易な構成で複数の話者が発言する会議での発言をタイムリーにテキスト化する。【解決手段】マイクロフォン100ごとに、音声録音部202はマイクロフォン100で集音した音声の音量が音量レベル以上となった場合に音声の録音を開始し、発話番号採番部203は発言テキスト記憶部220に記憶する発話番号をカウントアップした発話番号を発言テキスト記憶部220に格納し、音声録音部202は音声の音量が音量レベル以上となった後に、さらに音声の音量が音量レベル未満となった場合に音声の録音を終了し、送受信部207は音声データおよび発話番号を音声認識サーバ300に送信し、送信した音声データを変換したテキストデータおよび発話番号を音声認識サーバ300から受信し、発話番号に対応付けてテキストデータを発言テキスト記憶部220に格納し、入出力部205は、発話番号に応じた表示領域にテキストデータを表示する。【選択図】図1
Description
本発明は、情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムに関する。
従来、会議の議事録を作成する労力を削減するために、会議での発言をテキスト化して議事録を作成するシステムが数多く提案されている。このような議事録を作成するシステムでは、1本または複数のマイクロフォンから集音した音声を1チャネルの音声データに集約し、集約した音声データを音声認識エンジンで発話者を認識するとともに、発言内容をテキスト化する方法が採られることが多い。しかし、複数の発話者の音声が1つの音声データとして音声認識エンジンに入力されるため、認識精度が低いという問題があった。このような問題を解決するため、発話者ごとにマイクロフォンを用意し、マイクロフォンごとに入力された音声を時系列に合成し、合成した音声に対し音声認識する技術が開示されている(特許文献1参照)。
しかしながら、上記のような技術は、多くの発話者が発言した音声部分のみを合成し、合成した音声をシステム内での音声認識エンジンで次々に音声認識処理を実行する構成であるため、音声認識処理の負荷が高く、性能の高い情報処理装置でなければ、タイムリーに発言をテキスト化することが難しいという問題があった。
本発明は、上記に鑑みてなされたものであり、簡易な構成で複数の発話者による会議等での発言をタイムリーにテキスト化することができる情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラムを提供することを目的とする。
上述した課題を解決するために、本発明では、マイクロフォンごとに、マイクロフォンで集音した音声の音量が、音量レベル記憶手段に記憶するマイクロフォン識別情報に対応付けられた音量レベル以上となった場合に、音声の録音を開始し、音声の音量が音量レベル以上となった場合に、発言テキスト記憶手段に記憶する発話番号をカウントアップした発話番号を発言テキスト記憶手段に格納し、音声の音量が音量レベル以上となった後に、さらに音声の音量が音量レベル未満となった場合に、音声の録音を終了し、録音した音声の音声データおよび発話番号を音声認識サーバに送信し、送信した音声データを変換したテキストデータおよび発話番号を音声認識サーバから受信するとともに、発話番号に対応付けてテキストデータを発言テキスト記憶手段に格納し、発話番号に応じた表示領域にテキストデータを表示することを特徴とする。
上記のように構成した本発明によれば、簡易な構成で複数の発話者による会議等での発言をタイムリーにテキスト化することができるという効果を奏する。
以下、添付図面を参照し本発明の実施例を説明する。なお、以下の説明は、実施の形態の一例であり、本発明はこれらの実施例に限定されるものではない。
図1は、本実施例にかかる音声テキスト化システム10の構成を示すブロック図である。図1に示すように、音声テキスト化システム10は、マイクロフォン100−1〜n(以下、マイクロフォン100と示す)、情報処理装置200と、音声認識サーバ300−1〜m(以下、音声認識サーバ300と示す)、情報端末装置400と、を、ネットワークNを介して互いに通信可能に接続する。ネットワークNは、有線または無線であることを問わず、インターネット、イントラネット、LAN(Local Area Network)やVPN(Virtual Private Network)、移動体通信網等の任意の通信ネットワークおよびその組合せである。
マイクロフォン100は、会議等に参加している利用者(以下、発話者という)それぞれに対し1対1に用意されており、発話者それぞれの音声を集音する。マイクロフォン100は、対象である発話者の音声を他の発話者の音声より感度よく捉えることができる指向性を有するものがよりよい。マイクロフォン100は、情報処理装置200と有線または無線で接続する。
情報処理装置200は、会議等で発話者が発言した音声の音声データをテキストデータに変換し、変換したテキストデータを表示画面に表示するとともに、議事録を生成するコンピュータである。情報処理装置200は、音量レベル記憶部210と、発言テキスト記憶部220と、音声取得部201と、音声録音部202と、発話番号採番部203と、発話時刻取得部204と、入出力部205と、議事録生成部206と、送受信部207と、を備える。
図2は、音量レベル記憶部210のデータ構成の一例を示す説明図である。音量レベル記憶部210は、それぞれのマイクロフォン100で集音する音声の音量によって発話者が発言したか否かを判断するための情報を記憶する。音量レベル記憶部210は、マイクロフォン識別情報と、発話者識別情報と、音量レベルと、その他の情報とを対応付けて記憶する。
マイクロフォン識別情報は、マイクロフォンを一意に識別する情報であり、図2に示すように、“MID001”のようなマイクロフォンIDでも、マイクロフォン100を情報処理装置200に接続した際に自動認識するマイクロフォンの名称や型番等であってもよい。発話者識別情報は、マイクロフォンに対し音声を発する発話者を一意に識別する情報であり、“UID10103”のような発話者IDであっても、会議等での識別が可能であれば、発話者の氏名や単なる番号等であってもよい。
音量レベルは、発話者が使用するマイクロフォンにおいて発話者が発言したか否かを判断するための音声の音量である。発話者によって音声の大きさが異なるとともに、使用するマイクロフォンの性能によっても発話者が発言を開始したか否かを判断する音量が異なるため、発話者、すなわちマイクロフォンごとに音量レベルを設定する。音量レベルについては、予め設定しても、会議等の開始時や途中でも自由に変更してもよい。
その他の情報としては、例えば発話者識別情報とは別に発話者の氏名や所属等を記憶しておくことで、議事録作成時の発話者識別情報とともに、または発話者識別情報に代えて発話者の氏名および所属等を記述してもよい。
図3は、発言テキスト記憶部220のデータ構成の一例を示す説明図である。発言テキスト記憶部220は、マイクロフォン100で集音した発話者の音声を変換したテキストデータを記憶する。発言テキスト記憶部220は、発話番号と、発話時刻と、発話者識別情報と、テキストデータと、その他の情報とを対応付けて記憶する。
発話番号は、発話者の発言の順番を示す番号である。発話番号は、マイクロフォン100から発話者の音声が入力された場合に、発話順に発話番号を採番し発言テキスト記憶部220に格納する。発話時刻は、発話者の音声が入力された時を計時した時刻である。発話者識別情報は、上述の通り、マイクロフォンに対し音声を発する発話者を一意に識別する情報であり、マイクロフォン識別情報に対応付けられた発話者識別情報を発言テキスト記憶部220に格納する。テキストデータは、発話者の発言である音声を音声認識によってテキストに変換した結果である。発話番号が採番され格納されていても、音声認識サーバ300から音声データを変換したテキストデータを受信していなければ、図3のテキストデータの記憶領域31のようにテキストデータは格納されない。その他の情報として音声データを記憶してもよい。
音声取得部201は、マイクロフォン100から集音した音声を取得する。音声取得部201は、マイクロフォン100の各チャネルに対し入力された音声を各チャンネルそれぞれに取得する。
音声録音部202は、マイクロフォン100の各チャネルから音声取得部201によって取得した音声それぞれに対し、その音声の音量が音量レベル記憶部210に記憶する音量レベル以上になったと判断した場合に音声の録音を開始し、音声の録音を開始した後であって、さらに音声の音量が音量レベル未満になったと判断した場合に音声の録音を終了する。これによって、一人の発話者の1つの発言が1つの音声ファイルとして生成される。音声ファイルは、例えば非圧縮音声ファイルである、WAVフォーマットやAIFFフォーマット等である。
発話番号採番部203は、音声録音部202によって音声の録音を開始した際に、発言テキスト記憶部220に記憶する発話番号の最後の番号を1つカウントアップし、新たな発言の発話番号として採番し発言テキスト記憶部220に格納する。例えば図3において、現在の発話番号が“12”の場合は(32)、12を1つカウントアップした“13”を次の記憶領域33に格納する。
発話時刻取得部204は、音声録音部202によって音声の録音を開始した際の時刻を計時し、計時した時刻を発話番号採番部203によって採番し格納した発話番号に対応付けて発言テキスト記憶部220に格納する。例えば図3において、発話番号が“13”の場合は発話時刻の記憶領域34に格納する。
入出力部205は、入力部と出力部を備え、入力部はキーボード、マウス等の入力装置および入力制御部であり、出力部はディスプレイ、スピーカ等の出力装置および出力制御部である。出力部は発言テキスト記憶部220に記憶する発話時刻、発話者識別情報、テキストデータ等を発話番号順に表示画面に表示する。
議事録生成部206は、発言テキスト記憶部220に記憶する発話時刻と発話者識別情報とテキストデータを発話番号順に記述する議事録を生成する。より具体的には、議事録生成部206は、発言テキスト記憶部220から発話番号と発話時刻と発話者識別情報とテキストデータを読込み、読込んだ発話時刻と発話者識別情報とテキストデータを発話番号順に所定のフォーマットに従って記述した議事録ファイルを生成する。
送受信部207は、音声録音部202によって録音した音声データと、発話番号採番部203によって採番した発話番号を音声認識サーバ300に送信する。送受信部207は、マイクロフォン100の各チャネルから取得した音声の録音が終了するごとに、発話番号の順番に関係なく、音声データと発話番号を音声認識サーバ300に送信する。このように、1つの発言の音声の録音が終了するごとに、1つの発言の音声データを音声認識サーバ300に送信することができるため、他の処理を待つことなく音声認識処理を実行することができる。
送受信部207は、音声認識サーバ300から送信されたテキストデータと発話番号を受信し、受信したテキストデータを発言テキスト記憶部220に発話番号に対応付けて格納する。これにより、処理負荷の高い音声認識処理を情報処理装置200で実行することなく、音声をテキストに変換することができる。
音声認識サーバ300は、情報処理装置200から送信された音声データに対し音声認識処理を実行しテキストデータを生成する。音声認識サーバ300は、情報処理装置200とネットワークNを介して接続する1または複数のサーバであり、情報処理装置200以外で音声認識処理を実行し、さらに複数のサーバによる音声認識処理を実行することによって情報処理装置200の動作環境や処理能力に依存することなく、タイムリーに音声をテキスト化することができる。
情報端末装置400は、情報処理装置200が配置された会議室等で開催される会議等に遠隔地から参加する発話者が操作するコンピュータであり、ネットワークNを介し情報処理装置200に接続する。情報端末装置400は、パーソナルコンピュータであるほか、スマートフォンやタブレット端末等であってもよい。
上述のように構成された音声テキスト化システム10において、マイクロフォン100から取得した音声ごとに情報処理装置200で実行する音声テキスト化処理について説明する。図4は、情報処理装置200で実行する音声テキスト化処理手順を示すフローチャートである。
マイクロフォン100の各チャネルに対し、音声取得部201は、マイクロフォン100に対応付けられたマイクロフォン識別情報をマイクロフォン100から取得する(ステップS401)。音声取得部201は、マイクロフォン識別情報に対応付けられた発話者識別情報と音量レベルを音量レベル記憶部210から取得する(ステップS402)。音声取得部201は、マイクロフォン100から取得する音声の音量が音量レベル以上となったか否かを判断する(ステップS403)。音声の音量が音量レベル以上ではない場合(ステップS403:No)、すなわち発言が開始されていないと判断した場合はステップS403を繰り返す。
音声の音量が音量レベル以上であると判断した場合(ステップS403:Yes)、すなわち発言が開始されたと判断した場合、音声録音部202は、音声の録音を開始する(ステップS404)。発話番号採番部203は、発言テキスト記憶部220に記憶する発話番号の最後の番号を1カウントアップし、新たな発言に対する発話番号を採番し発言テキスト記憶部220に格納する(ステップS405)。発話時刻取得部204は、図示しないタイマ部で計時した時刻を発話時刻として取得し発話番号に対応付けて発言テキスト記憶部220に格納する(ステップS406)。発話番号採番部203は、発話者識別情報を発言テキスト記憶部220に格納する(ステップS407)。
音声取得部201は、マイクロフォン100から取得する音声の音量が音量レベル未満となったか否かを判断する(ステップS408)。マイクロフォン100から取得する音声の音量が音量レベル未満となっていないと判断した場合(ステップS408:No)、すなわち発言が継続している場合は、ステップS408を繰り返す。マイクロフォン100から取得する音声の音量が音量レベル未満となったと判断した場合(ステップS408:Yes)、すなわち発言が終了した場合は、音声録音部202は、音声の録音を終了する(ステップS409)。送受信部207は、音声を開始から終了まで録音した音声データと発話番号を音声認識サーバ300に送信する。(ステップS410)。
入出力部205は、発言テキスト記憶部220に記憶する発話時刻と発話者識別情報を発話番号順に表示画面に表示する(ステップS411)。図5は、情報処理装置200の入出力部205の表示画面の一例を示す説明図である。図5に示す表示画面51は、発言テキスト記憶部220に記憶する発話時刻と発話者識別情報とテキストデータを発話時刻と発話者と発言として表示した例である。なお発言の表示領域には、音声データを変換したテキストデータを表示するが、音声データを音声認識サーバ300に送信した後であり、かつ、音声認識結果であるテキストデータを受信していない場合は、発言テキスト記憶部220にテキストデータが存在しないため、空白にするか表示領域52のように“認識中”を表示してもよい。またマイクロフォン100から取得した音声の音量が音量レベル以上であり(ステップS403:Yes)、かつ、音声の音量が音量レベル未満ではない場合は(ステップS408:No)、発話者が発言中であると判断されるため、表示領域53に“発言中”を表示してもよい。
このように、発話者ごとに用意されたマイクロフォン100のそれぞれにおいて、1つの発言ごとに音声データ(音声ファイル)を生成し、生成した音声データを音声認識サーバ300に送信することによって音声認識処理を情報処理装置200に処理負荷を掛けずに実行することができる。
上述のように構成された音声テキスト化システム10の情報処理装置200で実行するテキスト表示処理について説明する。図6は、情報処理装置200で実行するテキスト表示手順を示すフローチャートである。
送受信部207は、テキストデータと発話番号を音声認識サーバ300から受信したか否かを判断する(ステップS601)。テキストデータと発話番号を音声認識サーバ300から受信していないと判断した場合は(ステップS601:No)、ステップS601を繰り返す。テキストデータと発話番号を音声認識サーバ300から受信したと判断した場合は(ステップS601:Yes)、発話番号に対応付けてテキストデータを発言テキスト記憶部220に格納する。図3に示すテキストデータの記憶領域35のように、音声認識サーバ300から送信されたテキストデータを発話番号に対応付けて格納する(ステップS602)。このように、発言テキスト記憶部220に発話番号に対応付けてテキストデータを格納するため、音声認識サーバ300からテキストデータと発話番号をランダムに受信しても適切に発言テキスト記憶部220に格納することができる。
入出力部205は、表示画面に表示しない発話番号に対応付けられた表示領域にテキストデータを表示する(ステップS603)。図5の発言の表示領域54に示すように、表示画面に表示していない発話番号“7”に対応付けて音声認識したテキストデータを表示画面に表示する。
入出力部205は、議事録生成の指示を受付けたか否かを判断する(ステップS604)。議事録生成の指示を受付けないと判断した場合は(ステップS604:No)、ステップS601に戻り、音声認識サーバ300からテキストデータと発話番号を受信する。議事録生成の指示を受付けたと判断した場合は(ステップS604:Yes)、議事録生成部206は、議事録を生成する(ステップS605)。より具体的には、議事録生成部206は、発言テキスト記憶部220に記憶する発話番号、発話時刻、発話者識別情報、テキストデータを取得し、取得した発話時刻、発話者識別情報、テキストデータを発話番号順に所定のフォーマットに記述することによって議事録ファイルを生成する。なお所定のフォーマットでの議事録ファイルの生成に代えて、発言テキスト記憶部220に記憶する発話時刻、発話者識別情報、テキストデータをCSV形式で書出し、一般的なアプリケーションソフトウェアで編集等を行なってもよい。
このように、情報処理装置200は発話者ごとに用意したマイクロフォン100によって集音した音声を1つの発言ごとに音声データを生成することによって、どの発話者の発言かを音声で判断する必要がなく、また複数の発言者が同時に発言した場合であっても発言の音声が混ざることもないため、簡易な音声認識処理で個々の発言をテキスト化することができる。また情報処理装置200は、生成した音声データを発言番号とともに、ネットワークで接続された音声認識サーバ300に送信しテキストに変換することによって、情報処理装置200の性能や動作環境に依存することなく、簡易な構成でタイムリーな音声のテキスト化および議事録の生成が可能になる。
他の実施例として、ネットワークNを介して接続された情報端末装置400の操作者が会議に参加する場合は、マイクロフォン100から発話者の発する音声を集音することに代えて、送受信部207によって情報端末装置400で集音した音声を受信することによって、遠隔地で会議等に参加している場合であっても、発言の音声に対し発話番号が採番されて音声認識されたテキストデータが情報処理装置200の表示画面に表示されるとともに、発言テキスト記憶部220に格納され、議事録に発言を記載することができる。
また図6のフローチャートのステップS603において、表示画面にテキストデータを表示した際に、テキストデータに対する編集の入力を受付けてもよい。これによって、音声認識での誤りを修正したり、文言の追加や削除、修正をすることができる。テキストデータを画面上で修正した場合は、修正内容を発言テキスト記憶部220に格納する。これによって、議事録にも修正が反映されることとなる。
上述した実施例にかかる情報処理装置200、音声認識サーバ300、情報端末装置400のハードウェア構成は、CPU(Central Processing Unit)、ROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)等の外部記憶装置、通信制御装置等を備えた通常のコンピュータであり、ROMやRAM、HDD等に記憶されたプログラムをCPUが読み出し動作させることによって、上述した構成や機能を実現する。
情報処理装置200、音声認識サーバ300、情報端末装置400で動作するプログラムは、インターネット等のネットワークNに接続されたコンピュータ上に格納しておき、ネットワークN経由でダウンロードさせることにより提供したり、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、DVD、USBメモリ、SDカード等のコンピュータで読取り可能な記録媒体に記録し提供してもよい。また、上述した機能や処理を実現するプログラムは、API(Application Programming Interface)やSaaS(Software as a Service)、クラウドコンピューティングという利用形態で提供してもよい。
なお、本発明は、上述した実施例そのままに限定されるものではなく、必ずしも物理的に図示のように構成されている必要はない。また、本発明は、実施例で説明した構成要素の全部または一部を、各種の負荷や使用状況などに応じ、任意の単位で機能的または物理的に分割、統合、入替、変形または削除して構成することができる。
N…ネットワーク、10…音声テキスト化システム、100…マイクロフォン、200…情報処理装置、201…音声取得部、202…音声録音部、203…発話番号採番部、204…発話時刻取得部、205…入出力部、206…議事録生成部、207…送受信部、210…音量レベル記憶部、220…発言テキスト記憶部、300…音声認識サーバ、400…情報端末装置
Claims (7)
- 発話者ごとのマイクロフォンを有線または無線で接続する情報処理装置において、
前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、
前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声の録音を開始する音声録音手段と、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番手段と、を備え、
前記音声録音手段は、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音手段によって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する送信手段と、
前記送信手段によって送信した前記音声データを変換したテキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納する受信手段と、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示手段と、
を備えることを特徴とする情報処理装置。
- 前記音量レベル記憶手段は、前記マイクロフォン識別情報に対応付けて前記発話者を識別する発話者識別情報を記憶し、
前記発言テキスト記憶手段は、さらに前記発話者識別情報を記憶し、
前記発話番号採番手段は、前記マイクロフォン識別情報に対応付けられた前記発話者識別情報を前記発言テキスト記憶手段に記憶し、
前記表示手段は、前記テキストデータに対応付けて、前記発話者識別情報を表示すること、を特徴とする請求項1に記載の情報処理装置。
- 前記音声の音量が前記音量レベル以上となった際の時刻を取得し、取得した前記時刻を前記発言テキスト記憶手段に格納する発話時刻取得手段、をさらに備えることを特徴とする請求項1または請求項2に記載の情報処理装置。
- 前記発言テキスト記憶手段に記憶する前記テキストデータおよび前記発話者識別情報を前記発話番号順に記述する議事録を生成する議事録生成手段、をさらに備えることを特徴とする請求項2に記載の情報処理装置。
- 発話者ごとのマイクロフォンと、前記マイクロフォンを有線または無線で接続する情報処理装置と、音声認識サーバと、を備える音声テキスト化システムにおいて、
前記情報処理装置は、
前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、
前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声の録音を開始する音声録音手段と、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番手段と、を備え、
前記音声録音手段は、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音手段によって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する音声送信手段と、を備え、
前記音声認識サーバは、
前記音声データおよび前記発話番号を前記情報処理装置から受信する音声受信手段と、
前記音声受信手段によって受信した前記音声データをテキストデータに変換する音声認識手段と、
前記音声認識手段によって変換した前記テキストデータおよび前記発話番号を前記情報処理装置に送信するテキスト送信手段と、を備え、
前記情報処理装置は、
前記テキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納するテキスト受信手段と、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示手段と、
を備えることを特徴とする音声テキスト化システム。
- 発話者ごとのマイクロフォンを有線または無線で接続し、前記マイクロフォンを識別するマイクロフォン識別情報と、前記発話者が発言したか否かを判断する音量レベルと、を対応付けて記憶する音量レベル記憶手段と、前記発話者の発言の順番を示す発話番号と、前記発言のテキストデータと、を対応付けて記憶する発言テキスト記憶手段と、を備えるコンピュータで実行される音声テキスト化方法において、
前記マイクロフォンごとに、
前記マイクロフォンで集音した音声の音量が、前記音量レベル記憶手段に記憶する前記マイクロフォン識別情報に対応付けられた前記音量レベル以上となった場合に、前記音声を録音する音声録音ステップと、
前記音声の音量が前記音量レベル以上となった場合に、前記発言テキスト記憶手段に記憶する前記発話番号をカウントアップした発話番号を前記発言テキスト記憶手段に格納する発話番号採番ステップと、を含み、
前記音声録音ステップは、前記音声の音量が前記音量レベル以上となった後に、さらに前記音声の音量が前記音量レベル未満となった場合に、前記音声の録音を終了し、
前記音声録音ステップによって録音した前記音声の音声データおよび前記発話番号を音声認識サーバに送信する送信ステップと、
前記送信ステップによって送信した前記音声データを変換したテキストデータおよび前記発話番号を前記音声認識サーバから受信するとともに、前記発話番号に対応付けて前記テキストデータを前記発言テキスト記憶手段に格納する受信ステップと、
前記発話番号に応じた表示領域に前記テキストデータを表示する表示ステップと、
を含むことを特徴とする音声テキスト化方法。
- 請求項6に記載した音声テキスト化方法をコンピュータに実行させることを特徴とする音声テキスト化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019087731A JP2020184007A (ja) | 2019-05-07 | 2019-05-07 | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019087731A JP2020184007A (ja) | 2019-05-07 | 2019-05-07 | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020184007A true JP2020184007A (ja) | 2020-11-12 |
Family
ID=73045092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019087731A Pending JP2020184007A (ja) | 2019-05-07 | 2019-05-07 | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020184007A (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07191690A (ja) * | 1993-12-24 | 1995-07-28 | Canon Inc | 議事録作成装置及び多地点議事録作成システム |
JP2005181391A (ja) * | 2003-12-16 | 2005-07-07 | Sony Corp | 音声処理装置および音声処理方法 |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
JP2016029466A (ja) * | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識テキスト化システムの制御方法および携帯端末の制御方法 |
WO2016129188A1 (ja) * | 2015-02-10 | 2016-08-18 | Necソリューションイノベータ株式会社 | 音声認識処理装置、音声認識処理方法およびプログラム |
JP2018106148A (ja) * | 2016-12-12 | 2018-07-05 | ソリザバ カンパニー リミテッドSorizava Co., Ltd. | 多重話者音声認識修正システム |
-
2019
- 2019-05-07 JP JP2019087731A patent/JP2020184007A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07191690A (ja) * | 1993-12-24 | 1995-07-28 | Canon Inc | 議事録作成装置及び多地点議事録作成システム |
JP2005181391A (ja) * | 2003-12-16 | 2005-07-07 | Sony Corp | 音声処理装置および音声処理方法 |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
JP2016029466A (ja) * | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識テキスト化システムの制御方法および携帯端末の制御方法 |
WO2016129188A1 (ja) * | 2015-02-10 | 2016-08-18 | Necソリューションイノベータ株式会社 | 音声認識処理装置、音声認識処理方法およびプログラム |
JP2018106148A (ja) * | 2016-12-12 | 2018-07-05 | ソリザバ カンパニー リミテッドSorizava Co., Ltd. | 多重話者音声認識修正システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI616868B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
TWI619115B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
US10572107B1 (en) | Voice communication targeting user interface | |
JP2018036868A (ja) | 会議支援システム、会議支援装置、及び会議支援方法 | |
US20040064322A1 (en) | Automatic consolidation of voice enabled multi-user meeting minutes | |
TWI590240B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
JP2016029468A (ja) | 音声情報制御方法及び端末装置 | |
JP5743976B2 (ja) | 情報処理装置、プログラム、及び情報処理方法 | |
JP2014170185A (ja) | 発話コマンド認識システム | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN109671430A (zh) | 一种语音处理方法及装置 | |
US11551707B2 (en) | Speech processing method, information device, and computer program product | |
US9305551B1 (en) | Scribe system for transmitting an audio recording from a recording device to a server | |
WO2015125560A1 (ja) | 情報処理装置、音声対話装置、および制御プログラム | |
US10002611B1 (en) | Asynchronous audio messaging | |
CN112634879B (zh) | 语音会议管理方法、装置、设备及介质 | |
JP2015184487A (ja) | 音声処理装置および音声処理方法 | |
KR20180089242A (ko) | 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 | |
JP2020184007A (ja) | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム | |
JP2021076715A (ja) | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム | |
JP5983028B2 (ja) | 会議支援装置、会議支援システム、会議支援方法およびプログラム | |
WO2023087287A1 (zh) | 一种会议内容显示的方法、会议系统及会议设备 | |
CN113689855A (zh) | 一种会议记录生成系统、方法、装置、存储介质 | |
US10505879B2 (en) | Communication support device, communication support method, and computer program product | |
JP2013182353A (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230302 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230831 |