JP2022178110A

JP2022178110A - 音声認識表示装置、音声認識表示方法及びプログラム

Info

Publication number: JP2022178110A
Application number: JP2021084660A
Authority: JP
Inventors: 和基小島; Kazuki Kojima
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-12-02
Anticipated expiration: 2041-05-19
Also published as: JP7323210B2

Abstract

【課題】音声認識精度を向上させるとともに、リアルタイム性を担保する。
【解決手段】一態様に係る音声認識表示装置は、音声データを取得する音声取得部と、所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成する音声分割部と、前記区切時間が経過する毎に、前記分割音声データを先頭から順に格納する音声バッファと、前記分割音声データを分割音声テキストデータに変換する音声認識部と、前記分割音声テキストデータが空か否かを判定するテキスト判定部と、前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成するバッファ制御部と、前記結合音声データを音声認識した結合音声テキストデータを表示するテキスト表示部とを備える。
【選択図】図１

Description

本発明は、音声認識表示装置、音声認識表示方法及びプログラムに関する。

特許文献１には、テキスト化処理の時間を短縮するために、音声ファイルを所定の時間で区切ってテキスト化処理を行う音声認識システムが開示されている。また、特許文献１では、音声ファイルを生成するための音声データにおいて、発言と発言の間の無音時間が所定の閾値以上である場合に音声データを区切り、無音時間の直前の音声データから話者を判別することが記載されている。

特許文献２には、音声データを分割して音声認識させ、その結果であるテキストデータを画面上にテキストとして表示させる情報処理システムが開示されている。また、特許文献２では、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力タイミングを、当該音声データの音声認識処理が確定するまでの期間遅延させている。これにより、出力されたテキストデータの内容に対応する音声データを聞きながら当該テキストデータを人手により修正することができる。

特開２０２０－６０７３５号公報特開２０１９－１８５００５号公報

近年、消防の１１９番通報や警察の１１０番通報などの緊急通報システムにおいて、音声認識が導入され始めている。このような秒単位の判断が求められる緊急通報システムでは、通報者と受付者の通話音声を他の指令員が聴取（モニタ）し、消防車や救急車などの緊急車両の出動指示を行う。その場合、リアルタイムで通報者と受付者の通話内容をテキスト化することで、指令員が瞬時に通報内容を把握し、前述の出動指示を行うことができる。

リアルタイム音声認識システムでは、リアルタイム性が損なわれないように、テキスト化処理に係る時間を短くすることが求められている。テキスト化処理の時間を短縮するために、テキスト化する音声データを分割する方法には、所定の時間で区切る方法と、音声データにおける無音区間で区切る方法とがある。

所定の時間で音声データを区切る方法では、あらかじめ定められた固定時間で音声データが分割される。この場合、有音部分（文章や単語）の途中で音声データが分断されてしまい、当該文章や単語が正しくテキスト化されず、分割した細切れの音声データをそれぞれ認識したテキストをつなぎ合わせても１つの文章として意味をなさない場合がある。

また、入力された音声データ内の無音区間を検出して、音声データを有意な単位（文章単位）に区切る場合、無音と判断する音声レベルで閾値を設け、入力された音声データの音声レベルが閾値を超えているか否かで無音／有音の判断を行い、無音区間による音声分割が実現される。

しかし、無音と判断する音声レベルは、音声を収集する周囲の環境音（ノイズなど）によって異なり、かつ、環境音はリアルタイムで変動するため、無音と判断する最適な音声レベルを決定するのは困難である。例えば、無音と判断する音声レベルを最適な値より低く設定した場合、音声に当該レベルを超えるノイズが混入すると、実際は無音のはずが有音と判断され、正しい位置で音声データを区切ることができなくなる。

また、このような無音区間による音声分割の音声認識システムでは、音声データ中の無音区間を検出して初めて、無音区間より前の音声データのテキスト化が実行される。このため、文章が長い場合は、当該文章が終わるまでテキスト化されず、緊急通報システムで求められる秒単位のリアルタイム性を担保することができない。

本開示の目的は、上述した問題を鑑み、音声認識精度を向上させるとともに、リアルタイム性を担保することが可能な音声認識表示装置、音声認識方法及びプログラムを提供することにある。

本発明の一態様に係る音声認識表示装置は、音声データを取得する音声取得部と、所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成する音声分割部と、前記区切時間が経過する毎に、前記分割音声データを先頭から順に格納する音声バッファと、前記分割音声データを分割音声テキストデータに変換する音声認識部と、前記分割音声テキストデータが空か否かを判定するテキスト判定部と、前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成するバッファ制御部と、前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示するテキスト表示部とを備えるものである。

本発明の一態様に係る音声認識方法は、音声データを取得し、所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成し、前記区切時間が経過する毎に、前記分割音声データを音声バッファに先頭から順に格納し、前記分割音声データを分割音声テキストデータに変換し、前記分割音声テキストデータが空か否かを判定し、前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成し、前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示する。

本発明の一態様に係るプログラムは、音声データを取得する処理と、所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成する処理と、前記区切時間が経過する毎に、前記分割音声データを音声バッファに先頭から順に格納する処理と、前記分割音声データを分割音声テキストデータに変換する処理と、前記分割音声テキストデータが空か否かを判定する処理と、前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成する処理と、前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示する処理と、をコンピュータに実行させるものである。

本発明によれば、音声認識精度を向上させるとともに、リアルタイム性を担保することが可能な音声認識表示装置、音声認識方法及びプログラムを提供することにある。

実施の形態に係る音声認識表示装置の概略構成を示すブロック図である。実施の形態１に係る音声認識表示装置の構成を示すブロック図である。ＩＰ電話機での通話内容及び通話音声波形の一例である。実施の形態１に係る音声認識方法を説明するフロー図である。時刻Ｔｄ１経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ２経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ６経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ７経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ１経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ２経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ６経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ７経過後にテキスト表示部に表示されるテキストを示す図である。インデックス０、１の分割音声データが結合された結合音声データを示す図である。実施の形態２に係る音声認識表示装置の構成を示すブロック図である。実施の形態２に係る音声認識方法を説明するフロー図である。時刻Ｔｄ１経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ２経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ６経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ７経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ１経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ２経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ６経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ７経過後にテキスト表示部に表示されるテキストを示す図である。実施の形態２に係る音声認識表示装置により音声認識される通話内容及び通話音声波形の一例を示す図である。実施の形態３に係る音声認識表示装置の構成を示すブロック図である。実施の形態４に係る音声認識表示装置の構成を示すブロック図である。３回分の区切時間経過後に音声バッファＸに保存される分割音声データを示す図である。３回分の区切時間経過後に音声バッファＹに保存される分割音声データを示す図である。１回目の区切時間経過後にテキストバッファＸに保存される分割音声テキストデータを示す図である。１回目の区切時間経過後にテキストバッファＹに保存される分割音声テキストデータを示す図である。２回目の区切時間経過後にテキストバッファＸに保存される分割音声テキストデータを示す図である。２回目の区切時間経過後にテキストバッファＹに保存される分割音声テキストデータを示す図である。３回目の区切時間経過後にテキストバッファＸに保存される分割音声テキストデータを示す図である。３回目の区切時間経過後にテキストバッファＹに保存される分割音声テキストデータを示す図である。併合前の併合テキストバッファの保存状態を示す図である。併合１回目の併合テキストバッファに保存される併合テキストデータを示す図である。併合２回目の併合テキストバッファに保存される併合テキストデータを示す図である。併合３回目の併合テキストバッファに保存される併合テキストデータを示す図である。併合４回目の併合テキストバッファに保存される併合テキストデータを示す図である。併合５回目の併合テキストバッファに保存される併合テキストデータを示す図である。表示前のテキスト表示部の表示状態を示す図である。表示１回目のテキスト表示部に表示されるテキストを示す図である。表示２回目のテキスト表示部に表示されるテキストを示す図である。表示３回目のテキスト表示部に表示されるテキストを示す図である。表示４回目のテキスト表示部に表示されるテキストを示す図である。表示５回目のテキスト表示部に表示されるテキストを示す図である。実施の形態５に係る音声認識表示装置の構成を示すブロック図である。図２１のマイクで集音した発話内容及び発話音声波形の一例を示す図である。時刻Ｔｄ３経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ７経過後に音声バッファに保存される分割音声データを示す図である。時刻Ｔｄ１経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ２経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ３経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ４経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ５経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ６経過後にテキストバッファに保存される結合音声テキストデータを示す図である。時刻Ｔｄ７経過後にテキストバッファに保存される結合音声テキストデータを示す図である。テキスト表示部の初期表示状態を示す図である。時刻Ｔｄ１経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ２経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ３経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ４経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ５経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ６経過後にテキスト表示部に表示されるテキストを示す図である。時刻Ｔｄ７経過後にテキスト表示部に表示されるテキストを示す図である。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。ただし、本発明が以下の実施の形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。各図面において、同一の構成要素には同一の符号を付し、説明は適宜省略される。

図１は、実施の形態に係る音声認識表示装置１の概略構成を示すブロック図である。音声認識表示装置１は、音声データを取得する機能、及び、該音声データから生成されたテキストデータを表示する機能を有する装置である。図１に示すように、音声認識表示装置１は、音声取得部１０、時間区切音声分割部１１、音声バッファ１２、音声認識部１３、テキスト表示部１４、テキスト判定部２１、バッファ制御部３１を備える。

音声取得部１０は、音声データを取得して、時間区切音声分割部１１に送信する。時間区切音声分割部１１は、受信した音声データを時間軸に沿って所定の区切時間で分割して、分割音声データを生成する。この分割音声データは、該区切時間が経過する毎に、音声バッファ１２に先頭から順に格納されるとともに、音声認識部１３に入力される。音声認識部１３は、分割音声データを分割音声テキストデータに変換し、テキスト判定部２１に送信する。テキスト判定部２１は、分割音声テキストデータが空か否かを判定する。

テキスト判定部２１による判定結果は、バッファ制御部３１に入力される。バッファ制御部３１は、分割音声テキストデータが空ではない場合、音声バッファ１２に格納された分割音声データを先頭から順に結合した結合音声データを生成する。テキスト表示部１４は、区切時間が経過する毎に、結合音声データを音声認識した結合音声テキストデータを表示する。これにより、音声認識精度を向上させるとともに、リアルタイム性を担保することが可能となる。

実施の形態１．
図２は、実施の形態１に係る音声認識表示装置１Ａの構成を示すブロック図である。図２に示す例では、音声認識表示装置１Ａは、ＩＰ電話機４０での通話音声をリアルタイムで音声認識し、テキスト表示する。図２では、図１のテキスト判定部２１を含む分割音声・テキスト制御部２０と、バッファ制御部３１を含む結合音声・テキスト制御部３０とが示されている。

音声認識表示装置１Ａは、時間区切音声分割部１１、音声バッファ１２、音声認識部１３、テキスト表示部１４、認識ＤＢ１５、分割音声・テキスト制御部２０、結合音声・テキスト制御部３０を備える。分割音声・テキスト制御部２０は、テキスト判定部２１、分割音声送信部２２、分割音声テキスト受信部２３を含む。結合音声・テキスト制御部３０は、バッファ制御部３１、結合音声送信部３２、結合音声テキスト受信部３３を含む。

音声取得部１０は、ＩＰ電話機４０から出力されるデジタル音声信号を取得し、音声データとして時間区切音声分割部１１に出力する。時間区切音声分割部１１は、音声取得部１０から受け取った音声データを予め設定された区切時間で区切り、複数の分割音声データを生成する。時間区切音声分割部１１は、区切時間が経過する毎に、分割音声データを音声バッファ１２に先頭から順に格納する。また、時間区切音声分割部１１は、分割音声データを分割音声・テキスト制御部２０の分割音声送信部２２に送信する。

図３は、ＩＰ電話機４０での通話内容及び通話音声波形の一例である。ここでは、音声の開始時刻を０とし、所定の区切時間をＴｄとする。音声データは、区切時間Ｔｄ毎に複数の分割音声データに分割される。図３に示すように、最初の区切時間Ｔｄが経過した時刻をＴｄ１とし、以降、区切時間Ｔｄが経過する毎に、順にＴｄ２→Ｔｄ３→Ｔｄ４→Ｔｄ５→Ｔｄ６→Ｔｄ７とする。時間０～Ｔｄ１、Ｔｄ１～Ｔｄ２、Ｔｄ２～Ｔｄ３、Ｔｄ３～Ｔｄ４、Ｔｄ４～Ｔｄ５、Ｔｄ５～Ｔｄ６、Ｔｄ６～Ｔｄ７の分割音声データを、それぞれ分割音声データｄ１、ｄ２、ｄ３、ｄ４、ｄ５、ｄ６、ｄ７とする。

時間区切音声分割部１１は、区切時間Ｔｄが経過する毎に、分割音声データを音声バッファ１２の待ち行列（音声キュー）の末尾に保存する。分割音声送信部２２は、時間区切音声分割部１１から受信した分割音声データを音声認識部１３に送信する。音声認識部１３は、認識ＤＢ１５を参照して、分割音声データを分割音声テキストデータに変換して、分割音声テキスト受信部２３に送信する。

認識ＤＢ１５には、音声認識処理を実行する際に使用される、音響モデル、言語モデル、辞書等が格納されている。音声認識部１３は、音声データを音響分析して得られる特徴量の時系列のパターンに対して、例えば、隠れマルコフモデル（Hidden Markov Model）などの音響モデルを用いることで音素を判別する。また、音声認識部１３は、判別した音素に対して、辞書とN-gram等の言語モデルとを用いて、蓄積されている単語の中から最も妥当な単語を選択することでテキストデータを生成する。

分割音声テキスト受信部２３は、音声認識部１３から受信した分割音声テキストデータをテキスト判定部２１に送信する。テキスト判定部２１は、分割音声テキストデータが「空」であるか否かを判定し、判定結果をバッファ制御部３１に入力する。

バッファ制御部３１は、判定結果が「空でない」場合、音声バッファ１２に格納されている分割音声データを先頭から順に結合した結合音声データを生成し、結合音声送信部３２へ送信する。一方、判定結果が「空である」場合、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除して、音声バッファ１２を空にする。

結合音声送信部３２は、バッファ制御部３１から受信した結合音声データを音声認識部１３に送信する。音声認識部１３は、認識ＤＢ１５を参照して、結合音声データを結合音声テキストデータに変換して、結合音声テキスト受信部３３に送信する。なお、ここでは、１つの音声認識部１３が、分割音声データと結合音声データ両方の音声認識処理を行うように構成されているが、それぞれの音声データを異なる音声認識部により処理してもよい。

結合音声テキスト受信部３３は、受信した結合音声テキストデータをテキスト表示部１４に送信する。テキスト表示部１４は、受信した結合音声テキストデータを表示する。例えば、テキスト表示部１４は、区切時間Ｔｄ毎に更新される結合音声テキストデータを、１行ずつ順に表示することができる。

ここで、図４及び図５Ａ～５Ｄ、６Ａ～６Ｄ、図７を参照して、実施の形態１に係る音声認識方法について説明する。図４は、実施の形態１に係る音声認識方法を説明するフロー図である。図５Ａ～５Ｄは、各時刻経過後に音声バッファに保存される分割音声データを示す図である。図６Ａ～６Ｄは、各時刻経過後にテキスト表示部に表示されるテキストを示す図である。なお、分割音声データｄ１、ｄ２、ｄ３、ｄ４、ｄ５、ｄ６、ｄ７を音声認識して生成されるテキストデータをそれぞれ、分割音声テキストデータＴＸ１、ＴＸ２、ＴＸ３、ＴＸ４、ＴＸ５、ＴＸ６、ＴＸ７とする。

まず、音声取得部１０が、ＩＰ電話機４０のデジタル音声信号から音声データを取得する（ステップＳ１０）。音声取得部１０は、音声データを時間０から逐次、時間区切音声分割部１１へ送信する。そして、時間区切音声分割部１１が、音声データを所定の区切時間で時間軸に沿って区切時間Ｔｄで分割して分割音声データを生成し、区切時間が経過する毎に分割音声データを音声バッファ１２の末尾に保存するとともに、音声認識部１３へ送信する（ステップＳ１１）。

具体的には、時間区切音声分割部１１は、最初の区切り時間Ｔｄの経過時（時刻Ｔｄ１）に、時間０～Ｔｄ１の分割音声データｄ１を音声バッファ１２へ格納する。このとき、音声バッファ１２は空であるため、図５Ａに示すように、分割音声データｄ１は、音声バッファ１２の音声キューのインデックス０に格納される。

そして、音声認識部１３が、認識ＤＢ１５を参照して、分割音声データｄ１を分割音声テキストデータＴＸ１に変換する（ステップＳ１２）。分割音声テキストデータＴＸ１の内容は、「通行人が倒れ」となる。分割音声テキストデータＴＸ１は、分割音声テキスト受信部２３を介して、テキスト判定部２１に入力される。そして、テキスト判定部２１が、分割音声テキストデータＴＸ１が空であるか否かを判定する（ステップＳ１３）。

テキスト判定部２１による判定結果は、バッファ制御部３１に入力される。上述の通り、分割音声テキストデータＴＸ１は、空ではない。分割音声テキストデータが空ではない場合（ステップＳ１３ＮＯ）、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを先頭から順に結合して結合音声データを生成し、音声認識部１３へ送信する（ステップＳ１４）。このとき、音声キューに格納されている分割音声データはインデックス０のみであるため、インデックス０の分割音声データが結合音声送信部３２を介して音声認識部１３へ入力される。

そして、音声認識部１３は、認識ＤＢ１５を参照し、結合音声データを結合音声テキストデータへ変換する。この結合音声テキストデータは、結合音声テキスト受信部３３を介してテキスト表示部１４へ入力される。テキスト表示部１４は、受信した結合音声テキストデータを表示する（ステップＳ１５）。このときの結合音声テキストデータの内容は、「通行人が倒れ」である。テキスト表示部１４は、受信した結合音声テキストデータを１行ずつ表示する。図６Ａに示すように、テキスト表示部１４は「通行人が倒れ」とのテキストを表示する。

ステップＳ１１へ戻り、次の区切時間Ｔｄが経過するとき（時刻Ｔｄ２）、時間区切音声分割部１１は、時間Ｔｄ１～Ｔｄ２の分割音声データｄ２を音声バッファ１２の音声キューの末尾へ格納する。このとき、図５Ｂに示すように、分割音声データｄ２は、音声キューのインデックス１に格納される。同時に、時間区切音声分割部１１は、時間Ｔｄ１～Ｔｄ２の分割音声データｄ２を、分割音声送信部２２へ送信する。

音声認識部１３は、分割音声送信部２２から分割音声データｄ２を受信する。そして、音声認識部１３は、認識ＤＢ１５を参照し、分割音声データｄ２を分割音声テキストデータＴＸ２へ変換する（ステップＳ１２）。分割音声テキストデータＴＸ２の内容は、「ていて胸が苦しい」となる。分割音声テキストデータＴＸ２は、分割音声テキスト受信部２３を介して、テキスト判定部２１に入力される。そして、テキスト判定部２１が、分割音声テキストデータＴＸ２が空であるか否かを判定する（ステップＳ１３）。

テキスト判定部２１による判定結果は、バッファ制御部３１に入力される。上述の通り、分割音声テキストデータＴＸ２は、空ではない。分割音声テキストデータが空ではない場合（ステップＳ１３ＮＯ）、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを先頭から順に結合して結合音声データを生成し、音声認識部１３へ送信する（ステップＳ１４）。このとき、音声キューに格納されている分割音声データはインデックス０、１であるため、インデックス０、１の分割音声データが結合され、結合音声送信部３２を介して音声認識部１３へ入力される。このときの、音声認識部１３へ入力される結合音声データが図７に示される。

そして、音声認識部１３は、認識ＤＢ１５を参照し、結合音声データを結合音声テキストデータへ変換する。この結合音声テキストデータは、結合音声テキスト受信部３３を介してテキスト表示部１４へ入力される。テキスト表示部１４は、受信した結合音声テキストデータを表示する（ステップＳ１５）。このときの結合音声テキストデータの内容は、「通行人が倒れていて胸が苦しい」である。図６Ｂに示すように、テキスト表示部１４は「通行人が倒れていて胸が苦しい」とのテキストを表示する。

同様に、時刻Ｔｄ６経過後まで（すなわち、時間Ｔｄ２～Ｔｄ３、Ｔｄ３～Ｔｄ４、Ｔｄ４～Ｔｄ５、Ｔｄ５～Ｔｄ６の分割音声データｄ３～ｄ６に対して）、ステップＳ１１～Ｓ１５が繰り返し実行される。図５Ｃには、時刻Ｔｄ６経過後に、音声バッファ１２に格納された分割音声データが示される。図５Ｃに示すように、音声バッファ１２には、インデックス０～５にそれぞれ分割音声データｄ１～ｄ６が格納されている。また、図６Ｃには、図５Ｃの分割音声データｄ１～ｄ６が先頭から順に結合された結合音声データが音声認識され、テキスト表示部１４に表示されたテキストが示されている。

次に、時刻Ｔｄ７経過後の動作について説明する。時間Ｔｄ６～Ｔｄ７では、分割音声データは無音であるものとする。ステップＳ１１において、次の区切時間Ｔｄが経過するとき（時刻Ｔｄ７）、時間区切音声分割部１１は、時間Ｔｄ６～Ｔｄ７の分割音声データｄ７を音声バッファ１２の音声キューの末尾へ格納する。

図５Ｄに示すように、分割音声データｄ７は、音声キューのインデックス６に格納される。同時に、時間区切音声分割部１１は、時間Ｔｄ６～Ｔｄ７の分割音声データｄ７を、分割音声送信部２２へ送信する。

音声認識部１３は、分割音声送信部２２から分割音声データｄ７を受信する。そして、音声認識部１３は、認識ＤＢ１５を参照し、分割音声データｄ７を分割音声テキストデータＴＸ７へ変換する（ステップＳ１２）。上述の通り、分割音声データは無音であるため、分割音声テキストデータＴＸ２の内容は空となる。分割音声テキストデータＴＸ７は、分割音声テキスト受信部２３を介して、テキスト判定部２１に入力される。そして、テキスト判定部２１が、分割音声テキストデータＴＸ７が空であるか否かを判定する（ステップＳ１３）。

テキスト判定部２１による判定結果は、バッファ制御部３１に入力される。上述の通り、分割音声テキストデータＴＸ７は空であるため（ステップＳ１３ＹＥＳ）、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除して（ステップＳ１６）、音声キューを空にする。

このときにテキスト表示部１４に表示されるテキストが図６Ｄに示される。時刻Ｔｄ６経過の時点ですべての音声データのテキスト化が完了しているため、図６Ｃと図６Ｄで表示されるテキストの内容の差分はない。このように、区切り時間Ｔｄが経過する毎に、テキスト表示部１４に徐々に結合されたテキストが１行ずつ表示されていく。

所定の固定時間によって音声データを強制的に分割する比較例１では、テキスト表示部に表示されるテキストは、固定時間毎の音声データをそれぞれ音声認識したテキストが単純に結合されたものとなる。固定時間毎の音声データをそれぞれ音声認識したテキストは、前後の単語との関係をもとにした音声の解析ができず、単語の途中等で区切られている可能性のある音声データのテキストであり、このようなテキストを単純に結合しただけでは、文章として理解できない内容となる可能性がある。

これに対し、実施の形態１によれば、区切時間の度に、それまでの分割音声データをすべて結合した結合音声データを再認識させることができる。このため、音声認識部１３にて、前後の単語の関係をもとにした解析が可能であり、単語の途中で区切られることなく、認識精度が向上したテキスト化が可能である。

また、無音区間によって音声分割を行う比較例２において、図４の音声データをリアルタイム認識する場合、時刻Ｔｄ５とＴｄ６の中間あたり（Ｔｄ５’とする）から無音区間が始まるため、時刻Ｔｄ５’までは分割音声データが生成されず、Ｔｄ５’以降に初めて分割音声データを音声認識してテキストが表示されることとなる。これに対し、実施の形態１によれば、区切時間Ｔｄの度に、それまでの音声データを結合しテキスト化することができる。これにより、Ｔｄ５’経過前に、区切時間Ｔｄ毎に徐々に文章が構築されていくようにテキストを表示することができ、比較例２よりもリアルタイム性が向上した音声認識が可能である。

実施の形態２．
図８は、実施の形態２に係る音声認識表示装置１Ｂの構成を示すブロック図である。実施の形態２では、実施の形態１と同様に、ＩＰ電話機４０での通話内容（通話音声波形）をリアルタイムで音声認識し、テキスト表示する。上述のように、実施の形態１では、区切時間Ｔｄ毎に更新される結合音声テキストデータを、１行ずつ順に表示している。実施の形態２では、テキスト表示部１４の表示をより見やすくするために、テキスト表示部１４に表示されるテキストが文章単位となるようにする。

実施の形態２において、実施の形態１と異なる点は、結合音声・テキスト制御部３０がテキストバッファ３４をさらに含み、バッファ制御部３１が音声バッファ１２を制御するとともに、テキストバッファ３４を制御する点である。以下、実施の形態１との差異について詳細に説明し、重複説明は適宜省略する。

結合音声テキスト受信部３３は、区切時間Ｔｄ毎に結合音声テキストデータを受信すると、音声認識部１３から受信した結合音声テキストデータをテキストバッファ３４の空きインデックスのうち最も番号の小さいインデックスに格納する。なお、「空きインデックス」とは、行末に改行コードが付与されていないインデックスである。すなわち、空きインデックスには、結合音声テキストデータが格納されていないか、又は、行末に改行コードが付与されず、１つの文章として確定していない結合音声テキストデータが格納されている。

結合音声テキスト受信部３３は、当該インデックスにすでに結合音声テキストデータが存在する場合は、既存のデータを新たなデータで上書きする。すなわち、結合音声テキストデータは、区切時間が経過する毎に新たな結合音声テキストデータに更新される。

バッファ制御部３１は、テキスト判定部２１から受け取った判定結果が「空」である場合、テキストバッファ３４に保存されている結合音声テキストデータを１つの文章として確定する。バッファ制御部３１は、例えば、テキストバッファ３４に保存されている結合音声テキストデータの行末に改行コード［ＥＯＬ］を付与することで、結合音声テキストデータを１つの文章として確定する。

この１つの文章として確定した結合音声テキストデータが格納されたインデックスが、使用インデックスとなる。この場合、次に結合音声テキスト受信部３３が結合音声テキストデータを受信すると、前回格納した使用インデックスの、１つ後ろの空きインデックスに該結合音声テキストデータが格納されることとなる。

テキスト表示部１４は、テキストバッファ３４から結合音声テキストデータを読み出し、先頭インデックスから順にテキストを表示する。例えば、テキスト表示部１４は、区切時間Ｔｄよりも短い読み出し時間Ｔｒ毎に、テキストバッファ３４に格納されている結合音声テキストデータを読み出して、テキストを表示することができる。

ここで、図９及び図１０Ａ～１０Ｄ、１１Ａ～１１Ｄを参照して、実施の形態２に係る音声認識方法について説明する。図９は、実施の形態２に係る音声認識方法を説明するフロー図である。図１０Ａ～１０Ｄは、各時刻経過後にテキストバッファに保存される結合音声テキストデータを示す図である。図１１Ａ～１１Ｄは、各時刻経過後にテキスト表示部に表示されるテキストを示す図である。

なお、図９において、図４と同一のステップには、同一の符号が付されている。ＩＰ電話機４０での通話内容及び通話音声波形、音声データの区切り方、音声バッファ１２の音声キューの内容の遷移については、実施の形態１と同様であるものとする（図３、図５Ａ～５Ｄ）。

図９に示すように、最初の区切り時間Ｔｄの経過時（時刻Ｔｄ１）に、実施の形態１と同様に、ステップＳ１０～Ｓ１４の処理が実行される。そして、結合音声テキスト受信部３３は、音声認識部１３により変換された結合音声テキストデータをテキストバッファ３４に格納する（ステップＳ１７）。結合音声テキスト受信部３３は、テキストバッファ３４の、行末に改行コードが付与されていないインデックスのうち、最も番号の小さいインデックスに、「通行人が倒れ」との結合音声テキストデータを格納する。

このときのテキストバッファ３４に格納されたテキストファイルの内容が、図１０Ａに示される。「通行人が倒れ」との結合音声テキストデータを書き込む際、テキストファイルは空である。このため、このテキストファイルの１行目が、結合音声テキストデータが格納されておらず、最も番号の小さい空きインデックスに相当する。図１０Ａに示すように、「通行人が倒れ」との結合音声テキストデータが、テキストファイルの１行目に書き込まれる。この時、テキストファイルの行末に改行コードが付与されていない行（１行目）が、テキストファイルの最終行となる。

そして、テキスト表示部１４は、テキストバッファ３４からテキストファイルを読み出して、結合音声テキストデータを表示する（ステップＳ１８）。例えば、テキスト表示部１４は、区切時間Ｔｄよりも短い読出時間Ｔｒでテキストファイルを読み出して、テキストを表示することができる。このとき、図１１Ａに示すように、テキスト表示部１４は「通行人が倒れ」とのテキストを表示する。

ステップＳ１１へ戻り、次の区切時間Ｔｄが経過すると（時刻Ｔｄ２）、ステップＳ１１～Ｓ１４が再度実行される。図１０Ａに示すように、テキストファイルの１行目には、「通行人が倒れ」との結合音声テキストデータが格納されているものの、改行コードは付与されていない。このため、テキストファイルの１行目は、行末に改行コードが付与されず、１つの文章として確定していない結合音声テキストデータが格納されている、最も番号の小さいインデックスに相当する。

ステップＳ１７では、「通行人が倒れていて胸が苦しい」との結合音声テキストデータが、テキストファイルの１行目に上書きされる。図１０Ｂに示すように、「通行人が倒れていて胸が苦しい」との結合音声テキストデータが、テキストファイルの１行目に書き込まれる。そして、ステップＳ１８では、図１１Ｂに示すように、テキスト表示部１４は「通行人が倒れていて胸が苦しい」とのテキストを表示する。

同様に、時刻Ｔｄ６経過後まで、ステップＳ１１～Ｓ１４、Ｓ１７、Ｓ１８が繰り返し実行される。図１０Ｃには、時刻Ｔｄ６経過後に、テキストバッファ３４に格納された結合音声テキストデータが示される。図１０Ｃに示すようにテキストバッファ３４には、テキストファイルの１行目に「通行人が倒れていて胸が苦しいと訴えていてえーとかかりつけの病院はないと言っています」との結合音声テキストデータが格納される。そして、図１１Ｃに示すように、テキスト表示部１４は同様のテキストを表示する。

次に、時刻Ｔｄ７経過後の動作について説明する。時間Ｔｄ６～Ｔｄ７では、分割音声データは無音である。ステップＳ１３において、分割音声テキストデータＴＸ７は空であるため（ＹＥＳ）、ステップＳ１９へと進む。ステップＳ１９では、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除して、音声キューを空にするとともに、結合音声テキストデータの行末に改行コード［ＥＯＬ］を付与する。このときのテキストバッファ３４に格納されたテキストファイルを図１０Ｄに示す。

また、このときのテキスト表示部１４が表示するテキストを、図１１Ｄに示す。時刻Ｔｄ６の経過の時点ですべての音声データのテキスト化が完了しているため、図１１Ｃと図１１Ｄで表示されるテキストの内容の差分はない。このように、実施の形態２では、区切り時間Ｔｄが経過する毎に、テキスト表示部１４に徐々に結合されたテキストが表示されていく。

このように、実施の形態２では、テキストファイルを使用し、文章の区切りまでは結合音声テキストデータを上書きして更新する。これにより、テキスト表示部１４に、音声認識テキストが文章単位で表示されるため、実施の形態１よりも見やすくなる。

上述したように、無音区間によって音声分割を行う比較例２では、無音と判断する音声レベルによっては音声データが文章単位で分割されないケースが発生する。そこで、実施の形態２に記載の音声認識表示装置１Ｂを用いて、このような問題を改善する例について説明する。ここでは、図１２の発話内容及び音声波形を音声認識する。図１２では、１１９番通報をした通報者の発話内容「近くにコンビニが見えます。他に怪我人はいません。」とその音声波形が示されている。図１２において、縦軸は音声波形の音声レベル（振幅）、横軸は時間である。

上述した、無音区間によって音声分割を行う比較例２において、無音と判断する音声レベルを図１２の－Ａ１～Ａ１とする。音声の波形のすべてが－Ａ１～Ａ１内に収まれば、無音と判断され、当該時刻で音声データが分割される。通報者の発話内容「近くにコンビニが見えます。」と「他に怪我人はいません。」の間には、発話していない時間Ｔｎが存在するが、通報者の音声データに周囲のノイズ音が乗り、発話していない時間Ｔｎの音声レベルは－Ａ１～Ａ１に収まっていない。

このため、比較例２では、発話していない時間Ｔｎを無音区間と判断できず、音声データを区切ることができない。したがって、比較例２では、この音声データ全体の「近くにコンビニが見えます。他に怪我人はいません。」を一度にテキスト化することとなる。

そこで、音声認識表示装置１Ｂにおいて、区切時間ＴｄをＴｄ＜１／２Ｔｎと設定する。これにより、必ず音声キューに発話なし時間の音声データが格納されることとなる。音声認識部１３では、ノイズ音はテキスト化されないため、上述したバッファ制御部３１の動作により、発話なし区間の音声データが格納された時点で、結合音声テキストデータの行末に改行コード［ＥＯＬ］が付与される。すなわち、全体の音声データ「近くにコンビニが見えます。他に怪我人はいません。」は、「近くにコンビニが見えます。」と「他に怪我人はいません。」の２つの文章としてテキスト化されて、テキスト表示部１４に表示されることとなる。

このように、実施の形態２によれば、周囲の環境音に左右されずに文章単位での音声分割及びテキスト化が可能となり、比較例２のように、無音と判断する音声レベルによっては文章単位で音声データが分割されないケースが発生するという問題を解決することができる。

実施の形態３．
実施の形態２では、分割音声データを分割音声送信部２２から、結合音声データを結合音声送信部３２から別々に音声認識部１３へ入力し、分割音声テキストデータを分割音声テキスト受信部２３で、結合音声テキストデータを結合音声テキスト受信部３３で別々に受信していた。この構成を簡素化するために、実施の形態３では、フラグを設定することで、分割音声データと結合音声データを送信する機能を１つにまとめるとともに、分割音声データと結合音声データを受信する機能を１つにまとめる。

図１３は、実施の形態３に係る音声認識表示装置１Ｃの構成を示すブロック図である。図１３に示す例では、アナログ電話機４１での通話音声をリアルタイムで音声認識しテキスト表示するものとする。図１３に示すように、音声認識表示装置１Ｃは、時間区切音声分割部１１、音声バッファ１２、音声認識部１３、テキスト表示部１４、認識ＤＢ１５、テキスト判定部２１、バッファ制御部３１、テキストバッファ３４、共有メモリ５０、音声送信部５１、テキスト受信部５２を含む。

実施の形態３において、実施の形態２と異なる点は、音声送信部５１が分割音声データと結合音声データのいずれを送信しているかを示すフラグを設定可能であり、テキスト受信部５２は該フラグを参照して、分割音声データをテキスト判定部２１へ送信するか、結合音声データをテキストバッファ３４へ書き込むかを選択的に実行する点である。以下、実施の形態１との差異について詳細に説明し、重複説明は適宜省略する。

音声取得部１０は、アナログ電話機４１から出力されるアナログ音声信号を、該音声取得部１０が有するアナログ－デジタル変換部（Ａ－Ｄ変換部）１０Ａにてデジタル音声データへ変換し、時間区切音声分割部１１へ出力する。時間区切音声分割部１１は、音声データを予め設定された区切時間Ｔｄで区切りって分割音声データを生成し、区切時間Ｔｄが経過する毎に該分割音声データを音声バッファ１２に先頭から順に格納する。また、時間区切音声分割部１１は、分割音声データを音声送信部５１に送信する。

音声送信部５１は、分割音声データに加えて、バッファ制御部３１からの結合音声データを受信する。音声送信部５１は、時間区切音声分割部１１から受信した分割音声データ、及び、バッファ制御部３１から受信した結合音声データを音声認識部１３に送信する。このとき、音声送信部５１は、共有メモリ５０に、時間区切音声分割部１１から分割音声データを受信した場合は共有メモリ５０にＦＡＬＳＥフラグを設定し、バッファ制御部３１から結合音声データを受信した場合はＴＲＵＥフラグを設定する。

音声認識部１３は、認識ＤＢ１５を参照して、分割音声データを分割音声テキストデータに、結合音声データを結合音声テキストデータにそれぞれ変換して、テキスト受信部５２に送信する。共有メモリ５０は、音声送信部５１、テキスト受信部５２からアクセス可能である。テキスト受信部５２は、共有メモリ５０に設定されたフラグを参照し、フラグがＦＡＬＳＥの場合には、分割音声テキストデータをテキスト判定部２１に入力する。また、テキスト受信部５２は、フラグがＴＲＵＥの場合には、結合音声テキストデータをテキストバッファ３４の、行末に改行コードが付与されていない、空きインデックスのうち最も番号の小さいインデックスに書き込む。なお、この時すでに当該インデックスに結合音声テキストデータが存在する場合には、既存のデータを新たなデータで上書きする。

上述の通り、テキスト判定部２１は、分割音声テキストデータが「空」であるか否かを判定し、判定結果をバッファ制御部３１に入力する。バッファ制御部３１は、判定結果が「空でない」場合、音声バッファ１２に格納されている分割音声データを先頭から順に結合した結合音声データを生成し、音声送信部５１へ送信する。一方、判定結果が「空である」場合、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除して、音声キューを空にするとともに、結合音声テキストデータの行末に改行コード［ＥＯＬ］を付与する。テキスト表示部１４は、読出時間Ｔｒ（Ｔｒ＜Ｔｄ）でテキストバッファ３４のテキストファイルを読み出し、テキストを表示する。

以下、実施の形態３に係る音声認識方法について説明する。なお、ここに示す例では、音声取得部１０では、アナログ電話機４１から入力されたアナログ音声が時間０から逐次Ａ－Ｄ変換され、時間区切音声分割部１１へＡ－Ｄ変換後の音声データが逐次入力される。この音声データの波形、音声データの区切り方、音声バッファ１２の音声キューの内容の遷移、テキストバッファ３４のテキスのテキストファイルの内容の遷移、テキスト表示部１４に表示されるテキストについては、実施の形態２と同様であるものとする（図３、図５Ａ～５Ｄ、図１０Ａ～１０Ｄ、図１１Ａ～１１Ｄ）。

時間区切音声分割部１１は、時刻Ｔｄ１経過時に、時間０～Ｔｄ１の分割音声データｄ１を音声バッファ１２の音声キューの末尾へ格納する。このとき、音声キューは空のため、分割音声データｄ１は音声キューのインデックス０に格納される。このときの音声キューの内容は、図５Ａと同様である。同時に、時間区切音声分割部１１は分割音声データｄ１を音声送信部５１へ送信する。

音声送信部５１は、時間区切音声分割部１１から分割音声データｄ１を受信したため、共有メモリ５０にＦＡＬＳＥフラグを設定する。また、音声送信部５１は、分割音声データｄ１を音声認識部１３へ送信する。音声認識部１３は、認識ＤＢ１５を参照して、分割音声データｄ１を分割音声テキストデータＴＸ１へ変換し、テキスト受信部５２へ送信する。このときの分割音声テキストデータＴＸ１は、「通行人が倒れ」である。

テキスト受信部５２は、共有メモリ５０に保存されたフラグを参照し、フラグがＦＡＬＳＥであるため、「通行人が倒れ」との分割音声テキストデータＴＸ１をテキスト判定部２１へ送信する。テキスト判定部２１は、テキスト受信部５２からの分割音声テキストデータＴＸ１が空であるか否かを判定し、判定結果をバッファ制御部３１に送信する。分割音声テキストデータＴＸ１は空でないため、バッファ制御部３１は、音声バッファ１２に格納された分割音声データを先頭から順に結合する。

このとき、音声バッファ１２に格納されている分割音声データはインデックス０のデータのみであるため、インデックス０のデータを結合音声データとして音声送信部５１へ送信する。音声送信部５１は、バッファ制御部３１から結合音声データを受信したため、共有メモリ５０にＴＲＵＥフラグを設定する。また、音声送信部５１は、結合音声データを音声認識部１３へ送信する。

音声認識部１３は、認識ＤＢ１５を参照して、結合音声データを結合音声テキストデータへ変換し、テキスト受信部５２へ送信する。このときの結合音声テキストデータは、「通行人が倒れ」である。

テキスト受信部５２は、共有メモリ５０に保存されたフラグを参照し、フラグがＴＲＵＥであるため、「通行人が倒れ」との結合音声テキストデータをテキストバッファ３４へ書き込む。上述したように、「通行人が倒れ」との結合音声テキストデータは、行末に改行コードが付与されていない、テキストファイルの１行目に書き込まれる（図１０Ａ）。そして、テキスト表示部１４は、読出時間Ｔｒ（Ｔｒ＜Ｔｄ）で、テキストバッファ３４に格納されたテキストファイルを読み出し、テキストを表示する（図１１Ａ）。

次の区切時間Ｔｄが経過すると（時刻Ｔｄ２）、時間区切音声分割部１１は、時間Ｔｄ１～Ｔｄ２の分割音声データｄ２を音声バッファ１２の末尾に格納する。図５Ｂに示すように、分割音声データｄ２は音声キューのインデックス１に保存される。同時に、時間区切音声分割部１１は、分割音声データｄ２を音声送信部５１に送信する。

音声送信部５１は、時間区切音声分割部１１から分割音声データｄ２を受信したため、共有メモリ５０にＦＡＬＳＥフラグを設定する。また、音声送信部５１は、分割音声データｄ２を音声認識部１３へ送信する。音声認識部１３は、認識ＤＢ１５を参照して、分割音声データｄ２を分割音声テキストデータＴＸ２へ変換し、テキスト受信部５２へ送信する。このときの分割音声テキストデータＴＸ２は、「ていて胸が苦しい」である。

テキスト受信部５２は、共有メモリ５０に保存されたフラグを参照し、フラグがＦＡＬＳＥであるため、「ていて胸が苦しい」との分割音声テキストデータＴＸ２をテキスト判定部２１へ送信する。テキスト判定部２１は、テキスト受信部５２からの分割音声テキストデータＴＸ２が空であるか否かを判定し、判定結果をバッファ制御部３１へ送信する。分割音声テキストデータＴＸ２は空ではないため、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを先頭から順に結合する。このときの結合音声データは、図７と同様である。

このとき、音声バッファ１２に格納されている分割音声データはインデックス０、１のデータであるため、インデックス０、１のデータを結合音声データとして音声送信部５１へ送信する。音声送信部５１は、バッファ制御部３１から結合音声データを受信したため、共有メモリ５０にＴＲＵＥフラグを設定する。また、音声送信部５１は、結合音声データを音声認識部１３へ送信する。

音声認識部１３は、認識ＤＢ１５を参照して、結合音声データを結合音声テキストデータへ変換し、テキスト受信部５２へ送信する。このときの結合音声テキストデータは、「通行人が倒れていて胸が苦しい」である。

テキスト受信部５２は、共有メモリ５０に保存されたフラグを参照し、フラグがＴＲＵＥであるため、「通行人が倒れていて胸が苦しい」との結合音声テキストデータをテキストバッファ３４に書き込む。図１０Ａに示すように、テキストファイルの１行目には、「通行人が倒れ」との結合音声データが格納されているものの、改行コードは付与されていない。このため、「通行人が倒れていて胸が苦しい」との結合音声テキストデータで、テキストファイルの１行目が上書きされる（図１０Ｂ）。そして、テキスト表示部１４は、テキストバッファ３４に格納されたテキストファイルを読み出し、テキストを表示する（図１１Ｂ）。

以降、時刻Ｔｄ６経過後まで、同様の処理が繰り返し実行される。図１０Ｃに、時刻Ｔｄ６経過後に、テキストバッファ３４に格納された結合音声テキストデータが示される。そして、図１１Ｃに、このときにテキスト表示部１４に表示されるテキストが示される。

次に、時刻Ｔｄ７経過後の動作について説明する。時間Ｔｄ６～Ｔｄ７では、分割音声データは無音である。時刻Ｔｄ７が経過すると、時間区切音声分割部１１は、時間Ｔｄ６～Ｔｄ７の分割音声データｄ７を音声バッファ１２の末尾へ格納する。図５Ｄに示すように、分割音声データｄ７は音声キューのインデックス６に保存される。同時に、時間区切音声分割部１１は、分割音声データｄ７を音声送信部５１に送信する。

音声送信部５１は、時間区切音声分割部１１から分割音声データｄ７を受信したため、共有メモリ５０にＦＡＬＳＥフラグを設定する。また、音声送信部５１は、分割音声データｄ７を音声認識部１３へ送信する。音声認識部１３は、認識ＤＢ１５を参照して、分割音声データｄ７を分割音声テキストデータへ変換し、テキスト受信部５２へ送信する。このときの分割音声テキストデータは、「－（空）」である。

テキスト受信部５２は、共有メモリ５０に保存されたフラグを参照し、フラグがＦＡＬＳＥであるため、「－（空）」との分割音声テキストデータをテキスト判定部２１へ送信する。テキスト判定部２１は、テキスト受信部５２からの分割音声テキストデータＴＸ７が空であるか否かを判定し、判定結果をバッファ制御部３１に送信する。この分割音声テキストデータＴＸ７は空であるため、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除し、音声キューを空にするとともに、結合音声テキストデータの行末に改行コード［ＥＯＬ］を付与する。

このときのテキストバッファ３４に格納された結合音声テキストデータは図１０Ｄと同様である。そして、図１１Ｄに、このときにテキスト表示部１４に表示されるテキストが示される。このように、実施の形態３においても、実施の形態２と同様に、区切り時間Ｔｄが経過する毎に、テキスト表示部１４に徐々に結合されたテキストが表示されていく。

以上説明したように、実施の形態３によれば、実施の形態２と同様に、テキスト表示部１４に、音声認識テキストを文章単位で表示させることができる。また、音声認識部１３への分割音声データ、結合音声データの送信機能、音声認識部１３からの分割音声テキストデータ、結合音声テキストデータの受信機能をそれぞれ１つの構成要素にまとめることがでるため、音声認識表示装置の構成を簡素化することが可能となる。

実施の形態４．
実施の形態４では、実施の形態２の音声認識表示装置１Ｂを２つ用い、２人の話者が発話した内容を時系列で表示する。図１４は、実施の形態４に係る音声認識表示装置１Ｄの構成を示す図である。図１４において、実施の形態２と同一の構成要素には同一の符号を付している。また、２人の話者Ｘ、Ｙがそれぞれ用いる音声認識表示装置１Ｂを区別するために、各要素にＸ又はＹの符号を付している。

なお、図１４に示す例では、２人の話者（話者Ｘ、話者Ｙ）がそれぞれ使用する音声認識表示装置１Ｂで、１つの音声認識部１３が共用されているが、音声認識部１３をそれぞれ別に設けてもよい。また、２人の話者が発話した内容は１つのテキスト表示部１４にまとめて表示されるが、テキスト表示部１４を話者Ｘと話者Ｙとにそれぞれ別に設けて、同一内容を表示してもよい。

実施の形態４では、２つのマイク４２（マイクＸ、マイクＹ）でそれぞれ集音される話者Ｘ、Ｙの発話内容が時系列で表示される。図１４に示すように、実施の形態４に係る音声認識表示装置１Ｄには、実施の形態２において説明した音声認識表示装置１Ｂが２つ含まれている。

音声認識表示装置１Ｄは、テキスト併合部６０と併合テキストバッファ６１をさらに含む。テキスト併合部６０は、テキストバッファＸに格納されるテキストファイルＸとテキストバッファＹに格納されるテキストファイルＹとを併合する。併合テキストバッファ６１は、テキスト併合部６０が併合した併合テキストデータを格納する。テキスト表示部１４は、併合テキストバッファ６１を読み出して、併合テキストデータを表示する。

実施の形態４では、実施の形態２と異なり、テキストバッファＸ、Ｙにそれぞれ格納されるテキストファイルＸ、Ｙは、テキストデータをいくつかのフィールド（項目）に分け、各項目の情報を区切る区切り文字（デリミタ）にカンマやタブを用いたＣＳＶ（character-separated values）形式のテキストファイルである。テキストファイルＸ、Ｙは、ＴＩＭＥ＿ＦＩＥＬＤ（１区切り目）とＴＥＸＴ＿ＦＩＥＬＤ（２区切目）を持つものとする。

また、テキストファイルＸ、Ｙを併合した併合テキストデータも、ＣＳＶ形式のテキストファイルである。併合テキストデータは、ＳＰＥＡＫＥＲ＿ＦＩＥＬＤ（１区切目）、ＴＩＭＥ＿ＦＩＥＬＤ（２区切り目）、ＴＥＸＴ＿ＦＩＥＬＤ（３区切り目）を持つものとする。

図１５Ａ、図１５Ｂは、それぞれ区切時間が３回分経過した後に、音声バッファＸ、Ｙに保存される分割音声データを示す図である。図１６Ａ、図１６Ｂと、図１７Ａ、図１７Ｂと、図１８Ａ、図１８Ｂとは、それぞれ１～３回目の区切り時間経過後に、テキストバッファＸ、Ｙに保存される分割音声テキストデータを示す図である。図１９Ａ～図１９Ｆは、併合前から併合４回目までの併合テキストバッファの保存状態を示す。図２０Ａ～図２０Ｆは、表示前から表示５回目までのテキスト表示部の表示状態を示す図である。

時間区切音声分割部Ｘ、Ｙは、区切時間が経過する毎に、それぞれ分割音声データを音声バッファＸ、Ｙの待ち行列（音声キューＸ、Ｙ）の末尾に保存する。３回分の区切時間が経過すると、音声キューＸ、Ｙは、図１５Ａ、図１５Ｂに示すものとなる。実施の形態４では、時間区切音声分割部Ｘ、Ｙは、音声キューＸ、Ｙに分割音声データを格納する際に、分割音声データの格納時間を音声キューＡ、Ｂの各インデックスに紐づけて保存する。

バッファ制御部Ｘ、Ｙは、テキスト判定部Ｘ、Ｙから受信した判定結果が「空ではない」場合、音声キューＸ、Ｙに格納されている分割音声データを先頭から結合し、結合音声送信部Ｘ、Ｙにそれぞれ送信する。この動作は、実施の形態２と同様である。これに加えて、バッファ制御部Ｘ、Ｙは、音声キューＸ、Ｙの先頭インデックスの分割音声データに紐づけされている格納時刻を、テキストファイルＸ、Ｙの最終行（改行コード［ＥＯＬ］が付与されていない行）のＴＩＭＥ＿ＦＩＥＬＤに書き込む。

なお、テキスト判定部Ｘ、Ｙから受信した判定結果が「空」の場合、実施の形態２と同様に、バッファ制御部Ｘ、Ｙは、音声バッファＸ、Ｙに格納されている分割音声データを削除し、各音声キューＸ、Ｙを空にする。

以下、図１４に示す音声認識表示装置１Ｄの動作を時間軸に沿って説明する。図１５Ａ、図１５Ｂを参照すると、時間区切音声分割部Ｘ、Ｙにおいて１回目及び２回目の区切時間が経過したときは、それぞれの分割音声データは空ではない。このため、バッファ制御部Ｘ、Ｙがテキスト判定部Ｘ、Ｙから受信する判定結果は、いずれも「空ではない」となる。したがって、１回目の区切時間経過後の、テキストファイルＸは図１６Ａ、テキストファイルＹは図１６Ｂに示すものとなる。また、２回目の区切時間経過後の、テキストファイルＸは図１７Ａ、テキストファイルＹは図１７Ｂに示すものとなる。

その後、時間区切音声分割部Ｘ、Ｙにおいて３回目の区切時間が経過したときは、分割音声データは空である。このため、バッファ制御部Ｘ、Ｙがテキスト判定部Ｘ、Ｙから受信する判定結果は、いずれも「空」となる。このとき、バッファ制御部Ｘ、Ｙは、テキストファイルＸ、Ｙの最終行の末尾にそれぞれ改行コード［ＥＯＬ］を付与する。したがって、３回目の区切時間経過後の、テキストファイルＸは図１８Ａ、テキストファイルＹは図１８Ｂに示すものとなる。

テキスト併合部６０は、併合時間Ｔｍ（Ｔｍ＜Ｔｄ）が経過するごとに、テキストファイルＸ及びテキストファイルＹを読み出し、併合テキストバッファ６１に格納された併合テキストファイルを更新する。テキスト併合部６０は、まず、テキストバッファＸに格納されているテキストファイルＸを読み出す。そして、テキスト併合部６０は、テキストファイルＸの最終行（改行コード［ＥＯＬ］が付与されていない行）のＴＩＭＥ＿ＦＩＥＬＤの時刻をキーにして、併合テキストバッファ６１に格納されている併合テキストファイルのＴＩＭＥ＿ＦＩＥＬＤの時刻が一致し、かつ、ＳＰＥＡＫＥＲ＿ＦＩＥＬＤが「話者Ｘ」である行を探索する。

該当する行が存在する場合、その行のＴＥＸＴ＿ＦＩＥＬＤを、テキストファイルＸのＴＥＸＴ＿ＦＩＥＬＤの内容で上書きする。該当する行が存在しない場合、テキストファイルＸの最終行のＴＩＭＥ＿ＦＩＥＬＤの時刻を参照して、併合テキストファイルのＴＩＭＥ＿ＦＩＥＬＤの時刻が昇順（すなわち、インデックス番号が増えるに従い、時刻が古いものから新しいもの）となるように、併合テキストファイルの該当行にテキストファイルＸの内容が書き込まれる。

具体的には、併合テキストファイルの該当行において、ＳＰＥＡＫＥＲ＿ＦＩＥＬＤに「話者Ｘ」、ＴＩＭＥ＿ＦＩＥＬＤにテキストファイルＸの最終行のＴＩＭＥ＿ＦＩＥＬＤの時刻、ＴＥＸＴ＿ＦＩＥＬＤにテキストファイルＸの最終行のＴＥＸＴ＿ＦＩＥＬＤの内容が書き込まれる。テキストファイルＹについても、テキストファイルＸと同様の動作で、併合テキストファイルの該当行にテキストファイルＹの内容が書き込まれる。

例として、区切時間Ｔｄを５００ｍｓｅｃ、併合時間Ｔｍを４００ｍｓｅｃとし、テキスト併合部６０が動作する１回目の併合時間を１３：００：１５．４００として、テキスト併合部６０の動作の流れを説明する。

まず、テキスト併合部６０の動作開始前（１３：００：１５．０００）（併合前）では、併合テキストバッファ６１に保存される併合テキストファイルは、図１９Ａのような空の状態である。併合時間４００ｍｓｅｃが経過した併合１回目（１３：００：１５．４００）の時刻には、テキストファイルＸは図１６Ａであり、テキストファイルＹは空である。このとき、テキスト併合部６０の動作により、併合テキストファイルは図１９Ｂのようになる。

その後、併合テキストファイルは、併合２回目（１３：００：１５．８００）の時刻に図１９Ｃ、併合３回目（１３：００：１６．２００）の時刻に図１９Ｄ、併合４回目（１３：００：１６．６００）の時刻に図１９Ｅ、併合５回目（１３：００：１７．０００）の時刻に図１９Ｆとなる。

テキスト表示部１４は、所定の読出時間Ｔｒ（Ｔｒ＜Ｔｍ）で、併合テキストファイルを読み出して表示する。図２０Ａに示すように、実施の形態４では、テキスト表示部１４は、話者Ｘ用の表示エリア（左側）と話者Ｙ用の表示エリア（右側）の２つのエリアを有する。テキスト表示部１４は、ＦＩＥＬＤ行を除いた併合テキストファイルを先頭行から１行ずつ読みだし、テキスト表示手段で先頭行から順に表示する。このとき、併合テキストファイルのＳＰＥＡＫＥＲ＿ＦＩＥＬＤが「話者Ｘ」の併合テキストデータを、話者Ｘ用の表示エリア（左側）に表示する。また、ＳＰＥＡＫＥＲ＿ＦＩＥＬＤが「話者Ｙ」の併合テキストデータを、話者Ｙ用の表示エリア（右側）に表示する。

上述の通り、併合時間Ｔｍを４００ｍｓｅｃとし、読出時間Ｔｒを例えば３００ｍｓｅｃとする。テキスト表示部１４が動作する１回目の表示時間を１３：００：１５．６００として、テキスト表示部１４の動作の流れを説明する。

まず、テキスト表示部１４の動作開始前（１３：００：１５．０００）（表示前）では、テキスト表示部１４に表示されるテキストは、図２０Ａのような空の状態である。読出時間３００ｍｓが経過した表示１回目（１３：００：１５．６００）の時刻には、併合テキストファイルは図１９Ｂであるため、テキスト表示部１４に表示されるテキストは図２０Ｂのようになる。

その後、表示２回目（１３：００：１５．９００）の時刻では、併合テキストファイルは図１９Ｃであるため、テキスト表示部１４に表示されるテキストは図２０Ｃのようになる。そして、表示３回目（１３：００：１６．２００）では、併合テキストファイルは図１９Ｄであるため、テキスト表示部１４に表示されるテキストは図２０Ｄのようになる。

表示４回目（１３：００：１６．５００）の時刻では、併合テキストファイルは図１９Ｄのままであるため、テキスト表示部１４に表示されるテキストは、表示３回目（図２０Ｄ）と変わらず、図２０Ｅのようになる。表示５回目（１３：００：１６．８００）の時刻では、併合テキストファイルは図１９Ｅであるため、テキスト表示部１４に表示されるテキストは図２０Ｆのようになる。

このように、実施の形態４では、実施の形態２と同様のリアルタイム性を担保しつつ、２人の話者の会話内容をチャットのように表示することができる。なお、ここでは、２つのマイクを使用した例を示したが、例えば、電話機での送話音声を一方の音声データ、受話音声を他方の音声データとして、これらをチャット形式で表示することも可能である。これにより、緊急通報システムなどで、受付者と通報者の音声をリアルタイムにチャット形式でテキスト化がすることができ、他の指令員が通報内容を瞬時に把握し、適切な業務（消防車や救急車の出動等）を迅速に行うことが可能となる。

実施の形態５．
図２１は、実施の形態５に係る音声認識表示装置１Ｅの構成を示すブロック図である。図２１に示すように、音声認識表示装置１Ｅは、実施の形態２の音声認識表示装置１Ｂの構成に加えて、全体音声バッファ１６、音声再生部１７をさらに備える。

図２１に示す例では、音声認識表示装置１Ｅは、マイク４２により集音された発話内容をリアルタイムでテキスト化するとともに、１つの文章のテキスト化が完了する度に自動で当該テキストと対応する音声を読み上げるか、又は、ユーザ操作により１文章単位で対応する音声を読み上げる。以下、実施の形態２との差異について詳細に説明し、重複説明は適宜省略する。

音声取得部１０は、取得した音声データを時間区切音声分割部１１へ送信するとともに、音声データの全てを全体音声バッファ１６に格納する。実施の形態５では、時間区切音声分割部１１は、音声バッファ１２に分割音声データを格納する際に、分割回数カウンタを１プラスして音声キューの各インデックスに紐づけて保存する。なお、分割回数カウンタは、音声データの分割回数を計測するカウンタであり、初期値は０である。

また、実施の形態２と異なり、テキストバッファ３４に格納されるテキストファイルは、テキストデータをいくつかのフィールド（項目）に分け、各項目の情報を区切る区切り文字（デリミタ）にカンマやタブを用いたＣＳＶ形式のテキストファイルである。このテキストファイルは、ＣＯＵＮＴ＿ＦＩＥＬＤ（１区切り目）とＴＥＸＴ＿ＦＩＥＬＤ（２区切目）を持つものとする。

実施の形態２と同様に、バッファ制御部３１は、テキスト判定部２１から入力された判定結果が「空でない」場合、音声キューに格納されている分割音声データを先頭から結合し、結合音声送信部３２に送信する。このとき、バッファ制御部３１は、音声キューの先頭インデックスの分割音声データに紐づけされた分割回数カウンタ値を、テキストバッファ３４に格納されているテキストファイルの最終行（改行コード［ＥＯＬ］が付与されていない行）のＣＯＵＮＴ＿ＦＩＥＬＤに書き込む。

なお、テキスト判定部２１から入力された判定結果が「空」の場合、実施の形態２と同様に、バッファ制御部３１は、音声バッファ１２に格納されている分割音声データを削除し、音声キューを空にする。

テキスト表示部１４は、上述したテキストの表示を行うとともに、１つの文章のテキスト化が完了する度に、自動で又はユーザ操作により、音声再生部１７へ読み出したテキストファイルの分割回数カウンタ値を含む音声再生指示を出力する。なお、テキスト表示部１４は、表示装置と入力装置とが一体化したタッチパネルを用い、ユーザ操作を受け付け可能に構成されてもよい。音声再生部１７は、音声再生指示を受けると、全体音声バッファ１６に格納された音声データを読み出し、分割回数カウンタ値に基づく再生開始位置から音声データの再生を行う。

以下、図２１に示す音声認識表示装置１Ｅの動作を時間軸に沿って説明する。図２２は、図２１のマイク４２で集音した発話内容及び発話音声波形の一例を示す図である。図２２において、音声の開始時刻を０とし、所定の区切時間をＴｄとする。図２２に示すように、最初の区切時間Ｔｄが経過した時刻をＴｄ１とし、以降、区切時間Ｔｄが経過する毎に、順にＴｄ２→Ｔｄ３→Ｔｄ４→Ｔｄ５→Ｔｄ６→Ｔｄ７とする。時間区切音声分割部１１は、時刻Ｔｄ１～Ｔｄ７に音声データを分割する。

図２３Ａは、１文章目の３回分の区切時間Ｔｄ経過後（時刻Ｔｄ３経過後）に音声バッファ１２に保存される分割音声データを示す図である。図２３Ｂは、２文章目の３回分の区切時間Ｔｄ経過後（時刻Ｔｄ７経過後）に音声バッファ１２に保存される分割音声データを示す図である。

図２４Ａ～図２４Ｇは、それぞれ時刻Ｔｄ１～Ｔｄ７経過後にテキストバッファに保存される結合音声テキストデータを示す図である。図２５Ａは、テキスト表示部１４の初期表示状態を示している。図２５Ｂ～図２５Ｇは、それぞれ時刻Ｔｄ１～Ｔｄ７経過後にテキスト表示部１４に表示されるテキストを示す図である。

図２３Ａを参照すると、時刻Ｔｄ１における１回目及び時刻Ｔｄ２における２回目の音声分割では、それぞれの分割音声データは空ではないため、テキスト判定部２１による判定結果は「空でない」となる。このため、時刻Ｔｄ１経過後のテキストファイルは図２４Ａとなり、時刻Ｔｄ２経過後のテキストファイルは図２４Ｂとなる。

その後、時刻Ｔｄ３における３回目の音声分割では分割音声データが空であるため、テキスト判定部２１による判定結果は「空」となる。このため、バッファ制御部３１は、テキストファイルの最終行（１行目）の末尾に改行コード［ＥＯＬ］を付与する。したがって、Ｔｄ３経過後のテキストファイルは図２４Ｃとなる。

次に、図２３Ｂを参照すると、時刻Ｔｄ４、Ｔｄ５、Ｔｄ６における４、５、６回目の音声分割では、それぞれの分割音声データは空ではないため、テキスト判定部２１による判定結果は「空でない」となる。このため、時刻Ｔｄ４経過後のテキストファイルは図２４Ｄとなり、時刻Ｔｄ５経過後のテキストファイルは図２４Ｅ、時刻Ｔｄ６経過後のテキストファイルは図２４Ｆとなる。

その後、時刻Ｔｄ７における７回目の音声分割では分割音声データは空であるため、テキスト判定部２１による判定結果は「空」となる。このため、バッファ制御部３１は、テキストファイルの最終行（２行目）の末尾に改行コード［ＥＯＬ］を付与する。したがって、Ｔｄ７経過後のテキストファイルは図２４Ｇとなる。

テキスト表示部１４は、所定の読出時間Ｔｒ（Ｔｒ＜Ｔｄ）でテキストファイルを読み出して表示する。また、テキスト表示部１４は、表示エリアの右側に、［再生］ボタンを表示可能である。例えば、テキスト表示部１４は、初期表示では［再生］ボタンを非表示とし、ある行に何らかのテキストが表示された場合、当該行の右側に［再生］ボタンを表示することができる。音声再生部１７は、ユーザの［再生］ボタンの押下に応じて、音声データを再生することができる。

このとき、各［再生］ボタンには、当該行に表示されているテキストに対応する分割回数カウンタ値が紐づけられている。ユーザが［再生］ボタンを押下すると、テキスト表示部１４は、音声再生部１７へ当該行のテキストに対応する分割回数カウンタ値を含む音声再生指示を送信する。また、テキスト表示部１４がテキストファイルを読み出したタイミングで、改行コード［ＥＯＬ］が付与された行を検出した場合、音声再生部１７へ当該行のＣＯＵＮＴ＿ＦＩＥＬＤの値（分割回数カウンタ値）とともに音声再生指示を出力してもよい。

ここで、テキスト表示部１４の動作の流れを説明する。図２５Ａにテキスト表示部１４の初期表示状態が示される。時刻Ｔｄ１が経過すると（１回目の音声分割）、テキストバッファ３４に保存されるテキストファイルは図２４Ａとなる。テキスト表示部１４では、図２５Ｂに示すように、１行目にテキストが表示される。このとき、はじめて当該行にテキストが表示されたため、当該行の右側に［再生］ボタンが表示される。

時刻Ｔｄ２が経過すると（２回目の音声分割）、テキストバッファ３４に保存されるテキストファイルは図２４Ｂとなる。テキスト表示部１４では、図２５Ｃに示すように、１行目のテキストが更新される。このとき、当該行はすでにテキストが表示されていたため、［再生］ボタンは表示されたままである。

時刻Ｔｄ３が経過すると（３回目の音声分割）、テキストバッファ３４に保存されるテキストファイルは図２４Ｃとなる。図２４Ｂと図２４Ｃとの違いは、１行目の行末に改行コード［ＥＯＬ］が付与されているのみであるため、図２５Ｄに示すように、テキスト表示部１４の１行目のテキストは変化しない。

なお、テキスト表示部１４は、テキストファイルの１行目に改行コード［ＥＯＬ］を検出した場合、音声再生部１７へテキストファイルの１行目のＣＯＵＮＴ＿ＦＩＥＬＤに書き込まれた分割回数カウント値「１」とともに、音声再生指示を自動で送信してもよい。

時刻Ｔｄ４が経過すると（４回目の音声分割）、テキストバッファ３４に保存されるテキストファイルは図２４Ｄとなる。テキスト表示部１４では、図２５Ｅに示すように、２行目のテキストが表示される。このとき、はじめて当該行にテキストが表示されたため、当該行の右側に［再生］ボタンが表示される。

時刻Ｔｄ５、Ｔｄ６が経過すると（５回目、６回目の音声分割）、テキストファイルはそれぞれ図２４Ｅ、図２４Ｆとなる。テキスト表示部１４では、図２５Ｅ、図２５Ｆに示すように、２行目のテキストが更新される。このとき、当該行はすでにテキストが表示されていたため、［再生］ボタンは表示されたままである。

時刻Ｔｄ７が経過すると（７回目の音声分割）、テキストバッファ３４に保存されるテキストファイルは図２４Ｇとなる。図２４Ｆと図２４Ｇとの違いは、２行目の行末に改行コード［ＥＯＬ］が付与されているのみであるため、図２５Ｈに示すように、テキスト表示部１４の２行目のテキストは変化しない。

なお、テキスト表示部１４は、テキストファイルの２行目に改行コード［ＥＯＬ］を検出した場合、音声再生部１７へテキストファイルの２行目のＣＯＵＮＴ＿ＦＩＥＬＤに書き込まれた分割回数カウント値「４」とともに、音声再生指示を自動で送信してもよい。

音声再生部１７は、テキスト表示部１４から分割回数カウンタ値を含む音声再生指示を受けると、全体音声バッファ１６から音声データを取得し、以下の式から計算される再生開始位置から音声を再生する。
再生開始位置（時間）＝（分割回数カウンタ値－１）×Ｔｄ

これにより、テキスト表示部１４で１行ごとにテキストが表示される度に、自動的に表示されたテキストに対応する音声が読み上げられる。

なお、テキスト表示部１４に［再生］ボタンが表示された時点で、当該テキストに対応する音声の再生がいつでも可能となる。つまり、文章の終わり（自動再生）を待たずとも、［再生］ボタンを押下することで、押下時点のテキストと対応する音声の再生が可能である。さらに、発話内容が増えた場合でも、テキストと対応する［再生］ボタンを押下することで、過去に遡ってテキストと対応する音声の再生が可能となる。

以上説明したように、実施の形態５によれば、発話内容についてリアルタイムで音声認識を行い、テキストが表示されるたびに１文章単位で、当該文章と対応する音声の自動再生が可能となる。また、１文章単位で、又は、文章の途中で、当該文章と対応する音声の手動再生が可能となる。これにより、例えば、取材等で取得した音声データを音声認識でテキストに変換した後に、作業者がテキストと音声とを比較して、人手によりテキストを修正する作業を行う場合に効果を発揮する。

なお、上述した様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他の回線で構成することができる。また、本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。従って、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、又はそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

１音声認識表示装置
１０音声取得部
１１時間区切音声分割部
１２音声バッファ
１３音声認識部
１４テキスト表示部
１５認識ＤＢ
１６全体音声バッファ
１７音声再生部
２０分割音声・テキスト制御部
２１テキスト判定部
２２分割音声送信部
２３分割音声テキスト受信部
３０結合音声・テキスト制御部
３１バッファ制御部
３２結合音声送信部
３３結合音声テキスト受信部
３４テキストバッファ
４０ＩＰ電話機
４１アナログ電話機
４２マイク
５０共有メモリ
５１音声送信部
５２テキスト受信部
５３音声結合部
６０テキスト併合部
６１併合テキストバッファ

Claims

音声データを取得する音声取得部と、
所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成する音声分割部と、
前記区切時間が経過する毎に、前記分割音声データを先頭から順に格納する音声バッファと、
前記分割音声データを分割音声テキストデータに変換する音声認識部と、
前記分割音声テキストデータが空か否かを判定するテキスト判定部と、
前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成するバッファ制御部と、
前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示するテキスト表示部と、
を備える音声認識表示装置。
前記バッファ制御部は、前記分割音声テキストデータが空の場合、前記音声バッファに格納された前記分割音声データを削除する、
請求項１に記載の音声認識表示装置。
前記結合音声テキストデータを格納するテキストバッファをさらに備え、
前記結合音声テキストデータは、前記テキストバッファの空きインデックスのうち最も番号の小さいインデックスに、前記区切時間が経過する毎に更新して格納され、
前記テキスト表示部は、前記テキストバッファを読み出して前記結合音声テキストデータを表示する、
請求項１又は２に記載の音声認識表示装置。
前記バッファ制御部は、前記分割音声テキストデータが空の場合、前記テキストバッファに格納された前記結合音声テキストデータの行末に改行コードを付与して、該結合音声テキストデータが格納されたインデックスを使用インデックスとする、
請求項３に記載の音声認識表示装置。
前記音声データに無音区間が存在する場合、前記区切時間は前記無音区間の１／２より小さい、
請求項３又は４に記載の音声認識表示装置。
前記分割音声データと前記結合音声データとを前記音声認識部に送信し、前記分割音声データと前記結合音声データのいずれを送信しているかを示すフラグを設定する音声送信部と、
前記分割音声テキストデータと前記結合音声テキストデータとを受信し、前記フラグを参照して、前記分割音声テキストデータを前記テキスト判定部へ、前記結合音声テキストデータを前記テキストバッファへ送信するテキスト受信部と、
をさらに備える、
請求項３又は４に記載の音声認識表示装置。
請求項３又は４に記載の音声認識表示装置の構成を備え、第１音声データを第１結合音声テキストデータに変換する第１音声認識表示装置と、
前記第１音声認識表示装置と同一の構成を備え、前記第１音声データと異なる第２音声データを第２結合音声テキストデータに変換する、第２音声認識表示装置と、
前記第１結合音声テキストデータと前記第２結合音声テキストデータとを併合して併合テキストデータを生成するテキスト併合部と、
を備え、
前記テキスト表示部は、前記併合テキストデータを表示する、
音声認識表示装置。
前記音声データの全てを格納する全体音声バッファと、
前記全体音声バッファに格納された前記音声データを、前記分割音声データに紐づけされた分割回数カウンタ値に基づく再生開始位置から再生する音声再生部と、
をさらに含む、
請求項３又は４に記載の音声認識表示装置。
音声データを取得し、
所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成し、
前記区切時間が経過する毎に、前記分割音声データを音声バッファに先頭から順に格納し、
前記分割音声データを分割音声テキストデータに変換し、
前記分割音声テキストデータが空か否かを判定し、
前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成し、
前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示する、
音声認識表示方法。
音声データを取得する処理と、
所定の区切時間で時間軸に沿って前記音声データを分割して、分割音声データを生成する処理と、
前記区切時間が経過する毎に、前記分割音声データを音声バッファに先頭から順に格納する処理と、
前記分割音声データを分割音声テキストデータに変換する処理と、
前記分割音声テキストデータが空か否かを判定する処理と、
前記分割音声テキストデータが空ではない場合、前記音声バッファに格納された前記分割音声データを先頭から順に結合した結合音声データを生成する処理と、
前記区切時間が経過する毎に、前記結合音声データを音声認識した結合音声テキストデータを表示する処理と、
をコンピュータに実行させるプログラム。