JP2019185005A

JP2019185005A - 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Info

Publication number: JP2019185005A
Application number: JP2018206726A
Authority: JP
Inventors: 祥子小林; Sachiko Kobayashi; 太郎稲川; Taro Inagawa; 冬平小沢; Fuyuhira Ozawa; 英史安田; Hidefumi Yasuda
Original assignee: Tokyo Broadcasting System Television Inc
Current assignee: Tokyo Broadcasting System Television Inc
Priority date: 2018-04-13
Filing date: 2018-11-01
Publication date: 2019-10-24
Anticipated expiration: 2038-11-01
Also published as: JP6543755B1

Abstract

【課題】テキストデータの修正を正確に、且つ、迅速に行うこと。【解決手段】音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御サーバ３であって、入力された音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部３３３と、を備える。【選択図】図２

Description

本発明は、音声認識テキストデータ出力制御技術に関する。

従来、テレビ番組制作の現場においては、報道番組、バラエティー番組、情報番組等の制作のための取材で取得した音声情報を一言一句、文字に起こす「文字起こし」が行われている。近年、この「文字起こし」に音声認識技術を用いることが検討されている。

ここで、音声認識処理の精度はあまり高くないため、入力された音声データを音声認識させた結果であるテキストデータを人手により修正する作業が必要である。このような修正作業を補助する装置として、例えば、特許文献１には音声認識装置の音声認識させた結果であるテキストデータを出力し、出力されたテキストデータをユーザが修正することが可能な装置が記載されている。

特開２００１−６０１９２号公報

特許文献１に記載されているような従来の音声認識処理装置では、音声認識に相当の時間がかかるため、実際に音声が発生されてから相当に遅れたタイミングにならないと音声認識の結果であるテキストデータが得られない。このため、実際に発音されている音声を聞きながらテキストデータを修正しようとすれば、ユーザは音声データの該当箇所を遡って探し出してから再生するという手順が必要となり、修正作業に多大な時間がかかっていた。

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、テキストデータを、正確に且つ迅速に修正することが可能な音声認識テキストデータ出力制御技術を提供することを目的とする。

本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備える。

本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御するステップと、を含む。

本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータに、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部として機能させる。

なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や装置が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や装置の機能が１つの物理的手段や装置により実現されても良い。

本発明によれば、テキストデータの修正を正確に、且つ、迅速に行うことができる。

本発明の第１実施形態に係る情報処理システムの概略構成（システム構成）の一例を示す図である。本発明の第１実施形態に係る音声認識テキストデータ出力制御サーバの一例を示す概略構成図（ブロック図）である。本発明の第１実施形態に係るデータ出力制御処理方法の一例を示すフローチャートである。本発明の第１実施形態に係るデータ出力制御処理の一例を示す概念図である。本発明の第１実施形態に係るデータ出力制御処理方法の一例を示すフローチャートである。本発明の第１実施形態に係るデータ出力制御処理の一例を示す概念図である。本発明の第１実施形態に係る情報処理装置に表示される画面の一例を示す図である。本発明の第２実施形態に係る情報処理システムの概略構成（システム構成）の他の一例を示す図である。本発明の第２実施形態に係る音声認識テキストデータ出力制御サーバの他の一例を示す概略構成図（ブロック図）である。本発明の第２施形態に係るテキストデータ選択処理の一例を示す概念図である。

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。

図１は、本発明の第１実施形態に係る情報処理システムの一実施形態を示す概略構成図（システム構成図）である。図１に示すように、本発明の実施の形態に係る情報処理システム１００は、例示的に、情報処理装置１、音声認識テキストデータ出力制御サーバ３（音声認識テキストデータ出力制御装置）、及び音声認識処理サーバ５を備えて構成されている。

情報処理装置１は、音声データを入力する機能、及び、音声認識テキストデータ出力サーバ３から取得したテキストデータを出力及び音声データを出力再生する機能を有する装置である。情報処理装置１は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。

音声認識テキストデータ出力制御サーバ３は、情報処理装置１と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識テキストデータ出力制御サーバ３は、本実施形態に係る音声認識テキストデータ出力制御方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識テキストデータ出力制御装置として機能するものである。具体的に、音声認識テキストデータ出力制御サーバ３は、音声データ及び音声データの音声認識させた結果であるテキストデータの出力を制御する。音声認識テキストデータ出力制御サーバ３のさらに具体的な構成及び動作については、後述する。

音声認識処理サーバ５は、音声認識テキストデータ出力制御サーバ３と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識処理サーバ５は、汎用の音声認識処理方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識処理装置として機能するものである。具体的に、音声認識処理サーバ５は、音声認識テキストデータ出力サーバ３から送信される音声データを受信し、音声認識処理を実行し、音声認識させた結果であるテキストデータを音声認識テキストデータ出力サーバ３に返送する。音声認識処理サーバ５は、記憶領域を有しており、音声認識処理を実行する際に使用される、単数又は複数の、音声認識プログラム、各種データベース、及び各種モデルが格納されている。なお、本実施形態においては、日本語のみならず、英語等の外国語についても対象としてもよい。

音声認識プログラムは、音声認識処理サーバ５のメインプログラムである上述したサーバ用プログラム等である。音声認識プログラムは、音声認識テキストデータ出力サーバ３から送信されてくる要求及び情報に係る一連の情報処理を行うため、記憶領域から呼び出されて実行される。各種データベースは、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。各種モデルは、音声認識に使用する音響モデルや言語モデル等を含む。

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、情報処理装置１と音声認識テキストデータ出力サーバ３との間、音声認識テキストデータ出力サーバ３と音声認識処理サーバ５との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。

なお、情報処理システム１００は、本実施形態では、情報処理装置１、音声認識テキストデータ出力サーバ３、及び、音声認識処理サーバ５を一台ずつ備えて構成されているが、必ずしも一台である必要はない。例えば、音声認識テキストデータ出力サーバ３は、複数の情報処理装置１と通信可能に構成されていてもよい。また、音声認識テキストデータ出力サーバ３は、一つのサーバ装置である代わりに、ネットワーク内に分散された複数のサーバにより１つの音声認識テキストデータ出力サーバ３として機能するように構成されていてもよい。さらに、音声認識処理サーバ５を複数台備えた構成については、実施形態２で後述する。

図２は、本発明の第１実施形態に係る音声認識テキストデータ出力制御サーバの一例を示す概略構成図（ブロック図）である。図２に示すように、音声認識テキストデータ出力制御サーバ３は、例示的に、各種データ及び各種情報を送受信する送受信部３１と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部３３と、各種情報及び各種データを記録する記録部３５と、を備えて構成される。なお、情報処理部３３は、例えば、不図示であるが、記録部３５に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

送受信部３１は、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）を含む。例えば、受信部（音声データ取得部）は、図１に示す情報処理装置１において入力された音声データを取得する。また、受信部は、図１に示す音声認識処理サーバ５において音声認識された結果であるテキストデータを取得する。送信部は、取得された音声データであって、後述する音声データ分割部３３１で分割された音声データを音声認識処理サーバ５に送信する。送信部は、音声認識させた結果であるテキストデータと、テキストデータに対応する音声データと、を出力するために情報処理装置１に送信する。情報処理装置１においては、受信されたテキストデータが、不図示の表示部により表示される画面上においてテキストとして出力される。よって、ユーザは、当該画面上においてテキストを確認することができ、情報処理装置１を操作することにより、出力されたテキストの修正作業を実行することができる。

なお、ここで、「テキストデータ取得部」は、送受信部３１の送信部及び受信部と音声データ分割部３３１とを含むものである。

情報処理部３３は、機能的に、音声データ分割部３３１と、出力制御部３３３と、を含んで構成されている。

音声データ分割部３３１は、図１に示す情報処理装置１で取得された音声データを分割する。例えば、音声データ分割部３３１は、取得された音声データを図１に示す音声認識処理サーバ５に受け渡す際に、受け渡す音声データが一定の時間長（例えば６０秒未満）となるように分割する。

出力制御部３３３は、取得された、図１に示す音声認識処理サーバ５において音声認識された結果であるテキストデータの表示タイミング（出力タイミング）よりも、図１に示す情報処理装置１において、当該テキストデータに対応する分割された音声データの再生タイミング（出力タイミング）を遅らせるように制御する。

分割された音声データの出力再生タイミングを、音声認識された結果であるテキストデータの出力タイミングに遅らせるように制御するとは、例えば、分割された音声データに対応するテキストデータを一括して表示し、当該テキストデータを表示した後に音声データの再生を開始することを含む。

また、出力制御部３３３は、音声データの再生が一旦停止された後、再開される場合、音声データの再生が停止された時点から所定期間遡った時点から音声データの再生が再開されるように制御する。

記録部３５は、送受信部３１で取得された音声データＡＤと、図１に示す音声認識処理サーバ５において音声認識された結果であるテキストデータＴＤと、音声データの取得時刻を示す時刻データＴＩと、を記録する。記録部１８は、上述のデータ及び情報を互いに関連づけて記録してもよい。なお、音声データの取得時刻とは、音声、及び、音声付き動画又は静止画等を含む素材が取得された時刻をいい、例えば、不図示のカメラやボイスレコーダ等の音声データを取得可能な装置において音声データ（及び画像データ）が記録された時刻を含む。また、音声データの取得時刻とは、上記に限られず、図１に示す情報処理装置１において音声データが取得された時刻であってもよい。ここで、時刻データＴＩは、画像データに付随するタイムスタンプ又はタイムコードに基づく時刻を含む。なお、画像データにタイムスタンプ又はタイムコードが予め付加されていない場合には、別途、ユーザの操作に基づいてタイムスタンプ又はタイムコードを付加してもよい。

＜出力制御処理＞
図３及び図４を参照して、出力制御処理としての、テキストデータの出力タイミング及び音声データの出力タイミングの制御処理を説明する。図３は、本発明の第１実施形態に係るデータ出力制御処理の一例を示すフローチャートである。

（ステップＳ１）
情報処理装置１は、音声データを入力する。例えば、記者会見、撮影、街頭インタビュー等の音声を不図示のマイクロフォン等でデジタルデータである音声データに変換することにより取得し、当該音声データを情報処理装置１に入力してもよい。また、情報処理装置１は、音声認識処理に先立って、音声付き動画又は静止画から音声データを分離して記録してもよい。例えば、音声付き動画を低画質動画と音声データとに分離する。低画質動画は、図２に示す記録部３５に動画データとして記録される。出力制御部３３３は、動画データを、音声データ、テキストデータ、及び時刻データと関連づけながら出力タイミングを制御した上で、後述する図７に示す画面Ｇ１において出力するように制御する。

（ステップＳ３）
図２に示す音声認識テキストデータ出力制御サーバ３の送受信部３１は、情報処理装置１から送信された音声データを取得する。

（ステップＳ５）
図２に示す音声認識テキストデータ出力制御サーバ３の音声データ分割部３３１は、情報処理装置１から送信された音声データを分割する。音声データ分割部３３１は、例えば、音声データにおける無音区間を特定し、当該区間において音声データを区切る処理を実行してもよい。音声データ分割部３３１は、例えば、音声データにおける文章構成や文脈等に基づいて、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。

（ステップＳ７）
送受信部３１は、音声データ分割部３３１により分割された音声データを音声認識処理サーバ５に送信する。

（ステップＳ９）
音声認識処理サーバ５は、音声認識テキストデータ出力制御サーバ３において分割された音声データを音声認識する。音声認識処理サーバ５は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、ＤＰマッチングやニューラルネットワーク等を採用してもよい。

（ステップＳ１１）
音声認識処理サーバ５は、音声認識した結果であるテキストデータを音声認識テキストデータ出力制御サーバ３に送信する。

（ステップＳ１３）
図２に示す音声認識テキストデータ出力制御サーバ３の出力制御部３３３は、音声認識処理サーバ５において音声認識された結果であるテキストデータの出力タイミングよりも、情報処理装置１において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する。例えば、出力制御部３３３は、制御信号を情報処理装置１に送信することで情報処理装置１の出力処理を制御する。

例えば、出力制御部３３３は、テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された音声データを出力再生するタイミングを調整してもよい。

図４は、本発明の第１実施形態に係るデータ出力制御処理の一例を示す概念図である。図４（Ａ）は、出力されるテキストデータに含まれる文字数が少ない（条件（１）：Ｘ≦Ｐ１）場合のデータ出力制御処理を示す概念図である。図４（Ｂ）は、出力されるテキストデータに含まれる文字数が多い（条件（２）：Ｘ＞Ｐ１）場合のデータ出力制御処理を示す概念図である。ここで、α：遅延時間は、例えば、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを遅らせるために設定される期間である。Ｘ：文字数は、例えば出力されるテキストデータに含まれる文字数を含む。Ｐ１：設定値は、出力されるテキストデータに含まれる文字数が多いか少ないか判断するための基準値となる値である。設定値は、例えば数文字〜数十文字である。Ｑ１：初期値は、例えば数ミリ秒である。なお、設定値Ｐ１及び初期値Ｑ１は、実験に基づく経験値に基づいて定義してもよい。つまり、設定値Ｐ１及び初期値Ｑ１を様々な値に変更しながら、ユーザがテキストデータの修正作業を行いその使い易さ等を測定した結果を用いて最適な値を設定する。なお、設定値Ｐ１及び初期値Ｑ１は、ユーザごとに適宜変更することも可能である。

図４（Ａ）に示すように、条件（１）の場合、つまり、出力されるテキストデータに含まれる文字数が少ない場合は、矢印Ａ１が示すように、出力制御部３３３は、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを、当該音声データの音声認識処理が確定するまでの期間（α＝Ｑ１）遅延させる。

この構成によれば、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力タイミングを、当該音声データの音声認識処理が確定するまでの期間（α＝Ｑ１）遅延させる。よって、出力されたテキストデータの内容に対応する音声データを聞きながら当該テキストデータを修正することができるので、テキストデータの修正を正確に、且つ、迅速に行うことにつなげることができる。

図４（Ｂ）に示すように、条件（２）の場合、つまり、出力されるテキストデータに含まれる文字数が多い場合は、矢印Ａ３が示すように、出力制御部３３３は、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを、当該音声データの音声認識処理が確定するまでの期間（α＝Ｑ１＋Ｒ１×ｌｏｇＸ）遅延させる。

この構成によれば、画面上に出力される文字数が多い場合には、画面上に出力される文字数が少ない場合に比べて緩やかに遅延時間を延ばすことができる。よって、ユーザがテキストデータを確認するための時間をより長く確保することができる。したがって、テキストデータの修正をより正確に、且つ、より迅速に行うことにつなげることができる。

（ステップＳ１５）
図３に戻り、情報処理装置１は、制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置１の表示部において出力する。ここで、制御信号は、出力対象である音声データ及びテキストデータを含む信号であってもよいし、音声データ及びテキストデータを含まない信号であってもよい。

そして、情報処理装置１を操作するユーザは、情報処理装置１から出力される音声データを聞きながら、表示部において表示（出力）される、当該音声データに対応するテキストデータを修正する。

次に、図５及び図６を参照して、出力制御処理としての音声データの出力再開処理を説明する。図５は、本発明の実施形態に係る音声データ再出力制御処理の一例を示すフローチャートである。なお、図５に示すステップＳ２１〜Ｓ３１は、図３に示すステップＳ１〜Ｓ１１と同様であるため、説明を省略する。なお、音声データの出力再開処理においては、例えばユーザの操作により、音声データの出力の停止及び再開が制御されるが、音声認識された結果であるテキストデータについては出力が継続される。つまり、本実施形態における音声データの出力再開処理においては、テキストデータの出力を、ユーザの操作等によって強制的に停止及び再開させる制御は行われない。

（ステップＳ３３）
図２に示す音声認識テキストデータ出力制御サーバ３の出力制御部３３３は、音声データ及びテキストデータを情報処理装置１において出力させるように制御する。例えば、出力制御部３３３は、制御信号を情報処理装置１に送信することで情報処理装置１の出力処理を制御する。ここで、本ステップにおいては、必ずしも、音声認識処理サーバ５において音声認識された結果であるテキストデータの出力タイミングよりも、図１に示す情報処理装置１において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する必要はない。つまり、図５に示すテキストデータの出力再開処理は、図３に示すデータ出力制御処理を前提とする処理でなくてもよい。しかしながら、これに限られず、図５に示すテキストデータの出力再開処理は、図３に示すデータ出力制御処理を前提とする処理であってもよい。

（ステップＳ３５）
情報処理装置１は、音声認識テキストデータ出力制御サーバ３から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置１の表示部において出力する。

（ステップＳ３７）
情報処理装置１において、ユーザの操作に基づいてテキストデータを出力及び音声データを再生停止する場合、情報処理装置１は、音声認識テキストデータ出力制御サーバ３に対して出力停止信号を送信する。

（ステップＳ３９）
情報処理装置１において、ユーザの操作に基づいてテキストデータの出力及び音声データの再生が再開される場合、情報処理装置１は、音声認識テキストデータ出力制御サーバ３に対して出力再開信号を送信する。

（ステップＳ４１）
出力制御部３３３は、ステップＳ３７において音声データの再生が一旦停止された後、ステップＳ３９において再開される場合、音声データの再生が停止された時点から所定期間遡った時点から音声データの再生が再開されるように制御する。例えば、出力制御部３３３は、制御信号を情報処理装置１に送信することで情報処理装置１の出力再生処理を制御する。

図６は、本発明の実施形態に係る音声データ再出力制御処理の一例を示す概念図である。図６（Ａ）は、音声データが出力再生されてから比較的早く再生が停止される（条件（１）：ｚ≦Ｐ２）場合の音声データ再出力制御処理を示す概念図である。図６（Ｂ）は、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される（条件（２）：ｚ＞Ｐ２かつｙ−ｚ＞Ｑ２）場合の音声データ再出力制御処理を示す概念図である。図６（Ｃ）は、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される（条件（３）：ｚ＞Ｐ２かつｙ−ｚ≦Ｑ２）場合の音声データ再出力制御処理を示す概念図である。

ここで、β：戻る時間は、例えば、音声データの再生が停止された時点から、どの程度遡って音声データの出力再生を再開するかを示す期間である。ｙ：音声データの素材長（時間）は、例えば、音声データのすべてが出力再生される期間を含む。より具体的には、音声データの素材長（時間）は、音声認識された結果であるテキストデータに対応する、音声認識される前の１又は複数の素材音声の長さを含む。例えば、音声データの素材長は、素材音声が複数の素材音声から構成される場合、一の素材音声の先頭のタイムコードと、次の素材音声の先頭のタイムコードから算出されてもよい。具体的に、一の素材音声の先頭のタイムコードが「００：０２：２５」（２分２５秒）で、次の素材音声の先頭のタイムコードが「００：０２：５０」（２分５０秒）である場合、一の素材音声に対応する音声データの素材長は、２５秒間である。このようにそれぞれの素材音声の音声データの素材長を合算することにより、全素材音声に対応する音声データの素材長を算出する。なお、タイムコードは、パラメータとしてフレーム数を更に含んでもよい。ｚ：音声データの出力再生停止期間は、音声データの出力再生を停止している期間をいい、例えば、音声データの再生を一旦停止してから再生を再開するまでの期間を含む。音声データの出力停止期間は、例えば、一の素材音声の出力が開始され、当該一の素材音声の途中で停止される場合は、当該素材音声の先頭からが停止されるまでの間の時間を含んでもよい。Ｐ２：設定値は、音声データの出力期間が長いか短いかを判断するための基準値となる値である。Ｑ２：設定値は、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止されたか、又は、後半に置いて音声データの再生が停止されたかを判断するための基準値となる値である。Ｐ２：設定値及びＱ２：設定値は、例えば数秒〜数十秒である。なお、以下では、各条件（１）〜（３）に応じて戻る時間を規定しているが、音声データの再生の停止タイミングにかかわらず、戻る時間を一定秒数（例えば２秒）と設定してもよい。

図６（Ａ）に示すように、条件（１）の場合、つまり、条件（２）及び条件（３）の場合に比べて、音声データが出力再生されてから比較的早く再生が停止された場合は、矢印Ａ５及びＡ７が示すように、出力制御部３３３は、音声データの出力再生を、音声データの先頭から再開するように制御する。

この構成によれば、音声データが出力再生されてから比較的早く再生が停止された場合は、テキストデータの先頭から再生を再開するように制御される。よって、再生が再開される時点がテキストデータの先頭の時点であるので、ユーザは、音声データの再生が再開される時点を容易に把握できる。

出力制御部３３３は、音声データがすべて出力再生されるまでの期間と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間と、に基づいて所定期間を調整する。

具体的に、図６（Ｂ）に示すように、条件（２）の場合、つまり、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される場合、矢印Ａ９及びＡ１１が示すように、出力制御部３３３は、音声データがすべて出力再生されるまでの期間（ｙ）と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間（ｙ−ｚ）と、に基づいて所定期間（β＝Ｐ２）を調整する。そして、出力制御部３３３は、音声データの再生が停止された時点（矢印Ａ９）から所定期間（例えば５秒）遡った時点（矢印Ａ１１）から音声データの再生が再開されるように制御する。

この構成によれば、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される場合には、出力されたテキストデータの校正部分が条件（３）の場合と比べて少ないと判断され、戻る時間を固定値（例えば５秒）（条件（３）の遡る時間よりは短く調整する）とする。このように、戻る時間が固定値であるため、ユーザは、音声データの再生を停止した時点から遡って再生が再開される時点を容易に把握できる。

図６（Ｃ）に示すように、条件（３）の場合、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される場合、矢印Ａ１３及びＡ１５が示すように、出力制御部３３３は、音声データがすべて出力再生されるまでの期間（ｙ）と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間（ｙ−ｚ）と、に基づいて所定期間（β＝Ｐ２＋Ｑ２×ｌｏｇｙ）を調整する。そして、出力制御部３３３は、音声データの再生が停止された時点（矢印Ａ１３）から所定期間（例えば１０秒）（条件（２）の遡る時間よりは長く調整する）遡った時点（矢印Ａ１５）から音声データの再生が再開されるように制御する。

この構成によれば、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される場合には、出力されたテキストデータの校正部分が条件（２）の場合と比べて多いと判断され、戻る時間をより長く確保する。よって、ユーザは、出力されるテキストデータの全体を把握しながらテキストデータを修正することができる。したがって、テキストデータの修正をより正確に、且つ、より迅速に行うことにつなげることができる。

（ステップＳ４３）
情報処理装置１は、音声認識テキストデータ出力制御サーバ３から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置１の表示部において出力または再生する。

図７を参照して、図１に示す情報処理装置１の表示部（不図示）に表示される、テキストデータを含む画面の一例を説明する。図７は、本発明の実施形態に係る情報処理装置に表示される画面の一例を示す図である。図２に示す音声認識テキストデータ出力制御サーバ３の記録部３５は、音声データの取得時刻を示す時刻データＴＩと、当該音声データを音声認識させた結果であるテキストデータＴＤと、を関連づけて記録し、図７に示すように、出力制御部３３３は、取得時刻を示す文字情報ＴとテキストデータＴＤとが関連づけて出力されるように制御する。例えば、画面Ｇにおいて、「１５：３９：４０」（１５時３９分４０秒）に情報処理装置１で取得された音声データを音声認識させた結果であるテキストデータ「を最近…運動していたりしてます」と、その取得時刻「１５：３９：４０」と、が関連づけて出力されている。

この構成によれば、実際の取得時刻で、音声データを音声認識させた結果であるテキストデータを確認することができるので、所望の修正箇所を容易に特定できる。

図７に示すように、音声認識処理において各テキストデータＴＤに対応する音声データに含まれる音声の発話者を特定する場合、テキストデータＴＤごとに発話者を示す画像ＳＤが表示されてもよい。また、あるテキストデータＴＤ及び対応する音声データが重要である場合は、ユーザの指示に基づいて別途登録を行うことができる。例えば、ユーザが指定したテキストデータＴＤの登録画像ＳＤは、ユーザが指定しないテキストデータＴＤの登録画像ＳＤとは異なる形態で表示されてもよい。具体的には、ユーザが指定したテキストデータＴＤの登録画像ＳＤは、強調表示されてもよい。また、上記したとおり、素材が音声付き動画である場合、音声データと動画データとは分離され管理される。そして、分離した音声データを逐一音声認識させることで、図７に示すように、音声データの再生時は、それに同期させた動画データが同時に画面ＧにおけるウィンドウＷに表示される。

以上、本発明の第１実施形態によれば、音声認識された結果であるテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを遅らせることで、テキストデータの修正を正確に、且つ、迅速に行うことができる。

＜第２実施形態＞
図８から図１０を参照して、本発明の第２実施形態に係るデータ出力制御処理を説明する。図８は、本発明の第２実施形態に係る情報処理システムの概略構成（システム構成）の他の一例を示す図である。第２実施形態においては、図８に示すように、情報処理システム１００において複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃを備えるが、図１に示すように、第１実施形態においては、図１に示すように、情報処理システム１００において単一の音声認識処理サーバ５を備える点で第２実施形態と第１実施形態とは異なる。以下では、第２実施形態と第１実施形態とで異なる点について特に説明する。

図９は、本発明の第２実施形態に係る音声認識テキストデータ出力サーバの他の一例を示す概略構成図（ブロック図）である。第２実施形態においては、図９に示すように、音声認識テキストデータ出力制御サーバ３においてテキストデータ選択部３３５（選択部）を更に備える点で、第１実施形態とは異なる。

図１０は、本発明の第２実施形態に係るテキストデータ選択処理の一例を示す概念図である。図１０に示すように、図９に示す送受信部３１と音声データ分割部３３１とを含んで構成されるテキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃの各々から取得する。そして、テキストデータ選択部３３５は、複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃの各々から取得された複数のテキストデータから一つを選択する。

図１０に示すように、テキストデータ選択部３３５は、例えば、複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃから取得された複数のテキストデータを形態素解析した各解析結果を多数決処理によって比較し、より「合計ポイント」が大きい、音声認識処理サーバ５Ａに音声認識させた結果であるテキストデータを選択する。具体的に、テキストデータ選択部３３５は、複数の音声認識処理サーバ５Ａ，５Ｂ，５Ｃから取得された複数のテキストデータを形態素解析した各解析結果に対して多数決処理を実行することで、共通する形態素数が多いサーバに対して「一致ポイント」を付与する。そして、テキストデータ選択部３３５は、誤認識で多く認識してしまったり少なく認識してしまったりした際に付与する「過不足ポイント」に所定の重み付け値（Ｐ３：設定値）を乗算した値を「一致ポイント」から減算することで「合計ポイント」を算出する。なお、二以上の音声認識処理サーバにおいて合計ポイントが最も大きく、且つ、同一となった場合、テキストデータ選択部３３５は、例えば、一つ前のテキストデータを、音声認識処理を実行することで生成した音声認識処理サーバにより音声認識された結果を今回のテキストデータとして選択する。

以上、本発明の第２実施形態によれば、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する。よって、音声データをより正確に音声認識した結果であるテキストデータが出力されるので、ユーザが修正すべき量が削減されるので、テキストデータの修正をより容易に行うことができる。

上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更／改良され得るとともに、本発明にはその等価物も含まれる。

上記したとおり、図２及び図９に示す音声認識テキストデータ出力制御サーバ３は、音声データ分割部３３１と出力制御部３３３とテキストデータ選択部３３５とを備えて構成される。しかしながらこの構成に限られず、情報処理装置１が音声データ分割部３３１、出力制御部３３３及びテキストデータ選択部３３５の少なくとも一つを備えてもよい。この場合、「音声認識テキストデータ出力装置」は情報処理装置１となる。

また、上記では、音声認識処理は、情報処理装置１及び音声認識テキストデータ出力サーバ３とは異なる構成である音声認識処理サーバ５において実行されるものと説明した。しかしながら、この構成に限られず、上記各実施形態における情報処理システムにおいて、音声認識処理サーバ５を含まなくてもよい。つまり、情報処理装置１又は音声認識テキストデータ出力サーバ３において音声認識処理を実行してもよい。

１…情報処理装置、３…音声認識テキストデータ出力制御サーバ、５，５Ａ，５Ｂ，５Ｃ…音声認識処理サーバ、３１…送受信部、３３…情報処理部、３５…記録部、３３１…音声データ分割部、３３３…出力制御部、３３５…テキストデータ選択部

本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備え、出力制御部は、テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された音声データを出力再生するタイミングを調整する。
本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備え、出力制御部は、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、出力制御部は、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第１期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第１期間よりも長い第２期間となるように調整する。
本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備え、テキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部を更に備える。

本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御するステップと、を含み、制御するステップは、テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された音声データを出力再生するタイミングを調整する。
本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御するステップと、を含み、制御するステップは、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、制御するステップは、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第１期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第１期間よりも長い第２期間となるように調整する。
本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得する制御するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得する制御するステップと、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する制御するステップと、を含み、テキストデータを取得するステップは、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択するステップを更に含む。

本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータを、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部として機能させ、出力制御部は、テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された音声データを出力再生するタイミングを調整する、プログラム。
本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータを、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、して機能させ、出力制御部は、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、出力制御部は、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第１期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第１期間よりも長い第２期間となるように調整する。
本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータを、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、して機能させ、テキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部として更に機能させる。

Claims

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声データを取得する音声データ取得部と、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、
取得した前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御する出力制御部と、
を備える、
音声認識テキストデータ出力制御装置。
前記出力制御部は、前記テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された前記音声データを出力再生するタイミングを調整する、
請求項１に記載の音声認識テキストデータ出力制御装置。
前記出力制御部は、前記音声データの出力再生が一旦停止された後、再開される場合、前記音声データの出力再生が停止された時点から所定期間遡った時点から前記音声データの出力再生が再開されるように制御する、
請求項１又は２に記載の音声認識テキストデータ出力制御装置。
前記出力制御部は、前記音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、前記所定期間が第１期間となるように調整し、当該音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が前記所定の閾値を超える場合は、前記所定期間が前記第１期間よりも長い第２期間となるように調整する、
請求項３に記載の音声認識テキストデータ出力制御装置。
前記音声データの入力時刻を示す時刻データと、当該音声データを音声認識させた結果である前記テキストデータと、を関連づけて記録する記録部を更に備え、
前記出力制御部は、前記入力時刻と前記テキストデータとが関連づけて出力されるように制御する、
請求項１から４のいずれか一項に記載の音声認識テキストデータ出力制御装置。
前記テキストデータ取得部は、取得された前記音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを前記複数の音声認識処理サーバの各々から取得し、
前記複数の音声認識処理サーバから取得された複数の前記テキストデータを形態素解析することにより、前記複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部を更に備える、
請求項１から５のいずれか一項に記載の音声認識テキストデータ出力制御装置。
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、
音声データを取得するステップと、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、
取得された前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御するステップと、
を含む、
音声認識テキストデータ出力制御方法。
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータに、
音声データを取得する音声データ取得部と、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、
取得された前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御する出力制御部と
して機能させるプログラム。