以下、本開示の一実施の形態について、図面を参照して詳細に説明する。
<システム構成>
まず、本実施形態に係る表示処理装置を含む情報管理システムの構成について説明する。
図1は、情報管理システムの全体構成の一例を示す図である。
図1に示すように、情報管理システム1は、管理装置10及び端末装置20A〜20Cを含む。情報管理システム1は、例えば、企業内における営業日報の生成に用いられるものであり、営業報告の入力を音声で受け付け、入力された多数の営業報告を時系列で一覧表示するシステムである。
通信回線Nは、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット回線等の通信ネットワークである。
端末装置20A〜20Cは、スマートフォンやパーソナルコンピュータ等の電子機器であり、ユーザが情報の音声入力を行ったり、管理装置10から提供される情報を閲覧するために用いられる。ここでは、端末装置20A〜20Cは同様の構成を有するものとして、端末装置20A〜20Cの間で区別しない場合、単に端末装置20と言う。
管理装置10は、通信回線Nを介して、端末装置20A〜20Cのそれぞれとデータ通信を行い、各端末装置20から情報を収集して収集された情報を管理して各端末装置20へ提供するサーバ装置である。
より具体的には、管理装置10は、端末装置20A〜20Cのそれぞれで入力された音声の音声データを取得し、取得された各音声データに対して音声認識処理を行う。そして、管理装置10は、得られた多数の音声認識結果(以下、適宜「ボイスメモ」と言う)を表示する情報表示画面(以下「ボイスメモ一覧画面」という)を生成するための表示データ(以下「ボイスメモ一覧データ」という)を生成し、端末装置20A〜20Cのそれぞれへ送信する。すなわち、情報管理システム1は、例えば、端末装置20Aを携行するユーザAのボイスメモを、他の端末装置20Bを携行するユーザBが閲覧することを可能にする(図8を参照して後述)。
ところが、上述の通り、音声認識を用いてボイスメモの内容を文字表示する場合、音声認識が誤変換した文字を含むおそれがある。
そこで、管理装置10は、各音声認識結果に対する校閲作業受付処理を受け付けつつ、当該処理が完了しているか否かによらずに、音声認識により得られた各テキスト情報を、ステータス情報を付した状態で表示させる。
ここで、校閲作業受付処理とは、音声認識結果に対する校閲作業を受け付ける処理であり、例えば、再生操作処理、編集操作処理、及び確定操作処理を含む。再生操作処理は、音声データに対する再生操作を受け付ける処理である。編集操作処理は、音声認識結果に対する編集操作を受け付ける処理である。確定操作処理は、音声認識結果、又は、音声認識結果に対して編集操作が行われた結果に対する確定操作を受け付ける処理である。又、ステータス情報とは、音声認識結果に対する校閲作業受付処理が完了したか否かを示す情報である。
これにより、例えば、ユーザBは、各テキスト情報に対する校閲作業が完了するのを待つことなくボイスメモ一覧画面を速やかに閲覧し、かつ、ステータス情報に基づいて各テキスト情報の情報信頼度を識別することができる。すなわち、情報管理システム1は、有用性の高いボイスメモの内容の文字表示を実現することができる。
<装置構成>
次に、端末装置20と管理装置10の構成について説明する。
尚、以下の説明において、上述の確定操作が行われたテキスト情報は、「校閲済テキスト」といい、校閲済テキストが存在する音声データは、「校閲作業受付処理が完了した音声データ」という。又、上述の確定操作が行われていないテキスト情報は、「未校閲テキスト」といい、校閲済テキストが存在しない音声データは、「校閲作業受付処理が完了していない音声データ」という。そして、未校閲テキスト及び校閲済テキストは、適宜、「音声変換テキスト」と総称する。
又、各端末装置20のユーザは、当該端末装置20を使用して音声入力を行う報告者となることができると共に、自己あるいは他のユーザが入力した音声の音声認識結果に対して校閲作業を行う校閲者となることができるものとする。
図2は、管理装置10及び端末装置20の機能構成の一例を示す図である。まず、端末装置20の構成について説明する。
端末装置20は、制御部21、記憶部22、音声入力部23、音声再生部24、表示部25、操作部26、通信IF部27を備えている。
制御部21は、端末装置20の各部を統括制御するもので、CPU(Central Processing Unit)がコンピュータプログラムを実行することで実現される。制御部21は、例えば、後述の記憶部22に格納されたクライアントアプリケーションプログラムを実行することにより、管理装置10と協働する。
制御部21は、情報取得部21a及び情報出力部21bを有する。情報取得部21aは、所定の記憶領域(ここでは、管理装置10のデータベース11、又は、記憶部22)からデータを取得する。かかるデータには、上述のボイスメモ一覧データが含まれる。情報出力部21bは、当該データに基づいてボイスメモ一覧画面を含む各種画面を生成して、表示部25に表示させる。ボイスメモ一覧画面の詳細については、後述する。
記憶部22は、コンピュータプログラム、音声データ、アプリケーションに用いられる画像フォーマットデータ、演算処理の中間データ等を記憶するものである。記憶部22は、RAM(Random Access Memory)、ROM(Read Only Memory)、及びレジスタ等を含む。
音声入力部23は、例えばマイクロホンを含み、当該マイクロホンに入力された音声をAD変換し、音声波形を示す音声データを生成する。音声入力部23が生成した音声データは、例えば、MP3形式で記憶部22に記憶される。
音声再生部24は、スピーカ等で構成され、音声データをDA変換して、音声を再生する。
表示部25は、音声認識の結果を表示したり、音声データ一覧を表示したりするもので、例えば、液晶ディスプレイを含む。
操作部26は、ユーザが端末装置20に対して操作入力を行うためのユーザインタフェイスであり、例えば、表示部25と一体となったタッチパネル等を含む。
通信IF部27は、通信回線Nを介して管理装置10等の外部機器とデータの送受信を行うための通信インタフェイスであり、通信コントローラを含む。通信IF部27は、例えば、管理装置10の通信IF部12との間のデータ通信に、HTTPを使用する。
このような構成により、端末装置20は、入力された音声を音声データに変換して管理装置10へ送信すると共に、管理装置10から受信したボイスメモ一覧データに基づいてボイスメモ一覧画面を生成して表示することができる。
次いで、管理装置10の構成について説明する。
管理装置10は、データベース11、通信IF部12、制御部13(音声認識部13a、情報校閲部13b、ステータス状態変更部13c、情報提供部13d)を含む。
データベース11は、RAM、ROM、レジスタ、磁気ディスク等で構成されたメモリであり、複数の端末装置20A〜20Cから取得した複数の音声データを記憶する。データベース11は、例えば、入力された音声データを、音声データ毎にユニークに割り当てられたIDによって各別に管理する。
又、データベース11は、各音声データに関連付けて、当該音声データと共に端末装置20から受信した各種付随情報を記憶する。かかる付随情報は、端末装置20で音声データを生成した際に関連付けて生成あるいは取得されたものであり、例えば、ユーザ識別情報、グループ識別情報、時刻情報、録音場所情報、及び画像データを含む。
ユーザ識別情報は、音声データの基となる音声を入力したユーザ(つまり端末装置20のユーザ)の識別情報である。グループ識別情報は、上記ユーザが属するグループの識別情報であり、音声データに基づく情報(音声変換テキスト)の閲覧を、当該グループ識別情報が示すグループに属するユーザに制限するための情報である。時刻情報は、音声入力(発話)が行われた時刻を示す情報である。録音場所情報は、音声入力が行われた場所を示す情報である。画像データは、音声入力に関連付けて、端末装置20により(あるいは、その周辺で他の装置により)撮影された画像のデータである。
又、データベース11は、音声データごとに、当該音声データに基づいて管理装置10により生成あるいは取得された各種情報を記憶する。かかる情報は、例えば、音声変換テキスト、ステータス情報、及びインデックス情報を含む。
音声変換テキストは、上述の通り、音声データに対する音声認識処理に基づいて得られたテキストデータであり、未校閲テキスト及び校閲済テキストを含む。ステータス情報は、上述の通り、音声データに対応する音声変換テキストが、未校閲テキスト及び校閲済テキストのいずれに該当するかを示す情報である。インデックス情報は、音声データの入力内容の種別を示す情報(見出し)であり、複数の音声データ(複数の音声変換テキスト同士)を関連付けるための情報である。
通信IF部12は、通信回線Nを介して端末装置10等の外部機器とデータの送受信を行うための通信インタフェイスであり、例えば、通信コントローラ等を含む。
制御部13は、図示しないメモリに格納されたプログラムをCPUが実行することによって実現される制御機能である。ここでは、制御部13は、音声認識部13a、情報校閲部13b、ステータス状態変更部13c、情報提供部13dを有する。
音声認識部13aは、通信IF部12を介して端末装置20から送られてきた音声データ及び付随情報を受信する。そして、音声認識部13aは、受信された音声データに対し音声認識処理を行って音声変換テキストを生成するとともに、未校閲テキストである旨を示す初期状態のステータス情報を生成する。そして、音声認識部13aは、音声データ及び付随情報と、当該音声データに基づいて生成された音声変換テキスト及び初期状態のステータス情報とを、データベース11に格納する。
情報校閲部13bは、音声変換テキストに対する校閲作業受付処理を行う。情報校閲部13bは、例えば、管理装置10に備えられたタッチパネル付き液晶ディスプレイ等のユーザインタフェイス(図示せず)を介して、管理装置10のユーザから校閲作業を受け付ける。あるいは、情報校閲部13bは、例えば、通信による遠隔での校閲作業を、端末装置20等の他の装置のユーザから受け付ける。そして、情報校閲部13bは、編集作業が行われた場合、データベース11に格納された音声変換テキストを、当該編集作業後の内容に更新する。
情報校閲部13bは、例えば、後述の情報提供部13dが端末装置20に表示させるボイスメモ一覧画面を用いて、当該端末装置20のユーザから校閲作業を受け付ける。
ステータス状態変更部13cは、情報校閲部13bによって音声変換テキストに対する校閲作業受付処理が完了した場合、データベース11に格納された対応するステータス情報を、未校閲であることを示す状態から、校閲済みであることを示す状態へと書き換える。
情報提供部13dは、端末装置20からの、音声変換テキストの閲覧要求や音声データの再生要求に応じて、データベース11から対応するデータを取得し、ボイスメモ一覧データを生成する。そして、情報提供部13dは、生成されたボイスメモ一覧データを、通信IF部12を介して端末装置20へ送信(提供)する。
但し、このとき、情報提供部13dは、各音声変換テキストに当該音声変換テキストのステータス情報を対応付けて表示する内容のボイスメモ一覧データを生成する。
このような構成により、管理装置10は、端末装置20から送られてきた音声データに対して音声認識処理及び校閲作業受付処理を行うとともに、各音声変換テキストにステータス情報を付与したボイスメモ一覧画面の表示データ(ボイスメモ一覧データ)を端末装置20へ送信することができる。
尚、管理装置10から端末装置20へと送信される各種表示データは、表示される情報の内容のみを定義するものであってもよいし、画面における各情報の表示の仕方(どの情報をどのように表示するか)を更に定義するものであってもよい。すなわち、端末装置20におけるボイスメモ一覧画面等の表示画面の構成は、端末装置20が決定してもよいし、管理装置10が決定してもよい。
<システム及び装置の動作>
以下、情報管理システム1及び各装置の動作、並びに、各種表示画面の例について説明する。
図3は、管理装置10の動作の概略を表している。
管理装置10は、複数のユーザの端末装置20A〜20Cのそれぞれから、処理要求を待ち受ける(ステップS1:NO)。そして、管理装置10は、端末装置20から処理要求があった場合(ステップS1:YES)、例えばヘッダーに付された要求識別に応じて、音声認識部13aによる処理(ステップS2)、情報校閲部13bによる処理(ステップS3)、情報提供部13dによる処理(ステップS4)に条件分岐する。
音声認識部13aによる処理(S2)とは、端末装置20から受信した音声データに対する音声認識処理であり、後述の図4のステップS14に対応している。情報校閲部13bによる処理(S3)とは、音声変換テキストに対する校閲作業受付処理であり、後述の図7のステップS25に対応している。情報提供部13dによる処理(S4)とは、ボイスメモ一覧データを含む各種表示データを端末装置20へ送信する処理であり、後述の図4のステップS15及び図7のステップS22に対応している。
以下、ボイスメモ生成動作とボイスメモ閲覧動作とに大きく分けて、各装置の動作について詳細に説明する。ここで、ボイスメモ生成動作とは、音声認識処理によりボイスメモを生成する動作であり、音声認識部13aによる処理(S2)及び情報提供部13dによる処理(S4)に関連する動作である。又、ボイスメモ閲覧動作とは、生成されたボイスメモに対して校閲作業を受け付ける動作であり、情報校閲部13bによる処理(S3)及び情報提供部13dによる処理(S4)に関連する動作である。
尚、以下の説明において、端末装置20Aと端末装置20Bとは、グループ識別情報で関連付けられており、互いのボイスメモを閲覧及び校閲可能となっているものとする。
<ボイスメモ生成動作>
まず、図4〜図6を参照して、ボイスメモを生成する際の情報管理システム1及び各装置の動作の一例について説明する。
尚、端末装置20Aは、以下に説明するホーム画面T10(図5)及び音声入力画面T20(図6)を生成して表示するのに必要な情報(例えば、データベース11に格納されたインデックス情報を含む)を、予め、管理装置10の情報提供部13dから取得している。
図4は、ボイスメモ生成時の動作フローの一例を示す図である。図5は、ボイスメモアプリケーションのホーム画面の一例を示す図である。図6は、音声入力画面の一例を示す図である。
まず、ユーザによるアプリケーション起動操作を受けて、端末装置20Aは、図5に示すようなアプリケーションのホーム画面T10を生成して表示し、ユーザによりメニューの選択操作が行われるのを待ち受ける(ステップS11)。
ホーム画面T10は、新規録音アイコンT11、追加録音アイコンT12、インデックス情報選択リストT13、一覧表示アイコンT14、カード型表示アイコンT15を含む。
新規録音アイコンT11及び追加録音アイコンT12は、ユーザが録音の開始を操作するためのアイコンである。インデックス情報選択リストT13は、追加録音の際にユーザがインデックス情報を選択操作するためのチェックボックスである。一覧表示アイコンT14は、ボイスメモの一覧を閲覧するためのアイコンである。カード型表示アイコンT15は、インデックス情報に基づいて、ボイスメモの一部を抽出して、又は並べ替えて閲覧するためのアイコンである。
尚、アイコン及びチェックボックスは、操作部26の一態様である。端末装置20Aは、いずれかのアイコンに対してユーザによる選択操作が行われた場合、当該アイコンに関連付けられた処理を実行する。又、端末装置20Aは、いずれかのチェックボックスに対してユーザによる選択操作が行われた場合、当該チェックボックスで選択された項目を示すデータを、一時的に記憶部22に保持する。
端末装置20Aは、ホーム画面T10において、新規録音アイコンT11及び追加録音アイコンT12に対してユーザにより選択操作が行われた場合、図6に示す音声入力画面T20を表示して、録音を開始する。
端末装置20Aは、新規録音アイコンT11が選択された場合、当該音声データを、管理装置10へ送信する。かかる音声データは、管理装置10のデータベース11に記憶される。
又、端末装置20Aは、追加録音アイコンT12が選択された場合、当該音声データを、インデックス情報選択リストT13で選択されたインデックス情報(図中では、「**の報告」のインデックス情報が選択された状態を示す)に対応付けて、管理装置10へ送信する。かかる音声データは、管理装置10において、選択されたインデックス情報が付与された状態でデータベース11に記憶される。
尚、インデックス情報は、後述の通り、端末装置20Aにおいて、音声データと対応付けて任意に生成及び/又は選択することが可能な、音声データの入力内容の見出しであり、録音した音声データ同士を関連付けるために用いられる情報である。新規録音アイコンT11を選択して録音する音声データに対してインデックス情報を付与する場合には、例えば、新規録音アイコンT11を選択した直後に、「見出し、○○○、内容、△△△」と音声入力する。そうすることで、管理装置10は、音声認識処理によって、インデックス情報と入力内容とを識別して、入力内容「△△△」に対して、インデックス情報として「○○○」を付与する。
尚、端末装置20Aは、管理装置10のデータベース11に格納されたインデックス情報に基づいて、インデックス情報選択リストT13を表示する。すなわち、表示の対象となるインデックス情報は、例えば情報提供部13dによって、複数の端末装置20から収集(取得)される。そして、過去に取得されたインデックス情報は、例えば、情報提供部13dにより、複数の端末装置20のそれぞれに対して、音声データに対応付けられるインデックス情報の選択肢として送信される。これにより、各端末装置20のユーザは、過去に記録された音声データ(他のユーザによるものを含む)に設定されたインデックス情報を、簡単に再利用することが可能となる。
一方、ホーム画面T10において、一覧表示アイコンT14に対してユーザによる選択操作が行われた場合、端末装置20Aは、図8に示すボイスメモ一覧画面T29を表示する(後述)。又、ホーム画面T10において、カード型表示アイコンT15に対してユーザによる選択操作が行われた場合、端末装置20Aは、図10に示すカード型表示画面T50を表示する(後述)。
例えば、ホーム画面T10において、録音メニュー(新規録音アイコンT11及び追加録音アイコンT12)に対してユーザにより選択操作が行われたものとする。端末装置20Aは、これに応じて、図6に示す音声入力画面T20を表示して、録音を開始する(ステップS12)。
音声入力画面T20(図6)において、ユーザにより音声入力が行われると、端末装置20Aは、音声データを生成する。そして、端末装置20Aは、順次、当該音声データを音声認識要求とともに管理装置10に送信する(ステップS13)。
音声入力画面T20(図6)は、例えば、インデックス情報表示T21、音声認識結果表示T22、一時停止アイコンT23、録音終了アイコンT24、キャンセルアイコンT25を含む。
インデックス情報表示T21は、上記録音を開始する際に、インデックス情報選択リストT13で選択されたインデックス情報をテキスト表示する表示領域である。音声認識結果表示T22は、管理装置10から送信される音声認識結果(音声変換テキスト)を表示する表示領域である。一時停止アイコンT23は、録音を一時停止するためのアイコンである。録音終了アイコンT24は、録音を終了するためのアイコンであり、このアイコンがユーザに選択操作された場合、録音を終了し、表示状態をホーム画面T10に戻す。
キャンセルアイコンT25は、録音をキャンセルするためのアイコンである。キャンセルアイコンT25に対してユーザにより選択操作が行われた場合、端末装置20Aは、生成した音声データを破棄するとともに、録音を終了し、表示状態をホーム画面T10に戻す。
管理装置10は、端末装置20Aから受信した音声データに対して音声認識処理を行い、音声認識結果を出力する(ステップS14)。
このとき、管理装置10の音声認識部13aは、例えば、音声データに対してフレーム化処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、音声特徴量を抽出する。そして、管理装置10の音声認識部13aは、各フレームにおける音声特徴量の時系列データ、音響モデル、辞書、及び言語モデルに基づいて、音声パターンを認識して、音声認識結果を出力する。
尚、かかる音響モデル、辞書、及び言語モデルは、管理装置10のメモリ(図示せず)に予め記憶されている。音響モデルは、音声の特徴量と発音記号との確率的な対応付けをデータ化したものである。又、辞書は、単語の表記と読みを記述したものである。又、言語モデルは、辞書に記述された単語のそれぞれについて、大量のテキストデータから計算した出現確率や他の単語との接続確率をデータ化したものである。
そして、管理装置10は、音声認識結果に対応する音声変換テキストを生成し、当該音声変換テキストを端末装置20Aに送信する(ステップS15)。
このとき、管理装置10は、ステータス情報(例えば、フラグ)を生成して、受信した一連の音声データ及び生成した音声変換テキストとともに、ID等によりこれらの情報と関連付けてデータベース11に格納する。又、管理装置10は、当該音声データと関連付けて、ユーザ識別情報、インデックス情報、当該音声変換テキストの閲覧権限、及び当該音声変換テキストの校閲権限を、データベース11に格納する。閲覧権限とは、音声変換テキストを閲覧することを許可されたユーザを示す情報であり、例えば、グループ識別情報である。又、校閲権限とは、音声変換テキストを校閲することを許可されたユーザを示す情報であり、例えば、特定のユーザ識別情報である。ユーザ識別情報、インデックス情報等は、端末装置20から受信した音声データに付されている。
管理装置10は、各音声変換テキストに関連付けられた閲覧権限に基づいて、当該音声変換テキストの表示を制限し、音声変換テキストに関連付けられた校閲権限に基づいて、当該音声変換テキストに対する校閲作業を制限する。
ここで、音声変換テキストを閲覧可能とする閲覧権限は、インデックス情報ごとに設定可能とされるのが望ましい。これにより、ユーザは、音声入力するデータ内容に応じて、閲覧可能とするユーザを設定することができる。又、閲覧権限と校閲権限とは、別個に設定するのが望ましい。これにより、特定の信頼できるユーザのみが校閲可能な状態にでき、ボイスメモの情報信頼度を向上させることが可能となる。
端末装置20Aは、管理装置10から受信した音声変換テキストを、音声入力画面T20の音声認識結果表示T22(図6)に表示する(ステップS16)。端末装置20Aは、音声データを送信するとともに、管理装置10から送信される音声変換テキストのデータを待ち受け、受信したデータに基づき、音声認識結果表示T22を更新するように表示制御する。
<ボイスメモ閲覧動作>
以下、図7〜図9を参照して、ボイスメモ(音声変換テキスト)を閲覧する際の情報管理システム1及び各装置の動作の一例について説明する。
図7は、ボイスメモ閲覧時の動作フローの一例を示す図である。図8は、ボイスメモ一覧画面の一例を示す図である。図9は、ボイスメモの校閲画面の一例を示す図である。尚、ここでは、端末装置20Aで音声入力されたボイスメモを、端末装置20Bが閲覧する態様を表している。
図5のホーム画面T10上で、一覧表示アイコンT14がユーザに選択操作された場合、端末装置20Bは、管理装置10に対してボイスメモ一覧データを要求する(ステップS21)。
管理装置10は、これに応じて、ボイスメモ一覧データを送信する(ステップS22)。この際、管理装置10は、端末装置20Bのユーザ識別情報及びグループ識別情報に基づいて、データベース11から対応するデータを抽出して送信する。抽出されるデータは、図8に示すステータス情報T30、インデックス情報T31、録音時刻T32、録音時間T33、音声変換テキストT35、報告者T37、報告場所T38等の、ボイスメモ一覧画面T29の表示内容を生成するためのデータである。
尚、管理装置10は、テキスト表示の対象となる音声データのうち、校閲作業受付処理が完了していない音声データについては未校閲テキストを、校閲作業受付処理が完了した音声データについては校閲済テキストを、少なくともボイスメモ一覧データに含める。又、管理装置10は、これらの音声変換テキストのそれぞれのステータス情報を、かかるボイスメモ一覧データに少なくとも含める。
端末装置20B(情報取得部21a、情報出力部21b)は、管理装置10から受信したボイスメモ一覧データを記憶部22に格納し、図8に示すようなボイスメモ一覧画面T29を生成して表示する(ステップS23)。すなわち、端末装置20Bは、情報取得部21aにおいて、複数の音声データについての音声変換テキスト及び各音声変換テキストのステータス情報を取得する。そして端末装置20Bは、情報出力部21bにおいて、音声変換テキストを、対応するステータス情報の内容(つまり未校閲テキスト及び校閲済テキストのいずれであるか)を識別することが可能な状態で当該一覧表示する。
ボイスメモ一覧画面T29には、行ごとに、一の音声データに関連付けられた各種情報が表示される態様となっている。つまり、音声データに対応する音声変換テキストが生成される毎に、ボイスメモ一覧画面T29には新たに一行追加されることになる。
図8に示すように、ボイスメモ一覧画面T29は、例えば、音声データ毎に、ステータス情報T30、インデックス情報T31、録音時刻T32、録音時間T33、再生アイコンT34、音声変換テキストT35、校閲アイコンT36、報告者T37、報告場所T38、画像アイコンT39等を対応付けて表示する。尚、これらの表示内容を構成する情報は、ID等を用いて音声データと関連付けて管理装置10のデータベース11に記憶されたものであり、管理装置10から送信されてきたものである。
管理装置10のデータベース11に格納されたステータス情報T30は、上述の通り、ユーザによる確認操作が行われていない音声変換テキストについては「未校閲」となっており、ユーザによる確認操作が行われた音声変換テキストについては「校閲済」となっている。
すなわち、ステータス情報T30は、「未校閲」となっている場合、音声変換テキストの内容が誤っている可能性があることを示唆し、「校閲済」となっている場合、音声変換テキストの内容が正しいものである可能性が高いことを示唆する。
尚、管理装置10の情報校閲部13bは、校閲権限が設定されたユーザであれば、音声入力を行った本人でない第三者であっても、音声変換テキストT35を校閲することを可能とし、ステータス状態変更部13cは、当該場合も、ステータス情報T30の状態を変更する。つまり、第三者であっても、音声データの再生を行って、音声認識結果が正しく音声認識していると判断した場合には、ステータス情報T30の状態を変更することができるようにしている。
インデックス情報T31は、ユーザが音声入力を行った際に選択したインデックスを示す(インデックス情報リストT13において選択されたインデックス情報)。
ここで、端末装置20の情報出力部21bは、インデックス情報T31の一覧を、ユーザの操作等を受けてプルダウン表示し、インデックス情報T31に対する選択操作を受け付けてもよい。そして、情報出力部21bは、当該インデックス情報T31の一が選択された場合、選択されたインデックス情報T31に対応する情報(ステータス情報T30〜画像アイコンT39等)が見易くなるように、ボイスメモ一覧画面T29の表示形態を制御してもよい。例えば、情報出力部21bは、選択されたインデックス情報T31に関連する情報に限定して、又は、選択されたインデックス情報T31に関連する情報が上位に配置されるように並べ替えて、ボイスメモ一覧画面T29の各情報を表示する。
録音時刻T32は、音声入力を行われた際の時刻を示す。録音時間T33は、録音を開始してから録音を終了するまでの音声データの時間を示す。再生アイコンT34は、音声データに対する再生操作をユーザから受け付けるためのアイコンである。
再生アイコンT34がユーザに選択操作された場合、端末装置20Bの情報出力部21bは、管理装置10に対して対応する音声データを要求する。管理装置10(情報提供部13d)は、これに応じて、要求された音声データを端末装置20Bに送信する。そして、端末装置20Bの音声再生部24は、管理装置10から受信した音声データを再生する。
音声変換テキストT35は、音声データに対する音声認識処理により得られたテキストデータであり、未校閲テキスト又は校閲済テキストである。
報告者T37は、音声データを入力したユーザの識別情報である。録音場所T38は、音声入力を行われた際の位置情報(経度緯度の情報)であり、端末装置20に装備されたGPS等によって取得されたものである。画像アイコンT39は、端末装置20に装備されたカメラによって、当該音声データと関連付けて記憶された画像データを閲覧するためのアイコンである。画像アイコンT39がユーザに選択操作された場合、当該画像データが表示される。
校閲アイコンT36は、音声変換テキストT35に対する校閲作業の開始操作をユーザから受け付けるためのアイコンである。校閲アイコンT36がユーザに選択操作された場合、端末装置20Bの情報出力部21bは、図9に示すような、音声変換テキストに対する校閲作業(データ編集)を行うためのボイスメモ校閲画面T40を表示する。
ボイスメモ校閲画面T40は、インデックス編集ボックスT41、テキスト編集ボックスT42、音声再生アイコンT43、校閲終了アイコンT44を含む。
インデックス編集ボックスT41は、インデックス情報を表示して編集操作を受け付けるための入力ボックスである。テキスト編集ボックスT42は、音声変換テキストを表示して編集操作を受け付けるための入力ボックスである。音声再生アイコンT43は、音声データに対する再生操作を受け付けるためのアイコンである。音声再生アイコンT43がユーザに選択操作された場合、端末装置20の情報出力部21bは、管理装置10から音声データを取得して対応する音声データを再生する。
校閲終了アイコンT44は、テキスト編集ボックスT42に表示されている音声変換テキストに対する確定操作を受け付けるためのアイコンである。端末装置20Bの情報出力部21bは、確定操作が行われた場合、その旨を管理装置10へ通知する。この結果、確定操作が行われた音声変換テキストのステータス情報は、「校閲済」となり、かかる音声変換テキストは校閲済テキストとして扱われる。又、インデックス編集ボックスT41あるいはテキスト編集ボックスT42において編集操作が行われた場合、情報出力部21bは、編集後のインデックス情報あるいは音声変換テキストを、併せて管理装置10へ送信する。
例えば、ボイスメモ校閲画面T40において、校閲終了アイコンT44がユーザに選択操作される(ステップS24)。これに応じて、端末装置20は、編集された音声変換テキストを管理装置10に対して送信すると共に、かかる音声変換テキストに対して確認操作が行われたことを通知(ステータス情報の更新要求を送信)する。
キャンセルアイコンT45は、校正をキャンセルするためのアイコンである。キャンセルアイコンT45に対してユーザにより選択操作が行われた場合、端末装置20Aは、校閲編集したテキストを破棄するとともに、ボイスメモ校閲画面T40を終了し、表示状態をホーム画面T10に戻す。
管理装置10の情報校閲部13bは、端末装置20Bからの情報校閲要求に基づいて、データベース11に格納された音声変換テキストを、ユーザが校閲した音声変換テキストの内容に更新する(ステップS25)。又、管理装置10のステータス状態変更部13cは、確認操作が行われたことの通知を受けて、データベース11の対応するステータス情報を、「校閲済」に書き換える。そして、管理装置10は、データベース11に格納された情報のうち、更新された情報を、端末装置20Bに対して送信する。尚、管理装置10は、データベース11に、音声認識部13aが音声認識した結果としての音声変換テキストと、情報校閲部13bが校閲した音声変換テキストとは別個に格納するようにしてもよい。
又、端末装置20B(情報出力部21b)は、更新された情報を管理装置10から受信すると、ボイスメモ一覧画面T29の内容(音声変換テキスト、ステータス情報)を変更する(ステップS26)。
以上のように、本実施形態に係る情報管理システム1は、管理装置10および複数の端末装置20を有する。端末装置20は、音声認識処理が行われた複数の音声データのうち、校閲作業受付処理が完了していない音声データについて未校閲テキストを取得し、校閲作業受付処理が完了した音声データについては校閲済テキストを取得する情報取得部21aを有する。また、端末装置20は、複数の音声データについて、対応する音声変換テキストを一覧表示すると共に、音声変換テキストごとに、未校閲テキスト及び校閲済テキストのいずれであるかを示すステータス情報を表示する画面を生成して出力する情報出力部21bを有する。
すなわち、本実施形態に係る情報管理システム1によれば、音声認識結果(音声変換テキスト)とともにステータス情報を表示する構成としているため、その音声認識結果を閲覧するユーザが、かかる内容の情報信頼度を識別することが可能となる。言い換えると、ユーザは、音声を再生して聞き、音声認識結果を閲覧して、誤りがある場合、その内容を修正するといった、校閲作業を行うことができる。このため、音声認識結果を閲覧するユーザは、ステータス情報の状態が校閲済であるか未校閲であるかによって、その音声認識結果の内容の情報信頼度を識別することができる。
すなわち、本実施形態に係る情報管理システム1は、各音声認識結果に対する校閲作業受付処理を受け付けつつ、当該処理が完了しているか否かによらずに、音声認識により得られた各テキスト情報を、ステータス情報を付した状態で表示させる。したがって、本実施形態に係る情報管理システム1は、有用性の高いボイスメモの内容の文字表示を実現することができる。
<ボイスメモ閲覧動作の他の態様>
以下、図10、図11を参照して、情報管理システム1において、ボイスメモを閲覧する際の動作の他の一例について説明する。図10は、カード型表示画面の一例を示す図である。図10は、インデックス情報を用いた抽出又は並べ替えによって、ボイスメモの閲覧性を向上させたものである。又、図11は、バブル型表示画面の一例を示す図である。
ホーム画面T10(図5)において、カード型表示アイコンT15がユーザに選択操作された場合、端末装置20Aは、図10に示すようなカード型表示画面T50を表示する。図10、図11に示すバブル型表示画面T60を生成する際の管理装置10(情報提供部13d)の動作は、図8に示したボイスメモ一覧画面T29を生成する際の動作と同様である。カード型表示アイコンT15がユーザに選択操作された場合、管理装置10(情報提供部13d)は、当該閲覧要求に応じて、ユーザ識別情報及びグループ識別情報に基づいて、データベース11から対応するデータを抽出し、端末装置20に対して送信する。そして、端末装置20(情報出力部21b)は、当該データに基づいて、情報表示画面を生成して、表示部25に表示させる。
カード型表示画面T50には、第1のフォルダ表示領域T51、第2のフォルダ表示領域T52が含まれる。第1のフォルダ表示領域T51には、共通するインデックス情報によって、データベース11に格納された音声変換テキストのデータを抽出したものが表示される(図10では、「**の報告」のインデックス情報で抽出されたものを示す)。つまり、第1のフォルダ表示領域T51に含まれる音声変換テキストT51a〜T51dは、それぞれ、異なるタイミングで録音された音声データの音声変換テキストであり、録音の際に共通するインデックス情報が選択されたものである。
カード型表示画面T50では、共通するインデックス情報が付与された音声変換テキストT51a〜T51dを、それぞれ、個別の要素として、個別にカード形式にして表示している。このカード型表示画面T50は、図8に示したボイスメモ一覧画面T29を生成する際と同様に、端末装置20Bが、管理装置10からボイスメモ一覧データを受信して、このデータを抽出して、又は並べ替えて表示制御するものとする。かかるカード型表示画面T50は、例えばフリーディスカッションの意見や新しいアイデアをカードに記載して、考えを整理してまとめるのに有用である。
ここで、第1のフォルダ表示領域T51では、ユーザの操作(例えば、縦方向へのスワイプ操作)を受け付け、最前列に表示する音声変換テキストT51a〜T51d(カード)を変更可能となっている。言い換えると、端末装置20(制御部21)は、ユーザの操作に応じて音声変換テキストT51a〜T51d(カード)の最前列を順次入れ替えるように表示制御する。又、端末装置20(制御部21)は、音声変換テキストT51a〜T51d(カード)の一がユーザに選択操作(例えば、ツータップ操作)されると対応する音声データを、管理装置10から取得して再生する。
又、端末装置20(制御部21)は、音声変換テキストT51a〜T51d(カード)の複数がユーザに選択操作された状態で、結合アイコン(図示せず)が選択操作されると、一つのデータに結合することができる。この結合したデータは、結合した音声変換テキストT51a〜T51dを、一のカード領域にまとめて表示するとともに、対応する音声データを連続して再生するように一の音声データに結合する。尚、結合アイコンがユーザに選択操作された場合、管理装置10に対して結合対象の音声変換テキストの識別情報と、結合要求が送信され、管理装置10がデータベース11の音声変換テキスト、及び音声データを結合する処理を行うものとする。
又、端末装置20(制御部21)は、音声変換テキストT51a〜T51d(カード)がユーザに選択操作された状態で、コピーアイコン(図示せず)が選択操作されると、当該内容をテキストデータとしてコピーし、他のアプリケーション等で貼り付けることができる状態とする。
第2のフォルダ表示領域T52に含まれる音声変換テキストT52a〜T52dも同様である。そして、同様に、インデックス情報に基づいて生成されたフォルダ表示領域に係るデータが複数生成され、端末装置20(制御部21)は、ユーザの操作(例えば、横方向へのスワイプ操作)によって、表示部25に表示するフォルダ表示領域の対象を変更するように表示制御する。尚、図10に示すカード型表示画面T50及び図11に示すバブル型表示画面T60には、ステータス情報を表示しないものとしてもよい。
ホーム画面T10(図5)において、カード型表示アイコンT15がユーザに選択操作された場合に、図10の態様に代えて、図11に示すバブル型表示画面T60を表示するものとしてもよい。図11に示すバブル型表示画面T60は、図10のカード型表示画面T50と同様に、インデックス情報によって音声変換テキストが抽出されて表示されたものであって、算出された重要度に応じて当該音声変換テキストの表示状態が変更されたものである。
バブル型表示画面T60(図11)には、音声変換テキストの要素表示領域T61と、音声変換テキストの拡大表示領域T62が含まれる。音声変換テキストの要素表示領域T61は、インデックス情報によって抽出された複数の音声変換テキストを、それぞれ、個別に選択可能な円状のアイコンT61a〜T61dとして表示している。又、音声変換テキストの拡大表示領域T62は、このアイコンT61a〜T61dの音声変換テキストの中からユーザに選択操作された一の音声変換テキストを拡大して表示する。
ここで、音声変換テキストの要素表示領域T61には、共通するインデックス情報が付与された音声変換テキストが表示される。当該音声変換テキストは、それぞれ、例えば音声データが示す音声レベル、文字数、重要キーワードのパラメータに基づいて、重要度が算出され、重要度が大きいほど、対応する円状のアイコンT61a〜T61dの円の半径が大きくなるように表示制御されている。
又、当該音声変換テキストは、含まれる単語が抽出されて、当該音声変換テキスト同士のベクトル空間における距離(近似度合い)が算出される。そして、当該音声変換テキストの距離が遠い(近似していない)ほど、対応する円状のアイコンT61a〜T61d同士の距離が大きくなるように表示制御されている。尚、音声変換テキスト同士のベクトル空間における距離(近似度合い)は、例えば、Word2vec等を用いて算出することができる。
このように、インデックス情報を用いて抽出又は並べ替えて表示制御することによって、共通する内容のボイスメモが関連付けて表示されることになるため、ユーザにとってボイスメモの閲覧性が向上する。又、一部に誤った音声認識がなされた文字を含むボイスメモの文字表示があった場合も、ユーザは、インデックス情報で関連付けられた他のボイスメモの内容を見て、容易にその内容を推測することが可能となる。言い換えると、ユーザは、インデックス情報を用いて、多くのボイスメモを関連付けていくことが可能となり、音声認識の不確さによる扱いにくさを改善することができる。
(その他の実施形態)
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。
情報管理システム1は、例えば、管理装置10のユーザインタフェイスを介して、管理装置10のユーザ(オペレータ)から校閲作業を受け付けたり、図示しない校閲端末装置において校閲作業を受け付けてもよい。
又、本実施形態では、複数の端末装置20A〜20Cは、それぞれ上記の構成のすべてを有するものとしているが、ICレコーダのように表示部25を備えないものや、閲覧用コンピュータのように音声入力部23を備えないもののように、一部の構成のみを有する端末装置であってもよい。
又、上記実施形態では、情報管理システム1を適用する用途の一例として、営業日報に用いる態様を示したが、他の用途にも適用しうるのは勿論である。例えば、災害時に作業にあたる作業員の情報伝達手段等にも勿論有用である。特に、災害時等においては、情報信頼度を確保しつつ、早期に情報共有できることが重要であることから、本実施形態に係る情報管理システムを用いて、音声入力を有用な情報伝達手段とすることができる。他方、個人用のボイスメモとして、音声入力をしたユーザ本人のみが閲覧できるものとしてもよい。尚、個人用のボイスメモとする場合、通信回線Nを介する必要がないため、管理装置10の機能を端末装置20に持たせる構成としてもよい。
又、上記実施形態では、ステータス情報の表示態様の一例として、「校閲済」又は「未校閲」とする表記を示したが、他の表示態様であってもよい。例えば、「未校閲」の音声変換テキストについては、注意マークが付された状態で表示されるものであってもよい。
又、上記実施形態では、ステータス情報を変更する際の一例として、図8に示すボイスメモ一覧画面T29において、校閲ボタンがユーザに選択操作された場合を示した。しかし、ステータス情報を変更する際の態様は、他の態様であってもよく、例えば、音声データを入力した際に生成される音声認識結果の表示画面において校閲可能として、このときの校閲操作に応じてステータス情報を変更するものとしてもよい。
又、上記実施形態では、表示部25に表示させる情報処理画面を生成する制御主体(表示処理装置)の一例として、端末装置20の制御部21(情報取得部21a、情報出力部21b)が行う態様を示した。しかし、Web型のアプリケーションとする場合、情報処理画面を生成する制御主体は、管理装置10側の制御部13であってもよい。
又、上記実施形態では、端末装置20の制御部21は、ユーザからの操作(ボイスメモ一覧画面の選択等)があった場合に、管理装置10に対してデータ要求する構成としたが、データの送受信のタイミングも種々変更可能である。例えば、端末装置20上で、アプリケーションを立ち上げた際に、一括して、データを取得して、その後は、定期的にポーリングを行って更新情報を取得するものとしてもよい。
又、上記実施形態では、管理装置10の一例として、一のサーバ装置によって構成される態様を示した。しかし、管理装置10の制御部13の機能(音声認識部13a、情報校閲部13b、ステータス状態変更部13c、情報提供部13d)や、データベース11の記憶領域を複数のサーバ装置に分散させて構成してもよい。又、管理装置10は、サーバ装置でなく、端末装置20の一であってもよい。すなわち、管理装置10の一部又は全部と、端末装置20の構成の一部又は全部とは、一体的に構成されていてもよく、本発明に係る表示処理装置は、端末装置20として捉えることもできるし、管理装置10として捉えることもできるし、これら全体として捉えることもできる。
例えば、本発明に係る情報取得部は、端末装置20の情報取得部21aとして捉えることもできるし、管理装置10の音声認識部13a及び情報校閲部13bとして捉えることもできるし、これら全体として捉えることもできる。
又、本発明に係る情報出力部は、端末装置20の情報出力部21bとして捉えることもできるし、管理装置10のステータス状態変更部13c及び情報提供部13dとして捉えることもできるし、これら全体と捉えることもできる。
又、本発明に係る情報校閲部は、管理装置10の情報校閲部13bとして捉えることもできるし、端末装置20の情報出力部21bとして捉えることもできるし、これら全体として捉えることもできる。
又、本発明に係る情報提供部は、管理装置10の情報提供部13dとして捉えることもできるし、端末装置20の情報出力部21bとして捉えることもできるし、これら全体として捉えることもできる。
<本開示のまとめ>
本開示の表示処理装置は、音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する情報取得部と、前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する情報出力部と、を有する。
尚、上記表示処理装置において、前記校閲作業受付処理は、前記音声データに対する再生操作を受け付ける処理、前記音声認識結果に対する編集操作を受け付ける処理、及び前記音声認識結果又は前記音声認識結果に対して前記編集操作が行われた結果に対する確定操作を受け付ける処理を含み、前記情報出力部は、前記確定操作が行われた前記音声データを、前記校閲作業受付処理が完了した前記音声データと判定してもよい。
又、上記表示処理装置は、前記音声変換テキストごとに、前記再生操作、前記編集操作、及び、前記確定操作を個別に受け付ける前記校閲作業受付処理を行う情報校閲部、を含んでもよい。
又、上記表示処理装置において、前記情報表示画面は、前記複数の音声データについて、前記音声変換テキストを、対応する発話を行ったユーザの識別情報及び当該発話の時刻情報を併記して、時系列に並べて表示してもよい。
又、上記表示処理装置において、前記情報出力部は、前記情報表示画面を閲覧するユーザを判定し、判定されたユーザに対して設定された閲覧権限に応じて、前記情報表示画面の内容を制御してもよい。
又、上記表示処理装置において、前記情報取得部は、前記音声変換テキストのそれぞれに対して前記音声変換テキストの種別を示すインデックス情報が対応付けられているとき、前記情報表示画面において前記インデックス情報に対する選択操作を受け付け、選択された前記インデックス情報に対応する前記音声変換テキストが見易くなるように前記情報表示画面の表示形態を制御してもよい。
又、上記表示処理装置において、前記インデックス情報は、音声を入力してそれぞれ前記音声データを生成する音声入力装置において、前記音声データと対応付けて任意に生成及び/又は選択することが可能な情報であり、前記音声データに対応する前記インデックス情報を複数の前記音声入力装置から取得すると共に、過去に取得されたインデックス情報を、前記複数の音声入力装置のそれぞれにおいて、音声データに対応付けられるインデックス情報の選択肢として提示する情報提供部、を含んでいてもよい。
本開示の表示処理プログラムは、コンピュータに、音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する処理と、前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する処理と、を実行させる。
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。