JP6596373B2

JP6596373B2 - 表示処理装置及び表示処理プログラム

Info

Publication number: JP6596373B2
Application number: JP2016059717A
Authority: JP
Inventors: 隆金子; 優鎌田; 雄一大坪; 可鈴渡部
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2019-10-23
Anticipated expiration: 2036-03-24
Also published as: JP2017174172A; JP6596373B6

Description

本開示は、音声認識処理により得られた情報を表示する表示処理装置及び表示処理プログラムに関する。

近年の、ボイスレコーダやスマートフォンの普及に伴い、音声メモを手軽に録音できる環境が整いつつある。音声メモは、ボイスメモとも言うが、思いついたことを忘れないように記録を取っておく備忘録としても有効である。例えば、ボイスメモは、仕事を行う際でも、作業記録や営業日報、介護看護記録、災害情報記録、検査記録等、幅広い用途で利用できる。

一方で、近年の情報処理技術及び音声認識技術の進展により、種々の分野において音声による情報入力（以下「音声入力」という）の活用が進んでいる。例えば、特許文献１には、マイクロホンで入力した音声の音声データに対して音声認識処理を行い、当該音声認識処理の結果（テキストデータ）をボイスメモとして閲覧可能にする技術が開示されている。

このような音声入力は、手が塞がっている場合にも情報入力を素早く手軽に行うことができるが、音声認識では、音声入力時の音環境や発話の仕方等に起因して、誤った情報、つまり、実際の発話と異なる文字に誤変換されて入力される場合もある。このため、単純に音声認識結果の文字列を表示すると、正しい情報の中に誤った情報が一部混在してしまい、どれが誤りかもわからないため、全体の信頼性が低下するという問題点があった。

そこで、音声再生等により発話内容と音声認識結果とを照合する確認作業や、確認作業の結果に応じて音声認識結果を編集（修正）する編集作業を完了した後で、文字列を表示させることが考えられる。これにより、正しい情報のみから成るボイスメモの文字列情報を表示させることができる。

特開２００１−２２８８９７号公報

しかしながら、このような確認作業及び必要に応じた編集作業（以下「校閲作業」という）を行う場合、たとえ殆どの入力情報が正しい情報であったとしても、閲覧可能になるまでには時間が掛かる。又、たとえ内容が不正確である可能性があったとしても、できるだけ早急に閲覧されるべき情報も存在し得る。したがって、校閲作業を行った場合、表示される有用性をかえって損ねるおそれがある。

詳述すると、マイクに向かって正確に発話すれば、音声認識の変換精度は、一般的に、９０％程度である。すなわち、１０％程度は変換された文字に誤りがあることになる。しかし、１０％の誤りの文字が含まれた文章でも、およその意味は分かることが多い。かかる１０％の誤りを修正するために、表示を遅らせるよりも、早く表示させるほうが重要である。特に緊急を要するような災害情報や救急搬送に関する情報の音声の場合は、即時性が非常に重要である。

本開示の目的は、音声認識技術を用いてボイスメモの内容を文字で表示することができる表示処理装置及び表示処理プログラムを提供することである。

本開示の一態様に係る表示処理装置は、音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する情報取得部と、前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する情報出力部と、を有する。

本開示によれば、有用性の高いボイスメモの内容表示を実現することができる。

実施形態に係る情報管理システムの全体構成の一例を示す図実施形態に係る管理装置及び端末装置の機能構成の一例を示す図実施形態に係る管理装置の動作の概略の一例を示す図実施形態に係るボイスメモ生成時の動作フローの一例を示す図実施形態に係るボイスメモアプリケーションのホーム画面の一例を示す図実施形態に係る音声入力画面の一例を示す図実施形態に係るボイスメモ閲覧時の動作フローの一例を示す図実施形態に係るボイスメモ一覧画面の一例を示す図実施形態に係るボイスメモの校閲画面の一例を示す図実施形態に係るカード型表示画面の一例を示す図実施形態に係るバブル型表示画面の一例を示す図

以下、本開示の一実施の形態について、図面を参照して詳細に説明する。

＜システム構成＞
まず、本実施形態に係る表示処理装置を含む情報管理システムの構成について説明する。

図１は、情報管理システムの全体構成の一例を示す図である。

図１に示すように、情報管理システム１は、管理装置１０及び端末装置２０Ａ〜２０Ｃを含む。情報管理システム１は、例えば、企業内における営業日報の生成に用いられるものであり、営業報告の入力を音声で受け付け、入力された多数の営業報告を時系列で一覧表示するシステムである。

通信回線Ｎは、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット回線等の通信ネットワークである。

端末装置２０Ａ〜２０Ｃは、スマートフォンやパーソナルコンピュータ等の電子機器であり、ユーザが情報の音声入力を行ったり、管理装置１０から提供される情報を閲覧するために用いられる。ここでは、端末装置２０Ａ〜２０Ｃは同様の構成を有するものとして、端末装置２０Ａ〜２０Ｃの間で区別しない場合、単に端末装置２０と言う。

管理装置１０は、通信回線Ｎを介して、端末装置２０Ａ〜２０Ｃのそれぞれとデータ通信を行い、各端末装置２０から情報を収集して収集された情報を管理して各端末装置２０へ提供するサーバ装置である。

より具体的には、管理装置１０は、端末装置２０Ａ〜２０Ｃのそれぞれで入力された音声の音声データを取得し、取得された各音声データに対して音声認識処理を行う。そして、管理装置１０は、得られた多数の音声認識結果（以下、適宜「ボイスメモ」と言う）を表示する情報表示画面（以下「ボイスメモ一覧画面」という）を生成するための表示データ（以下「ボイスメモ一覧データ」という）を生成し、端末装置２０Ａ〜２０Ｃのそれぞれへ送信する。すなわち、情報管理システム１は、例えば、端末装置２０Ａを携行するユーザＡのボイスメモを、他の端末装置２０Ｂを携行するユーザＢが閲覧することを可能にする（図８を参照して後述）。

ところが、上述の通り、音声認識を用いてボイスメモの内容を文字表示する場合、音声認識が誤変換した文字を含むおそれがある。

そこで、管理装置１０は、各音声認識結果に対する校閲作業受付処理を受け付けつつ、当該処理が完了しているか否かによらずに、音声認識により得られた各テキスト情報を、ステータス情報を付した状態で表示させる。

ここで、校閲作業受付処理とは、音声認識結果に対する校閲作業を受け付ける処理であり、例えば、再生操作処理、編集操作処理、及び確定操作処理を含む。再生操作処理は、音声データに対する再生操作を受け付ける処理である。編集操作処理は、音声認識結果に対する編集操作を受け付ける処理である。確定操作処理は、音声認識結果、又は、音声認識結果に対して編集操作が行われた結果に対する確定操作を受け付ける処理である。又、ステータス情報とは、音声認識結果に対する校閲作業受付処理が完了したか否かを示す情報である。

これにより、例えば、ユーザＢは、各テキスト情報に対する校閲作業が完了するのを待つことなくボイスメモ一覧画面を速やかに閲覧し、かつ、ステータス情報に基づいて各テキスト情報の情報信頼度を識別することができる。すなわち、情報管理システム１は、有用性の高いボイスメモの内容の文字表示を実現することができる。

＜装置構成＞
次に、端末装置２０と管理装置１０の構成について説明する。

尚、以下の説明において、上述の確定操作が行われたテキスト情報は、「校閲済テキスト」といい、校閲済テキストが存在する音声データは、「校閲作業受付処理が完了した音声データ」という。又、上述の確定操作が行われていないテキスト情報は、「未校閲テキスト」といい、校閲済テキストが存在しない音声データは、「校閲作業受付処理が完了していない音声データ」という。そして、未校閲テキスト及び校閲済テキストは、適宜、「音声変換テキスト」と総称する。

又、各端末装置２０のユーザは、当該端末装置２０を使用して音声入力を行う報告者となることができると共に、自己あるいは他のユーザが入力した音声の音声認識結果に対して校閲作業を行う校閲者となることができるものとする。

図２は、管理装置１０及び端末装置２０の機能構成の一例を示す図である。まず、端末装置２０の構成について説明する。

端末装置２０は、制御部２１、記憶部２２、音声入力部２３、音声再生部２４、表示部２５、操作部２６、通信ＩＦ部２７を備えている。

制御部２１は、端末装置２０の各部を統括制御するもので、ＣＰＵ（Central Processing Unit）がコンピュータプログラムを実行することで実現される。制御部２１は、例えば、後述の記憶部２２に格納されたクライアントアプリケーションプログラムを実行することにより、管理装置１０と協働する。

制御部２１は、情報取得部２１ａ及び情報出力部２１ｂを有する。情報取得部２１ａは、所定の記憶領域（ここでは、管理装置１０のデータベース１１、又は、記憶部２２）からデータを取得する。かかるデータには、上述のボイスメモ一覧データが含まれる。情報出力部２１ｂは、当該データに基づいてボイスメモ一覧画面を含む各種画面を生成して、表示部２５に表示させる。ボイスメモ一覧画面の詳細については、後述する。

記憶部２２は、コンピュータプログラム、音声データ、アプリケーションに用いられる画像フォーマットデータ、演算処理の中間データ等を記憶するものである。記憶部２２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、及びレジスタ等を含む。

音声入力部２３は、例えばマイクロホンを含み、当該マイクロホンに入力された音声をＡＤ変換し、音声波形を示す音声データを生成する。音声入力部２３が生成した音声データは、例えば、ＭＰ３形式で記憶部２２に記憶される。

音声再生部２４は、スピーカ等で構成され、音声データをＤＡ変換して、音声を再生する。

表示部２５は、音声認識の結果を表示したり、音声データ一覧を表示したりするもので、例えば、液晶ディスプレイを含む。

操作部２６は、ユーザが端末装置２０に対して操作入力を行うためのユーザインタフェイスであり、例えば、表示部２５と一体となったタッチパネル等を含む。

通信ＩＦ部２７は、通信回線Ｎを介して管理装置１０等の外部機器とデータの送受信を行うための通信インタフェイスであり、通信コントローラを含む。通信ＩＦ部２７は、例えば、管理装置１０の通信ＩＦ部１２との間のデータ通信に、ＨＴＴＰを使用する。

このような構成により、端末装置２０は、入力された音声を音声データに変換して管理装置１０へ送信すると共に、管理装置１０から受信したボイスメモ一覧データに基づいてボイスメモ一覧画面を生成して表示することができる。

次いで、管理装置１０の構成について説明する。

管理装置１０は、データベース１１、通信ＩＦ部１２、制御部１３（音声認識部１３ａ、情報校閲部１３ｂ、ステータス状態変更部１３ｃ、情報提供部１３ｄ）を含む。

データベース１１は、ＲＡＭ、ＲＯＭ、レジスタ、磁気ディスク等で構成されたメモリであり、複数の端末装置２０Ａ〜２０Ｃから取得した複数の音声データを記憶する。データベース１１は、例えば、入力された音声データを、音声データ毎にユニークに割り当てられたＩＤによって各別に管理する。

又、データベース１１は、各音声データに関連付けて、当該音声データと共に端末装置２０から受信した各種付随情報を記憶する。かかる付随情報は、端末装置２０で音声データを生成した際に関連付けて生成あるいは取得されたものであり、例えば、ユーザ識別情報、グループ識別情報、時刻情報、録音場所情報、及び画像データを含む。

ユーザ識別情報は、音声データの基となる音声を入力したユーザ（つまり端末装置２０のユーザ）の識別情報である。グループ識別情報は、上記ユーザが属するグループの識別情報であり、音声データに基づく情報（音声変換テキスト）の閲覧を、当該グループ識別情報が示すグループに属するユーザに制限するための情報である。時刻情報は、音声入力（発話）が行われた時刻を示す情報である。録音場所情報は、音声入力が行われた場所を示す情報である。画像データは、音声入力に関連付けて、端末装置２０により（あるいは、その周辺で他の装置により）撮影された画像のデータである。

又、データベース１１は、音声データごとに、当該音声データに基づいて管理装置１０により生成あるいは取得された各種情報を記憶する。かかる情報は、例えば、音声変換テキスト、ステータス情報、及びインデックス情報を含む。

音声変換テキストは、上述の通り、音声データに対する音声認識処理に基づいて得られたテキストデータであり、未校閲テキスト及び校閲済テキストを含む。ステータス情報は、上述の通り、音声データに対応する音声変換テキストが、未校閲テキスト及び校閲済テキストのいずれに該当するかを示す情報である。インデックス情報は、音声データの入力内容の種別を示す情報（見出し）であり、複数の音声データ（複数の音声変換テキスト同士）を関連付けるための情報である。

通信ＩＦ部１２は、通信回線Ｎを介して端末装置１０等の外部機器とデータの送受信を行うための通信インタフェイスであり、例えば、通信コントローラ等を含む。

制御部１３は、図示しないメモリに格納されたプログラムをＣＰＵが実行することによって実現される制御機能である。ここでは、制御部１３は、音声認識部１３ａ、情報校閲部１３ｂ、ステータス状態変更部１３ｃ、情報提供部１３ｄを有する。

音声認識部１３ａは、通信ＩＦ部１２を介して端末装置２０から送られてきた音声データ及び付随情報を受信する。そして、音声認識部１３ａは、受信された音声データに対し音声認識処理を行って音声変換テキストを生成するとともに、未校閲テキストである旨を示す初期状態のステータス情報を生成する。そして、音声認識部１３ａは、音声データ及び付随情報と、当該音声データに基づいて生成された音声変換テキスト及び初期状態のステータス情報とを、データベース１１に格納する。

情報校閲部１３ｂは、音声変換テキストに対する校閲作業受付処理を行う。情報校閲部１３ｂは、例えば、管理装置１０に備えられたタッチパネル付き液晶ディスプレイ等のユーザインタフェイス（図示せず）を介して、管理装置１０のユーザから校閲作業を受け付ける。あるいは、情報校閲部１３ｂは、例えば、通信による遠隔での校閲作業を、端末装置２０等の他の装置のユーザから受け付ける。そして、情報校閲部１３ｂは、編集作業が行われた場合、データベース１１に格納された音声変換テキストを、当該編集作業後の内容に更新する。

情報校閲部１３ｂは、例えば、後述の情報提供部１３ｄが端末装置２０に表示させるボイスメモ一覧画面を用いて、当該端末装置２０のユーザから校閲作業を受け付ける。

ステータス状態変更部１３ｃは、情報校閲部１３ｂによって音声変換テキストに対する校閲作業受付処理が完了した場合、データベース１１に格納された対応するステータス情報を、未校閲であることを示す状態から、校閲済みであることを示す状態へと書き換える。

情報提供部１３ｄは、端末装置２０からの、音声変換テキストの閲覧要求や音声データの再生要求に応じて、データベース１１から対応するデータを取得し、ボイスメモ一覧データを生成する。そして、情報提供部１３ｄは、生成されたボイスメモ一覧データを、通信ＩＦ部１２を介して端末装置２０へ送信（提供）する。

但し、このとき、情報提供部１３ｄは、各音声変換テキストに当該音声変換テキストのステータス情報を対応付けて表示する内容のボイスメモ一覧データを生成する。

このような構成により、管理装置１０は、端末装置２０から送られてきた音声データに対して音声認識処理及び校閲作業受付処理を行うとともに、各音声変換テキストにステータス情報を付与したボイスメモ一覧画面の表示データ（ボイスメモ一覧データ）を端末装置２０へ送信することができる。

尚、管理装置１０から端末装置２０へと送信される各種表示データは、表示される情報の内容のみを定義するものであってもよいし、画面における各情報の表示の仕方（どの情報をどのように表示するか）を更に定義するものであってもよい。すなわち、端末装置２０におけるボイスメモ一覧画面等の表示画面の構成は、端末装置２０が決定してもよいし、管理装置１０が決定してもよい。

＜システム及び装置の動作＞
以下、情報管理システム１及び各装置の動作、並びに、各種表示画面の例について説明する。

図３は、管理装置１０の動作の概略を表している。

管理装置１０は、複数のユーザの端末装置２０Ａ〜２０Ｃのそれぞれから、処理要求を待ち受ける（ステップＳ１：ＮＯ）。そして、管理装置１０は、端末装置２０から処理要求があった場合（ステップＳ１：ＹＥＳ）、例えばヘッダーに付された要求識別に応じて、音声認識部１３ａによる処理（ステップＳ２）、情報校閲部１３ｂによる処理（ステップＳ３）、情報提供部１３ｄによる処理（ステップＳ４）に条件分岐する。

音声認識部１３ａによる処理（Ｓ２）とは、端末装置２０から受信した音声データに対する音声認識処理であり、後述の図４のステップＳ１４に対応している。情報校閲部１３ｂによる処理（Ｓ３）とは、音声変換テキストに対する校閲作業受付処理であり、後述の図７のステップＳ２５に対応している。情報提供部１３ｄによる処理（Ｓ４）とは、ボイスメモ一覧データを含む各種表示データを端末装置２０へ送信する処理であり、後述の図４のステップＳ１５及び図７のステップＳ２２に対応している。

以下、ボイスメモ生成動作とボイスメモ閲覧動作とに大きく分けて、各装置の動作について詳細に説明する。ここで、ボイスメモ生成動作とは、音声認識処理によりボイスメモを生成する動作であり、音声認識部１３ａによる処理（Ｓ２）及び情報提供部１３ｄによる処理（Ｓ４）に関連する動作である。又、ボイスメモ閲覧動作とは、生成されたボイスメモに対して校閲作業を受け付ける動作であり、情報校閲部１３ｂによる処理（Ｓ３）及び情報提供部１３ｄによる処理（Ｓ４）に関連する動作である。

尚、以下の説明において、端末装置２０Ａと端末装置２０Ｂとは、グループ識別情報で関連付けられており、互いのボイスメモを閲覧及び校閲可能となっているものとする。

＜ボイスメモ生成動作＞
まず、図４〜図６を参照して、ボイスメモを生成する際の情報管理システム１及び各装置の動作の一例について説明する。

尚、端末装置２０Ａは、以下に説明するホーム画面Ｔ１０（図５）及び音声入力画面Ｔ２０（図６）を生成して表示するのに必要な情報（例えば、データベース１１に格納されたインデックス情報を含む）を、予め、管理装置１０の情報提供部１３ｄから取得している。

図４は、ボイスメモ生成時の動作フローの一例を示す図である。図５は、ボイスメモアプリケーションのホーム画面の一例を示す図である。図６は、音声入力画面の一例を示す図である。

まず、ユーザによるアプリケーション起動操作を受けて、端末装置２０Ａは、図５に示すようなアプリケーションのホーム画面Ｔ１０を生成して表示し、ユーザによりメニューの選択操作が行われるのを待ち受ける（ステップＳ１１）。

ホーム画面Ｔ１０は、新規録音アイコンＴ１１、追加録音アイコンＴ１２、インデックス情報選択リストＴ１３、一覧表示アイコンＴ１４、カード型表示アイコンＴ１５を含む。

新規録音アイコンＴ１１及び追加録音アイコンＴ１２は、ユーザが録音の開始を操作するためのアイコンである。インデックス情報選択リストＴ１３は、追加録音の際にユーザがインデックス情報を選択操作するためのチェックボックスである。一覧表示アイコンＴ１４は、ボイスメモの一覧を閲覧するためのアイコンである。カード型表示アイコンＴ１５は、インデックス情報に基づいて、ボイスメモの一部を抽出して、又は並べ替えて閲覧するためのアイコンである。

尚、アイコン及びチェックボックスは、操作部２６の一態様である。端末装置２０Ａは、いずれかのアイコンに対してユーザによる選択操作が行われた場合、当該アイコンに関連付けられた処理を実行する。又、端末装置２０Ａは、いずれかのチェックボックスに対してユーザによる選択操作が行われた場合、当該チェックボックスで選択された項目を示すデータを、一時的に記憶部２２に保持する。

端末装置２０Ａは、ホーム画面Ｔ１０において、新規録音アイコンＴ１１及び追加録音アイコンＴ１２に対してユーザにより選択操作が行われた場合、図６に示す音声入力画面Ｔ２０を表示して、録音を開始する。

端末装置２０Ａは、新規録音アイコンＴ１１が選択された場合、当該音声データを、管理装置１０へ送信する。かかる音声データは、管理装置１０のデータベース１１に記憶される。

又、端末装置２０Ａは、追加録音アイコンＴ１２が選択された場合、当該音声データを、インデックス情報選択リストＴ１３で選択されたインデックス情報（図中では、「＊＊の報告」のインデックス情報が選択された状態を示す）に対応付けて、管理装置１０へ送信する。かかる音声データは、管理装置１０において、選択されたインデックス情報が付与された状態でデータベース１１に記憶される。

尚、インデックス情報は、後述の通り、端末装置２０Ａにおいて、音声データと対応付けて任意に生成及び／又は選択することが可能な、音声データの入力内容の見出しであり、録音した音声データ同士を関連付けるために用いられる情報である。新規録音アイコンＴ１１を選択して録音する音声データに対してインデックス情報を付与する場合には、例えば、新規録音アイコンＴ１１を選択した直後に、「見出し、○○○、内容、△△△」と音声入力する。そうすることで、管理装置１０は、音声認識処理によって、インデックス情報と入力内容とを識別して、入力内容「△△△」に対して、インデックス情報として「○○○」を付与する。

尚、端末装置２０Ａは、管理装置１０のデータベース１１に格納されたインデックス情報に基づいて、インデックス情報選択リストＴ１３を表示する。すなわち、表示の対象となるインデックス情報は、例えば情報提供部１３ｄによって、複数の端末装置２０から収集（取得）される。そして、過去に取得されたインデックス情報は、例えば、情報提供部１３ｄにより、複数の端末装置２０のそれぞれに対して、音声データに対応付けられるインデックス情報の選択肢として送信される。これにより、各端末装置２０のユーザは、過去に記録された音声データ（他のユーザによるものを含む）に設定されたインデックス情報を、簡単に再利用することが可能となる。

一方、ホーム画面Ｔ１０において、一覧表示アイコンＴ１４に対してユーザによる選択操作が行われた場合、端末装置２０Ａは、図８に示すボイスメモ一覧画面Ｔ２９を表示する（後述）。又、ホーム画面Ｔ１０において、カード型表示アイコンＴ１５に対してユーザによる選択操作が行われた場合、端末装置２０Ａは、図１０に示すカード型表示画面Ｔ５０を表示する（後述）。

例えば、ホーム画面Ｔ１０において、録音メニュー（新規録音アイコンＴ１１及び追加録音アイコンＴ１２）に対してユーザにより選択操作が行われたものとする。端末装置２０Ａは、これに応じて、図６に示す音声入力画面Ｔ２０を表示して、録音を開始する（ステップＳ１２）。

音声入力画面Ｔ２０（図６）において、ユーザにより音声入力が行われると、端末装置２０Ａは、音声データを生成する。そして、端末装置２０Ａは、順次、当該音声データを音声認識要求とともに管理装置１０に送信する（ステップＳ１３）。

音声入力画面Ｔ２０（図６）は、例えば、インデックス情報表示Ｔ２１、音声認識結果表示Ｔ２２、一時停止アイコンＴ２３、録音終了アイコンＴ２４、キャンセルアイコンＴ２５を含む。

インデックス情報表示Ｔ２１は、上記録音を開始する際に、インデックス情報選択リストＴ１３で選択されたインデックス情報をテキスト表示する表示領域である。音声認識結果表示Ｔ２２は、管理装置１０から送信される音声認識結果（音声変換テキスト）を表示する表示領域である。一時停止アイコンＴ２３は、録音を一時停止するためのアイコンである。録音終了アイコンＴ２４は、録音を終了するためのアイコンであり、このアイコンがユーザに選択操作された場合、録音を終了し、表示状態をホーム画面Ｔ１０に戻す。

キャンセルアイコンＴ２５は、録音をキャンセルするためのアイコンである。キャンセルアイコンＴ２５に対してユーザにより選択操作が行われた場合、端末装置２０Ａは、生成した音声データを破棄するとともに、録音を終了し、表示状態をホーム画面Ｔ１０に戻す。

管理装置１０は、端末装置２０Ａから受信した音声データに対して音声認識処理を行い、音声認識結果を出力する（ステップＳ１４）。

このとき、管理装置１０の音声認識部１３ａは、例えば、音声データに対してフレーム化処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、音声特徴量を抽出する。そして、管理装置１０の音声認識部１３ａは、各フレームにおける音声特徴量の時系列データ、音響モデル、辞書、及び言語モデルに基づいて、音声パターンを認識して、音声認識結果を出力する。

尚、かかる音響モデル、辞書、及び言語モデルは、管理装置１０のメモリ（図示せず）に予め記憶されている。音響モデルは、音声の特徴量と発音記号との確率的な対応付けをデータ化したものである。又、辞書は、単語の表記と読みを記述したものである。又、言語モデルは、辞書に記述された単語のそれぞれについて、大量のテキストデータから計算した出現確率や他の単語との接続確率をデータ化したものである。

そして、管理装置１０は、音声認識結果に対応する音声変換テキストを生成し、当該音声変換テキストを端末装置２０Ａに送信する（ステップＳ１５）。

このとき、管理装置１０は、ステータス情報（例えば、フラグ）を生成して、受信した一連の音声データ及び生成した音声変換テキストとともに、ＩＤ等によりこれらの情報と関連付けてデータベース１１に格納する。又、管理装置１０は、当該音声データと関連付けて、ユーザ識別情報、インデックス情報、当該音声変換テキストの閲覧権限、及び当該音声変換テキストの校閲権限を、データベース１１に格納する。閲覧権限とは、音声変換テキストを閲覧することを許可されたユーザを示す情報であり、例えば、グループ識別情報である。又、校閲権限とは、音声変換テキストを校閲することを許可されたユーザを示す情報であり、例えば、特定のユーザ識別情報である。ユーザ識別情報、インデックス情報等は、端末装置２０から受信した音声データに付されている。

管理装置１０は、各音声変換テキストに関連付けられた閲覧権限に基づいて、当該音声変換テキストの表示を制限し、音声変換テキストに関連付けられた校閲権限に基づいて、当該音声変換テキストに対する校閲作業を制限する。

ここで、音声変換テキストを閲覧可能とする閲覧権限は、インデックス情報ごとに設定可能とされるのが望ましい。これにより、ユーザは、音声入力するデータ内容に応じて、閲覧可能とするユーザを設定することができる。又、閲覧権限と校閲権限とは、別個に設定するのが望ましい。これにより、特定の信頼できるユーザのみが校閲可能な状態にでき、ボイスメモの情報信頼度を向上させることが可能となる。

端末装置２０Ａは、管理装置１０から受信した音声変換テキストを、音声入力画面Ｔ２０の音声認識結果表示Ｔ２２（図６）に表示する（ステップＳ１６）。端末装置２０Ａは、音声データを送信するとともに、管理装置１０から送信される音声変換テキストのデータを待ち受け、受信したデータに基づき、音声認識結果表示Ｔ２２を更新するように表示制御する。

＜ボイスメモ閲覧動作＞
以下、図７〜図９を参照して、ボイスメモ（音声変換テキスト）を閲覧する際の情報管理システム１及び各装置の動作の一例について説明する。

図７は、ボイスメモ閲覧時の動作フローの一例を示す図である。図８は、ボイスメモ一覧画面の一例を示す図である。図９は、ボイスメモの校閲画面の一例を示す図である。尚、ここでは、端末装置２０Ａで音声入力されたボイスメモを、端末装置２０Ｂが閲覧する態様を表している。

図５のホーム画面Ｔ１０上で、一覧表示アイコンＴ１４がユーザに選択操作された場合、端末装置２０Ｂは、管理装置１０に対してボイスメモ一覧データを要求する（ステップＳ２１）。

管理装置１０は、これに応じて、ボイスメモ一覧データを送信する（ステップＳ２２）。この際、管理装置１０は、端末装置２０Ｂのユーザ識別情報及びグループ識別情報に基づいて、データベース１１から対応するデータを抽出して送信する。抽出されるデータは、図８に示すステータス情報Ｔ３０、インデックス情報Ｔ３１、録音時刻Ｔ３２、録音時間Ｔ３３、音声変換テキストＴ３５、報告者Ｔ３７、報告場所Ｔ３８等の、ボイスメモ一覧画面Ｔ２９の表示内容を生成するためのデータである。

尚、管理装置１０は、テキスト表示の対象となる音声データのうち、校閲作業受付処理が完了していない音声データについては未校閲テキストを、校閲作業受付処理が完了した音声データについては校閲済テキストを、少なくともボイスメモ一覧データに含める。又、管理装置１０は、これらの音声変換テキストのそれぞれのステータス情報を、かかるボイスメモ一覧データに少なくとも含める。

端末装置２０Ｂ（情報取得部２１ａ、情報出力部２１ｂ）は、管理装置１０から受信したボイスメモ一覧データを記憶部２２に格納し、図８に示すようなボイスメモ一覧画面Ｔ２９を生成して表示する（ステップＳ２３）。すなわち、端末装置２０Ｂは、情報取得部２１ａにおいて、複数の音声データについての音声変換テキスト及び各音声変換テキストのステータス情報を取得する。そして端末装置２０Ｂは、情報出力部２１ｂにおいて、音声変換テキストを、対応するステータス情報の内容（つまり未校閲テキスト及び校閲済テキストのいずれであるか）を識別することが可能な状態で当該一覧表示する。

ボイスメモ一覧画面Ｔ２９には、行ごとに、一の音声データに関連付けられた各種情報が表示される態様となっている。つまり、音声データに対応する音声変換テキストが生成される毎に、ボイスメモ一覧画面Ｔ２９には新たに一行追加されることになる。

図８に示すように、ボイスメモ一覧画面Ｔ２９は、例えば、音声データ毎に、ステータス情報Ｔ３０、インデックス情報Ｔ３１、録音時刻Ｔ３２、録音時間Ｔ３３、再生アイコンＴ３４、音声変換テキストＴ３５、校閲アイコンＴ３６、報告者Ｔ３７、報告場所Ｔ３８、画像アイコンＴ３９等を対応付けて表示する。尚、これらの表示内容を構成する情報は、ＩＤ等を用いて音声データと関連付けて管理装置１０のデータベース１１に記憶されたものであり、管理装置１０から送信されてきたものである。

管理装置１０のデータベース１１に格納されたステータス情報Ｔ３０は、上述の通り、ユーザによる確認操作が行われていない音声変換テキストについては「未校閲」となっており、ユーザによる確認操作が行われた音声変換テキストについては「校閲済」となっている。

すなわち、ステータス情報Ｔ３０は、「未校閲」となっている場合、音声変換テキストの内容が誤っている可能性があることを示唆し、「校閲済」となっている場合、音声変換テキストの内容が正しいものである可能性が高いことを示唆する。

尚、管理装置１０の情報校閲部１３ｂは、校閲権限が設定されたユーザであれば、音声入力を行った本人でない第三者であっても、音声変換テキストＴ３５を校閲することを可能とし、ステータス状態変更部１３ｃは、当該場合も、ステータス情報Ｔ３０の状態を変更する。つまり、第三者であっても、音声データの再生を行って、音声認識結果が正しく音声認識していると判断した場合には、ステータス情報Ｔ３０の状態を変更することができるようにしている。

インデックス情報Ｔ３１は、ユーザが音声入力を行った際に選択したインデックスを示す（インデックス情報リストＴ１３において選択されたインデックス情報）。

ここで、端末装置２０の情報出力部２１ｂは、インデックス情報Ｔ３１の一覧を、ユーザの操作等を受けてプルダウン表示し、インデックス情報Ｔ３１に対する選択操作を受け付けてもよい。そして、情報出力部２１ｂは、当該インデックス情報Ｔ３１の一が選択された場合、選択されたインデックス情報Ｔ３１に対応する情報（ステータス情報Ｔ３０〜画像アイコンＴ３９等）が見易くなるように、ボイスメモ一覧画面Ｔ２９の表示形態を制御してもよい。例えば、情報出力部２１ｂは、選択されたインデックス情報Ｔ３１に関連する情報に限定して、又は、選択されたインデックス情報Ｔ３１に関連する情報が上位に配置されるように並べ替えて、ボイスメモ一覧画面Ｔ２９の各情報を表示する。

録音時刻Ｔ３２は、音声入力を行われた際の時刻を示す。録音時間Ｔ３３は、録音を開始してから録音を終了するまでの音声データの時間を示す。再生アイコンＴ３４は、音声データに対する再生操作をユーザから受け付けるためのアイコンである。

再生アイコンＴ３４がユーザに選択操作された場合、端末装置２０Ｂの情報出力部２１ｂは、管理装置１０に対して対応する音声データを要求する。管理装置１０（情報提供部１３ｄ）は、これに応じて、要求された音声データを端末装置２０Ｂに送信する。そして、端末装置２０Ｂの音声再生部２４は、管理装置１０から受信した音声データを再生する。

音声変換テキストＴ３５は、音声データに対する音声認識処理により得られたテキストデータであり、未校閲テキスト又は校閲済テキストである。

報告者Ｔ３７は、音声データを入力したユーザの識別情報である。録音場所Ｔ３８は、音声入力を行われた際の位置情報（経度緯度の情報）であり、端末装置２０に装備されたＧＰＳ等によって取得されたものである。画像アイコンＴ３９は、端末装置２０に装備されたカメラによって、当該音声データと関連付けて記憶された画像データを閲覧するためのアイコンである。画像アイコンＴ３９がユーザに選択操作された場合、当該画像データが表示される。

校閲アイコンＴ３６は、音声変換テキストＴ３５に対する校閲作業の開始操作をユーザから受け付けるためのアイコンである。校閲アイコンＴ３６がユーザに選択操作された場合、端末装置２０Ｂの情報出力部２１ｂは、図９に示すような、音声変換テキストに対する校閲作業（データ編集）を行うためのボイスメモ校閲画面Ｔ４０を表示する。

ボイスメモ校閲画面Ｔ４０は、インデックス編集ボックスＴ４１、テキスト編集ボックスＴ４２、音声再生アイコンＴ４３、校閲終了アイコンＴ４４を含む。

インデックス編集ボックスＴ４１は、インデックス情報を表示して編集操作を受け付けるための入力ボックスである。テキスト編集ボックスＴ４２は、音声変換テキストを表示して編集操作を受け付けるための入力ボックスである。音声再生アイコンＴ４３は、音声データに対する再生操作を受け付けるためのアイコンである。音声再生アイコンＴ４３がユーザに選択操作された場合、端末装置２０の情報出力部２１ｂは、管理装置１０から音声データを取得して対応する音声データを再生する。

校閲終了アイコンＴ４４は、テキスト編集ボックスＴ４２に表示されている音声変換テキストに対する確定操作を受け付けるためのアイコンである。端末装置２０Ｂの情報出力部２１ｂは、確定操作が行われた場合、その旨を管理装置１０へ通知する。この結果、確定操作が行われた音声変換テキストのステータス情報は、「校閲済」となり、かかる音声変換テキストは校閲済テキストとして扱われる。又、インデックス編集ボックスＴ４１あるいはテキスト編集ボックスＴ４２において編集操作が行われた場合、情報出力部２１ｂは、編集後のインデックス情報あるいは音声変換テキストを、併せて管理装置１０へ送信する。

例えば、ボイスメモ校閲画面Ｔ４０において、校閲終了アイコンＴ４４がユーザに選択操作される（ステップＳ２４）。これに応じて、端末装置２０は、編集された音声変換テキストを管理装置１０に対して送信すると共に、かかる音声変換テキストに対して確認操作が行われたことを通知（ステータス情報の更新要求を送信）する。

キャンセルアイコンＴ４５は、校正をキャンセルするためのアイコンである。キャンセルアイコンＴ４５に対してユーザにより選択操作が行われた場合、端末装置２０Ａは、校閲編集したテキストを破棄するとともに、ボイスメモ校閲画面Ｔ４０を終了し、表示状態をホーム画面Ｔ１０に戻す。

管理装置１０の情報校閲部１３ｂは、端末装置２０Ｂからの情報校閲要求に基づいて、データベース１１に格納された音声変換テキストを、ユーザが校閲した音声変換テキストの内容に更新する（ステップＳ２５）。又、管理装置１０のステータス状態変更部１３ｃは、確認操作が行われたことの通知を受けて、データベース１１の対応するステータス情報を、「校閲済」に書き換える。そして、管理装置１０は、データベース１１に格納された情報のうち、更新された情報を、端末装置２０Ｂに対して送信する。尚、管理装置１０は、データベース１１に、音声認識部１３ａが音声認識した結果としての音声変換テキストと、情報校閲部１３ｂが校閲した音声変換テキストとは別個に格納するようにしてもよい。

又、端末装置２０Ｂ（情報出力部２１ｂ）は、更新された情報を管理装置１０から受信すると、ボイスメモ一覧画面Ｔ２９の内容（音声変換テキスト、ステータス情報）を変更する（ステップＳ２６）。

以上のように、本実施形態に係る情報管理システム１は、管理装置１０および複数の端末装置２０を有する。端末装置２０は、音声認識処理が行われた複数の音声データのうち、校閲作業受付処理が完了していない音声データについて未校閲テキストを取得し、校閲作業受付処理が完了した音声データについては校閲済テキストを取得する情報取得部２１ａを有する。また、端末装置２０は、複数の音声データについて、対応する音声変換テキストを一覧表示すると共に、音声変換テキストごとに、未校閲テキスト及び校閲済テキストのいずれであるかを示すステータス情報を表示する画面を生成して出力する情報出力部２１ｂを有する。

すなわち、本実施形態に係る情報管理システム１によれば、音声認識結果（音声変換テキスト）とともにステータス情報を表示する構成としているため、その音声認識結果を閲覧するユーザが、かかる内容の情報信頼度を識別することが可能となる。言い換えると、ユーザは、音声を再生して聞き、音声認識結果を閲覧して、誤りがある場合、その内容を修正するといった、校閲作業を行うことができる。このため、音声認識結果を閲覧するユーザは、ステータス情報の状態が校閲済であるか未校閲であるかによって、その音声認識結果の内容の情報信頼度を識別することができる。

すなわち、本実施形態に係る情報管理システム１は、各音声認識結果に対する校閲作業受付処理を受け付けつつ、当該処理が完了しているか否かによらずに、音声認識により得られた各テキスト情報を、ステータス情報を付した状態で表示させる。したがって、本実施形態に係る情報管理システム１は、有用性の高いボイスメモの内容の文字表示を実現することができる。

＜ボイスメモ閲覧動作の他の態様＞
以下、図１０、図１１を参照して、情報管理システム１において、ボイスメモを閲覧する際の動作の他の一例について説明する。図１０は、カード型表示画面の一例を示す図である。図１０は、インデックス情報を用いた抽出又は並べ替えによって、ボイスメモの閲覧性を向上させたものである。又、図１１は、バブル型表示画面の一例を示す図である。

ホーム画面Ｔ１０（図５）において、カード型表示アイコンＴ１５がユーザに選択操作された場合、端末装置２０Ａは、図１０に示すようなカード型表示画面Ｔ５０を表示する。図１０、図１１に示すバブル型表示画面Ｔ６０を生成する際の管理装置１０（情報提供部１３ｄ）の動作は、図８に示したボイスメモ一覧画面Ｔ２９を生成する際の動作と同様である。カード型表示アイコンＴ１５がユーザに選択操作された場合、管理装置１０（情報提供部１３ｄ）は、当該閲覧要求に応じて、ユーザ識別情報及びグループ識別情報に基づいて、データベース１１から対応するデータを抽出し、端末装置２０に対して送信する。そして、端末装置２０（情報出力部２１ｂ）は、当該データに基づいて、情報表示画面を生成して、表示部２５に表示させる。

カード型表示画面Ｔ５０には、第１のフォルダ表示領域Ｔ５１、第２のフォルダ表示領域Ｔ５２が含まれる。第１のフォルダ表示領域Ｔ５１には、共通するインデックス情報によって、データベース１１に格納された音声変換テキストのデータを抽出したものが表示される（図１０では、「＊＊の報告」のインデックス情報で抽出されたものを示す）。つまり、第１のフォルダ表示領域Ｔ５１に含まれる音声変換テキストＴ５１ａ〜Ｔ５１ｄは、それぞれ、異なるタイミングで録音された音声データの音声変換テキストであり、録音の際に共通するインデックス情報が選択されたものである。

カード型表示画面Ｔ５０では、共通するインデックス情報が付与された音声変換テキストＴ５１ａ〜Ｔ５１ｄを、それぞれ、個別の要素として、個別にカード形式にして表示している。このカード型表示画面Ｔ５０は、図８に示したボイスメモ一覧画面Ｔ２９を生成する際と同様に、端末装置２０Ｂが、管理装置１０からボイスメモ一覧データを受信して、このデータを抽出して、又は並べ替えて表示制御するものとする。かかるカード型表示画面Ｔ５０は、例えばフリーディスカッションの意見や新しいアイデアをカードに記載して、考えを整理してまとめるのに有用である。

ここで、第１のフォルダ表示領域Ｔ５１では、ユーザの操作（例えば、縦方向へのスワイプ操作）を受け付け、最前列に表示する音声変換テキストＴ５１ａ〜Ｔ５１ｄ（カード）を変更可能となっている。言い換えると、端末装置２０（制御部２１）は、ユーザの操作に応じて音声変換テキストＴ５１ａ〜Ｔ５１ｄ（カード）の最前列を順次入れ替えるように表示制御する。又、端末装置２０（制御部２１）は、音声変換テキストＴ５１ａ〜Ｔ５１ｄ（カード）の一がユーザに選択操作（例えば、ツータップ操作）されると対応する音声データを、管理装置１０から取得して再生する。

又、端末装置２０（制御部２１）は、音声変換テキストＴ５１ａ〜Ｔ５１ｄ（カード）の複数がユーザに選択操作された状態で、結合アイコン（図示せず）が選択操作されると、一つのデータに結合することができる。この結合したデータは、結合した音声変換テキストＴ５１ａ〜Ｔ５１ｄを、一のカード領域にまとめて表示するとともに、対応する音声データを連続して再生するように一の音声データに結合する。尚、結合アイコンがユーザに選択操作された場合、管理装置１０に対して結合対象の音声変換テキストの識別情報と、結合要求が送信され、管理装置１０がデータベース１１の音声変換テキスト、及び音声データを結合する処理を行うものとする。

又、端末装置２０（制御部２１）は、音声変換テキストＴ５１ａ〜Ｔ５１ｄ（カード）がユーザに選択操作された状態で、コピーアイコン（図示せず）が選択操作されると、当該内容をテキストデータとしてコピーし、他のアプリケーション等で貼り付けることができる状態とする。

第２のフォルダ表示領域Ｔ５２に含まれる音声変換テキストＴ５２ａ〜Ｔ５２ｄも同様である。そして、同様に、インデックス情報に基づいて生成されたフォルダ表示領域に係るデータが複数生成され、端末装置２０（制御部２１）は、ユーザの操作（例えば、横方向へのスワイプ操作）によって、表示部２５に表示するフォルダ表示領域の対象を変更するように表示制御する。尚、図１０に示すカード型表示画面Ｔ５０及び図１１に示すバブル型表示画面Ｔ６０には、ステータス情報を表示しないものとしてもよい。

ホーム画面Ｔ１０（図５）において、カード型表示アイコンＴ１５がユーザに選択操作された場合に、図１０の態様に代えて、図１１に示すバブル型表示画面Ｔ６０を表示するものとしてもよい。図１１に示すバブル型表示画面Ｔ６０は、図１０のカード型表示画面Ｔ５０と同様に、インデックス情報によって音声変換テキストが抽出されて表示されたものであって、算出された重要度に応じて当該音声変換テキストの表示状態が変更されたものである。

バブル型表示画面Ｔ６０（図１１）には、音声変換テキストの要素表示領域Ｔ６１と、音声変換テキストの拡大表示領域Ｔ６２が含まれる。音声変換テキストの要素表示領域Ｔ６１は、インデックス情報によって抽出された複数の音声変換テキストを、それぞれ、個別に選択可能な円状のアイコンＴ６１ａ〜Ｔ６１ｄとして表示している。又、音声変換テキストの拡大表示領域Ｔ６２は、このアイコンＴ６１ａ〜Ｔ６１ｄの音声変換テキストの中からユーザに選択操作された一の音声変換テキストを拡大して表示する。

ここで、音声変換テキストの要素表示領域Ｔ６１には、共通するインデックス情報が付与された音声変換テキストが表示される。当該音声変換テキストは、それぞれ、例えば音声データが示す音声レベル、文字数、重要キーワードのパラメータに基づいて、重要度が算出され、重要度が大きいほど、対応する円状のアイコンＴ６１ａ〜Ｔ６１ｄの円の半径が大きくなるように表示制御されている。

又、当該音声変換テキストは、含まれる単語が抽出されて、当該音声変換テキスト同士のベクトル空間における距離（近似度合い）が算出される。そして、当該音声変換テキストの距離が遠い（近似していない）ほど、対応する円状のアイコンＴ６１ａ〜Ｔ６１ｄ同士の距離が大きくなるように表示制御されている。尚、音声変換テキスト同士のベクトル空間における距離（近似度合い）は、例えば、Ｗｏｒｄ２ｖｅｃ等を用いて算出することができる。

このように、インデックス情報を用いて抽出又は並べ替えて表示制御することによって、共通する内容のボイスメモが関連付けて表示されることになるため、ユーザにとってボイスメモの閲覧性が向上する。又、一部に誤った音声認識がなされた文字を含むボイスメモの文字表示があった場合も、ユーザは、インデックス情報で関連付けられた他のボイスメモの内容を見て、容易にその内容を推測することが可能となる。言い換えると、ユーザは、インデックス情報を用いて、多くのボイスメモを関連付けていくことが可能となり、音声認識の不確さによる扱いにくさを改善することができる。

（その他の実施形態）
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。

情報管理システム１は、例えば、管理装置１０のユーザインタフェイスを介して、管理装置１０のユーザ（オペレータ）から校閲作業を受け付けたり、図示しない校閲端末装置において校閲作業を受け付けてもよい。

又、本実施形態では、複数の端末装置２０Ａ〜２０Ｃは、それぞれ上記の構成のすべてを有するものとしているが、ＩＣレコーダのように表示部２５を備えないものや、閲覧用コンピュータのように音声入力部２３を備えないもののように、一部の構成のみを有する端末装置であってもよい。

又、上記実施形態では、情報管理システム１を適用する用途の一例として、営業日報に用いる態様を示したが、他の用途にも適用しうるのは勿論である。例えば、災害時に作業にあたる作業員の情報伝達手段等にも勿論有用である。特に、災害時等においては、情報信頼度を確保しつつ、早期に情報共有できることが重要であることから、本実施形態に係る情報管理システムを用いて、音声入力を有用な情報伝達手段とすることができる。他方、個人用のボイスメモとして、音声入力をしたユーザ本人のみが閲覧できるものとしてもよい。尚、個人用のボイスメモとする場合、通信回線Ｎを介する必要がないため、管理装置１０の機能を端末装置２０に持たせる構成としてもよい。

又、上記実施形態では、ステータス情報の表示態様の一例として、「校閲済」又は「未校閲」とする表記を示したが、他の表示態様であってもよい。例えば、「未校閲」の音声変換テキストについては、注意マークが付された状態で表示されるものであってもよい。

又、上記実施形態では、ステータス情報を変更する際の一例として、図８に示すボイスメモ一覧画面Ｔ２９において、校閲ボタンがユーザに選択操作された場合を示した。しかし、ステータス情報を変更する際の態様は、他の態様であってもよく、例えば、音声データを入力した際に生成される音声認識結果の表示画面において校閲可能として、このときの校閲操作に応じてステータス情報を変更するものとしてもよい。

又、上記実施形態では、表示部２５に表示させる情報処理画面を生成する制御主体（表示処理装置）の一例として、端末装置２０の制御部２１（情報取得部２１ａ、情報出力部２１ｂ）が行う態様を示した。しかし、Ｗｅｂ型のアプリケーションとする場合、情報処理画面を生成する制御主体は、管理装置１０側の制御部１３であってもよい。

又、上記実施形態では、端末装置２０の制御部２１は、ユーザからの操作（ボイスメモ一覧画面の選択等）があった場合に、管理装置１０に対してデータ要求する構成としたが、データの送受信のタイミングも種々変更可能である。例えば、端末装置２０上で、アプリケーションを立ち上げた際に、一括して、データを取得して、その後は、定期的にポーリングを行って更新情報を取得するものとしてもよい。

又、上記実施形態では、管理装置１０の一例として、一のサーバ装置によって構成される態様を示した。しかし、管理装置１０の制御部１３の機能（音声認識部１３ａ、情報校閲部１３ｂ、ステータス状態変更部１３ｃ、情報提供部１３ｄ）や、データベース１１の記憶領域を複数のサーバ装置に分散させて構成してもよい。又、管理装置１０は、サーバ装置でなく、端末装置２０の一であってもよい。すなわち、管理装置１０の一部又は全部と、端末装置２０の構成の一部又は全部とは、一体的に構成されていてもよく、本発明に係る表示処理装置は、端末装置２０として捉えることもできるし、管理装置１０として捉えることもできるし、これら全体として捉えることもできる。

例えば、本発明に係る情報取得部は、端末装置２０の情報取得部２１ａとして捉えることもできるし、管理装置１０の音声認識部１３ａ及び情報校閲部１３ｂとして捉えることもできるし、これら全体として捉えることもできる。

又、本発明に係る情報出力部は、端末装置２０の情報出力部２１ｂとして捉えることもできるし、管理装置１０のステータス状態変更部１３ｃ及び情報提供部１３ｄとして捉えることもできるし、これら全体と捉えることもできる。

又、本発明に係る情報校閲部は、管理装置１０の情報校閲部１３ｂとして捉えることもできるし、端末装置２０の情報出力部２１ｂとして捉えることもできるし、これら全体として捉えることもできる。

又、本発明に係る情報提供部は、管理装置１０の情報提供部１３ｄとして捉えることもできるし、端末装置２０の情報出力部２１ｂとして捉えることもできるし、これら全体として捉えることもできる。

＜本開示のまとめ＞
本開示の表示処理装置は、音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する情報取得部と、前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する情報出力部と、を有する。

尚、上記表示処理装置において、前記校閲作業受付処理は、前記音声データに対する再生操作を受け付ける処理、前記音声認識結果に対する編集操作を受け付ける処理、及び前記音声認識結果又は前記音声認識結果に対して前記編集操作が行われた結果に対する確定操作を受け付ける処理を含み、前記情報出力部は、前記確定操作が行われた前記音声データを、前記校閲作業受付処理が完了した前記音声データと判定してもよい。

又、上記表示処理装置は、前記音声変換テキストごとに、前記再生操作、前記編集操作、及び、前記確定操作を個別に受け付ける前記校閲作業受付処理を行う情報校閲部、を含んでもよい。

又、上記表示処理装置において、前記情報表示画面は、前記複数の音声データについて、前記音声変換テキストを、対応する発話を行ったユーザの識別情報及び当該発話の時刻情報を併記して、時系列に並べて表示してもよい。

又、上記表示処理装置において、前記情報出力部は、前記情報表示画面を閲覧するユーザを判定し、判定されたユーザに対して設定された閲覧権限に応じて、前記情報表示画面の内容を制御してもよい。

又、上記表示処理装置において、前記情報取得部は、前記音声変換テキストのそれぞれに対して前記音声変換テキストの種別を示すインデックス情報が対応付けられているとき、前記情報表示画面において前記インデックス情報に対する選択操作を受け付け、選択された前記インデックス情報に対応する前記音声変換テキストが見易くなるように前記情報表示画面の表示形態を制御してもよい。

又、上記表示処理装置において、前記インデックス情報は、音声を入力してそれぞれ前記音声データを生成する音声入力装置において、前記音声データと対応付けて任意に生成及び／又は選択することが可能な情報であり、前記音声データに対応する前記インデックス情報を複数の前記音声入力装置から取得すると共に、過去に取得されたインデックス情報を、前記複数の音声入力装置のそれぞれにおいて、音声データに対応付けられるインデックス情報の選択肢として提示する情報提供部、を含んでいてもよい。

本開示の表示処理プログラムは、コンピュータに、音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する処理と、前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する処理と、を実行させる。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。

本開示は、情報管理システムに、より好適に使用することができる。

１情報管理システム
１０管理装置
１１データベース
１２通信ＩＦ部
１３制御部
２０端末装置
２１制御部
２２記憶部
２３音声入力部
２４音声再生部
２５表示部
２６操作部
２７通信ＩＦ部

Claims

音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する情報取得部と、
前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する情報出力部と、を有する、
表示処理装置。
前記校閲作業受付処理は、前記音声データに対する再生操作を受け付ける処理、前記音声認識結果に対する編集操作を受け付ける処理、及び前記音声認識結果又は前記音声認識結果に対して前記編集操作が行われた結果に対する確定操作を受け付ける処理を含み、
前記情報出力部は、
前記確定操作が行われた前記音声データを、前記校閲作業受付処理が完了した前記音声データと判定する、
請求項１に記載の表示処理装置。
前記音声変換テキストごとに、前記再生操作、前記編集操作、及び、前記確定操作を個別に受け付ける前記校閲作業受付処理を行う情報校閲部、を含む、
請求項２に記載の表示処理装置。
前記情報表示画面は、前記複数の音声データについて、前記音声変換テキストを、対応する発話を行ったユーザの識別情報及び当該発話の時刻情報を併記して、時系列に並べて表示する、
請求項１に記載の表示処理装置。
前記情報出力部は、
前記情報表示画面を閲覧するユーザを判定し、判定されたユーザに対して設定された閲覧権限に応じて、前記情報表示画面の内容を制御する、
請求項１に記載の表示処理装置。
前記情報取得部は、
前記音声変換テキストのそれぞれに対して前記音声変換テキストの種別を示すインデックス情報が対応付けられているとき、前記情報表示画面において前記インデックス情報に対する選択操作を受け付け、選択された前記インデックス情報に対応する前記音声変換テキストが見易くなるように前記情報表示画面の表示形態を制御する、
請求項１に記載の表示処理装置。
前記インデックス情報は、音声を入力してそれぞれ前記音声データを生成する音声入力装置において、前記音声データと対応付けて任意に生成及び／又は選択することが可能な情報であり、
前記音声データに対応する前記インデックス情報を複数の前記音声入力装置から取得すると共に、過去に取得されたインデックス情報を、前記複数の音声入力装置のそれぞれにおいて、音声データに対応付けられるインデックス情報の選択肢として提示する情報提供部、を含む、
請求項６に記載の表示処理装置。
コンピュータに、
音声認識処理が行われた複数の音声データのうち、前記音声認識処理の結果に対する校閲作業受付処理が完了していない前記音声データについては、前記音声認識処理の結果である未校閲テキストを取得し、前記校閲作業受付処理が完了した前記音声データについては、前記校閲作業受付処理の結果である校閲済テキストを取得する処理と、
前記複数の音声データについて、対応する前記未校閲テキスト又は前記校閲済テキストである音声変換テキストを一覧表示すると共に、前記音声変換テキストごとに、当該音声変換テキストが前記未校閲テキスト及び前記校閲済テキストのいずれに該当するかを示すステータス情報を表示する情報表示画面を、生成して出力する処理と、を実行させる、
表示処理プログラム。