JP2020057072A

JP2020057072A - 編集プログラム、編集方法および編集装置

Info

Publication number: JP2020057072A
Application number: JP2018185697A
Authority: JP
Inventors: 聡三小田; Satoshi Mikota
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-04-09
Anticipated expiration: 2038-09-28
Also published as: US11238867B2; JP7119857B2; US20200105270A1

Abstract

【課題】タッチ操作が行われる端末において、効率的に音声認識結果の修正を可能とする。【解決手段】実施形態の編集プログラムは、表示する処理と、シフトする処理とをコンピュータに実行させる。表示する処理は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する。シフトする処理は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。【選択図】図４

Description

本発明の実施形態は、編集プログラム、編集方法および編集装置に関する。

コンピュータを用いた音声認識により文字列を入力する技術が知られている。音声認識により入力された文字列は、誤認識された文字が含まれている場合、人手によって修正される必要がある。また、音声認識のソフトウェアは、音声認識された文字列に対して形態素解析を行って単語ブロックを生成し、仮名漢字変換等の技術を用いることで単語ブロックの修正を行うことが知られている。

特開２０１８−００４９４７号公報特開平９−１９０４３６号公報特開２００９−２１７６６５号公報

単語ブロックの修正作業は、スマートフォン、タブレット端末などを用いて行う場合がある。しかしながら、スマートフォン、タブレット端末などでは、機器を把持した状態での親指などによるタッチ操作（以後、片手操作）を快適に行える範囲は、指の届く限られた範囲となる。例えば、右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となる。したがって、従来のスクロールバーで上下にスクロールしても、画面左側にある単語ブロックは、快適に行える範囲に入ることがなく、修正作業がし辛い場合がある。

また、音声認識結果の修正作業は、修正確認対象の単語ブロックに対応した音声が再生されるタイミングにあわせた作業となるため、タイムリーな操作が可能であることが重要である。

１つの側面では、タッチ操作が行われる端末において、効率的に音声認識結果の修正を可能とする編集プログラム、編集方法および編集装置を提供することを目的とする。

１つの案では、編集プログラムは、表示する処理と、シフトする処理とをコンピュータに実行させる。表示する処理は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する。シフトする処理は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。

本発明の１実施態様によれば、タッチ操作が行われる端末において、効率的に音声認識結果の修正が可能となる。

図１は、実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図２は、実施形態にかかる情報処理システムの機能構成例を示すブロック図である。図３は、情報処理装置の動作例を示すフローチャートである。図４は、編集画面の一例を示す説明図である。図５は、編集画面の一例を示す説明図である。図６は、編集画面の一例を示す説明図である。図７は、編集画面の一例を示す説明図である。図８は、編集画面の一例を示す説明図である。図９は、編集画面の一例を示す説明図である。図１０は、プログラムを実行するコンピュータの一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる編集プログラム、編集方法および編集装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する編集プログラム、編集方法および編集装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図１に示すように、情報処理システム１は、端末装置１０と、情報処理装置１００とを有する。なお、情報処理システム１では、端末装置１０の数は限定されず、任意の数の端末装置１０を有するようにしてもよい。

端末装置１０と、情報処理装置１００との間は、ネットワークＮを介して、相互に通信可能に接続される。かかるネットワークＮには、有線または無線を問わず、インターネットを始め、ＬＡＮ（Local Area Network）やＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。また、ネットワークＮを介する通信は、例えば、ＴＬＳ（Transport Layer Security）／ＳＳＬ（Secure Sockets Layer）等によって暗号化されるようにしてもよい。

情報処理システム１は、端末装置１０から資料や音声データを情報処理装置１００に送信し、情報処理装置１００が提供する編集画面を用いて音声認識により生成された文章データを編集するシステムの一例である。

端末装置１０は、音声データを音声認識して生成された文章データを編集するユーザが用いる情報処理装置である。端末装置１０は、例えば、スマートフォン、タブレット端末などを用いることができる。これにより、ユーザは、端末装置１０の片手操作により文章データの編集作業を行うことができる。

端末装置１０は、例えば、議事録を生成する対象である会議の資料および音声データを、ネットワークＮを介して、情報処理装置１００に送信する。端末装置１０は、情報処理装置１００が提供する編集画面を用いて、音声認識により生成された文章データの編集を受け付けるとともに、編集箇所を含む区間の音声を再生する。このとき、端末装置１０は、逐次、編集情報と編集箇所を含む区間の音声データを情報処理装置１００との間で送受信する。また、端末装置１０は、文章データの編集を開始する場合に、開始指示を情報処理装置１００に送信する。

情報処理装置１００は、端末装置１０から受信した音声データを音声認識して生成した文章データの編集を受け付ける編集画面を提供する情報処理装置であり、編集装置の一例である。情報処理装置１００は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面を生成し、端末装置１０に提供する。ここで、単語ブロックとは形態素解析を用いて生成された文字列であり、形態素と一致する場合、複数の形態素の組み合わせである場合を含む。端末装置１０では、情報処理装置１００が生成した編集画面を表示し、編集画面における操作指示を受け付けて情報処理装置１００へ通知する。編集画面における操作指示には、所定の単語ブロックの内容を修正する修正指示、単語ブロック各々を並べた文章をスクロールさせるスクロール指示などがある。

情報処理装置１００は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。これにより、例えば端末装置１０を右手で片手操作する場合には、タッチ操作を快適に行える画面右側などに所定の単語ブロックをシフトさせることができる。また、情報処理装置１００は、受け付けた修正指示をもとに、所定の単語ブロックの内容を修正する。

なお、本実施形態では、音声認識して生成した文章データの編集を受け付ける編集画面を端末装置１０に対して情報処理装置１００が提供する構成を例示するが、例えば端末装置１０などの装置単体で実現する構成であってもよいことは言うまでもないことである。

次に、情報処理システム１の機能構成について説明する。図２は、実施形態にかかる情報処理システム１の機能構成例を示すブロック図である。

図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。端末装置１０は、通信部１１と、操作部１２と、制御部１３と、記憶部１４と、表示部１５とを有する。なお、情報処理装置１００および端末装置１０は、図２に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮを介して、端末装置１０と有線または無線で接続され、端末装置１０との間で情報の通信を司る通信インタフェースである。通信部１１０は、端末装置１０から会議の資料および音声データと、編集情報とを受信する。通信部１１０は、受信した会議の資料および音声データと、編集情報とを制御部１３０に出力する。また、通信部１１０は、制御部１３０から入力された編集画面等に関する表示データ１４ａおよび編集箇所を含む区間の音声データを端末装置１０に送信する。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部１２０は、音声データ記憶部１２１と、形態素辞書記憶部１２２と、文章データ記憶部１２３と、資料情報記憶部１２４と、修正履歴データベース（以下、ＤＢという。）１２５と、同音異義語リスト記憶部１２６とを有する。また、記憶部１２０は、制御部１３０での処理に用いる情報を記憶する。

音声データ記憶部１２１は、端末装置１０から受信した音声データを記憶する。音声データは、例えば、ＩＣ（Integrated Circuit）レコーダ等で録音されたＭＰ３（MPEG-1 Audio Layer-3）やＡＡＣ（Advanced Audio Coding）等の各種コーデックを用いて圧縮された音声データである。なお、音声データ記憶部１２１は、例えば、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ（Advanced Video Coding）等の動画像と音声とをＭＰ４等のコンテナ内に含む動画像データを記憶するようにしてもよい。

形態素辞書記憶部１２２は、音声認識された文字列に対して形態素解析を行う際に用いる形態素辞書を記憶する。形態素辞書には、予め一般的な語句が格納されている。一般的な語句としては、例えば、「コンピュータ」や「技術」といった単語が挙げられる。

文章データ記憶部１２３は、音声認識された文字列に対して形態素解析が行われて生成された複数の単語ブロックを有する文章データを記憶する。なお、文章データ記憶部１２３は、複数の音声認識エンジンを用いて音声認識を行った場合、それぞれの音声認識エンジンに対応する文章データを記憶する。また、文章データ記憶部１２３は、ユーザによる単語ブロックの修正候補の選択や、単語ブロックに対して入力された修正内容に基づいて更新される。

資料情報記憶部１２４は、端末装置１０から受信した会議の資料等を記憶する。会議の資料は、例えば、会議における配布文書や、プロジェクタ等を用いて表示した資料である。これらの資料は、例えば、会議における発話内容を類推することができる文章を含むものである。また、資料情報記憶部１２４は、これらの資料から抽出した、単語の読み（音素）を含む単語リストを記憶する。

修正履歴ＤＢ１２５は、過去の文章データの修正内容を記憶する。修正履歴ＤＢ１２５は、例えば、修正前と修正後の単語ブロックについて、文字および音素を対応付けて記憶する。なお、資料情報記憶部１２４および修正履歴ＤＢ１２５は、修正に応じて内容が変化する動的辞書の一例である。

同音異義語リスト記憶部１２６は、同音異義語のリストを記憶する。同音異義語リスト記憶部１２６は、例えば、「いどう」という読みに対して、「移動」、「異動」、「異同」といった複数の単語が同音異義語として対応付けて記憶されている。

制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。

制御部１３０は、音声認識部１３１と、生成部１３２と、受付部１３３と、特定部１３４と、提示部１３５と、表示制御部１３６と、再生制御部１３７とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

音声認識部１３１は、音声データ記憶部１２１に記憶された音声データに対して音声認識を行って、文字列データを生成する。なお、音声認識部１３１は、複数の音声認識エンジンを持ち、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えば、ＡｍｉＶｏｉｃｅ（登録商標）エンジン等の各種の音声認識エンジンを用いることができる。また、音声認識部１３１は、音声認識エンジンとして、通信部１１０およびネットワークＮを介して、音声認識ＡＰＩ（Application Programming Interface）を提供するサーバ等を利用してもよい。なお、文字列データには、例えば、音声認識した単語（文字列）ごとにスタートタイム、エンドタイム、読み、および、認識結果（漢字やカタカナ等を含む。）が含まれる。音声認識部１３１は、生成した文字列データを生成部１３２に出力する。

生成部１３２は、音声認識部１３１から文字列データが入力されると、形態素辞書記憶部１２２を参照し、文字列データに対して形態素解析を行い、複数の単語ブロックに分割した文章データを生成する。なお、文章データには、単語ブロックごとに、文字列データに基づくスタートタイム、エンドタイム、読み、および、認識結果（漢字やカタカナ等を含む。）が含まれる。生成部１３２は、生成した文章データを文章データ記憶部１２３に記憶する。

受付部１３３は、ネットワークＮおよび通信部１１０を介して、端末装置１０から編集の開始、編集画面におけるスクロール操作、編集内容の入力・選択・決定などの入力操作等の各種指示を受信する。受付部１３３は、端末装置１０から各種指示を受信すると、受信した指示を特定部１３４に出力する。

例えば、受付部１３３は、編集画面において、スクロールバーなどの操作によるスクロール指示を受け付ける。また、受付部１３３は、編集画面において、複数の単語ブロックそれぞれの修正指示を受け付ける。例えば、受付部１３３は、編集画面において、所定の単語ブロックに対応する修正候補が表示されている場合、修正候補の選択を受け付ける。また、受付部１３３は、これらの修正候補が表示されている場合、ユーザから文字の修正を受け付けてもよい。

特定部１３４は、受付部１３３が受信した各種指示の内容を特定する。例えば、特定部１３４は、編集を開始する開始指示を特定し、特定した開始指示を表示制御部１３６へ出力する。また、特定部１３４は、スクロールバーの操作によるスクロール指示を特定し、特定したスクロール指示を表示制御部１３６へ出力する。

また、特定部１３４は、複数の単語ブロックそれぞれの修正指示を特定する。特定部１３４は、受け付けた修正候補または修正の内容に基づいて、文章データ記憶部１２３の文章データを更新する。

具体的には、特定部１３４は、修正指示により修正を行う修正対象の単語ブロックを特定する。例えば、特定部１３４は、編集画面において所定の位置（右上や左上など）にある単語ブロックを修正対象の単語ブロックとして特定する。また、特定部１３４は、選択操作などが行われた単語ブロックを修正対象の単語ブロックとして特定してもよい。

次いで、特定部１３４は、特定した修正対象の単語ブロックを提示部１３５および表示制御部１３６に出力する。これにより、編集画面において、修正対象の単語ブロックに対応する修正候補が表示される。次いで、特定部１３４は、修正候補の選択内容や、ユーザからの文字の修正内容を特定し、特定した内容をもとに文章データ記憶部１２３の文章データを更新する。

また、特定部１３４は、ユーザからの文字の修正内容が音声入力で行われた場合、入力された音声を音声認識部１３１に出力して音声認識結果を取得する。このように、特定部１３４は、受付部１３３が音声入力を受け付けた場合、入力された音声をもとに、修正対象の単語ブロックに関する修正指示を特定してもよい。

また、特定部１３４は、文章データを更新すると、修正対象の単語ブロックが文章データの最後の単語ブロックであるか否かを判定する。特定部１３４は、最後の単語ブロックでないと判定した場合には、引き続き各種指示を受け付けて編集画面での編集作業を継続させる。また、特定部１３４は、最後の単語ブロックであると判定した場合には、編集の終了を表示制御部１３６に通知する。編集終了の通知を受けた表示制御部１３６は、編集中の文章データの編集が終了した旨を編集画面に表示して処理を終了する。

提示部１３５は、特定部１３４から修正対象の単語ブロックが入力されると、単語ブロックの修正候補をソースから生成する。このとき、提示部１３５は、ソースとして、文章データ記憶部１２３、資料情報記憶部１２４、修正履歴ＤＢ１２５および同音異義語リスト記憶部１２６を参照する。なお、修正対象の単語ブロックは、予め修正対象とされた単語ブロックの前後にある単語ブロックを含めた一連の単語ブロックであってもよい。

提示部１３５は、修正候補の生成では、例えば、資料情報記憶部１２４に記憶された会議の資料および単語リストに基づいて、音素（読み）が近い単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、修正履歴ＤＢ１２５に記憶された過去の文章データの修正内容に基づいて、文字が一致している単語、および、音素が一致している単語のうち、少なくとも一方の単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、文章データ記憶部１２３に記憶された２番手、３番手の音声認識エンジンで認識された文章データに基づいて、修正対象の単語ブロックに対応する単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、同音異義語リスト記憶部１２６に記憶された同音異義語のリストに基づいて、同音異義語の単語を修正候補とする。

提示部１３５は、生成した複数の修正候補について、例えば、読み（音素）に対応する文字列が近似する修正候補から順に提示するように表示順を決定する。また、提示部１３５は、生成した複数の修正候補について、例えば、統計的に上位に来る、つまり正解可能性が高い修正候補から順に提示するように表示順を決定するようにしてもよい。さらに、提示部１３５は、生成した複数の修正候補について、例えば、複数のソースから生成された修正候補が重複する場合には、当該修正候補の正解可能性が高いとして上位に表示したり、重要度に応じた色分けを行うようにしてもよい。提示部１３５は、生成した複数の修正候補、および、決定した表示順を表示制御部１３６に出力する。

表示制御部１３６は、受付部１３３から編集の開始指示が入力されると、文章データ記憶部１２３を読み出し、編集対象となる所定数の単語ブロックを文章の記述順に並べた編集領域を含む、文章データの編集画面を生成する。表示制御部１３６は、通信部１１０およびネットワークＮを介して、生成した編集画面を表示データ１４ａとして端末装置１０に送信する。表示制御部１３６は、編集画面において、音声再生および単語ブロックの表示を開始する。このとき、表示制御部１３６は、所定数の単語ブロックを文章の記述順に並べた編集領域内に含まれる単語ブロックの先頭から末尾に対応する音声再生区間を設定する。次いで、表示制御部１３６は、設定した音声再生区間を再生制御部１３７に出力する。

また、表示制御部１３６は、編集画面において、編集領域に表示される各単語ブロックよりも広い範囲、つまり時間的に前後の範囲に含まれる文字列を、編集領域と異なる領域（前表示領域、後表示領域）に表示するようにしてもよい。

また、表示制御部１３６は、編集画面におけるスクロールバーなどの操作によって、特定部１３４よりスクロール指示が入力されると、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。

例えば、表示制御部１３６は、スクロールバーの進み操作による、文章の記述方向の順方向へ進ませるスクロール指示である場合、文章の記述方向において進む向きに単語ブロック各々をシフトする。また、表示制御部１３６は、スクロールバーの戻し操作による、文章の記述方向の逆方向へ戻すスクロール指示である場合、文章の記述方向において巻き戻す向きに単語ブロック各々をシフトする。次いで、表示制御部１３６は、シフト後の編集領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部１３７に出力する。すなわち、表示制御部１３６は、編集領域内の文章区間の音声を再生するように、再生制御部１３７に指示する。

また、表示制御部１３６は、提示部１３５から複数の修正候補および表示順が入力されると、編集画面において、例えば、修正対象の単語ブロックの周囲に、表示順に応じて複数の修正候補を表示する。このとき、表示制御部１３６は、修正対象の単語ブロックの周囲において、文章の記述方向を避けた位置に修正候補を表示する。

また、表示制御部１３６は、修正候補の文字数に基づいて、単語ブロックの周囲に配置する修正候補の位置を決めてもよい。例えば、表示制御部１３６は、修正候補の文字数が所定数以上であり、表示に要する幅が長くなる場合には、単語ブロックの上下や、編集画面の縁より遠い方向を配置位置と決める。また、表示制御部１３６は、修正候補の文字数が所定数以下であり、表示に要する幅が短くて済む場合には、単語ブロックに対して編集画面の縁に近い方向を配置位置と決める。

また、表示制御部１３６は、修正候補の正解可能性およびソースに応じて、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、表示制御部１３６は、同じソースから生成された修正候補について、共通の表示態様、例えば同じ表示色とする。

また、表示制御部１３６は、修正候補を提示する場合に、修正候補がどの単語ブロックに対応するのかが判別可能なように、例えば、修正対象の単語ブロックの前後などの単語ブロックの境界に線を表示する。このとき、表示制御部１３６は、例えば、修正候補を囲む枠を、対応する単語ブロックの境界線まで描画する。

再生制御部１３７は、表示制御部１３６から音声再生区間が入力されると、音声データ記憶部１２１を参照し、音声再生区間、つまり編集領域内の文章区間の音声データを、通信部１１０およびネットワークＮを介して、端末装置１０に送信する。このとき、再生制御部１３７は、編集領域内の文章区間（編集箇所を含む区間）の音声データを繰り返し再生するように制御する。なお、再生制御部１３７は、編集画面の前表示領域、後表示領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声データを通信部１１０およびネットワークＮを介して、端末装置１０に送信するようにしてもよい。また、再生制御部１３７は、ある文章区間の再生中に、新たな文章区間が入力されると、再生中の文章区間の最後まで再生してから、新たな文章区間の最初から音声を再生するように制御する。

通信部１１は、通信部１１０と同様、ネットワークＮを介して、情報処理装置１００と無線等で接続され、情報処理装置１００との間で情報の通信を司る通信インタフェースである。例えば、通信部１１は、会議の資料および音声データと、編集情報とを情報処理装置１００に送信する。また、通信部１１は、編集画面等に関する表示データ１４ａおよび編集箇所を含む区間の音声データを情報処理装置１００より受信する。

操作部１２は、端末装置１０のユーザにおける各種操作を受け付ける入力デバイスなどであり、受け付けた各種操作を制御部１３に通知する。例えば、操作部１２は、表示部１５に重畳して配置されたタッチパネルであり、ユーザのタッチ操作を受け付ける。

制御部１３は、通信処理部１３ａと、表示処理部１３ｂとを有し、端末装置１０の各種動作を制御する。通信処理部１３ａは、通信部１１における通信処理を制御する。例えば、通信処理部１３ａは、会議の資料および音声データと、編集情報とを通信部１１を介して情報処理装置１００に送信する。また、通信処理部１３ａは、通信部１１を介して情報処理装置１００より受信した、編集画面等に関する表示データ１４ａおよび編集箇所を含む区間の音声データを記憶部１４に格納する。

表示処理部１３ｂは、表示部１５における表示処理を制御する。例えば、表示処理部１３ｂは、記憶部１４に格納された表示データ１４ａを読み出し、表示部１５に表示する。これにより、端末装置１０において、表示部１５には、編集画面が表示される。また、表示処理部１３ｂは、記憶部１４に格納された音声データを読み出し、スピーカ等の音声出力装置（図示しない）を介して音声再生する。これにより、端末装置１０では、文章区間の音声が再生される。また、表示処理部１３ｂは、編集画面において、操作部１２より受け付けた各種操作を編集情報とし、通信部１１を介して情報処理装置１００に通知する。

記憶部１４は、端末装置１０における記憶装置であり、表示データ１４ａ、音声データ、会議の資料などの各種情報を記憶する。記憶部１４には、例えばフラッシュメモリ等の半導体メモリ素子を採用できる。表示部１５は、端末装置１０における表示装置であり、例えばＬＣＤ（Liquid Crystal Display）などの採用できる。

次に、編集画面に関する情報処理装置１００の動作を詳細に説明する。図３は、情報処理装置１００の動作例を示すフローチャートである。

図３に示すように、処理が開始されると、音声認識部１３１は、音声データ記憶部１２１に記憶された音声データに対して音声認識を行って、文字列データを生成する。音声認識部１３１は、生成した文字列データを生成部１３２に出力する。生成部１３２は、形態素辞書記憶部１２２を参照して、音声認識部１３１から入力された文字列データを形態素解析し、文字列データを単語ブロックに分割した文章データを生成する（Ｓ１）。生成部１３２は、生成した文章データを文章データ記憶部１２３に記憶する。

特定部１３４は、端末装置１０からの開始指示を特定すると、文章データの編集画面を生成する指示を表示制御部１３６に出力する。表示制御部１３６は、受付部１３３から編集画面の生成指示が入力されると、文章データの編集画面を生成する。表示制御部１３６は、生成した編集画面を表示データ１４ａとして端末装置１０に送信し、端末装置１０に編集画面を表示させる。表示制御部１３６は、編集画面において、音声再生および編集領域の表示を開始する（Ｓ２）。

図４は、編集画面の一例を示す説明図である。図４に示すように、編集画面２００は、映像表示領域２１０、編集領域２２０、前表示領域２２１、後表示領域２２２、スクロールバー２２３、音声入力指示ボタン２２４およびキー入力領域２３０を含む。映像表示領域２１０は、音声再生に関する音声データ、映像データなどの表示を行う領域である。

編集領域２２０は、編集対象となる所定数の単語ブロック２２５ａ〜２２５ｆを文章の記述順に並べて表示する領域である。具体的には、編集領域２２０では、点線矢印で示す文章の記述方向（横並びで右を順方向）に沿って、単語ブロック２２５ａ〜２２５ｆを並べて表示する。以後の説明では、単語ブロック２２５ａ〜ｈ各々について、特に区別しない場合は単語ブロック２２５と称するものとする。例えば、編集領域２２０では、所定の単語ブロック２２５をタッチする選択操作などで、修正対象とする単語ブロック２２５の選択を受け付ける。

なお、編集領域２２０において、修正対象とする単語ブロック２２５は、選択操作が行われたものに限定しない。例えば、右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となることから、編集領域２２０における所定の位置（例えば右上）に表示された単語ブロック２２５ｃを修正対象としてもよい。逆に、左手での片手操作では、画面左側が快適にタッチ操作を行える範囲となることから、編集領域２２０における所定の位置（例えば左上）に表示された単語ブロック２２５ａを修正対象としてもよい。

また、本実施形態では、記述方向が横書きの場合を例示しているが、縦書きであってもよいことは言うまでもないことである。また、本実施形態では、日本語での表示例を提示しているが、言語は日本語に限定しない。また、言語によっては、記述方向を逆向き（横並びで左を順方向）としてもよい。

前表示領域２２１は、編集領域２２０よりも前の文章を表示する領域である。後表示領域２２２は、編集領域２２０よりも後の文章を表示する領域である。スクロールバー２２３は、指Ｆなどによるタッチ操作でのスクロール指示を受け付ける領域である。例えば、スクロールバー２２３では、上向きの操作を戻し操作として受け付け、下向きの操作を進み操作として受け付ける。

音声入力指示ボタン２２４は、マイク（図示しない）などによる音声入力を受け付ける操作ボタンである。例えば、端末装置１０は、音声入力指示ボタン２２４の操作を受け付けることで、マイクからの音声入力を開始する。

キー入力領域２３０は、各種入力キーを表示する領域である。キー入力領域２３０では、指Ｆなどによる入力キーのタッチ操作により、文字等の入力を受け付ける。

図３に戻り、Ｓ２に次いで、受付部１３３は、端末装置１０における操作指示を受け付ける（Ｓ３）。次いで、特定部１３４は、受付部１３３が受け付けた操作指示を特定し、操作内容の判定を行う（Ｓ４）。具体的には、特定部１３４は、スクロールバー２２３の「スクロール操作」、単語ブロック２２５を選択する「選択操作」、音声入力指示ボタン２２４の操作による「音声入力」、または、編集が終了したことを指示する「編集終了」のいずれの指示であるかを判定する。

Ｓ４において「スクロール操作」である場合、特定部１３４は、スクロールバー２２３におけるスクロール指示を表示制御部１３６へ出力する。次いで、表示制御部１３６は、スクロール指示に基づいて編集画面２００に表示された単語ブロック２２５各々を文章の記述方向に沿ってシフトする。次いで、表示制御部１３６は、シフト後の編集領域２２０内に含まれる各単語ブロック２２５に基づいて、音声再生区間を更新し（Ｓ６）、更新した音声再生区間を再生制御部１３７に出力する。

図５は、編集画面２００の一例を示す説明図である。具体的には、図５では、図４の編集画面２００において、スクロールバー２２３における上向きの戻し操作が行われたシフト後の状態を例示している。図５に示すように、スクロール指示（戻し操作）によるシフト後の編集画面２００では、単語ブロック２２５各々が文章の記述方向において巻き戻され、単語ブロック２２５ｃ〜２２５ｉが表示されている。例えば、画面右上には、図４において編集領域２２０の左端にあった単語ブロック２２５ｄが表示されている。これにより、例えば右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となることから、単語ブロック２２５ｄに関する操作を容易に行うことが可能となる。

Ｓ４において「選択操作」である場合、提示部１３５は、修正対象の単語ブロック２２５の修正候補をソースから生成する（Ｓ７）。次いで、表示制御部１３６は、提示部１３５が生成した修正候補を、修正対象の単語ブロック２２５の周囲に表示して提示する（Ｓ８）。

図６は、編集画面２００の一例を示す説明図であり、より具体的には、単語ブロック２２５ｃを修正対象とした場合の、修正候補の表示を例示する図である。図６に示すように、表示制御部１３６は、編集領域２２０の右上隅における修正対象の単語ブロック２２５ｃの周囲に修正候補２２６ａ〜２２６ｃを表示する。以後の説明では、修正候補２２６ａ〜２２６ｄ各々について、特に区別しない場合は修正候補２２６と称するものとする。

ここで、表示制御部１３６は、修正対象の単語ブロック２２５ｃの周囲（方向ａ〜ｈ）において、文章の記述方向（方向ｇ）を避けた位置に修正候補２２６を表示する。なお、単語ブロック２２５ｃは右端であることから、方向ｃは、文章の記述方向から除かれるものとする。これにより、単語ブロック２２５ｃに対し、記述方向において前の単語ブロック２２５ｂが、修正候補２２６に隠されることなく、容易に確認できる。

また、表示制御部１３６は、修正候補２２６の文字数に基づいて、単語ブロック２２５の周囲に配置する修正候補２２６の位置を決める。例えば、表示制御部１３６は、文字数が所定数以下であり、表示に要する幅が短くて済む修正候補２２６ｃを、単語ブロック２２５ｃに対して編集画面２００の縁に近い側に配置する。また、表示制御部１３６は、文字数が所定数以上であり、表示に要する幅が長くなる修正候補２２６ａ、２２６ｂ、２２６ｄを、単語ブロック２２５ｃの上下（方向ａ、ｅ、ｈ）に配置する。これにより、表示制御部１３６は、修正候補２２６各々を、編集画面２００内に収まるように表示することができる。

次いで、受付部１３３は、編集画面２００における修正操作を受け付ける（Ｓ９）。特定部１３４は、受付部１３３が受け付けた修正操作を特定し、特定した内容をもとに文章データ記憶部１２３の文章データを更新する。

Ｓ４において「音声入力」である場合、特定部１３４は、音声認識部１３１により入力音声の音声認識を行う（Ｓ１０）。次いで、表示制御部１３６は、音声認識結果を修正候補２２６として単語ブロック２２５の周囲に表示して提示し（Ｓ１１）、Ｓ９へ処理を進める。

Ｓ４において「編集終了」である場合、表示制御部１３６は、編集中の文章データの編集が終了した旨を編集画面２００に表示する。次いで、制御部１３０は、文章データ記憶部１２３の内容を編集結果としてファイルなどにデータ保存し（Ｓ１２）、処理を終了する。

なお、図４〜６の編集画面２００では右手用の画面例を例示したが、編集画面２００は、左手用の画面であってもよい。この右手用または左手用の編集画面２００については、設定により表示を切り替えてもよい。図７〜９は、編集画面２００の一例を示す説明図であり、より具体的には左手用の編集画面２００を例示する図である。

図７に示すように、左手用の編集画面２００では、左手での片手操作において、画面左側が快適にタッチ操作を行える範囲となることから、スクロールバー２２３などが左側に配置される。そして、図８に示すように、画面左側に配置されたスクロールバー２２３を操作することで、編集領域２２０における単語ブロック２２５をシフトすることができる。また、図９に示すように、画面左隅における修正対象の単語ブロック２２５ｃの周囲に、修正候補２２６ａ〜２２６ｃを表示してもよい。このとき、修正対象の単語ブロック２２５ｃの周囲（方向ａ〜ｈ）において、文章の記述方向（方向ｃ）を避けた位置に修正候補２２６を表示する。これにより、単語ブロック２２５ｃに対し、記述方向において後の単語ブロック２２５ｄが、修正候補２２６に隠されることなく、容易に確認できる。

以上のように、情報処理装置１００の表示制御部１３６は、音声認識された文字列から形態素解析を用いて生成された単語ブロック２２５各々を並べた文章の編集画面２００を生成し、タッチ操作可能な端末装置１０に表示する。また、表示制御部１３６は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面２００に表示された単語ブロック２２５各々を文章の記述方向に沿ってシフトする。これにより、例えば端末装置１０を右手で片手操作する場合、タッチ操作を快適に行える画面右側などに所定の単語ブロック２２５をシフトさせることができ、単語ブロック２２５の修正をしやすくすることができる。

また、スクロール指示は、編集画面２００に表示されたスクロールバー２２３における進み操作、または、戻し操作である。表示制御部１３６は、進み操作である場合、編集画面２００における文章の記述方向において進む向きに単語ブロック２２５各々をシフトする。また、表示制御部１３６は、戻し操作である場合、編集画面２００における文章の記述方向において巻き戻す向きに単語ブロック２２５各々をシフトする。これにより、ユーザは、スクロールバー２２３での操作により、文章の記述方向の進む向き、または、巻き戻す向きに単語ブロック２２５各々をシフトさせることができる。

また、表示制御部１３６は、編集画面２００の所定位置（例えば右上や左上）に表示される単語ブロック２２５を修正対象の単語ブロック２２５とする。これにより、例えば、端末装置１０を右手で片手操作する場合には、タッチ操作を快適に行える編集画面２００の右上にある単語ブロック２２５を修正対象の単語ブロックとすることができる。

また、情報処理装置１００の受付部１３３は、編集画面２００において音声入力を受け付けた場合に、受け付けた音声入力を修正対象の単語ブロック２２５に関する修正指示とする。これにより、編集画面２００において音声入力を行うことで、修正対象の単語ブロック２２５に関する修正指示を直接入力することができ、修正を行う単語ブロック２２５の選択などの操作を省き、入力操作を簡便に行うことができる。

また、表示制御部１３６は、編集画面２００において、単語ブロック２２５に関する修正候補２２６を単語ブロック２２５の周囲に表示する場合、文章の記述方向（例えば方向ｃ、ｇ）を避けた位置に修正候補２２６を表示する。これにより、編集画面２００では、修正候補２２６により修正を行う単語ブロック２２５に対し、記述方向に並んで表示される他の単語ブロック２２５が、修正候補２２６に隠されることなく、容易に確認できる。

また、表示制御部１３６は、修正候補２２６の文字数に基づいて、単語ブロック２２５の周囲に配置する修正候補２２６の位置を決める。例えば、表示制御部１３６は、修正候補２２６の文字数が所定数以上であり、表示に要する幅が長くなる修正候補２２６を、単語ブロック２２５の上下や、編集画面２００の縁より遠い方向に配置する。また、表示制御部１３６は、修正候補２２６の文字数が所定数以下であり、表示に要する幅が短くて済む修正候補２２６を、単語ブロック２２５に対して編集画面２００の縁に近い側に配置する。これにより、情報処理装置１００は、修正候補２２６各々が編集画面２００内に収まるように表示することができる。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置１００の提示部１３５と表示制御部１３６とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図１０は、プログラムを実行するコンピュータの一例を示す図である。

図１０に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、データ入力を受け付ける入力装置３０２と、表示装置３０３とを有する。また、コンピュータ３００は、プログラム３０４ａを記憶する記憶装置３０４と、各種装置と接続するためのインタフェース装置３０５とを有する。プログラム３０４ａは、上記の実施形態で説明した音声認識部１３１、１３２、受付部１３３、特定部１３４、提示部１３５、表示制御部１３６および再生制御部１３７に関する各種処理を実行するためのプログラムである。すなわち、プログラム３０４ａは、編集プログラムの一例である。

また、コンピュータ３００は、端末装置１０や他の情報処理装置等と有線または無線により接続するための通信装置３０６と、各種情報を一時記憶するＲＡＭ３０７とを有する。また、コンピュータ３００の各部（３０１〜３０８）は、バス３０９に接続される。

ＣＰＵ３０１は、記憶装置３０４に記憶されたプログラム３０４ａを読み出して、ＲＡＭ３０７に展開して実行することで、各種の処理を行う。これにより、プログラム３０４ａは、コンピュータ３００を図２に示した音声認識部１３１、生成部１３２、受付部１３３、特定部１３４、提示部１３５、表示制御部１３６および再生制御部１３７として機能させることができる。

入力装置３０２は、例えば、コンピュータ３００の管理者から操作情報等の各種情報の入力を受け付ける。表示装置３０３は、例えば、コンピュータ３００の管理者に対して表示画面等の各種画面を表示する。インタフェース装置３０５は、例えば印刷装置等が接続される。通信装置３０６は、例えば、図２に示した通信部１１０と同様の機能を有しネットワークＮと接続され、端末装置１０および他の情報処理装置と各種情報をやりとりする。

なお、上記のプログラム３０４ａは、記憶装置３０４に記憶されていなくてもよい。例えば、コンピュータ３００が読み取り可能な記憶媒体に記憶されたプログラム３０４ａを、コンピュータ３００が読み出して実行するようにしてもよい。コンピュータ３００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にプログラム３０４ａを記憶させておき、コンピュータ３００がこれらからプログラム３０４ａを読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータに実行させることを特徴とする編集プログラム。

（付記２）前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記１に記載の編集プログラム。

（付記３）前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記１または２に記載の編集プログラム。

（付記４）音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータに実行させる、
ことを特徴とする付記３に記載の編集プログラム。

（付記５）前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記１乃至４のいずれか一に記載の編集プログラム。

（付記６）前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記５に記載の編集プログラム。

（付記７）音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータが実行することを特徴とする編集方法。

（付記８）前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記７に記載の編集方法。

（付記９）前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記７または８に記載の編集方法。

（付記１０）音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータが実行する、
ことを特徴とする付記９に記載の編集方法。

（付記１１）前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記７乃至１０のいずれか一に記載の編集方法。

（付記１２）前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記１１に記載の編集方法。

（付記１３）音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する表示部と、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする制御部と、
を有することを特徴とする編集装置。

（付記１４）前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記制御部は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記１３に記載の編集装置。

（付記１５）前記表示部は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記１３または１４に記載の編集装置。

（付記１６）前記制御部は、音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする、
ことを特徴とする付記１５に記載の編集装置。

（付記１７）前記表示部は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記１３乃至１５のいずれか一に記載の編集装置。

（付記１８）前記表示部は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記１７に記載の編集装置。

１…情報処理システム
１０…端末装置
１１…通信部
１２…操作部
１３…制御部
１３ａ…通信処理部
１３ｂ…表示処理部
１４…記憶部
１４ａ…表示データ
１５…表示部
１００…情報処理装置
１１０…通信部
１２０…記憶部
１２１…音声データ記憶部
１２２…形態素辞書記憶部
１２３…文章データ記憶部
１２４…資料情報記憶部
１２５…修正履歴ＤＢ
１２６…同音異義語リスト記憶部
１３０…制御部
１３１…音声認識部
１３２…生成部
１３３…受付部
１３４…特定部
１３５…提示部
１３６…表示制御部
１３７…再生制御部
２００…編集画面
２１０…映像表示領域
２２０…編集領域
２２１…前表示領域
２２２…後表示領域
２２３…スクロールバー
２２４…音声入力指示ボタン
２２５、２２５ａ〜２２５ｉ…単語ブロック
２２６、２２６ａ〜２２６ｄ…修正候補
２３０…キー入力領域
３００…コンピュータ
３０１…ＣＰＵ
３０２…入力装置
３０３…表示装置
３０４…記憶装置
３０４ａ…プログラム
３０５…インタフェース装置
３０６…通信装置
３０７…ＲＡＭ
３０９…バス
ａ〜ｈ…方向
Ｆ…指
Ｎ…ネットワーク

Claims

音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータに実行させることを特徴とする編集プログラム。
前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする請求項１に記載の編集プログラム。
前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする請求項１または２に記載の編集プログラム。
音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータに実行させる、
ことを特徴とする請求項３に記載の編集プログラム。
前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする請求項１乃至４のいずれか一項に記載の編集プログラム。
前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする請求項５に記載の編集プログラム。
音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータが実行することを特徴とする編集方法。
音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する表示部と、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする制御部と、
を有することを特徴とする編集装置。