JP2020057072A - 編集プログラム、編集方法および編集装置 - Google Patents

編集プログラム、編集方法および編集装置 Download PDF

Info

Publication number
JP2020057072A
JP2020057072A JP2018185697A JP2018185697A JP2020057072A JP 2020057072 A JP2020057072 A JP 2020057072A JP 2018185697 A JP2018185697 A JP 2018185697A JP 2018185697 A JP2018185697 A JP 2018185697A JP 2020057072 A JP2020057072 A JP 2020057072A
Authority
JP
Japan
Prior art keywords
editing
word block
unit
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018185697A
Other languages
English (en)
Other versions
JP7119857B2 (ja
Inventor
聡 三小田
Satoshi Mikota
聡 三小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018185697A priority Critical patent/JP7119857B2/ja
Priority to US16/569,769 priority patent/US11238867B2/en
Publication of JP2020057072A publication Critical patent/JP2020057072A/ja
Application granted granted Critical
Publication of JP7119857B2 publication Critical patent/JP7119857B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】タッチ操作が行われる端末において、効率的に音声認識結果の修正を可能とする。【解決手段】実施形態の編集プログラムは、表示する処理と、シフトする処理とをコンピュータに実行させる。表示する処理は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する。シフトする処理は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。【選択図】図4

Description

本発明の実施形態は、編集プログラム、編集方法および編集装置に関する。
コンピュータを用いた音声認識により文字列を入力する技術が知られている。音声認識により入力された文字列は、誤認識された文字が含まれている場合、人手によって修正される必要がある。また、音声認識のソフトウェアは、音声認識された文字列に対して形態素解析を行って単語ブロックを生成し、仮名漢字変換等の技術を用いることで単語ブロックの修正を行うことが知られている。
特開2018−004947号公報 特開平9−190436号公報 特開2009−217665号公報
単語ブロックの修正作業は、スマートフォン、タブレット端末などを用いて行う場合がある。しかしながら、スマートフォン、タブレット端末などでは、機器を把持した状態での親指などによるタッチ操作(以後、片手操作)を快適に行える範囲は、指の届く限られた範囲となる。例えば、右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となる。したがって、従来のスクロールバーで上下にスクロールしても、画面左側にある単語ブロックは、快適に行える範囲に入ることがなく、修正作業がし辛い場合がある。
また、音声認識結果の修正作業は、修正確認対象の単語ブロックに対応した音声が再生されるタイミングにあわせた作業となるため、タイムリーな操作が可能であることが重要である。
1つの側面では、タッチ操作が行われる端末において、効率的に音声認識結果の修正を可能とする編集プログラム、編集方法および編集装置を提供することを目的とする。
1つの案では、編集プログラムは、表示する処理と、シフトする処理とをコンピュータに実行させる。表示する処理は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する。シフトする処理は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。
本発明の1実施態様によれば、タッチ操作が行われる端末において、効率的に音声認識結果の修正が可能となる。
図1は、実施形態にかかる情報処理システムの構成の一例を示すブロック図である。 図2は、実施形態にかかる情報処理システムの機能構成例を示すブロック図である。 図3は、情報処理装置の動作例を示すフローチャートである。 図4は、編集画面の一例を示す説明図である。 図5は、編集画面の一例を示す説明図である。 図6は、編集画面の一例を示す説明図である。 図7は、編集画面の一例を示す説明図である。 図8は、編集画面の一例を示す説明図である。 図9は、編集画面の一例を示す説明図である。 図10は、プログラムを実行するコンピュータの一例を示すブロック図である。
以下、図面を参照して、実施形態にかかる編集プログラム、編集方法および編集装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する編集プログラム、編集方法および編集装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図1に示すように、情報処理システム1は、端末装置10と、情報処理装置100とを有する。なお、情報処理システム1では、端末装置10の数は限定されず、任意の数の端末装置10を有するようにしてもよい。
端末装置10と、情報処理装置100との間は、ネットワークNを介して、相互に通信可能に接続される。かかるネットワークNには、有線または無線を問わず、インターネットを始め、LAN(Local Area Network)やVPN(Virtual Private Network)などの任意の種類の通信網を採用できる。また、ネットワークNを介する通信は、例えば、TLS(Transport Layer Security)/SSL(Secure Sockets Layer)等によって暗号化されるようにしてもよい。
情報処理システム1は、端末装置10から資料や音声データを情報処理装置100に送信し、情報処理装置100が提供する編集画面を用いて音声認識により生成された文章データを編集するシステムの一例である。
端末装置10は、音声データを音声認識して生成された文章データを編集するユーザが用いる情報処理装置である。端末装置10は、例えば、スマートフォン、タブレット端末などを用いることができる。これにより、ユーザは、端末装置10の片手操作により文章データの編集作業を行うことができる。
端末装置10は、例えば、議事録を生成する対象である会議の資料および音声データを、ネットワークNを介して、情報処理装置100に送信する。端末装置10は、情報処理装置100が提供する編集画面を用いて、音声認識により生成された文章データの編集を受け付けるとともに、編集箇所を含む区間の音声を再生する。このとき、端末装置10は、逐次、編集情報と編集箇所を含む区間の音声データを情報処理装置100との間で送受信する。また、端末装置10は、文章データの編集を開始する場合に、開始指示を情報処理装置100に送信する。
情報処理装置100は、端末装置10から受信した音声データを音声認識して生成した文章データの編集を受け付ける編集画面を提供する情報処理装置であり、編集装置の一例である。情報処理装置100は、音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面を生成し、端末装置10に提供する。ここで、単語ブロックとは形態素解析を用いて生成された文字列であり、形態素と一致する場合、複数の形態素の組み合わせである場合を含む。端末装置10では、情報処理装置100が生成した編集画面を表示し、編集画面における操作指示を受け付けて情報処理装置100へ通知する。編集画面における操作指示には、所定の単語ブロックの内容を修正する修正指示、単語ブロック各々を並べた文章をスクロールさせるスクロール指示などがある。
情報処理装置100は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。これにより、例えば端末装置10を右手で片手操作する場合には、タッチ操作を快適に行える画面右側などに所定の単語ブロックをシフトさせることができる。また、情報処理装置100は、受け付けた修正指示をもとに、所定の単語ブロックの内容を修正する。
なお、本実施形態では、音声認識して生成した文章データの編集を受け付ける編集画面を端末装置10に対して情報処理装置100が提供する構成を例示するが、例えば端末装置10などの装置単体で実現する構成であってもよいことは言うまでもないことである。
次に、情報処理システム1の機能構成について説明する。図2は、実施形態にかかる情報処理システム1の機能構成例を示すブロック図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。端末装置10は、通信部11と、操作部12と、制御部13と、記憶部14と、表示部15とを有する。なお、情報処理装置100および端末装置10は、図2に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNを介して、端末装置10と有線または無線で接続され、端末装置10との間で情報の通信を司る通信インタフェースである。通信部110は、端末装置10から会議の資料および音声データと、編集情報とを受信する。通信部110は、受信した会議の資料および音声データと、編集情報とを制御部130に出力する。また、通信部110は、制御部130から入力された編集画面等に関する表示データ14aおよび編集箇所を含む区間の音声データを端末装置10に送信する。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部120は、音声データ記憶部121と、形態素辞書記憶部122と、文章データ記憶部123と、資料情報記憶部124と、修正履歴データベース(以下、DBという。)125と、同音異義語リスト記憶部126とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。
音声データ記憶部121は、端末装置10から受信した音声データを記憶する。音声データは、例えば、IC(Integrated Circuit)レコーダ等で録音されたMP3(MPEG-1 Audio Layer-3)やAAC(Advanced Audio Coding)等の各種コーデックを用いて圧縮された音声データである。なお、音声データ記憶部121は、例えば、H.264/MPEG−4 AVC(Advanced Video Coding)等の動画像と音声とをMP4等のコンテナ内に含む動画像データを記憶するようにしてもよい。
形態素辞書記憶部122は、音声認識された文字列に対して形態素解析を行う際に用いる形態素辞書を記憶する。形態素辞書には、予め一般的な語句が格納されている。一般的な語句としては、例えば、「コンピュータ」や「技術」といった単語が挙げられる。
文章データ記憶部123は、音声認識された文字列に対して形態素解析が行われて生成された複数の単語ブロックを有する文章データを記憶する。なお、文章データ記憶部123は、複数の音声認識エンジンを用いて音声認識を行った場合、それぞれの音声認識エンジンに対応する文章データを記憶する。また、文章データ記憶部123は、ユーザによる単語ブロックの修正候補の選択や、単語ブロックに対して入力された修正内容に基づいて更新される。
資料情報記憶部124は、端末装置10から受信した会議の資料等を記憶する。会議の資料は、例えば、会議における配布文書や、プロジェクタ等を用いて表示した資料である。これらの資料は、例えば、会議における発話内容を類推することができる文章を含むものである。また、資料情報記憶部124は、これらの資料から抽出した、単語の読み(音素)を含む単語リストを記憶する。
修正履歴DB125は、過去の文章データの修正内容を記憶する。修正履歴DB125は、例えば、修正前と修正後の単語ブロックについて、文字および音素を対応付けて記憶する。なお、資料情報記憶部124および修正履歴DB125は、修正に応じて内容が変化する動的辞書の一例である。
同音異義語リスト記憶部126は、同音異義語のリストを記憶する。同音異義語リスト記憶部126は、例えば、「いどう」という読みに対して、「移動」、「異動」、「異同」といった複数の単語が同音異義語として対応付けて記憶されている。
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。
制御部130は、音声認識部131と、生成部132と、受付部133と、特定部134と、提示部135と、表示制御部136と、再生制御部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
音声認識部131は、音声データ記憶部121に記憶された音声データに対して音声認識を行って、文字列データを生成する。なお、音声認識部131は、複数の音声認識エンジンを持ち、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えば、AmiVoice(登録商標)エンジン等の各種の音声認識エンジンを用いることができる。また、音声認識部131は、音声認識エンジンとして、通信部110およびネットワークNを介して、音声認識API(Application Programming Interface)を提供するサーバ等を利用してもよい。なお、文字列データには、例えば、音声認識した単語(文字列)ごとにスタートタイム、エンドタイム、読み、および、認識結果(漢字やカタカナ等を含む。)が含まれる。音声認識部131は、生成した文字列データを生成部132に出力する。
生成部132は、音声認識部131から文字列データが入力されると、形態素辞書記憶部122を参照し、文字列データに対して形態素解析を行い、複数の単語ブロックに分割した文章データを生成する。なお、文章データには、単語ブロックごとに、文字列データに基づくスタートタイム、エンドタイム、読み、および、認識結果(漢字やカタカナ等を含む。)が含まれる。生成部132は、生成した文章データを文章データ記憶部123に記憶する。
受付部133は、ネットワークNおよび通信部110を介して、端末装置10から編集の開始、編集画面におけるスクロール操作、編集内容の入力・選択・決定などの入力操作等の各種指示を受信する。受付部133は、端末装置10から各種指示を受信すると、受信した指示を特定部134に出力する。
例えば、受付部133は、編集画面において、スクロールバーなどの操作によるスクロール指示を受け付ける。また、受付部133は、編集画面において、複数の単語ブロックそれぞれの修正指示を受け付ける。例えば、受付部133は、編集画面において、所定の単語ブロックに対応する修正候補が表示されている場合、修正候補の選択を受け付ける。また、受付部133は、これらの修正候補が表示されている場合、ユーザから文字の修正を受け付けてもよい。
特定部134は、受付部133が受信した各種指示の内容を特定する。例えば、特定部134は、編集を開始する開始指示を特定し、特定した開始指示を表示制御部136へ出力する。また、特定部134は、スクロールバーの操作によるスクロール指示を特定し、特定したスクロール指示を表示制御部136へ出力する。
また、特定部134は、複数の単語ブロックそれぞれの修正指示を特定する。特定部134は、受け付けた修正候補または修正の内容に基づいて、文章データ記憶部123の文章データを更新する。
具体的には、特定部134は、修正指示により修正を行う修正対象の単語ブロックを特定する。例えば、特定部134は、編集画面において所定の位置(右上や左上など)にある単語ブロックを修正対象の単語ブロックとして特定する。また、特定部134は、選択操作などが行われた単語ブロックを修正対象の単語ブロックとして特定してもよい。
次いで、特定部134は、特定した修正対象の単語ブロックを提示部135および表示制御部136に出力する。これにより、編集画面において、修正対象の単語ブロックに対応する修正候補が表示される。次いで、特定部134は、修正候補の選択内容や、ユーザからの文字の修正内容を特定し、特定した内容をもとに文章データ記憶部123の文章データを更新する。
また、特定部134は、ユーザからの文字の修正内容が音声入力で行われた場合、入力された音声を音声認識部131に出力して音声認識結果を取得する。このように、特定部134は、受付部133が音声入力を受け付けた場合、入力された音声をもとに、修正対象の単語ブロックに関する修正指示を特定してもよい。
また、特定部134は、文章データを更新すると、修正対象の単語ブロックが文章データの最後の単語ブロックであるか否かを判定する。特定部134は、最後の単語ブロックでないと判定した場合には、引き続き各種指示を受け付けて編集画面での編集作業を継続させる。また、特定部134は、最後の単語ブロックであると判定した場合には、編集の終了を表示制御部136に通知する。編集終了の通知を受けた表示制御部136は、編集中の文章データの編集が終了した旨を編集画面に表示して処理を終了する。
提示部135は、特定部134から修正対象の単語ブロックが入力されると、単語ブロックの修正候補をソースから生成する。このとき、提示部135は、ソースとして、文章データ記憶部123、資料情報記憶部124、修正履歴DB125および同音異義語リスト記憶部126を参照する。なお、修正対象の単語ブロックは、予め修正対象とされた単語ブロックの前後にある単語ブロックを含めた一連の単語ブロックであってもよい。
提示部135は、修正候補の生成では、例えば、資料情報記憶部124に記憶された会議の資料および単語リストに基づいて、音素(読み)が近い単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、修正履歴DB125に記憶された過去の文章データの修正内容に基づいて、文字が一致している単語、および、音素が一致している単語のうち、少なくとも一方の単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、文章データ記憶部123に記憶された2番手、3番手の音声認識エンジンで認識された文章データに基づいて、修正対象の単語ブロックに対応する単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、同音異義語リスト記憶部126に記憶された同音異義語のリストに基づいて、同音異義語の単語を修正候補とする。
提示部135は、生成した複数の修正候補について、例えば、読み(音素)に対応する文字列が近似する修正候補から順に提示するように表示順を決定する。また、提示部135は、生成した複数の修正候補について、例えば、統計的に上位に来る、つまり正解可能性が高い修正候補から順に提示するように表示順を決定するようにしてもよい。さらに、提示部135は、生成した複数の修正候補について、例えば、複数のソースから生成された修正候補が重複する場合には、当該修正候補の正解可能性が高いとして上位に表示したり、重要度に応じた色分けを行うようにしてもよい。提示部135は、生成した複数の修正候補、および、決定した表示順を表示制御部136に出力する。
表示制御部136は、受付部133から編集の開始指示が入力されると、文章データ記憶部123を読み出し、編集対象となる所定数の単語ブロックを文章の記述順に並べた編集領域を含む、文章データの編集画面を生成する。表示制御部136は、通信部110およびネットワークNを介して、生成した編集画面を表示データ14aとして端末装置10に送信する。表示制御部136は、編集画面において、音声再生および単語ブロックの表示を開始する。このとき、表示制御部136は、所定数の単語ブロックを文章の記述順に並べた編集領域内に含まれる単語ブロックの先頭から末尾に対応する音声再生区間を設定する。次いで、表示制御部136は、設定した音声再生区間を再生制御部137に出力する。
また、表示制御部136は、編集画面において、編集領域に表示される各単語ブロックよりも広い範囲、つまり時間的に前後の範囲に含まれる文字列を、編集領域と異なる領域(前表示領域、後表示領域)に表示するようにしてもよい。
また、表示制御部136は、編集画面におけるスクロールバーなどの操作によって、特定部134よりスクロール指示が入力されると、スクロール指示に基づいて編集画面に表示された単語ブロック各々を文章の記述方向に沿ってシフトする。
例えば、表示制御部136は、スクロールバーの進み操作による、文章の記述方向の順方向へ進ませるスクロール指示である場合、文章の記述方向において進む向きに単語ブロック各々をシフトする。また、表示制御部136は、スクロールバーの戻し操作による、文章の記述方向の逆方向へ戻すスクロール指示である場合、文章の記述方向において巻き戻す向きに単語ブロック各々をシフトする。次いで、表示制御部136は、シフト後の編集領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部137に出力する。すなわち、表示制御部136は、編集領域内の文章区間の音声を再生するように、再生制御部137に指示する。
また、表示制御部136は、提示部135から複数の修正候補および表示順が入力されると、編集画面において、例えば、修正対象の単語ブロックの周囲に、表示順に応じて複数の修正候補を表示する。このとき、表示制御部136は、修正対象の単語ブロックの周囲において、文章の記述方向を避けた位置に修正候補を表示する。
また、表示制御部136は、修正候補の文字数に基づいて、単語ブロックの周囲に配置する修正候補の位置を決めてもよい。例えば、表示制御部136は、修正候補の文字数が所定数以上であり、表示に要する幅が長くなる場合には、単語ブロックの上下や、編集画面の縁より遠い方向を配置位置と決める。また、表示制御部136は、修正候補の文字数が所定数以下であり、表示に要する幅が短くて済む場合には、単語ブロックに対して編集画面の縁に近い方向を配置位置と決める。
また、表示制御部136は、修正候補の正解可能性およびソースに応じて、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、表示制御部136は、同じソースから生成された修正候補について、共通の表示態様、例えば同じ表示色とする。
また、表示制御部136は、修正候補を提示する場合に、修正候補がどの単語ブロックに対応するのかが判別可能なように、例えば、修正対象の単語ブロックの前後などの単語ブロックの境界に線を表示する。このとき、表示制御部136は、例えば、修正候補を囲む枠を、対応する単語ブロックの境界線まで描画する。
再生制御部137は、表示制御部136から音声再生区間が入力されると、音声データ記憶部121を参照し、音声再生区間、つまり編集領域内の文章区間の音声データを、通信部110およびネットワークNを介して、端末装置10に送信する。このとき、再生制御部137は、編集領域内の文章区間(編集箇所を含む区間)の音声データを繰り返し再生するように制御する。なお、再生制御部137は、編集画面の前表示領域、後表示領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声データを通信部110およびネットワークNを介して、端末装置10に送信するようにしてもよい。また、再生制御部137は、ある文章区間の再生中に、新たな文章区間が入力されると、再生中の文章区間の最後まで再生してから、新たな文章区間の最初から音声を再生するように制御する。
通信部11は、通信部110と同様、ネットワークNを介して、情報処理装置100と無線等で接続され、情報処理装置100との間で情報の通信を司る通信インタフェースである。例えば、通信部11は、会議の資料および音声データと、編集情報とを情報処理装置100に送信する。また、通信部11は、編集画面等に関する表示データ14aおよび編集箇所を含む区間の音声データを情報処理装置100より受信する。
操作部12は、端末装置10のユーザにおける各種操作を受け付ける入力デバイスなどであり、受け付けた各種操作を制御部13に通知する。例えば、操作部12は、表示部15に重畳して配置されたタッチパネルであり、ユーザのタッチ操作を受け付ける。
制御部13は、通信処理部13aと、表示処理部13bとを有し、端末装置10の各種動作を制御する。通信処理部13aは、通信部11における通信処理を制御する。例えば、通信処理部13aは、会議の資料および音声データと、編集情報とを通信部11を介して情報処理装置100に送信する。また、通信処理部13aは、通信部11を介して情報処理装置100より受信した、編集画面等に関する表示データ14aおよび編集箇所を含む区間の音声データを記憶部14に格納する。
表示処理部13bは、表示部15における表示処理を制御する。例えば、表示処理部13bは、記憶部14に格納された表示データ14aを読み出し、表示部15に表示する。これにより、端末装置10において、表示部15には、編集画面が表示される。また、表示処理部13bは、記憶部14に格納された音声データを読み出し、スピーカ等の音声出力装置(図示しない)を介して音声再生する。これにより、端末装置10では、文章区間の音声が再生される。また、表示処理部13bは、編集画面において、操作部12より受け付けた各種操作を編集情報とし、通信部11を介して情報処理装置100に通知する。
記憶部14は、端末装置10における記憶装置であり、表示データ14a、音声データ、会議の資料などの各種情報を記憶する。記憶部14には、例えばフラッシュメモリ等の半導体メモリ素子を採用できる。表示部15は、端末装置10における表示装置であり、例えばLCD(Liquid Crystal Display)などの採用できる。
次に、編集画面に関する情報処理装置100の動作を詳細に説明する。図3は、情報処理装置100の動作例を示すフローチャートである。
図3に示すように、処理が開始されると、音声認識部131は、音声データ記憶部121に記憶された音声データに対して音声認識を行って、文字列データを生成する。音声認識部131は、生成した文字列データを生成部132に出力する。生成部132は、形態素辞書記憶部122を参照して、音声認識部131から入力された文字列データを形態素解析し、文字列データを単語ブロックに分割した文章データを生成する(S1)。生成部132は、生成した文章データを文章データ記憶部123に記憶する。
特定部134は、端末装置10からの開始指示を特定すると、文章データの編集画面を生成する指示を表示制御部136に出力する。表示制御部136は、受付部133から編集画面の生成指示が入力されると、文章データの編集画面を生成する。表示制御部136は、生成した編集画面を表示データ14aとして端末装置10に送信し、端末装置10に編集画面を表示させる。表示制御部136は、編集画面において、音声再生および編集領域の表示を開始する(S2)。
図4は、編集画面の一例を示す説明図である。図4に示すように、編集画面200は、映像表示領域210、編集領域220、前表示領域221、後表示領域222、スクロールバー223、音声入力指示ボタン224およびキー入力領域230を含む。映像表示領域210は、音声再生に関する音声データ、映像データなどの表示を行う領域である。
編集領域220は、編集対象となる所定数の単語ブロック225a〜225fを文章の記述順に並べて表示する領域である。具体的には、編集領域220では、点線矢印で示す文章の記述方向(横並びで右を順方向)に沿って、単語ブロック225a〜225fを並べて表示する。以後の説明では、単語ブロック225a〜h各々について、特に区別しない場合は単語ブロック225と称するものとする。例えば、編集領域220では、所定の単語ブロック225をタッチする選択操作などで、修正対象とする単語ブロック225の選択を受け付ける。
なお、編集領域220において、修正対象とする単語ブロック225は、選択操作が行われたものに限定しない。例えば、右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となることから、編集領域220における所定の位置(例えば右上)に表示された単語ブロック225cを修正対象としてもよい。逆に、左手での片手操作では、画面左側が快適にタッチ操作を行える範囲となることから、編集領域220における所定の位置(例えば左上)に表示された単語ブロック225aを修正対象としてもよい。
また、本実施形態では、記述方向が横書きの場合を例示しているが、縦書きであってもよいことは言うまでもないことである。また、本実施形態では、日本語での表示例を提示しているが、言語は日本語に限定しない。また、言語によっては、記述方向を逆向き(横並びで左を順方向)としてもよい。
前表示領域221は、編集領域220よりも前の文章を表示する領域である。後表示領域222は、編集領域220よりも後の文章を表示する領域である。スクロールバー223は、指Fなどによるタッチ操作でのスクロール指示を受け付ける領域である。例えば、スクロールバー223では、上向きの操作を戻し操作として受け付け、下向きの操作を進み操作として受け付ける。
音声入力指示ボタン224は、マイク(図示しない)などによる音声入力を受け付ける操作ボタンである。例えば、端末装置10は、音声入力指示ボタン224の操作を受け付けることで、マイクからの音声入力を開始する。
キー入力領域230は、各種入力キーを表示する領域である。キー入力領域230では、指Fなどによる入力キーのタッチ操作により、文字等の入力を受け付ける。
図3に戻り、S2に次いで、受付部133は、端末装置10における操作指示を受け付ける(S3)。次いで、特定部134は、受付部133が受け付けた操作指示を特定し、操作内容の判定を行う(S4)。具体的には、特定部134は、スクロールバー223の「スクロール操作」、単語ブロック225を選択する「選択操作」、音声入力指示ボタン224の操作による「音声入力」、または、編集が終了したことを指示する「編集終了」のいずれの指示であるかを判定する。
S4において「スクロール操作」である場合、特定部134は、スクロールバー223におけるスクロール指示を表示制御部136へ出力する。次いで、表示制御部136は、スクロール指示に基づいて編集画面200に表示された単語ブロック225各々を文章の記述方向に沿ってシフトする。次いで、表示制御部136は、シフト後の編集領域220内に含まれる各単語ブロック225に基づいて、音声再生区間を更新し(S6)、更新した音声再生区間を再生制御部137に出力する。
図5は、編集画面200の一例を示す説明図である。具体的には、図5では、図4の編集画面200において、スクロールバー223における上向きの戻し操作が行われたシフト後の状態を例示している。図5に示すように、スクロール指示(戻し操作)によるシフト後の編集画面200では、単語ブロック225各々が文章の記述方向において巻き戻され、単語ブロック225c〜225iが表示されている。例えば、画面右上には、図4において編集領域220の左端にあった単語ブロック225dが表示されている。これにより、例えば右手での片手操作では、画面右側が快適にタッチ操作を行える範囲となることから、単語ブロック225dに関する操作を容易に行うことが可能となる。
S4において「選択操作」である場合、提示部135は、修正対象の単語ブロック225の修正候補をソースから生成する(S7)。次いで、表示制御部136は、提示部135が生成した修正候補を、修正対象の単語ブロック225の周囲に表示して提示する(S8)。
図6は、編集画面200の一例を示す説明図であり、より具体的には、単語ブロック225cを修正対象とした場合の、修正候補の表示を例示する図である。図6に示すように、表示制御部136は、編集領域220の右上隅における修正対象の単語ブロック225cの周囲に修正候補226a〜226cを表示する。以後の説明では、修正候補226a〜226d各々について、特に区別しない場合は修正候補226と称するものとする。
ここで、表示制御部136は、修正対象の単語ブロック225cの周囲(方向a〜h)において、文章の記述方向(方向g)を避けた位置に修正候補226を表示する。なお、単語ブロック225cは右端であることから、方向cは、文章の記述方向から除かれるものとする。これにより、単語ブロック225cに対し、記述方向において前の単語ブロック225bが、修正候補226に隠されることなく、容易に確認できる。
また、表示制御部136は、修正候補226の文字数に基づいて、単語ブロック225の周囲に配置する修正候補226の位置を決める。例えば、表示制御部136は、文字数が所定数以下であり、表示に要する幅が短くて済む修正候補226cを、単語ブロック225cに対して編集画面200の縁に近い側に配置する。また、表示制御部136は、文字数が所定数以上であり、表示に要する幅が長くなる修正候補226a、226b、226dを、単語ブロック225cの上下(方向a、e、h)に配置する。これにより、表示制御部136は、修正候補226各々を、編集画面200内に収まるように表示することができる。
次いで、受付部133は、編集画面200における修正操作を受け付ける(S9)。特定部134は、受付部133が受け付けた修正操作を特定し、特定した内容をもとに文章データ記憶部123の文章データを更新する。
S4において「音声入力」である場合、特定部134は、音声認識部131により入力音声の音声認識を行う(S10)。次いで、表示制御部136は、音声認識結果を修正候補226として単語ブロック225の周囲に表示して提示し(S11)、S9へ処理を進める。
S4において「編集終了」である場合、表示制御部136は、編集中の文章データの編集が終了した旨を編集画面200に表示する。次いで、制御部130は、文章データ記憶部123の内容を編集結果としてファイルなどにデータ保存し(S12)、処理を終了する。
なお、図4〜6の編集画面200では右手用の画面例を例示したが、編集画面200は、左手用の画面であってもよい。この右手用または左手用の編集画面200については、設定により表示を切り替えてもよい。図7〜9は、編集画面200の一例を示す説明図であり、より具体的には左手用の編集画面200を例示する図である。
図7に示すように、左手用の編集画面200では、左手での片手操作において、画面左側が快適にタッチ操作を行える範囲となることから、スクロールバー223などが左側に配置される。そして、図8に示すように、画面左側に配置されたスクロールバー223を操作することで、編集領域220における単語ブロック225をシフトすることができる。また、図9に示すように、画面左隅における修正対象の単語ブロック225cの周囲に、修正候補226a〜226cを表示してもよい。このとき、修正対象の単語ブロック225cの周囲(方向a〜h)において、文章の記述方向(方向c)を避けた位置に修正候補226を表示する。これにより、単語ブロック225cに対し、記述方向において後の単語ブロック225dが、修正候補226に隠されることなく、容易に確認できる。
以上のように、情報処理装置100の表示制御部136は、音声認識された文字列から形態素解析を用いて生成された単語ブロック225各々を並べた文章の編集画面200を生成し、タッチ操作可能な端末装置10に表示する。また、表示制御部136は、文章をスクロールするスクロール指示を受け付けた場合、スクロール指示に基づいて編集画面200に表示された単語ブロック225各々を文章の記述方向に沿ってシフトする。これにより、例えば端末装置10を右手で片手操作する場合、タッチ操作を快適に行える画面右側などに所定の単語ブロック225をシフトさせることができ、単語ブロック225の修正をしやすくすることができる。
また、スクロール指示は、編集画面200に表示されたスクロールバー223における進み操作、または、戻し操作である。表示制御部136は、進み操作である場合、編集画面200における文章の記述方向において進む向きに単語ブロック225各々をシフトする。また、表示制御部136は、戻し操作である場合、編集画面200における文章の記述方向において巻き戻す向きに単語ブロック225各々をシフトする。これにより、ユーザは、スクロールバー223での操作により、文章の記述方向の進む向き、または、巻き戻す向きに単語ブロック225各々をシフトさせることができる。
また、表示制御部136は、編集画面200の所定位置(例えば右上や左上)に表示される単語ブロック225を修正対象の単語ブロック225とする。これにより、例えば、端末装置10を右手で片手操作する場合には、タッチ操作を快適に行える編集画面200の右上にある単語ブロック225を修正対象の単語ブロックとすることができる。
また、情報処理装置100の受付部133は、編集画面200において音声入力を受け付けた場合に、受け付けた音声入力を修正対象の単語ブロック225に関する修正指示とする。これにより、編集画面200において音声入力を行うことで、修正対象の単語ブロック225に関する修正指示を直接入力することができ、修正を行う単語ブロック225の選択などの操作を省き、入力操作を簡便に行うことができる。
また、表示制御部136は、編集画面200において、単語ブロック225に関する修正候補226を単語ブロック225の周囲に表示する場合、文章の記述方向(例えば方向c、g)を避けた位置に修正候補226を表示する。これにより、編集画面200では、修正候補226により修正を行う単語ブロック225に対し、記述方向に並んで表示される他の単語ブロック225が、修正候補226に隠されることなく、容易に確認できる。
また、表示制御部136は、修正候補226の文字数に基づいて、単語ブロック225の周囲に配置する修正候補226の位置を決める。例えば、表示制御部136は、修正候補226の文字数が所定数以上であり、表示に要する幅が長くなる修正候補226を、単語ブロック225の上下や、編集画面200の縁より遠い方向に配置する。また、表示制御部136は、修正候補226の文字数が所定数以下であり、表示に要する幅が短くて済む修正候補226を、単語ブロック225に対して編集画面200の縁に近い側に配置する。これにより、情報処理装置100は、修正候補226各々が編集画面200内に収まるように表示することができる。
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置100の提示部135と表示制御部136とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。
さらに、各装置で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図10は、プログラムを実行するコンピュータの一例を示す図である。
図10に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、データ入力を受け付ける入力装置302と、表示装置303とを有する。また、コンピュータ300は、プログラム304aを記憶する記憶装置304と、各種装置と接続するためのインタフェース装置305とを有する。プログラム304aは、上記の実施形態で説明した音声認識部131、132、受付部133、特定部134、提示部135、表示制御部136および再生制御部137に関する各種処理を実行するためのプログラムである。すなわち、プログラム304aは、編集プログラムの一例である。
また、コンピュータ300は、端末装置10や他の情報処理装置等と有線または無線により接続するための通信装置306と、各種情報を一時記憶するRAM307とを有する。また、コンピュータ300の各部(301〜308)は、バス309に接続される。
CPU301は、記憶装置304に記憶されたプログラム304aを読み出して、RAM307に展開して実行することで、各種の処理を行う。これにより、プログラム304aは、コンピュータ300を図2に示した音声認識部131、生成部132、受付部133、特定部134、提示部135、表示制御部136および再生制御部137として機能させることができる。
入力装置302は、例えば、コンピュータ300の管理者から操作情報等の各種情報の入力を受け付ける。表示装置303は、例えば、コンピュータ300の管理者に対して表示画面等の各種画面を表示する。インタフェース装置305は、例えば印刷装置等が接続される。通信装置306は、例えば、図2に示した通信部110と同様の機能を有しネットワークNと接続され、端末装置10および他の情報処理装置と各種情報をやりとりする。
なお、上記のプログラム304aは、記憶装置304に記憶されていなくてもよい。例えば、コンピュータ300が読み取り可能な記憶媒体に記憶されたプログラム304aを、コンピュータ300が読み出して実行するようにしてもよい。コンピュータ300が読み取り可能な記憶媒体は、例えば、CD−ROMやDVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム304aを記憶させておき、コンピュータ300がこれらからプログラム304aを読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータに実行させることを特徴とする編集プログラム。
(付記2)前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記1に記載の編集プログラム。
(付記3)前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記1または2に記載の編集プログラム。
(付記4)音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータに実行させる、
ことを特徴とする付記3に記載の編集プログラム。
(付記5)前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記1乃至4のいずれか一に記載の編集プログラム。
(付記6)前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記5に記載の編集プログラム。
(付記7)音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
処理をコンピュータが実行することを特徴とする編集方法。
(付記8)前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記7に記載の編集方法。
(付記9)前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記7または8に記載の編集方法。
(付記10)音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータが実行する、
ことを特徴とする付記9に記載の編集方法。
(付記11)前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記7乃至10のいずれか一に記載の編集方法。
(付記12)前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記11に記載の編集方法。
(付記13)音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する表示部と、
前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする制御部と、
を有することを特徴とする編集装置。
(付記14)前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
前記制御部は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
ことを特徴とする付記13に記載の編集装置。
(付記15)前記表示部は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
ことを特徴とする付記13または14に記載の編集装置。
(付記16)前記制御部は、音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする、
ことを特徴とする付記15に記載の編集装置。
(付記17)前記表示部は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
ことを特徴とする付記13乃至15のいずれか一に記載の編集装置。
(付記18)前記表示部は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
ことを特徴とする付記17に記載の編集装置。
1…情報処理システム
10…端末装置
11…通信部
12…操作部
13…制御部
13a…通信処理部
13b…表示処理部
14…記憶部
14a…表示データ
15…表示部
100…情報処理装置
110…通信部
120…記憶部
121…音声データ記憶部
122…形態素辞書記憶部
123…文章データ記憶部
124…資料情報記憶部
125…修正履歴DB
126…同音異義語リスト記憶部
130…制御部
131…音声認識部
132…生成部
133…受付部
134…特定部
135…提示部
136…表示制御部
137…再生制御部
200…編集画面
210…映像表示領域
220…編集領域
221…前表示領域
222…後表示領域
223…スクロールバー
224…音声入力指示ボタン
225、225a〜225i…単語ブロック
226、226a〜226d…修正候補
230…キー入力領域
300…コンピュータ
301…CPU
302…入力装置
303…表示装置
304…記憶装置
304a…プログラム
305…インタフェース装置
306…通信装置
307…RAM
309…バス
a〜h…方向
F…指
N…ネットワーク

Claims (8)

  1. 音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
    前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
    処理をコンピュータに実行させることを特徴とする編集プログラム。
  2. 前記スクロール指示は、前記編集画面に表示されたスクロールバーにおける進み操作、または、戻し操作であり、
    前記シフトする処理は、前記進み操作である場合、前記文章の記述方向において進む向きに前記単語ブロック各々をシフトし、前記戻し操作である場合、前記文章の記述方向において巻き戻す向きに前記単語ブロック各々をシフトする、
    ことを特徴とする請求項1に記載の編集プログラム。
  3. 前記表示する処理は、前記編集画面の所定位置に表示される前記単語ブロックを修正対象の単語ブロックとする、
    ことを特徴とする請求項1または2に記載の編集プログラム。
  4. 音声入力を受け付けた場合に、当該音声入力を前記修正対象の単語ブロックに関する修正指示とする処理をさらにコンピュータに実行させる、
    ことを特徴とする請求項3に記載の編集プログラム。
  5. 前記表示する処理は、前記単語ブロックに関する修正候補を当該単語ブロックの周囲に表示する場合、前記文章の記述方向を避けた位置に前記修正候補を表示する、
    ことを特徴とする請求項1乃至4のいずれか一項に記載の編集プログラム。
  6. 前記表示する処理は、前記修正候補の文字数に基づいて、前記単語ブロックの周囲に配置する前記修正候補の位置を決める、
    ことを特徴とする請求項5に記載の編集プログラム。
  7. 音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示し、
    前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする、
    処理をコンピュータが実行することを特徴とする編集方法。
  8. 音声認識された文字列から形態素解析を用いて生成された単語ブロック各々を並べた文章の編集画面をタッチ操作可能な端末に表示する表示部と、
    前記文章をスクロールするスクロール指示を受け付けた場合、当該スクロール指示に基づいて前記編集画面に表示された前記単語ブロック各々を前記文章の記述方向に沿ってシフトする制御部と、
    を有することを特徴とする編集装置。
JP2018185697A 2018-09-28 2018-09-28 編集プログラム、編集方法および編集装置 Active JP7119857B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018185697A JP7119857B2 (ja) 2018-09-28 2018-09-28 編集プログラム、編集方法および編集装置
US16/569,769 US11238867B2 (en) 2018-09-28 2019-09-13 Editing of word blocks generated by morphological analysis on a character string obtained by speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018185697A JP7119857B2 (ja) 2018-09-28 2018-09-28 編集プログラム、編集方法および編集装置

Publications (2)

Publication Number Publication Date
JP2020057072A true JP2020057072A (ja) 2020-04-09
JP7119857B2 JP7119857B2 (ja) 2022-08-17

Family

ID=69946403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018185697A Active JP7119857B2 (ja) 2018-09-28 2018-09-28 編集プログラム、編集方法および編集装置

Country Status (2)

Country Link
US (1) US11238867B2 (ja)
JP (1) JP7119857B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022073807A (ja) * 2020-11-02 2022-05-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140304655A1 (en) * 2013-04-05 2014-10-09 Sony Corporation Information processing apparatus, information processing method, and program
JP2015203835A (ja) * 2014-04-16 2015-11-16 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
WO2016084481A1 (ja) * 2014-11-26 2016-06-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2017058333A1 (en) * 2015-09-29 2017-04-06 Apple Inc. Device and method for providing handwriting support in document editing
JP2017168947A (ja) * 2016-03-15 2017-09-21 ヤマハ株式会社 入力支援装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190436A (ja) 1996-01-12 1997-07-22 Toshiba Corp 情報処理装置及び範囲指定方法
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
JP2009217665A (ja) 2008-03-12 2009-09-24 Sharp Corp 文章編集装置
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
WO2012161359A1 (ko) * 2011-05-24 2012-11-29 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US20160048318A1 (en) * 2014-08-15 2016-02-18 Microsoft Technology Licensing, Llc Detecting selection of digital ink
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
JP6552999B2 (ja) 2016-07-01 2019-07-31 日本電信電話株式会社 テキスト補正装置、テキスト補正方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140304655A1 (en) * 2013-04-05 2014-10-09 Sony Corporation Information processing apparatus, information processing method, and program
JP2014203288A (ja) * 2013-04-05 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2015203835A (ja) * 2014-04-16 2015-11-16 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
WO2016084481A1 (ja) * 2014-11-26 2016-06-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2017058333A1 (en) * 2015-09-29 2017-04-06 Apple Inc. Device and method for providing handwriting support in document editing
JP2017168947A (ja) * 2016-03-15 2017-09-21 ヤマハ株式会社 入力支援装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022073807A (ja) * 2020-11-02 2022-05-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

Also Published As

Publication number Publication date
US11238867B2 (en) 2022-02-01
JP7119857B2 (ja) 2022-08-17
US20200105270A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP2010085727A (ja) 辞書機能を備えた電子装置およびプログラム
US11182553B2 (en) Method, program, and information processing apparatus for presenting correction candidates in voice input system
JP7119857B2 (ja) 編集プログラム、編集方法および編集装置
JP2014067148A (ja) 手書き文書処理装置、方法およびプログラム
JP6949075B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP2007219218A (ja) 語学学習用電子機器および訳文再生方法
JP2020017885A (ja) 情報処理装置およびプログラム
JP2020140374A (ja) 電子図書再生装置及び電子図書再生プログラム
JP7159756B2 (ja) 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP2001343989A (ja) 朗読装置
JP2016151856A (ja) ノート作成支援装置、ノート作成支援方法及びノート作成支援プログラム
JP2007219219A (ja) 語学学習用電子機器および学習用文章リスト作成方法
JP7481863B2 (ja) 音声認識誤り修正支援装置、プログラムおよび方法
JP2019175245A (ja) 音声合成装置
KR101125358B1 (ko) 컴퓨터를 이용한 멀티미디어 프레젠테이션 운용장치 및 멀티미디어 프레젠테이션의 분할된 제어화면 배치방법
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP6651563B2 (ja) 電子図書閲覧プログラム及び電子図書閲覧装置
JP5147008B2 (ja) 電子機器、表示制御方法、およびプログラム
JP2008171208A (ja) 音声出力装置及び音声出力プログラム
JP2009200959A (ja) データ編集装置、データ編集方法、プログラム及び記憶媒体
JP2016170218A (ja) 音声出力装置およびプログラム
JP2003308172A (ja) プレゼンテーションシステム、音声再生システムおよびワンタッチ操作システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220718

R150 Certificate of patent or registration of utility model

Ref document number: 7119857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150