JP6416309B1

JP6416309B1 - 端末装置及びプログラム

Info

Publication number: JP6416309B1
Application number: JP2017078975A
Authority: JP
Inventors: 滋村田; 雄一大坪
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2018-10-31
Anticipated expiration: 2037-04-12
Also published as: JP2018180883A

Abstract

【課題】より使い勝手の良い端末装置およびプログラムを提供すること。【解決手段】本開示の第一形態は、入力音声の認識結果の確定前に、前記入力音声の認識結果を、テキストとして第一表示エリアに表示する共に、音声認識用の単語辞書を構成する単語単位で区切って第二表示エリアに表示する表示部と、ユーザ操作に応答して、前記第二表示エリア内の複数の単語から少なくとも一つを指定する第一入力部と、前記第一入力部により指定された単語の編集結果に従って、前記第一表示エリア内のテキストと、前記第二表示エリア内の単語との表示を変更する制御部と、を備えた端末装置に向けられる。【選択図】図１

Description

本開示は、入力音声の認識結果を処理するための端末装置及びプログラムに関する。

従来、ユーザが認識誤りを選択操作により効率的に訂正することが可能な「音声訂正」という音声入力インタフェース機能が提案されている。音声訂正では、ユーザが音声入力を開始すると、認識結果を単語ごとに区切った表示と、区切られた各区間に対する他候補が発話の最中から次々と画面に描画される。

緒方他、「音声訂正：選択操作による効率的な誤り訂正が可能な音声入力インタフェース」、情報処理学会論文誌、Ｊａｎ．２００７、Ｖｏｌ．４８Ｎｏ．１

本開示の目的は、より使い勝手の良い端末装置およびプログラムを提供することである。

本開示の第一形態は、入力音声の認識結果の確定前に、前記入力音声の認識結果を、音声認識用の単語辞書を構成する単語単位で区切らずにテキストとして第一表示エリアに表示すると共に、前記単語単位で区切って、前記第一表示エリアと同一画面に設けられる第二表示エリアに表示する表示部と、ユーザ操作に応答して、前記第二表示エリア内の複数の単語から少なくとも一つを指定する第一入力部と、前記第一入力部により指定された単語の編集結果に従って、前記第一表示エリア内のテキストと、前記第二表示エリア内の単語との表示を変更する制御部と、を備えた端末装置に向けられる。

本開示の第二形態は、コンピュータに、入力音声の認識結果の確定前に、前記入力音声の認識結果を、音声認識用の単語辞書を構成する単語単位で区切らずにテキストとして第一表示エリアに表示すると共に、前記単語単位で区切って、前記第一表示エリアと同一画面に設けられる第二表示エリアに表示するよう処理する第一ステップと、ユーザ操作に応答して、前記第二表示エリア内の複数の単語から少なくとも一つを指定するよう処理する第二ステップと、前記第二ステップにより指定された単語の編集結果に従って、前記第一表示エリア内のテキストと、前記第二表示エリア内の単語との表示を変更するよう処理する第三ステップと、を実行させるプログラムに向けられる。

本開示によれば、より使い勝手の良い端末装置およびプログラムを提供することが出来る。

本開示の一実施形態に係る端末装置を備えた音声認識システムの構成を示す図図１の端末装置の詳細な構成を示す図メイン画面の初期状態と、音声認識中のメイン画面を示す模式図編集処理用のメイン画面の構成を示す模式図図２の端末装置における編集処理の最初の部分を示すフロー図図２の端末装置における編集処理の二番目の部分を示すフロー図図５ＡのステップＳ００９後のメイン画面を示す模式図図５ＡのステップＳ０１１→Ｓ０１５→Ｓ０１９によるメイン画面の遷移を示す模式図図５Ａ，図５ＢのステップＳ０１１→Ｓ０２１→Ｓ０２３の一連の処理によるメイン画面の遷移を示す模式図図５Ａ，図５ＢのステップＳ０１３→Ｓ０２７の一連の処理によるメイン画面の遷移を示す模式図図５Ａ，図５ＢのステップＳ０１１→Ｓ０３１→Ｓ０３３の一連の処理によるメイン画面の遷移を示す模式図

以下、上記図面を参照して、本開示の一実施形態に係る端末装置１１およびプログラムを詳説する。

＜１．定義＞
いくつかの図面にはｘ軸、ｙ軸が示される。ｘ軸は、本開示では、タッチスクリーン１１７の横方向（左右方向）を示すとする。ｙ軸は、タッチスクリーン１１７の縦方向（上下）を示すとする。

下表１は、以下の説明で使用される頭字語や略語の意味を示す。

＜２．音声認識システム１の全体構成＞
図１は、音声認識システム１の全体構成を示すブロック図である。

音声認識システム１は、端末装置１１を備えている。

端末装置１１は、例えばスマートフォン又は携帯電話であって、音声認識サーバ１３とネットワーク１５を介して双方向データ通信可能に接続される。

より具体的には、端末装置１１は、ユーザによる入力音声の時間波形を表す音声データを、ネットワーク１５に送出する。なお、音声データは、音声の時間波形以外にも、入力音声の特徴量を表すデータであっても良い。

ネットワーク１５は、例えばインターネット回線であって、端末装置１１から送出された音声データを音声認識サーバ１３に伝送する。

音声認識サーバ１３は、例えばサーバ装置であって、ネットワーク１５を介して端末装置１１の音声データを受信して、受信音声データに周知の音声認識を行う。その結果、音声認識サーバ１３は、端末装置１１側での表示等のために、音声認識の結果を文字で表すテキストデータを生成する。なお、テキストデータが表す文字には、一部の記述記号（句点等）が付加される場合もある。

また、本開示で、テキストデータとは、キーボード入力されたものでは無く、音声認識の結果を文字で表すものとする。

音声認識サーバ１３は、自身が生成したテキストデータを、ネットワーク１５を介して端末装置１１に送信する。

なお、音声認識サーバ１３は本開示の要部ではないため、音声認識サーバ１３に関しては、これ以上の説明を控える。

端末装置１１は、ネットワーク１５を介して音声認識サーバ１３からのテキストデータを受信する。端末装置１１は、受信テキストデータを表示する共に、必要に応じて、ユーザ操作に応答して、表示中のテキストデータを編集する。その後、端末装置１１は、ユーザ操作に応答して、表示中のテキストデータを確定する。

以下、端末装置１１におけるテキストデータの表示から確定までの間の一部または全ての処理を編集処理という。

＜３．端末装置１１の詳細な構成＞
端末装置１１は、図２に示すように、音声入力部１１１と、制御部１１３と、送受信部１１５と、タッチスクリーン１１７と、を備えている。

音声入力部１１１は、例えばマイクおよびＡＤＣの組み合わせであって、ユーザの入力音声をＡＤ変換してデジタル信号を生成し、制御部１１３に送信する。

制御部１１３は、例えば、基板上に実装されたマイコン、プログラムメモリ、メインメモリおよびストレージを含む。

ストレージには、本開示では、音声認識用の言語モデルを構成する単語辞書（即ち、音声認識用の単語辞書）が格納される。この単語辞書は、端末装置１１に文字をキーボード入力するためのソフトウェア（ＩＭやＩＭＥと呼ばれることがある）が使用する辞書とは異なる。なお、音声認識結果の他候補（詳細は後述）の表示のために、ＩＭやＩＭＥの辞書の一部が使用されることもある。

制御部１１３において、マイコンは、プログラムメモリに格納されたプログラムを、メインメモリを用いて実行する。これにより、マイコンは、単語辞書を用いたテキストデータの編集処理等を行う。

送受信部１１５は、通信ＩＦと呼ばれてもよく、本開示では、制御部１１３で生成された音声データをネットワーク１５に送出すると共に、ネットワーク１５上を伝送されてきたテキストデータを制御部１１３に転送する。

タッチスクリーン１１７は、タッチパネルがディスプレイに備わったもので、ディスプレイの表示画面をユーザが直接触れることで操作できるディスプレイである。タッチスクリーン１１７は、制御部１１３で生成された画面データに従って画面表示を行う。また、タッチスクリーン１１７は、ユーザ操作に応答して、ユーザの操作位置等を示す情報を生成し制御部１１３に送信する。

＜４．端末装置１１における処理＞
次に、図３，図４をさらに参照して、端末装置１１における処理を説明する。

ユーザは、端末装置１１を操作してプログラムを起動しログインをする。ログイン完了後、制御部１１３は、タッチスクリーン１１７におけるメイン画面Ｓmainの表示内容を初期状態にする（図３左側を参照）。

ユーザが音声認識を行いたい場合、メイン画面Ｓmainに含まれる録音ボタンＢrec をタッチ操作する。これに応じて、タッチスクリーン１１７は、録音ボタンＢrec がタッチ操作されたことを表す情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、メイン画面Ｓmainの下部の表示エリアＡlow （点線枠内を参照）に、音声認識の実行中であることを表示させる（図３右側を参照）。

ユーザは、録音ボタンＢrec をタッチ操作後、音声入力部１１１（図２を参照）向けて話し出す。本開示では、ユーザの入力音声として”けいぶにたいじょう…”が例示される（図３右側の吹き出しＯbal1内を参照）。音声入力部１１１は、自身に入力された音声を表す電気信号を生成して制御部１１３に送信する。

制御部１１３は、話し終わりか、録音ボタンＢrec の再操作を検知すると、話し始めから話し終わりまで（換言すると、録音ボタンＢrec のタッチ操作間）の音声データを生成し、送受信部１１５を介してネットワーク１５に送出する（図１等を参照）。

その後、制御部１１３は、直前に送った音声データの音声認識の結果を文字で表すテキストデータを、音声認識サーバ１３から、ネットワーク１５および送受信部１１５を介して受信する。

制御部１１３は、テキストデータを受け取ると、メイン画面Ｓmainの表示内容を、編集処理用に切り替える。以下、図４を参照して、編集処理用のメイン画面Ｓmainの構成を説明する。

まず、図４左側に示すように、メイン画面Ｓmainの上半分のほぼ全域に、テキスト表示エリアＡtextが設けられる。テキスト表示エリアＡtextは、第一表示エリアと呼んでも良い。このテキスト表示エリアＡtextには、編集対象のテキストデータ（換言すると、確定前のテキストデータ）が表す文字列がそのまま表示される。

本開示では、後述の完了ボタンＢcompのタッチ操作により、編集対象のテキストデータが確定される。未確定の文字列と、確定済の文字列とは、互いに異なる態様で表示されることが好ましい。本開示では、未確定の文字列は、予め定められた色（例えば黄色）で強調されるとする。なお、色は、ユーザ設定により変更可能であっても良い。

テキスト表示エリアＡtextの真下には、好ましい形態として、複数のページボタンＢpage（点線枠内を参照）が横並びで配置される。本開示では、ページという概念が導入されている。テキスト表示エリアＡtext内の文字列のひとまとまりが一ページ分となる。各ページボタンＢpageは、単一のテキスト表示エリアＡtextに表示される文字列に割り当てられる。

あるページボタンＢpageがタッチ操作されると、タッチ操作されたものに割り当てられた文字列をテキスト表示エリアＡtextに表示させる。なお、ページボタンＢpageは本開示の要部では無いため、これ以上の説明は控える。

ページボタンＢpageの真下には単語編集エリアＡeditが設けられる。この単語編集エリアＡeditは、第五表示エリアと呼ばれても良い。この単語編集エリアＡeditには、後述の単語選択エリアＡselw内で選択された単語が編集可能に表示される。単語編集エリアＡeditにおける単語編集の詳細に関しては、第５欄にて詳説する。

単語編集エリアＡeditの例えば右側には、編集ボタンＢeditが配置される。編集ボタンＢeditにはソフトウェアキーボードＫＢを表示させる機能が割り当てられる。

編集ボタンＢeditがタッチ操作されると、メイン画面Ｓmainにおいて単語編集エリアＡeditより下方に、周知のソフトウェアキーボードＫＢを表示させる（図４右側を参照）。

単語編集エリアＡeditの真下には、候補選択エリアＡselc（図４左側の一点鎖線枠内を参照）が設けられる。

候補選択エリアＡselcは、第三表示エリアと呼ばれても良い。候補選択エリアＡselcには、後述の単語選択エリアＡselw内で選択された単語の他候補（競合候補とも呼ばれる）がユーザのタッチ操作により選択可能に表示される。

ここで、他候補がタッチ操作されると、選択された他候補の表示場所が予め定められた場所（候補選択エリアＡselcの左端等）に変更される。これに加えて、テキスト表示エリアＡtext内および単語編集エリアＡedit内において単語選択エリアＡselw内に表示された単語が、選択された他候補に置換される。

候補選択エリアＡselcの左側には、削除ボタンＢdel が配置される。削除ボタンＢdel には、テキスト表示エリアＡtext内および単語選択エリアＡselw内から、単語編集エリアＡeditに表示された単語を削除するという機能が割り当てられる。この時、単語編集エリアＡedit内の単語も削除される。

候補選択エリアＡselcの真下には、単語選択エリアＡselwが設けられる。

単語選択エリアＡselwは、第二表示エリアと呼んでも良い。単語選択エリアＡselwには、編集対象のテキストデータが表す文字列が、音声認識用の単語辞書に登録された単語単位で区切られた状態で表示される。本開示では、単語間にはスペースが挿入され、これによって各単語は隣りの単語と区切られる。また、各単語は、ユーザのタッチ操作により選択可能になっている。

単語選択エリアＡselwの右側には、複数の候補追加ボタンＢaddcが設けられる。各候補追加ボタンＢaddcは、第四表示エリアと呼ばれても良い。

各候補追加ボタンＢaddcには、単語選択エリアＡselw内で選択された単語の隣りに追加することが可能な記述記号（括弧、句読点、疑問符、感嘆符等）の一つが割り当てられると共に表示される。

なお、例えば始め括弧や終わり括弧のように、単語に対する位置が定められている記述記号があるため、記述記号毎に追加すべき位置が定義される。

なお、候補追加ボタンＢaddcの個数によっては、単語選択エリアＡselwの右側のエリアに全ての候補選択ボタンＢaddcが収まらない場合がある。このような場合、タッチスクリーン１１７のスライド操作により、全ての候補選択ボタンＢaddcを表示・選択可能にすることが好ましい。

また、メイン画面Ｓmainの左下隅にはキャンセルボタンＢcancが、その右下隅には完了ボタンＢcompが設けられる。

キャンセルボタンＢcancには、テキスト表示エリアＡtextにおける確定前の文字列をクリアする機能が割り当てられている。

キャンセルボタンＢcancがタッチ操作されると、テキスト表示エリアＡtextにおける確定前の文字列をクリアされるだけでなく、単語編集エリアＡeditに表示されている単語や、単語選択エリアＡselwにおける単語もクリアされる。その結果、メイン画面Ｓmainが初期状態（図６を参照）に戻る。

完了ボタンＢcompには、テキスト表示エリアＡtext内の文字列を確定させる機能が割り当てられている。

完了ボタンＢcompがタッチ操作されると、テキスト表示エリアＡtext内の文字列が確定されると共に、強調表示が解除される。

＜５．端末装置１１における単語編集の詳細＞
次に、図１〜図４に加え、図５Ａ〜図１０を参照して、端末装置１１における単語編集の詳細について説明する。

図５Ａにおいて、制御部１１３は、メイン画面Ｓmainの表示内容を初期状態にし、前述した方法でユーザが入力した音声データを音声認識サーバ１３に送信した後、編集対象のテキストデータを受け取ったか否かを判断する（ステップＳ００１）。

ステップＳ００１でＮＯと判断されると、ステップＳ００１が再度実行される。

それに対し、ステップＳ００１でＹＥＳと判断すると、制御部１１３は、編集対象のテキストデータが表す文字列を、内部に保持する音声認識用の単語辞書に定義された単語単位に区切る（ステップＳ００３）。本開示では、例えば、単語間にスペースを挿入することで、各単語は隣りの単語と区切られる。なお、本開示では、制御部１１３が単語単位に区切るとして説明するが、受信テキストデータが表す文字列自体が音声認識サーバ１３により単語単位で区切られていても良い。この場合、制御部１１３におけるストレージには、音声認識用の単語辞書は格納されていなくとも良い。

次に、制御部１１３は、タッチスクリーン１１７におけるメイン画面Ｓmainの表示内容を編集処理用に切り替えると共に、編集対象のテキストデータが表す文字列をテキスト表示エリア（第一表示エリア）Ａtextに表示する。これと実質上同じタイミングで、制御部１１３は、ステップＳ００３で生成した単語群であって、単語同士がスペースで区切られた単語群を、単語選択エリア（第二表示エリア）Ａselwに表示する（ステップＳ００５）。

ここで、単語選択エリアＡselwにおいて、一つまたは複数の単語は、ユーザのタッチ操作により選択可能になっている。また、テキスト表示エリアＡtextにおいて、未確定の文字列は強調表示される。

次に、制御部１１３は、完了ボタンＢcompがタッチ操作されたか否かを判断する（ステップＳ００７）。タッチスクリーン１１７は、ユーザが完了ボタンＢcompをタッチ操作すると、そのことを示す情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ００７の判断を行う。

ステップＳ００７でＹＥＳと判断すると、制御部１１３は、テキスト表示エリアＡtext内の文字列を確定させると共に、メイン画面Ｓmainの表示内容を初期状態（図６を参照）に復帰させる（ステップＳ００９）。その後、図５Ａ他の処理は終了する。なお、確定された文字列（即ち、テキストデータ）は、端末装置１１のＯＳ等の機能により、電子メールアプリケーション等の他のアプリケーションにて、別のＰＣ１７等に送信される（図１を参照）。なお、確定済のテキストデータのメール送信に関しては、周知であると共に本開示の要部では無いので、これ以上の説明を控える。

なお、図６において、メイン画面Ｓmainの初期状態は、基本的に、図３左側に示すものと同様である。メイン画面Ｓmainのテキスト表示エリアＡtextには、確定後の文字列として”頸部に「帯状疱疹」が確認されました。”が強調無しの状態で表示される。

再度図５Ａを参照する。ステップＳ００７でＮＯと判断すると、制御部１１３は、単語選択エリアＡselwにおいて、一つまたは複数の単語が選択されたか否かを判断する（ステップＳ０１１）。タッチスクリーン１１７は、単語選択エリアＡselwにおいてユーザによりタッチ操作された単語を示す情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ０１１の判断を行う。

ステップＳ０１１でＹＥＳと判断すると、制御部１１３は、選択されているのは一つの単語か否かを判断する（ステップＳ０１３）。

ステップＳ０１３でＹＥＳと判断されると、ステップＳ０１５が実行される。まず、制御部１１３は、タッチ操作された単語と競合する一つまたは複数の他候補（競合候補）を単語辞書から抽出して、メイン画面Ｓmainの候補選択エリアＡselcに表示させる。制御部１１３はさらに、タッチ操作された単語を、単語編集エリアＡeditに表示させると共に、単語選択エリアＡselwにおいてタッチ操作された単語を強調表示する。以上がステップＳ０１５の処理である。

ステップＳ０１１，Ｓ０１３でＮＯと判断するか、ステップＳ０１５の実行後、制御部１１３は、候補選択エリアＡselcにおいて、一つの他候補（競合候補）が選択されたか否かを判断する（ステップＳ０１７）。この時、タッチスクリーン１１７は、候補選択エリアＡselcにおいてユーザにより一つの他候補がタッチ操作されると、第一入力部として機能し、それを指定する情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ０１７の判断を行う。

ステップＳ０１７でＹＥＳと判断すると、制御部１１３は、テキスト表示エリアＡtextに表示された文字列と、単語選択エリアＡselwに表示された単語群とにおいて、今回ユーザにより選択された単語を、ステップＳ０１７で選択された他候補に置換する（ステップＳ０１９）。これが編集処理の一具体例である。また、単語編集エリアＡeditにおいて、選択された競合候補は左端に表示される。

ここで、図７には、ステップＳ０１１→Ｓ０１５→Ｓ０１９の一連の処理によるメイン画面Ｓmainの表示内容の遷移が示される。より具体的には、図７左側にはステップＳ０１１での表示内容が、図７真ん中にはステップＳ０１５での表示内容が、図７右側にはステップＳ０１９での表示内容が示される。

図７左側の例では、テキスト表示エリアＡtextに、”頚部に帯状疱疹が発生しました。”という文字列が表示されている。また、単語選択エリアＡselwには、”頚部に帯状疱疹が発生しました。”と、上記文字列が単語単位で区切られて表示されている。

図７真ん中に示すように、テキスト表示エリアＡtextの表示内容は、図７左側と変わらない。それに対し、単語選択エリアＡselwにおいて”頚部”は、タップ操作され、その結果、強調表示されている。これに伴い、候補選択エリアＡselcには”頚部”の他候補が、単語編集エリアＡeditには”頚部”という単語が表示される。

また、図７右側に示すように、候補選択エリアＡselcにおいて、”頚部”の他候補の一つである”頸部”がタップ操作され、その結果、テキスト表示エリアＡtextおよび単語編集エリアＡeditの表示内容は”頚部”から”頸部”に置換される。これに加え、単語編集エリアＡeditには”頸部”が左端に表示される。

再度図５Ａを参照する。ステップＳ０１７でＮＯと判断するか、ステップＳ０１９の後に、制御部１１３は、複数の候補追加ボタンＢaddcのいずれか一つが選択されたか否かを判断する（図５ＢのステップＳ０２１）。この時、タッチスクリーン１１７は、ユーザにより一つの候補追加ボタンＢaddcがタッチ操作されると、第一入力部として機能し、それを指定する情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ０１７の判断を行う。

ステップＳ０２１でＹＥＳと判断すると、判断部１１３は、タッチ操作によりユーザが選択した候補追加ボタンＢaddcに割り当てられた記述記号を、テキスト表示エリアＡtext内に表示された文字列と、単語選択エリアＡselw内に表示された単語群とにおいて、ユーザがステップＳ０１１で選択した単語の隣りに追加する（ステップＳ０２３）。これが編集処理の別の具体例である。なお、ステップＳ０１３で選択された単語が一つで無い場合には、複数の単語を一つの単語とみなして、制御部１１３はステップＳ０２３の処理を行えばよい。

ここで、図８には、ステップＳ０１１→Ｓ０２１→Ｓ０２３の一連の処理によるメイン画面Ｓmainの表示内容の遷移が示される。より具体的には、図８左側にはステップＳ０１１での表示内容が、図８真ん中にはステップＳ０２１→Ｓ０２３（第一回目のループ）での表示内容が、図８右側にはステップＳ０２１→Ｓ０２３（第二回目のループ）での表示内容が示される。

図８左側の例では、テキスト表示エリアＡtextに、”頚部に帯状疱疹が発生しました。”という文字列が表示されている。また、単語選択エリアＡselwには、”頚部に帯状疱疹が発生しました。”と、上記文字列が単語単位で区切られて表示されている。このうち、ステップＳ０１１では、帯状疱疹という単語が選択されて、単語選択エリアＡselwにおいて強調表示されている。

図８真ん中に示すように、第一回目のループのステップＳ０２１→Ｓ０２３において、スクロール操作等を経て、始め括弧（具体的には「）が割り当てられた候補追加ボタンＢaddcが選択されたとする。その結果、テキスト表示エリアＡtextおよび単語選択エリアＡselwにおいて帯状疱疹の左隣りには始め括弧が挿入される（点線の楕円内を参照）。

図８右側に示すように、第二回目のループのステップＳ０２１→Ｓ０２３において、スクロール操作等を経て、終わり括弧（具体的には」）が割り当てられた候補追加ボタンＢaddcが選択されたとする。その結果、テキスト表示エリアＡtextおよび単語選択エリアＡselwにおいて帯状疱疹の右隣りには終わり括弧が挿入される（点線の楕円内を参照）。

再度図５Ｂを参照する。ステップＳ０２１でＮＯと判断するか、ステップＳ０２３の後に、制御部１１３は、削除ボタンＢdel が操作されたか否かを判断する（ステップＳ０２５）。この時、タッチスクリーン１１７は、第一入力部として機能し、ユーザにより削除ボタンＢdel がタッチ操作されると、それを指定する情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ０２５の判断を行う。

ステップＳ０２５でＹＥＳと判断すると、判断部１１３は、テキスト表示エリアＡtext内に表示された文字列と、単語選択エリアＡselw内に表示された単語群とにおいて、ユーザがステップＳ０１１で選択した単語を削除する。これに加えて、制御部１１３は、単語編集エリアＡeditに表示された単語を消去する（ステップＳ０２７）。これが編集処理のさらに別の具体例である。なお、ステップＳ０１３でＮＯと判断された場合には、複数の単語を一つの単語とみなして、ステップＳ０２７が行われれば良い。

ここで、図９には、ステップＳ０１３→Ｓ０２７の一連の処理によるメイン画面Ｓmainの表示内容の遷移が示される。より具体的には、図８左側にはステップＳ０１３での表示内容が、図８右側にはステップＳ０２７での表示内容が示される。

図９左側の例では、テキスト表示エリアＡtextに、”頚部に帯状疱疹が発生しました。”という文字列が表示されている。また、単語選択エリアＡselwには、”頚部に帯状疱疹が発生しました。”と、上記文字列が単語単位で区切られて表示されている。このうち、ステップＳ０１３でＮＯと判断され、”しました。”という四つの単語が選択されて、単語選択エリアＡselwにおいて個々に強調表示されている。

図９右側に示すように、ステップＳ０２７において、タッチ操作を経て、削除ボタンＢdelが選択されたとする。その結果、テキスト表示エリアＡtextにおける”しました。”の部分および単語選択エリアＡselwにおける”しました。”という四つの単語が削除される（点線の楕円内を参照）。また、単語編集エリアＡeditにおける”しました。”も消去される。

再度、図５Ｂを参照する。ステップＳ０２５でＮＯと判断するか、ステップＳ０２７の後に、制御部１１３は、編集ボタンＢeditが操作されたか否かを判断する（ステップＳ０２９）。この時、タッチスクリーン１１７は、第一入力部として機能し、ユーザにより編集ボタンＢeditがタッチ操作されると、それを指定する情報を制御部１１３に送信する。受信情報に基づき、制御部１１３は、ステップＳ０２９の判断を行う。

ステップＳ０２９でＹＥＳと判断すると、判断部１１３は、前述の通り、メイン画面ＳmainにソフトウェアキーボードＫＢ（図４右側を参照）を表示すると共に、ソフトウェアキーボードＫＢによる単語編集を行う（ステップＳ０３１）。これは編集処理のさらに別の具体例である。

具体的には、第二入力部としてのソフトウェアキーボードＫＢをユーザが操作するたびに、制御部１１３は、ユーザによる操作内容を単語編集エリアＡeditに表示させる。これに加えて、制御部１１３は、テキスト表示エリアＡtextに表示された文字列と、単語選択エリアＡselw内に表示された単語群とにおいて、ステップＳ０１１で選択した単語を、ユーザによる操作内容に変更する。

ステップＳ０３１の単語編集は、ソフトウェアキーボードＫＢ内の完了ボタンが操作されるまで繰り返される（ステップＳ０３３）。そして、ステップＳ０３３でＹＥＳと判断されると、処理はステップＳ００９に戻る。

ここで、図１０には、ステップＳ０１１→Ｓ０３１→Ｓ０３３の一連の処理によるメイン画面Ｓmainの表示内容の遷移が示される。より具体的には、図１０左側にはステップＳ０１１での表示内容が、図１０真ん中にはステップＳ０３１での表示内容が、図１０右側にはステップＳ０３３での表示内容が例示される。

図１０左側には、テキスト表示エリアＡtextに、”頚部に「帯状疱疹」が発生”という文字列が表示されている。また、単語選択エリアＡselwには、”頚部に「帯状疱疹」が発生”と、上記文字列が単語単位で区切られて表示されている。このうち、”発生”という単語が選択されて単語編集エリアＡeditに表示されると共に、単語選択エリアＡselwにおいて強調表示されている。

図１０真ん中には、編集ボタンＢeditの操作後、ユーザがソフトウェアキーボードＫＢを操作して、”確認されました”と入力した時のメイン画面Ｓmainが示されている。この場合、単語編集エリアＡeditの表示は、”発生”から”確認されました”に変更される。

図１０右側には、ユーザがソフトウェアキーボードＫＢの完了ボタンを操作した後のメイン画面Ｓmainが示されている。この場合、ソフトウェアキーボードＫＢの表示が終了し、テキスト表示エリアＡtext内に表示された文字列と、単語選択エリアＡselw内に表示された単語群とにおいて、ユーザがステップＳ０１１で選択した”発生”が、”確認されました”に置換される。

＜６．端末装置１１の作用・効果＞
上記の通り、本端末装置１１によれば、従来よりも使い勝手の良いユーザインタフェイスを提供することが可能となる。

より具体的には、本端末装置１１では、図５Ａ，図５Ｂに示すように、テキストデータの確定前に、単語選択エリアＡselwには、音声認識結果が表す文字列が単語単位に区切られ、ユーザが選択可能に表示される。ユーザは、この中から単語を選択した後に様々な編集を加えることが出来る。これにより、音声認識結果が表す文字列を効率的に編集可能な端末装置１１を提供することが可能となる。さらに、スマートフォン等のように、端末装置１１が相対的に小さなディスプレイを備える場合には、選択した単語単位で編集できることはユーザにとっては非常に使い勝手が良い。

また、本端末装置１１では、様々な手法で、音声認識結果が表す文字列の様々な部分に記述記号を単語単位として挿入することが出来る（図８等を参照）。さらに、本端末装置１１では、挿入された記述記号は、一単語としてさらに編集可能となっている。さらに言えば、複数の単語をひとまとめとして編集可能となっている（図９等を参照）。従って、上述の通り、非常に使い勝手の良いユーザインタフェイスを提供することが可能となる。

＜７．付記＞
なお、上記では、候補追加ボタンＢaddcには記述記号が割り当てられていた。しかし、これに限らず、候補追加ボタンＢaddcには、特定の機能（単語の削除等）が割り当てられても良い。

上記では、制御部１１３にプログラムが格納されるとして説明した。しかし、これに限らず、プログラムは、コンピュータにより読み取り可能な記録媒体（例えばＤＶＤ等）に格納されて提供されても構わない。他にも、各種端末装置がダウンロードできるように、プログラムはサーバ装置に格納されていても良い。

上記では、端末装置１１は、音声認識サーバ１３からテキストデータの提供を受けるとして説明した。しかし、これに限らず、端末装置１１が入力音声に対し音声認識を行ってテキストデータを生成し、自身が生成したテキストデータに対し図５Ａ，図５Ｂの処理を行っても構わない。

本開示の端末装置およびプログラムは、使い勝手の良いユーザインタフェイスを提供することが可能であり、医療・介護向けのクラウド型音声認識サービス等に好適である。

１１端末装置
１１１音声入力部
１１３制御部
１１５送受信部
１１７タッチスクリーン

Claims

入力音声の認識結果の確定前に、前記入力音声の認識結果を、音声認識用の単語辞書を構成する単語単位で区切らずにテキストとして第一表示エリアに表示すると共に、前記単語単位で区切って、前記第一表示エリアと同一画面に設けられる第二表示エリアに表示する表示部と、
ユーザ操作に応答して、前記第二表示エリア内の複数の単語から少なくとも一つを指定する第一入力部と、
前記第一入力部により指定された単語の編集結果に従って、前記第一表示エリア内のテキストと、前記第二表示エリア内の単語との表示を変更する制御部と、
を備えた端末装置。
前記表示部はさらに、前記第一入力部により指定された単語の他候補を第三表示エリアに表示し、
前記第一入力部はさらに、ユーザ操作に応答して、前記第三表示エリア内の他候補の一つを指定し、
前記制御部は、前記第一表示エリア内のテキストの表示と、前記第二表示エリア内で指定された単語の表示とを、前記第一入力部により指定された他候補に置換する、
請求項１に記載の端末装置。
前記表示部はさらに、前記第一入力部により指定された単語の隣りに追加可能な文字・記号の候補を第四表示エリアに表示し、
前記第一入力部はさらに、ユーザ操作に応答して、前記第四表示エリア内の文字・記号の一つを指定し、
前記制御部は、前記第一入力部により指定された文字・記号を、前記第一表示エリア内のテキストに追加する共に、前記第二表示エリア内で指定された単語の隣りに、前記第一入力部により指定された文字・記号を挿入する、
請求項１に記載の端末装置。
前記第一入力部は、前記第二表示エリア内の複数の単語を指定し、
前記制御部は、前記第一入力部により指定された複数の単語を、前記第一表示エリア内のテキストと、前記第二表示エリア内で指定された単語とから削除する、
請求項１に記載の端末装置。
キーボード上でのユーザ操作に応答して、少なくとも文字を指定する第二入力部を、さらに備え、
前記表示部はさらに、前記第一入力部により指定された単語を第五表示エリアに表示し、
前記制御部は、前記第五表示エリアに表示された単語を、前記第二入力部により指定された文字に従って編集し、その編集結果に従って、前記第一表示エリア内のテキストの表示と、前記第二表示エリア内で指定された単語との表示を変更する、
請求項１に記載の端末装置。
コンピュータに、
入力音声の認識結果の確定前に、前記入力音声の認識結果を、音声認識用の単語辞書を構成する単語単位で区切らずにテキストとして第一表示エリアに表示すると共に、前記単語単位で区切って、前記第一表示エリアと同一画面に設けられる第二表示エリアに表示するよう処理する第一ステップと、
ユーザ操作に応答して、前記第二表示エリア内の複数の単語から少なくとも一つを指定するよう処理する第二ステップと、
前記第二ステップにより指定された単語の編集結果に従って、前記第一表示エリア内のテキストと、前記第二表示エリア内の単語との表示を変更するよう処理する第三ステップと、
を実行させるプログラム。