JP7383667B2

JP7383667B2 - 情報処理装置、方法およびプログラム

Info

Publication number: JP7383667B2
Application number: JP2021117888A
Authority: JP
Inventors: 奈夕子渡辺; 俊信中洲
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-11-20
Anticipated expiration: 2041-07-16
Also published as: CN115620724A; JP2023013585A; US20230014452A1

Description

本発明の実施形態は、情報処理装置、方法およびプログラムに関する。

製造現場や保守点検現場においては、測定機器を使った結果の測定値および目視で点検した結果などを、帳票や表などのデータに入力し、作業員同士または顧客との間で共有することがある。帳票や表では各データに入力するべき内容が予め定められており、作業者は作業手順通りに作業を行い、その結果を定められたデータ入力位置に入力する。

一般的な帳票ソフトではデータをテキストで入力するが、作業中にテキストを入力するのは時間がかかってしまうため、音声を使ってデータを入力したいというニーズがある。例えば、帳票ソフトとは別のアプリケーションで入力対象項目とその項目に入力する内容を設定することで、発話をした際に選択している項目に値を入力でき、さらには、設定時に次に入力項目を指定しておくことで、連続して項目に値を入力することができる手法がある。しかし、複数範囲にまとめて値を入力したい場合は、全ての組み合わせの範囲を予め発話しうる範囲として設定しなければならず、現実的ではない。

特開２００８－５２６７６号公報

本開示は、上述の課題を解決するためになされたものであり、音声によるデータ入力の効率性および利便性を向上させることができる情報処理装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る情報処理装置は、生成部と、音声認識部と、決定部とを含む。生成部は、複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある１以上の項目に関するテンプレートを生成する。音声認識部は、ユーザの発話を音声認識し、音声認識結果を生成する。決定部は、前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された１以上の項目に関する入力対象範囲を決定する。

第１の実施形態に係る情報処理装置を示すブロック図。本実施形態に係る記録用データシートの一例を示す図。第１の実施形態に係る手順格納部に格納される入力手順リストの一例を示す図。第１の実施形態に係るテンプレート格納部に格納される発話テンプレートの一例を示す図。第１の実施形態に係る情報処理装置の入力処理を示すフローチャート。ステップＳ５０５における入力対象範囲の判定処理の詳細を示すフローチャート。第１の実施形態に係る判定辞書の一例を示す図。第１の実施形態に係る判定辞書の別例を示す図。第１の実施形態に係る情報処理装置の入力処理の具体例を示す図。第１の実施形態に係る情報処理装置の入力処理の具体例を示す図。第１の実施形態に係る情報処理装置の入力処理の具体例を示す図。入力対象範囲の強調表示の別例を示す図。第１の実施形態の変形例に係る入力手順リストが更新される一例を示す図。第１の実施形態の変形例に係る入力手順リストが更新される一例を示す図。発話テンプレートの追加設定を促す一例を示す図。第２の実施形態に係る手順格納部に格納される入力手順リストを示す図。第２の実施形態に係る値辞書の一例を示す図。第２の実施形態に係る第１範囲辞書の一例を示す図。第２の実施形態に係る第２範囲辞書の一例を示す図。第２の実施形態に係る音声認識辞書の一例を示す図。第２の実施形態に係る情報処理装置の入力処理を示すフローチャート。第３の実施形態に係る第１キーワード認識辞書の一例を示す図。第３の実施形態に係る第２キーワード認識辞書の一例を示す図。第３の実施形態に係る文法認識辞書の一例を示す図。第３の実施形態に係る情報処理装置の入力処理を示すフローチャート。第３の実施形態に係る音声認識処理の具体例を示す図。第３の実施形態に係る音声認識処理の具体例を示す図。第４の実施形態に係る音声認識処理を示すブロック図。第４の実施形態に係るキーワード認識辞書の一例を示す図。第４の実施形態に係る第１文法認識辞書の一例を示す図。第４の実施形態に係る第２文法認識辞書の一例を示す図。第４の実施形態に係る音声認識辞書の一例を示す図。第４の実施形態に係る情報処理装置の入力処理を示すフローチャート。第４の実施形態に係る音声認識処理の具体例を示す図。第５の実施形態に係る情報処理装置の動作例を示す図。情報処理装置のハードウェア構成例を示す図。

以下、図面を参照しながら本実施形態に係る情報処理装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態では、ユーザの自由発話に基づく音声入力により、帳票データに対して値を入力することを想定する。

第１の実施形態に係る情報処理装置について図１のブロック図を参照して説明する。
第１実施形態に係る情報処理装置１０は、手順格納部１０１と、テンプレート格納部１０２と、音声認識部１０３と、音声合成部１０４と、生成部１０５と、決定部１０６と、判定部１０７と、制御部１０８と、入力部１０９とを含む。

手順格納部１０１は、記録用データシートに含まれる複数の項目に対する入力順序に関する入力手順リストを格納する。記録用データシートは、例えば、帳票データシート、検査データシート、実験データシートのように、ある項目に対して値を入力するためのデータシートである。
テンプレート格納部１０２は、ユーザの発話を検出するためのテンプレートおよび辞書を格納する。

音声認識部１０３は、マイクロフォン（図示せず）などから取得したユーザの発話を音声認識し、音声認識結果を生成する。音声認識処理としては、情報処理装置１０に含まれる音声認識部１０３が音声認識処理エンジンを含み、装置内で音声認識処理が実行されてもよいし、クラウドなどに発話に関する音声データを送信し、音声認識部１０３がクラウドで音声認識処理された結果を取得してもよい。
音声合成部１０４は、ガイダンスなどユーザに通知すべき内容の合成音声を生成する。生成された合成音声は、スピーカ（図示せず）等から出力されればよい。

生成部１０５は、入力手順リストを参照し、入力対象項目に関する入力順序を基準として、指定される可能性のある１以上の項目に関するテンプレートを生成する。入力対象項目は、記録用データシートに含まれる複数の項目から選択された処理対象となる項目である。
決定部１０６は、テンプレートおよび音声認識結果に基づき、複数の項目のうちのユーザの発話により指定された１以上の項目に関する入力対象範囲を決定する。

判定部１０７は、各種条件の判定を行うことに加え、入力対象範囲を指定するための範囲指定発話と、入力対象範囲に入力される値を示す値発話とを判定する。
制御部１０８は、各種制御を行うことに加え、ディスプレイ（図示せず）に表示される記録用データシート上で入力対象範囲を強調表示する。
入力部１０９は、各種データ入力を行うことに加え、入力対象範囲に値発話に関する値を入力する。

次に、本実施形態で想定する帳票データの一例について図２を参照して説明する。
本実施形態で想定する記録用データシートは、例えば表計算ソフトウェアのような２次元配列されたマス目に値を入力する形式である。以下では、記録用データシートとして、帳票データ２０を例に説明する。図２の例では、横方向が列番号（Ａ～Ｄ）を示し、縦方向が行番号（１～７）を示す。帳票データ２０には、検査日、「汚れが無いか」、「キズが無いか」といった試験項目に関する各データ項目２１があり、各データ項目２１に対してそれぞれ、ユーザが値を入力するための入力位置２２がある。データ項目２１は、「外観チェック」および「動作チェック」といったグループに分類されてもよい。

入力位置２２は、列番号および行番号により指定できる。図２の例では、データ項目２１「検査日」に対応する入力位置２２は「Ｄ２」と表現でき、値は「２０２１／０２／１５」である。データ項目２１「汚れが無いか」に対応する入力位置２２は「Ｄ３」と表現でき、値は「異常無し」である。

なお、このような２次元配列の表計算ソフトによる帳票データに限らず、入力位置２２がランダムに配置されるような自由記述形式であっても、データ項目２１に対応する入力位置２２がユーザの発話によって一意に特定できる形式であれば、本実施形態に係る情報処理装置１０の処理を適用できる。

次に、手順格納部１０１に格納される入力手順リストの一例について図３を参照して説明する。
図３に示す入力手順リスト３０は、ユーザにより値が入力される入力位置の順番を示すリストである。入力手順リスト３０は、手順番号、入力位置、ガイダンスおよび入力済みフラグがそれぞれ対応づけられたテーブルである。入力手順リスト３０は、図２に示す帳票データ２０と同一データ上に保持されてもよいし、別データとして保持されてもよい。同一データ上に保持するとは、１つのデータファイルに帳票データ２０と入力手順リスト３０とを保持することを意味する。なお一般的な表計算ソフトウェアであれば、複数のデータシートをまとめて管理できるため、帳票データ２０と同一のデータシートに保持されてもよいし、帳票データ２０とは別のデータシートに保持されてもよい。

手順番号は、帳票データ２０の複数のデータ項目２１に対する入力の順序を示す。入力位置は、図２に示す入力位置２２を一意に指定する識別子である。例えば、列番号および行番号で入力位置２２が指定される場合は、「Ｄ２」といった識別子が用いられる。ガイダンスは、データ項目２１の名称など、音声合成部１０４による音声合成処理により生成された合成音声で再生される内容である。入力済みフラグは、入力位置２２に値が入力されているか否かを示すフラグである。例えば、値が入力済みであれば「１」、未入力であれば「０（ゼロ）」が割り当てられる。

図３の例では、手順番号「１」、入力位置「Ｄ２」、ガイダンス「検査日」および入力済みフラグ「１」がそれぞれ対応付けられ、１つのエントリとして入力手順リスト３０に格納される。

次に、テンプレート格納部１０２に格納される発話テンプレートの一例について図４を参照して説明する。
図４に示すテーブルは、ユーザが範囲を指定するときに発話される可能性のあるパターンである発話テンプレートを複数格納する。

発話テンプレートとして、例えば「＄｛個数｝個まとめて」、「＄｛終点｝までまとめて」、「＄｛始点｝から＄｛終点｝までまとめて」といった例が挙げられる。「＄｛｝」は、任意の発話を対象とすることを意味する。図４の例では「＄｛個数｝」と表現されており、個数に関する発話が入る場合の置換対象部分を示す。例えば「３」「５」といった数値に関する発話を想定する。「＄｛始点｝」および「＄｛終点｝」は、入力手順リストに基づく指定範囲の始点および終点をそれぞれ示す。例えば、図３に示す入力手順リスト３０の手順番号の番号、入力位置の識別子、ガイダンスの内容などが含まれればよい。具体的には、図３の入力手順リスト３０の手順番号「２」から「４」までの範囲を示す場合は、例えば「２番から４番までまとめて」、「Ｄ３からＤ５までまとめて」、「汚れから印字までまとめて」といった発話に対応できる。なお、始点と終点とを指定する際に入力手順リスト３０における同じカテゴリで指定しなくともよい。すなわち、「汚れからＤ５までまとめて」などのように、始点をガイダンスのカテゴリで、終点を入力位置のカテゴリで指定してもよい。

次に、第１の実施形態に係る情報処理装置１０の入力処理について図５のフローチャートを参照して説明する。なお、例えば制御部１０８により、帳票データへの入力処理の実行前に入力手順リストの入力済みフラグが未入力状態に設定される。図３の例では、入力手順リスト３０の入力済みフラグがゼロに設定される。

ステップＳ５０１では、決定部１０６が、処理対象となるデータ項目２１である入力対象項目を決定する。例えば、入力手順リストの手順番号に沿って、入力済みフラグがゼロのエントリのうち、手順番号が最も小さい入力位置が入力対象項目として設定されればよい。なお、次の入力対象項目に対する処理、すなわちステップＳ５０１の処理が２回目以降の場合は、例えば以下のように判定すればよい。後述する入力対象範囲が１つの入力対象項目である場合、または、入力対象範囲として複数の入力位置が含まれるが入力対象項目を含まない場合、決定部１０６は、手順番号が現在処理中の入力位置の次の入力位置を、入力対象項目として設定すればよい。一方、入力対象範囲として複数の入力位置を含みかつ入力対象項目も含まれる場合、決定部１０６は、当該入力対象範囲のうち最後の手順番号よりも大きくかつ未入力の入力位置を入力対象項目として設定すればよい。

ステップＳ５０２では、制御部１０８が、入力対象項目の入力位置を強調表示する。例えば入力位置の枠を太線で囲むなどの表示を想定する。
ステップＳ５０３では、音声合成部１０４が、入力位置に関する入力を促すガイダンスを音声合成し、合成音声を再生する。例えば、入力手順リスト３０の入力位置に対応するガイダンスの文言が音声合成され、スピーカなどから再生されればよい。

ステップＳ５０４では、判定部１０７が、ユーザからの発話を取得した音声認識部１０３が音声認識結果を生成したか否かを判定する。音声認識結果が生成された場合は、ステップＳ５０５に進み、音声認識結果が生成されていない場合は、ステップＳ５０４の処理を繰り返す。なお、音声認識部１０３における音声認識処理において、発話中のフィラーや言い直しなどは、必要に応じて既存の除去処理手法を用いて処理されるものとする。

ステップＳ５０５では、生成部１０５、決定部１０６および判定部１０７が、音声認識結果に基づいて、入力対象項目に基づく入力対象範囲の判定処理を実行する。判定処理結果として、入力対象範囲と、入力位置へ入力される値に関する発話である値発話とが生成される。入力対象範囲の判定処理の詳細については、図６を参照して後述する。

ステップＳ５０６では、制御部１０８が、ステップＳ５０５で判定された入力対象範囲を強調表示する。強調表示の手法としては、ステップＳ５０２と同様である。

ステップＳ５０７では、音声合成部１０４が、ユーザに入力対象範囲の確認を促す確認メッセージを再生する。確認メッセージは、単に「よろしいですか？」といった定型文でもよいし、ユーザが指定した入力対象範囲を復唱するように、音声合成部１０４が入力対象範囲を含むメッセージを音声合成し、合成音声を再生してもよい。

ステップＳ５０８では、判定部１０７が、入力内容が確定したか否かを判定する。例えば、ユーザからの「はい」、「ＯＫ」といった承諾、肯定の意思表示を示す発話を検出した場合、またはユーザが所定のボタンを押下した場合に、入力内容が確定したと判定すればよい。入力内容が確定した場合、ステップＳ５０９に進み、入力内容が確定していない場合、つまり入力内容を否定する発話または音声入力のやり直し等が発生した場合は、ステップＳ５０４に戻り、同様の処理を繰り返す。

ステップＳ５０９では、入力部１０９が、入力対象範囲に含まれる入力位置に、値発話に基づくデータ（例えば、数値または文字列）を入力する。

ステップＳ５１０では、入力部１０９が、値が入力された入力位置に関して入力済みとする。具体的には、入力部１０９が、例えば対応する入力手順リストの入力済みフラグを「１」に設定すればよい。

ステップＳ５１１では、判定部１０７が、入力手順リストにおいて、未入力の入力位置が存在するか否かを判定する。未入力の入力位置が存在する場合は、ステップＳ５０１に戻り、同様の処理を繰り返す。一方、未入力の入力位置が存在しない、つまり全ての入力位置に値が入力されている場合は、情報処理装置１０による帳票データ２０への入力処理を終了する。

次に、ステップＳ５０５における入力対象範囲の判定処理の詳細について、図６のフローチャートを参照して説明する。
ステップＳ６０１では、生成部１０５が、入力対象項目と入力手順リストとに基づいて、判定辞書を生成する。判定辞書は、未入力の入力位置を指定する発話として、ユーザが発話する可能性のある入力位置または複数の入力位置の組み合わせを示す範囲指定テンプレートを複数格納する辞書である。判定辞書の詳細については図７を参照して後述する。

ステップＳ６０２では、判定部１０７が、音声認識結果と判定辞書とを照合し、音声認識結果が、範囲を指定する意図を含む発話である範囲指定発話を含むか否かを判定する。具体的には、音声認識結果が範囲指定テンプレートと一致する部分を含む場合、当該音声認識結果のうちの一致する部分が範囲指定発話であると判定する。音声認識結果が範囲指定発話を含む場合、ステップＳ６０３に進み、音声認識結果が範囲指定発話を含まない場合、ステップＳ６０５に進む。

ステップＳ６０３では、判定部１０７が、音声認識結果である文字列のうち、範囲指定発話より後の部分を、ユーザが入力位置に入力したい値（例えば文字列）であると判定し、当該範囲指定発話よりも後の部分を値発話として判定する。
ステップＳ６０４では、決定部１０６が、範囲指定発話により指定された１以上の入力位置を入力対象範囲として決定する。その後、図５のステップＳ５０６の処理に進む。なお、ステップＳ６０３およびステップＳ６０４の処理順序は問わず、どちらが先に実行されてもよい。

ステップＳ６０５では、判定部１０７が、音声認識結果全体を値発話として判定する。
ステップＳ６０６では、決定部１０６が、現在の１つの入力対象項目を、入力対象範囲として決定する。その後、図５のステップＳ５０６の処理に進む。なお、ステップＳ６０５およびステップＳ６０６の処理順序は問わず、どちらが先に実行されてもよい。

図５および図６のフローチャートでは図示しないが、音声認識部１０３により、ユーザの発話の録音および音声認識処理の開始および停止に関する切り替え制御が行われてもよい。例えば、ステップＳ５０３のガイダンス音声を出力した後、およびステップＳ５０７の確認メッセージを出力した後など、ユーザからの発話を受信するタイミングで、音声認識部１０３が、ユーザの発話の録音および音声認識処理を開始してもよい。また、音声認識結果が生成された場合、その後、情報処理装置１０から出力される合成音声がマイクに回り込んでユーザの発話とともに音声認識処理されることを防止するため、音声認識処理を停止する。

なお、情報処理装置１０からの合成音声のマイクへの回り込みが発生しないような信号処理が適用される場合は、上記切り替え制御を実行せずに、図５に示す入力処理が実行中、音声認識処理を実行したままでもよい。

次に、第１の実施形態に係る判定辞書の一例について図７を参照して説明する。
図７に示す判定辞書７０は、複数の範囲指定テンプレート７１を含む。範囲指定テンプレート７１は、正規表現を含む。正規表現は、発話テンプレートに含まれる任意の入力に対する置換対象部分を、正規表現に展開することで生成される。

例えば、ＩＤ「１」の正規表現７２は、発話テンプレートに含まれる置換対象部分である「＄｛個数｝」を「？＜数値＞￥ｄ＋」に展開することで生成できる。ＩＤ「２」の正規表現７２は、発話テンプレートに含まれる置換対象部分「＄｛終点｝」のみの場合に対応し、現在の入力手順より後の入力手順の識別子およびガイダンスの和集合に展開することで生成できる。

ＩＤ「３」の正規表現７２は、発話テンプレートに含まれる置換対象部分が「＄｛始点｝」と「＄｛終点｝」との両方存在する場合に対応する。始点は、入力手順リストの最後のエントリ以外のエントリの入力位置およびガイダンスの和集合に、終点は、入力手順リストの最初のエントリ以外のエントリの入力位置およびガイダンスの和集合にそれぞれ展開できる。

範囲指定発話の場合、範囲指定テンプレートの正規表現に一致した部分から、個数、始点、終点など一致する部分を特定できる。すなわち、個数の指定の場合は、現在の入力対象項目に対応する入力手順リスト中の手順番号が始点となり、発話された個数から１を減じた数値に対応する手順番号が終点となる。具体的には、図３において手順番号が「２」のエントリが入力対象項目である場合、「４個まとめて異常なし」と発話された場合、範囲指定発話は「４個まとめて」であり、終点に当たる手順番号は、２＋４－１＝５により、手順番号「５」のエントリに対応する入力位置（Ｄ３～Ｄ６）までが入力対象範囲となる。
つまり、入力手順リスト３０における個数、入力位置の識別子、ガイダンスのどの指定でも、対応するエントリの入力位置が入力対象範囲となる。

同様に、始点および終点の指定の場合は、例えば「汚れから印字までまとめて」との音声認識結果が得られた場合は、図３の入力手順リストを参照すれば、始点に対応するガイダンス「汚れ」に対応する入力位置は「Ｄ３」であり、終点に対応するガイダンス「印字」に対応する入力位置は「Ｄ５」である。よって、入力対象範囲は「Ｄ３～Ｄ５」と設定できる。

なお、判定辞書７０は、ステップＳ６０１において生成されることに限らず、ステップＳ５０４の音声認識処理以前に生成されていてもよい。
また、図７の例に限らず、正規表現は、入力手順リストに含まれる入力位置を指定可能な他の表現に基づいて展開されてもよい。

次に、第１の実施形態に係る判定辞書の別例について図８を参照して説明する。
図８に示す判定辞書８０のように、１つのテンプレートから複数の範囲指定テンプレート８１を設定してもよい。例えば、図７のＩＤ「２」の範囲指定テンプレート７１は、正規表現として「（？＜終点＞（Ｄ４）｜（Ｄ５）｜（Ｄ６）｜（Ｄ７）｜…｜（キズ）｜（印字）｜（点灯状態）｜（作動状態）｜…）までまとめて」と表現する。なお、「Ａ｜Ｂ」は、「Ａ」または「Ｂ」を認識することを示す非終端記号である。
一方、図８の範囲指定テンプレート８１では、各状態をばらして、ＩＤ「２－１」の正規表現７２「（？＜終点＞（Ｄ４）｜（キズ））までまとめて」、ＩＤ「２－２」の正規表現７２「（？＜終点＞（Ｄ５）｜（印字））までまとめて」、ＩＤ「２－３」の正規表現７２「（？＜終点＞（Ｄ６）｜（点灯状態））までまとめて」およびＩＤ「２－４」の正規表現７２「（？＜終点＞（Ｄ７）｜（作動状態））までまとめて」といったように表現してもよい。

また、始点と終点との組み合わせとなりうる図７のＩＤ「３」の範囲指定テンプレート７１に関し、図８の範囲指定テンプレート８１では、手順番号ｉ，ｊ（ｉ，ｊは、ｉ＜ｊとなる自然数）の組について、入力手順リストに含まれるエントリの入力位置とガイダンスとの和集合で展開すればよい。

次に、第１の実施形態に係る情報処理装置１０の入力処理の具体的な処理例について、図５および図６のフローチャートと、図９から図１２までを参照して説明する。
図９は、図３に示す入力手順リスト３０の手順番号「２」のエントリに関して、処理が開始された場合の、制御部１０８による帳票データ２０の表示例を示す図である。

ステップＳ５０２の処理により、手順番号「２」のエントリは、入力位置「Ｄ３」であるため、帳票データ２０における「Ｄ３」の入力位置が強調表示される。図９の例では、Ｄ３のマスを太枠９１で囲むことで強調表示する例を示す。
ここで、ステップＳ５０３の処理により、例えば、音声合成部１０４が、入力手順リスト３０のガイダンスの項目「汚れ」の文言を用いた音声ガイダンスとして「『汚れ』はありますか」という合成音声を生成し、ユーザに通知する。当該合成音声を聞いたユーザは、ここでは、「汚れから印字までまとめて異常無し」と発話した場合を想定する。
ステップＳ５０４の処理により、音声認識部１０３が、「汚れから印字までまとめて異常無し」という音声認識結果を生成する。

続いて、ステップＳ６０１において、生成部１０５が、図７の手順番号「２」のエントリに関する判定辞書を生成する。ステップＳ６０２では、判定部１０７が、音声認識結果が範囲指定発話を含むか否かを判定する。ここでは、「汚れから印字までまとめて」という音声認識結果の一部が、始点と終点とを含む範囲指定テンプレート７１である判定辞書のＩＤ「３」の正規表現７２に一致するため、「汚れから印字までまとめて」を範囲指定発話であると判定する。これにより、ステップＳ６０３により「汚れから印字までまとめて」の後の「異常なし」という発話が、値発話に設定される。ステップＳ６０４により、決定部１０６が、範囲指定発話「汚れから印字までまとめて」と図３の入力手順リストに基づき、正規表現７２に当てはめられた「汚れ」に対応する入力位置「Ｄ３」を始点とし、「印字」に対応する入力位置「Ｄ５」を終点とした入力対象範囲「Ｄ３～Ｄ５」を設定する。

結果としてステップＳ５０６の強調表示処理により、図１０に示すように、「Ｄ３」から「Ｄ５」までの３つのマスを含む入力対象範囲が太枠９１で強調表示される。これにより、ユーザは自身の発話により所望の入力対象範囲が設定できたか否かを容易に判断できる。

ステップＳ５０７およびＳ５０８の処理により、ユーザから図１０に示す入力対象範囲の設定について承諾する旨の発話が取得できた場合、図１１に示すように、ステップＳ５０９の処理により、入力対象範囲に、つまりＤ３、Ｄ４およびＤ５の各マスに値発話の値である文字列１１０１「異常なし」が入力される。その後、図示しないが図３に示す入力手順リストにおいて入力位置「Ｄ３～Ｄ５」にそれぞれ対応するエントリの入力済みフラグに「１」が設定される。

なお、次の処理を行うべく、ステップＳ５０１に戻った場合の入力対象項目については、入力対象範囲は「Ｄ３～Ｄ５」の複数の入力位置を含み、かつ今回の入力対象項目「Ｄ３」も含まれるため、決定部１０６は、当該入力対象範囲のうち最後の手順番号「４」（入力位置Ｄ５）よりも大きく、かつ未入力の入力位置、図３の例では手順番号「５」（入力位置Ｄ６）を次の入力対象項目として決定すればよい。

また、図示しないが、図９の状態において、ユーザが「落書きあり」と発話した場合、ステップＳ５０４の処理により、音声認識部１０３が、「落書きあり」という音声認識結果を生成する。この場合、ステップＳ６０２により、音声認識結果「落書きあり」と一致する正規表現を有する範囲指定テンプレートは存在しないと判定される。ステップＳ６０５により、音声認識結果「落書きあり」全体が値発話に設定される。ステップＳ６０６において、入力対象項目の入力位置「Ｄ３」が入力対象範囲として設定され、当該入力位置「Ｄ３」に「落書きあり」の文字列が入力される。

なお、図９および図１０の例では、太線で入力位置を囲むことで強調表示したが、これに限らず、枠線を点滅させる、着色するといった強調表示でもよい。
入力対象範囲の強調表示の別例について図１２に示す。図１２では、入力対象範囲１２０１が他のマスとは異なる色に着色されることで、入力対象範囲１２０１が強調表示される例を示す。このように強調表示は、入力対象範囲１２０１以外のマスと異なる表示態様であればどのような表示してもよい。

以上に示した第１の実施形態によれば、入力手順リストに従い、入力対象項目を基準として複数の項目に対して入力を可能とするまとめ入力をするための辞書を生成し、ユーザの発話を音声認識処理し、入力対象範囲となる１以上の入力位置と、当該入力位置に入力すべき値とを抽出し、入力対象範囲に入力する値を入力する。これにより、ユーザは作業をしながら、作業結果や検査結果についてユーザが所望する入力範囲を指定して発話するだけで、帳票データなどの記録用データシートに対して１以上の入力位置に一度にまとめて値を入力できる。
すなわち、範囲を指定するモードなどの切り替えも不要であり、ユーザは追加の設定などのわずらわしさもなく、個別入力とまとめ入力との意識せずに行える。結果として効率的な音声データ入力ができ、音声によるデータ入力の効率性および利便性を向上させることができる。これにより、帳票などの記録用データシートへのデータ入力の作業時間も短縮できる。

（第１の実施形態の変形例）
第１の実施形態に係る情報処理装置１０では、運用前に帳票データからガイダンスとして利用可能な項目を取得して、入力手順リストを生成することを想定しているが、運用中に入力手順リストに入力対象範囲を指定するための文言を追加し、テンプレートを更新してもよい。

入力手順リストが更新される例について図１３および図１４を参照して説明する。
図１３に示す入力手順リスト１３０において、図２を試験項目における「外観チェック」および「動作チェック」の文言を入力対象範囲を指定するための文言として用いるため、ユーザにより、入力手順リストにグループ１３１の項目が追加される。

図１４では、新たに「＄｛グループ｝をまとめて」という発話テンプレート１４１が追加される。これにより、例えば「外観をまとめて」といった発話が音声認識結果として得られた場合、判定部１０７は、図１３に示す入力手順リストを参照して、グループが「外観」に対応するエントリである、「汚れ（Ｄ３）」、「キズ（Ｄ４）」および「印字（Ｄ５）」をまとめて入力対象範囲として決定できる。

また、ユーザが入力手順リストおよび発話テンプレートを手動で更新することに限らず、情報処理装置１０がユーザの入力対象範囲の指定傾向を学習し、新たな発話テンプレートの追加または新たな発話テンプレートの候補をユーザに提示してもよい。または、自動的に新たな発話テンプレートを追加してもよい。

情報処理装置１０により、入力対象範囲に関する発話テンプレートの追加設定を提示する一例を図１５に示す。
帳票データへの入力処理が複数回実行されている中で、例えば所定回数以上、複数の入力位置を含む同一の入力対象範囲が設定された場合を想定する。判定部１０７は、ユーザが高頻度で当該入力対象範囲を指定すると判定し、より短い発話で当該入力対象範囲を指定できるよう、ユーザに新たな発話テンプレートの追加を促してもよい。具体的には、「Ｄ３からＤ５までまとめて」のような始点および終点を含む複数の単語で入力対象範囲が、所定回数以上指定される場合、判定部１０７は、発話テンプレートの追加を促すと判定する。

制御部１０８は、例えば、「まとめてチェックができるように設定しますか？」といった、ユーザに入力対象範囲に関する発話テンプレートの追加を促すメッセージ１５０を表示する。ユーザが「はい」と回答した場合は、ユーザ自身が入力対象範囲を指定しやすいような名称、図１５の例では、「外観」「見た目」「そと」といった文言が音声またはテキストなどで入力されればよい。これにより、例えば図１３および図１４に示したように、入力手順リストおよび発話テンプレートが更新される。次回以降の実行時には、ユーザが「外観をまとめて」「見た目をまとめて」「そとをまとめて」といった内容を発話することにより、Ｄ３からＤ５までの入力対象範囲を指定できる。

なお、発話テンプレートの追加を促す場合、所定回数以上といったルールベースによる判定に限らず、機械学習した学習済みモデルにより、発話テンプレートの追加が促されてもよい。例えば、既存の教師有り学習により、入力対象項目を入力データとし、ユーザの入力対象範囲の指定傾向を正解データとした学習データによりモデルを学習する。学習の結果生成された学習済みモデルにより、発話テンプレートの追加設定を推薦してもよい。なお、

以上に示した第１の実施形態の変形例によれば、ユーザの入力対象範囲の指定傾向に応じて、発話テンプレートの追加設定を促す。これにより、発話テンプレートとして、ユーザが入力対象範囲を指定しやすい名称を追加でき、音声により効率的に値を入力することができることに加え、音声によるデータ入力の効率性および利便性を向上させることができる。

（第２の実施形態）
第２の実施形態では、特定の形式の発話を音声認識して処理する点が第１の実施形態と異なる。第１の実施形態では、自由発話を想定しているが、作業現場などでは騒音が多く、自由発話に対して正しい音声認識処理が実行できない可能性もある。よって、第２の実施形態に係る情報処理装置が、特定の入力形式に従った発話のみ入力処理を実行することで、音声認識処理の精度を向上させることができ、騒音が多い環境下でも音声による帳票データへの入力処理を実行できる。

第２の実施形態に係る情報処理装置は、生成部１０５が、音声認識処理において特定の文法による発話の入力形式のみ認識するために用いる音声認識辞書を生成する。テンプレート格納部１０２は、音声認識辞書を格納する。第２の実施形態では、音声認識辞書を文法認識辞書とも呼ぶ。生成部１０５およびテンプレート格納部１０２以外は、第１の実施形態と同様の動作を行うため、ここでの説明を省略する。

第２の実施形態に係る手順格納部１０１に格納される入力手順リストについて図１６を参照して説明する。
図１６に示す入力手順リスト１６０は、図３の入力手順リスト３０に加えて、入力形式１６１の項目を含む。

入力形式は、音声認識処理において特定の文法で構成された内容の発話のみ受け付けるための形式であり、音声認識辞書の生成に用いられる。例えば、「日付」「単語（異常なし、要交換）」「単語（動作正常、動作異常）」といったように文言を指定したり、「数値（整数部は３桁）」、「数値（整数部２桁、小数部１桁）」、「英数字５文字」といったように音声認識部１０３で認識するパターンを指定する。
具体的には、帳票データにおける検査日のデータ項目には、日付の発話のみ認識するように入力形式が「日付」に設定され、汚れのデータ項目には、「異常なし」か「要交換」化のどちらかのみ受け付けるよう、「単語（異常なし｜要交換）」が設定される。

次に、判定部１０７で生成される音声認識辞書の一例について図１７から図１９までを参照して説明する。
第２の実施形態に係る音声認識辞書は、入力対象項目の入力形式の値を認識するための値辞書と、入力対象項目を始点とした範囲指定発話を認識するための第１範囲辞書と、いつでも入力できる範囲指定発話を認識するための第２範囲辞書との３種類の辞書を含む。

まず、値辞書の一例を図１７に示す。
値辞書１７０は、手順番号と文法テンプレートとが対応付けられた辞書である。値辞書１７０により、手順番号に対応する入力位置には、文法テンプレートに一致する音声認識結果しか入力されない。数値入力用の辞書は簡単のため「＄整数○桁」という別定義の文法を用いることとする。手順番号「２～４」は、「異常無し」または「要交換」を認識し、手順番号「５～６」は「動作正常」または「動作異常」を認識する。

次に、第１範囲辞書の一例を図１８に示す。
第１範囲辞書１８０は、手順番号と正規表現とが対応付けられた辞書である。第１範囲辞書１８０は、入力形式が同じ、連続した入力手順のみまとめて入力できる。例えば手順番号「２」の入力手順を始点とした場合、入力形式が同じ範囲である、手順番号「３」もしくは手順番号「４」までのみまとめて入力可能である。具体的には、個数を指定する「２個まとめて」や「３個まとめて」、終点となる入力位置を直接指定する「キズまでまとめて」「印字までまとめて」を範囲指定として用いることができる。また、「（"異常無し"｜"要交換"）」は、図１７の値辞書と同様である。一方、手順番号「３」の入力手順を始点とした場合、入力形式が同じ範囲となるのは手順番号「４」までであるため、「３個まとめて」という発話は入力不可となり、「２個まとめて」という発話のみ受け付けられる。

なお、図１８の例では、入力手順リストの「ガイダンス」の項目に設定された単語を用いるが、第１の実施形態と同様に、入力対象範囲を指定するために、手順番号など他の項目を用いてもよい。

次に、第２範囲辞書の一例を図１９に示す。
第２範囲辞書１９０は、手順番号と正規表現とが対応付けられた辞書である。第２範囲辞書１９０は、入力対象項目の手順番号によらず、どの手順番号が入力対象項目であっても処理可能な発話を想定した辞書である。入力形式が同じ入力位置をまとめて入力するため、入力形式が同じかつ連続した複数の入力手順の組ごとに生成される。図１９の例では、手順番号「２～４」の範囲を表すために「汚れから印字まで」といった始点と終点とを指定した発話や、「外観をまとめて」といった入力手順リストの「グループ」を指定した発話を用いることができる。正規表現７３のそれに続く「("異常無し"｜"要交換")」は、図１８に示す第１範囲辞書１８０と同様である。第２範囲辞書１９０についても同様に、入力対象範囲を指定するために、手順番号など他の項目を用いてもよい。
なお、図１７から図１９まででは、値辞書１７０、第１範囲辞書１８０および第２範囲辞書１９０をそれぞれ別の辞書として生成する例を示すが、これに限らず、値のテンプレート、発話の範囲を想定した正規表現とを対応付けた１つの音声認識辞書として生成されてもよい。

次に、音声認識辞書の一例について図２０に示す。
図１７から図１９までに示した値辞書１７０、第１範囲辞書１８０および第２範囲辞書１９０を組み合わせることで、各手順番号のエントリが入力対象項目であるときの、それぞれの音声認識辞書２００（文法認識辞書２００ともいう）を生成できる。図２０の例では、値辞書１７０、第１範囲辞書１８０および第２範囲辞書１９０の各辞書から、手順番号「２」のエントリが入力対象項目であるときのエントリがそれぞれ抽出される。

なお、音声認識辞書２００に含まれる、「（キズ｜印字）までまとめて」といった範囲を指定する入力形式については、図７に示す範囲指定テンプレートから生成されてもよい。

次に、第２の実施形態に係る情報処理装置１０の入力処理について図２１のフローチャートを参照して説明する。
なお、第２の実施形態では、情報処理装置１０による入力処理を実行する前に、値辞書、第１範囲辞書および第２範囲辞書を入力手順リストに基づいて予め生成することを想定するが、入力処理における音声認識処理を実行する前に生成されてもよい。

ステップＳ２１０１では、ステップＳ５０１において、入力手順リスト中の手順番号に対応するエントリが入力対象項目として設定されると、生成部１０５は、値辞書、第１範囲辞書および第２範囲辞書に基づき、入力対象項目の手順番号に対応する音声認識辞書を生成する。

ステップＳ５０４では、音声認識部１０３が、音声認識辞書に基づく音声認識処理が実行される。音声認識処理では、音声認識辞書にある入力形式の発話しか受け付けないため、入力形式以外の発話に関しては、リジェクトされ音声認識結果が生成されない。よって、一定期間ユーザの発話を音声認識処理できない場合は、ユーザに対し「音声認識できませんでした。もう一度話してください」といった内容の合成音声を出力し、再入力を促してもよい。

なお、ステップＳ５０５では、判定部１０７が入力対象範囲を判定するが、音声認識処理により、値辞書、第１範囲辞書および第２範囲辞書の入力形式の文字列のうち、どの文字列を用いてユーザの発話を認識したかの情報が得られる場合は、第１範囲辞書および第２範囲辞書を用いて発話を認識したときに、範囲指定発話であると判定してもよい。なお、音声認識辞書にある文字列のうちどの部分を用いたかを示す情報が音声認識処理において得られない場合は、第１の実施形態と同様に、入力手順リストおよび範囲指定テンプレートを参照して、入力対象範囲を判定すればよい。

以上に示した第２の実施形態によれば、入力範囲を指定する発話の形式を含む入力形式を指定した音声認識辞書（文法認識辞書）を生成し、当該音声認識辞書を用いて音声認識処理を実行することで、入力形式に一致した値のみが音声認識される。よって、音声認識精度を向上させることができ、第１の実施形態と同様に、音声によるデータ入力の効率性および利便性を向上させることができる。

（第３の実施形態）
第３の実施形態では、第２の実施形態に係る入力形式を指定する音声認識処理に加え、音声区間検出を必要としない、キーワード検出型の音声認識処理を実行する点が上述の実施形態と異なる。音声区間検出を必要としないキーワード検出型の音声認識処理を併用することで、発話途中であっても入力対象範囲を特定でき、ユーザに提示できる。

第３の実施形態に係る情報処理装置１０は、生成部１０５が、キーワード検出型の音声認識辞書（キーワード認識辞書）と、入力形式となる文法を指定した音声認識辞書（文法認識辞書）とを生成する。音声認識部１０３が、キーワード認識辞書および文法認識辞書を用いて２種類の音声認識処理を実行する。他の構成について上述の実施形態と同様であるため説明を省略する。

第３の実施形態に係るキーワード認識辞書の一例について図２２および図２３を参照して説明する。キーワード認識辞書として、対応する手順番号を始点とする範囲指定発話を検出するための辞書である第１キーワード認識辞書と、いつでも入力可能な発話を検出するための辞書である第２キーワード認識辞書とを含む。
図２２に示す第１キーワード認識辞書２２０は、第２の実施形態に係る図１８に示す第１範囲辞書１８０に相当し、手順番号と、キーワードリストと、値に使用する文法とがそれぞれ対応付けられる。キーワードリストは、対応する発話を検出するための辞書となるキーワードである。値に使用する文法は、後述する図２４の文法認識辞書に対応する文法の手順番号である。第１キーワード認識辞書２２０は、各手順番号のエントリが入力対象項目である場合の、入力対象範囲の終点を表すキーワードが格納される。つまり、例えば手順番号「２」では、共通の値が入力されうる項目として、「汚れ」、「キズ」および「印字」の３つが挙げられるため、キーワード「キズまでまとめて」は、「汚れ」および「キズ」の各入力位置（Ｄ３，Ｄ４）を示す。また、キーワード「印字までまとめて」は、「汚れ」、「キズ」および「印字」の各入力位置（Ｄ３～Ｄ５）を示す。

図２３に示す第２キーワード認識辞書２３０は、第２の実施形態に係る図１９に示す第２範囲辞書１９０に相当し、手順番号と、キーワードリストと、値に使用する文法とがそれぞれ対応付けられる。第２キーワード認識辞書２３０は、手順番号に関係なく、いつでも入力可能な始点と終点とを指定した範囲に関する発話およびグループを指定した発話を検出するために用いられる。
すなわち、第１キーワード認識辞書２２０および第２キーワード認識辞書２３０は、範囲指定発話を検出するために用いられる。第１キーワード認識辞書２２０および第２キーワード認識辞書２３０は、第２の実施形態に係る図１８に示す第１範囲辞書１８０および図１９に示す第２範囲辞書１９０における範囲指定部分の文法の非終端記号を展開することで生成されてもよい。なお、第１キーワード認識辞書２２０および第２キーワード認識辞書２３０は、どちらか一方が生成される場合も同様に、入力処理を実行できる。

次に、第３の実施形態に係る文法認識辞書の一例について図２４を参照して説明する。
図２４に示す文法認識辞書２４０は、第２の実施形態に係る図１７に示す値辞書１７０と同様であり、値発話を認識するための辞書である。文法認識辞書２４０は、手順番号と文法テンプレートとを含む。文法テンプレートは、図１７に示す文法テンプレートと同様である。図２４の例では、手順番号「２～４」の入力形式は、図１６に示す入力手順リスト１６０を参照すれば、「異常なし」または「要交換」であるので、「異常無し｜要交換｜スキップ」と設定される。

「スキップ」は、入力対象範囲に対する入力のスキップを意図する。入力部１０９は、スキップが値発話として取得された場合、入力対象範囲に何も入力しないか、「Ｎ／Ａ」など所定の記号を入力してもよい。なお、説明の便宜上、第３の実施形態に係る文法認識辞書で「スキップ」を説明したが、第１の実施形態において値発話として判定された場合、および第２の実施形態の値辞書１７０に含まれる場合でも、入力部１０９は同様の処理を実行すればよい。

また、図２４の例では、共通の入力形式となるグループの手順番号をまとめて記載しているが、手順番号それぞれについて文法テンプレートを設定してもよい。また、文法認識辞書２４０は、手順番号ではなく、入力形式ごとに生成されてもよい。

次に、第３の実施形態に係る情報処理装置１０の入力処理について図２５のフローチャートを参照して説明する。
ステップＳ２５０１では、制御部１０８が、入力対象項目の入力位置を強調表示し、さらに現在の入力対象項目の入力形式に基づき音声認識できる内容をユーザに表示する。例えば、入力形式が「単語（異常なし｜要交換）」であれば、「異常なし、要交換」のテキストを画面に表示すればよい。表示位置としては、例えば帳票データ上に表示してもよいし、ステータスバーなどの欄外に表示してもよいし、別ウィンドウを用意して当該別ウィンドウ内に表示してもよい。または、テキストで表示することに限らず、「異常なしまたは要交換のどちらかを発話して下さい」という旨の合成音声を生成して再生し、ユーザに通知してもよい。

ステップＳ２５０２では、音声認識部１０３が、入力手順番号に対応したキーワード認識辞書を用いて音声認識処理を開始し、現在の入力手順番号に対応した文法認識辞書を用いて音声認識処理を開始する。なお、以下ではキーワード認識辞書を用いた音声認識処理を、単にキーワード検出とも呼び、文法認識辞書を用いた音声認識処理を、単に文法型認識とも呼ぶ。具体的に、キーワード認識辞書は、第１キーワード認識辞書および第２キーワード認識辞書を含む。文法認識辞書は、値辞書である。

ステップＳ２５０３では、判定部１０７が、キーワードが検出されたか否かを判定する。すなわち、ユーザからキーワード認識辞書に含まれるキーワードが発話されたか否かを判定し、キーワード認識辞書に含まれるキーワードが発話された場合、キーワードが検出されたと判定する。キーワードが検出された場合、ステップＳ２５０４に進み、キーワードが検出されない場合、ステップＳ２５０８に進む。

ステップＳ２５０４では、音声認識部１０３が、文法型認識、つまり文法認識辞書を用いる音声認識処理を一時停止する。

ステップＳ２５０５では、決定部１０６が、検出されたキーワードに基づいて、入力対象範囲を決定する。キーワード認識辞書に含まれるキーワードリストは範囲指定発話を示すため、決定部１０６は、キーワードに含まれる個数、始点および終点の文字列から入力対象範囲を特定できる。具体的に、例えば「キズまでまとめて」というキーワードが検出された場合、「キズ」はキーワード認識辞書によれば、終点を表すため、入力対象範囲が現在の入力対象項目の入力位置を始点として、項目「キズ」に対応する入力位置を終点とした範囲となる。

ステップＳ２５０６では、制御部１０８が、入力対象範囲を強調表示する。このとき、指定された入力対象範囲に対応する入力手順リスト中の「入力形式」を、現在認識できる値の内容として併せて表示してもよい。
ステップＳ２５０７では、音声認識部１０３が、ユーザからの発話に備えて、ステップＳ２５０２と同様に現在の手順番号に対応した第１キーワード認識辞書と、第２キーワード認識辞書を用いてキーワード検出を、ステップ２５０３で検出されたキーワードに対応する値用に使用する文法テンプレートを用いて文法型認識をそれぞれ開始する。

ステップＳ２５０８では、判定部１０７が、文法認識辞書による音声認識結果が得られたか否かを判定する。音声認識結果が得られた場合、ステップＳ２５０９に進み、音声認識結果が得られていない場合、ステップＳ２５０３に戻り、同様の処理を繰り返す。

ステップＳ２５０９では、音声認識部１０３が、文法認識辞書を用いた音声認識処理を停止する。
ステップＳ２５１０では、決定部１０６が、文法型認識が出力する音声認識結果を値発話として設定する。
その後は、第１の実施形態および第２の実施形態と同様に、確認メッセージに関する合成音声を再生し、入力内容が確定した場合に、入力部１０９が、帳票データの入力位置に値発話に関する文字列を入力する。その後、値が入力された入力位置に関する入力手順リストのエントリを入力済みとし、次の未入力の入力位置に対して図２５に示す入力処理を実行する。以上で第３の実施形態に係る情報処理装置１０の入力処理を終了する。

次に、第３の実施形態に係る音声認識処理の具体例について図２６および図２７を参照して説明する。図２６および図２７はそれぞれ、時系列に沿ったキーワード検出および文法型認識それぞれの音声認識処理のタイミングを示す図である。

図２６は、入力対象項目として手順番号「２」のエントリの場合であり、ユーザにより範囲指定発話がなされた場合を想定する。
第１キーワード認識辞書では、例えば図２２の手順番号「２」に関するキーワードリストを用い、第２キーワード認識辞書では、図２３の全てのキーワードリストが用いられ、キーワード検出が開始される。一方、文法認識辞書では、図２４の手順番号「２～４」に対応する文法テンプレートが用いられ、文法型認識が開始される。また、併せて発話の録音も実施される。

図２６の例では、区間２６１においてユーザが「印字までまとめて」と発話した場合を想定する。この場合、第１キーワード認識辞書２２０のキーワードリスト「印字までまとめて」と一致するため、「印字までまとめて」という発話がキーワードとして検出される。キーワードが検出された結果、録音を継続したまま、キーワード検出および文法型認識それぞれの音声認識処理を停止する。また、録音のほか、次に文法型認識に関する音声認識処理を再開するまでの発話の音声はバッファリングしてもよい。

検出されたキーワードは、終点を示すキーワードであり、入力手順リストを参照すると、検出されたキーワードに含まれる「印字」に対応する入力位置「Ｄ５」が抽出される。よって、決定部は、入力対象項目の入力位置「Ｄ３」を始点とし、入力位置「Ｄ５」を終点とした入力対象範囲「Ｄ３～Ｄ５」を決定できる。
キーワード検出では、音声検出区間を特定する必要が無いため、発話の途中でもキーワードの検出が完了次第、発話に対応した入力対象範囲を更新し、帳票データ上で強調表示できる。なお、更新された入力対象範囲に入力可能な入力形式の文字列が表示されてもよい。

続いて、区間２６２において、キーワード検出に関する音声認識処理を再開する。また、図２４に示す文法認識辞書２４０における、検出されたキーワードに対応する手順番号の文法テンプレート（図２４の手順番号「２～４」に対応する文法テンプレート）を用いて、文法型認識に関する音声認識処理を再開する。ここでは、入力対象範囲が決定済みのため、再開された音声認識処理がリジェクトではなく、かつ音声認識結果を生成するまで、文法型認識に関する音声認識処理が継続される。ここでは、発話「異常無し」が音声認識結果として生成された場合を想定する、この場合、文法認識辞書２４０において、入力対象範囲である手順番号「２～４」の文法テンプレートに一致するため、「異常無し」が文法型認識された音声認識結果として生成される。「異常無し」の発話が検出されると、区間２６３において各判定を行い入力が終わるまで、キーワード検出および文法型認識に関する音声認識処理が一時停止される。
文法型認識型で検出された「異常無し」の文字列は、値発話であるため、入力対象範囲「Ｄ３～Ｄ５」に入力される。

次に、図２７は、入力対象項目として手順番号「２」のエントリの場合であり、ユーザにより値発話のみがなされた場合を想定する。

図２７の区間２７１におけるキーワード検出に関する音声認識処理では、キーワードを検出できず、音声認識結果が生成されない。一方、文法型認識型の音声認識処理では、「異常なし」の発話が検出され、音声認識結果が生成される。音声認識結果が生成された場合、各判定、入力が終わって次に再開されるまでの区間２７２は、キーワード検出型および文法型認識型のそれぞれの音声認識処理を停止する。値発話であるため、入力対象範囲は手順番号２に対応する入力位置「Ｄ３」のままであり、「異常無し」の文字列が入力対象範囲「Ｄ３」に入力される。

以上に示した第３の実施形態によれば、第２の実施形態に示した文法型認識に関する音声認識処理を値発話の検出に用い、音声検出区間の特定が不要なキーワード検出に関する音声認識処理を範囲指定発話の検出に用いる。これにより、範囲指定発話が認識されたタイミングで、対応する入力対象範囲に表示を切り替えることができるため、範囲指定発話ユーザは発話した入力対象範囲が意図通りであるか否かをすぐに判断でき、意図通りでなければ言い直しも可能である。また、入力可能な入力形式に基づく内容を、入力対象範囲が更新されたタイミングで表示することができ、何を発話してよいかわからないという状態がなく、ユーザは発話すべき内容を容易に把握できる。よって、第１の実施形態と同様に、音声によるデータ入力の効率性および利便性を向上させることができる。

（第４の実施形態）
第３の実施形態では、範囲指定発話はキーワード検出に関する音声認識処理で検出することを想定したが、第４の実施形態では、範囲指定発話の終端をキーワード検出に関する音声認識処理で、範囲指定発話および値発話は、文法型認識に関する音声認識処理で検出することを想定する。

第４の実施形態に係る情報処理装置１０のブロック図について図２８を参照して説明する。
第４の実施形態に係る情報処理装置１０は、第３の実施形態に係る情報処理装置に加え、バッファ部２８１を含む。
バッファ部２８１は、ユーザの発話に関する音声データを、少なくとも所定期間遡って利用できるようにバッファリングする。

次に、第４の実施形態に係るキーワード検出に用いるキーワード認識辞書の一例を図２９に示す。
図２９に示すキーワード認識辞書は、範囲指定発話の終端を検出できるように設定される。例えば、「個まとめて」、「までまとめて」といった末尾部分に関するキーワードを用いればよい。キーワード認識辞書は、例えば範囲指定テンプレートの末尾部分を抽出することで生成されればよい。なお、末尾部分をどこまで抽出するかに関しては、キーワード検出がおこなえればよい。例えば、運用において検出精度が確保できれば「まとめて」の文言をキーワードとして設定してもよいし、「まとめて」の文言では短すぎて検出精度が劣化する場合は、末尾部分の文言を長く設定すればよい。

第４の実施形態に係る文法型認識に用いる文法認識辞書について図３０および図３１を参照して説明する。
文法認識辞書として、キーワードが検出された際に音声を遡って認識するための範囲辞書であり、入力対象項目を始点とした入力形式に関する第１文法認識辞書と、いつでも検出可能な入力形式に関する第２文法認識辞書と、値辞書とが用いられる。

図３０は、第１文法認識辞書３００の一例である。第１文法認識辞書３００は、表記がキーワードではなく非終端記号による文法である点が異なるが、図２２に示す第１キーワード認識辞書２２０と同様である。
図３１は、第２文法認識辞書３１０の一例である。第２文法認識辞書３１０もキーワードではなく非終端記号による文法である点が異なるが、図２３に示す第２キーワード認識辞書２３０と同様である。値辞書は図２４に示す文法認識辞書を用いればよい。

次に、第４の実施形態に係る文法認識辞書の一例を図３２に示す。
図３２に示す文法認識辞書３２０は、例えば、図３０に示す第１文法認識辞書３００から手順番号「２」を始点とした文法テンプレートを、図３１に示す第２文法認識辞書３１０から全ての文法テンプレートをそれぞれ抽出することで生成される。なお、図３２のように、音声認識辞書として１つの辞書にまとめず、キーワード認識辞書２９０、第１文法認識辞書３００、第２文法認識辞書３１０および値辞書がそれぞれ用いられてもよい。

次に、第４の実施形態に係る情報処理装置の入力処理について図３３のフローチャートを参照して説明する。
なお、第４の実施形態に係る情報処理装置１０では、バッファ部２８１が、所定期間Ｔ分の音声をバッファリングしておく。バッファリングは、常に最新の所定期間Ｔ分は少なくとも保持し、所定期間Ｔを超過した過去の音声については破棄してもよい。所定期間Ｔの長さは、３０秒など予め定められた時間長でもよいし、入力手順リストにおけるガイダンスの文言など、入力対象範囲を指定するための発話パターンのうち、「最長モーラ数×１モーラ分」の長さでもよいし、これらの値を基準として算出される長さでもよい。

ステップＳ３３０１では、音声認識部１０３が、キーワード認識辞書を用いてキーワード検出を、現在の手順に対応する文法認識辞書を用いた文法型認識を開始する。具体的には、文法認識辞書は、第１文法認識辞書、第２文法認識辞書および値辞書を含む。
ステップＳ３３０２では、音声認識部１０３が、ステップＳ２５０３においてキーワードが検出された場合、現時点から所定期間Ｔに対応する音声データまで遡り、バッファリングされた所定期間Ｔの音声に対して、最先の時刻からキーワードの終端時刻までの音声を音声区間として、現在の手順に対応する範囲辞書を用いて文法型認識を実行する。なお、所定期間Ｔの設定によっては、バッファリングされた音声の中には複数の音声区間が存在することも考えられる。この場合、複数の音声認識結果が得られることが想定されるが、最新の音声区間に対応する音声認識結果を採用すればよい。
ステップＳ３３０３では、音声認識部１０３が、キーワード認識辞書を用いてキーワード検出を、決定された入力対象範囲に対応する値辞書を用いて文法型認識を開始する。
その後処理は、第３の実施形態に係る入力処理と同様である。

次に、第４の実施形態に係る音声認識処理の具体例について図３４を参照して説明する。図３４は、時系列に沿ったキーワード検出および文法型認識それぞれの音声認識処理のタイミングを示す図である。

ここでは、図２９に示すキーワード認識辞書２９０を用いたキーワード検出と、図２４と同様の値辞書を用いた文法型認識とに関する音声認識処理を実行するとともに、バッファ部２８１が、少なくとも所定期間Ｔの音声をバッファリングする。区間３４１において、ユーザから「印字までまとめて」と発話されたとする。キーワード認識辞書２９０を参照すると、「までまとめて」がキーワードリストに存在するため、発話「までまとめて」がキーワードとして検出される。発話「までまとめて」が検出された後、キーワード検出に関する音声認識処理と文法型認識とに関する音声認識処理を停止する。

音声認識部１０３は、「までまとめて」を音声区間の終端として、所定期間３４２だけ遡った時間から当該終端までのバッファリングされた音声について、範囲辞書（第１文法認識辞書３００および第２文法認識辞書３１０）を用いた文法型認識に関する音声認識処理を実行する。図３４の場合、「印字までまとめて」という音声認識結果が得られたとする。よって、図３０に示す第１文法認識辞書３００の手順番号「３」のエントリと一致するため、「印字までまとめて」を範囲指定発話として検出できる。

その後、区間３４３において、キーワード認識辞書２９０を用いたキーワード検出および、所定期間３４２の範囲指定発話に対応する値辞書を用いた文法型認識それぞれに関する音声認識処理が再開される。具体的には、「印字までまとめて」の範囲指定発話について、第１文法認識辞書での対応するエントリの値に使用する文法が「２－４」であるため、図２４に示す値辞書の手順番号「２－４」の文法テンプレート「異常無し｜要交換｜スキップ」を用いて、文法型認識が実行される。ここでは、区間３４３において「異常無し」の発話があり、手順番号「２－４」の文法テンプレートと一致するため、「異常無し」を値発話として検出できる。

なお、所定期間３４２において文法型認識に関する音声認識処理により、音声認識結果が生成されなかった場合は、範囲指定発話ではないとして、キーワード検出に関する音声認識処理と、範囲辞書（第１文法認識辞書３００および第２文法認識辞書３１０）を用いた文法型認識に関する音声認識処理とが再開されればよい。
また、区間３４３において、キーワード検出に関する音声認識処理によりキーワードが検出された場合、当該キーワードに関する発話の終端を基準として一定期間遡り、バッファリングされた音声に対して範囲辞書を用いた文法型認識が実行されればよい。

以上に示した第４の実施形態によれば、キーワード検出による音声認識結果の時点から所定期間遡ってバッファリングされた音声について文法型認識を実行し、範囲指定発話から入力対象範囲を決定する。これにより、キーワード検出に関する音声認識処理で用いられるキーワード認識辞書に含まれるキーワードリストの量を低減できる。よって、第３の実施形態と同様の効果に加え、キーワード検出よりも様々な形式の発話を検出可能な文法認識辞書を用いることで、範囲指定発話として検出できるパターンを増やすことができる。

（第５の実施形態）
上述の実施形態では、帳票データに値を入力するための入力位置に関する入力対象範囲を決定するが、帳票データの日報などを作成する場合、過去に生成した帳票データに入力した値をコピーしたいという状況も想定される。そこで、第５の実施形態では、入力位置に入力される値のコピー対象範囲を決定する。

第５の実施形態に係る情報処理装置１０の動作について図３５を参照して説明する。
図３５の上段は、検査日が「２０２１／０２／１５」である現在入力中の帳票データであり、下段は検査日が「２０２１／０２／０１」の過去に値が入力された帳票データである。
情報処理装置１０は、例えば特定の文言をトリガとして、過去の帳票データから値をコピーするため、コピー対象範囲３５１を決定する処理を実行する。例えば、情報処理装置１０は、音声認識部１０３が、「コピーモード」という音声認識結果を生成した場合、コピー元となる帳票データに対してコピー対象範囲３５１を設定するモードに移行すればよい。

コピー対象範囲３５１は、上述の実施形態に示す入力対象範囲と同様に決定すればよい。すなわち、入力位置の識別子を用いれば「Ｄ３からＤ５まで」と表現でき、図３５に示す試験番号を用いれば「１番から３番まで」と表現できる。
コピー対象範囲３５１が決定された後、第１から第４の実施形態に係る情報処理装置１０の入力処理により、入力対象範囲３５２「Ｄ３～Ｄ５」が決定される。入力対象範囲３５２が決定された場合、入力部１０９は、コピー対象範囲３５１の値を入力対象範囲３５２にコピーする。具体的には、入力対象範囲３５２に対して、Ｄ３およびＤ４には「異常なし」、Ｄ５には「やや薄い」がそれぞれ入力される。

なお、コピー対象範囲３５１および入力対象範囲３５２の設定順序は問わず、入力対象範囲３５２が決定された後に、コピー対象範囲３５１が決定されてもよい。また、コピー対象範囲３５１を設定するコピー元のデータは過去の帳票データに限らず、現在入力中の帳票データのうちの別の入力位置からコピーしてもよい。または、テキストファイルなど異なるデータ形式をコピー元としてもよい。

以上に示した第５の実施形態によれば、情報処理装置が、入力対象範囲を設定し、入力対象範囲にコピーする値に関するコピー対象範囲を決定し、コピー対象範囲における値を入力対象範囲にコピーする。これにより、上述の実施形態と同様に、音声によるデータ入力の効率性および利便性を向上させることができる。

次に、上述の実施形態に係る情報処理装置１０のハードウェア構成の一例を図３６のブロック図に示す。
情報処理装置１０は、ＣＰＵ（Central Processing Unit）３６１と、ＲＡＭ（Random Access Memory）３６２と、ＲＯＭ（Read Only Memory）３６３と、ストレージ３６４と、表示装置３６５と、入力装置３６６と、通信装置３６７とを含み、それぞれバスにより接続される。

ＣＰＵ３６１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ３６１は、ＲＡＭ３６２の所定領域を作業領域として、ＲＯＭ３６３およびストレージ３６４などに記憶されたプログラムとの協働により、上述した情報処理装置１０の各部の処理を実行する。

ＲＡＭ３６２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ３６２は、ＣＰＵ３６１の作業領域として機能する。ＲＯＭ３６３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ３６４は、ＨＤＤ（Hard Disc Drive）等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤなどの磁気的に記録可能な記憶媒体、光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ３６４は、ＣＰＵ３６１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

表示装置３６５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置３６５は、ＣＰＵ３６１からの表示信号に基づいて、各種情報を表示する。

入力装置３６６は、マウスおよびキーボード等の入力デバイスである。入力装置３６６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ３６１に出力する。

通信装置３６７は、ＣＰＵ３６１からの制御に応じて外部機器とネットワークを介して通信する。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した情報処理装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の情報処理装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…情報処理装置、２０…帳票データ、２１…データ項目、２２…入力位置、３０，１３０，１６０…入力手順リスト、７０，８０…判定辞書、７１，８１…範囲指定テンプレート、７２，７３…正規表現、９１…太枠、１０１…手順格納部、１０２…テンプレート格納部、１０３…音声認識部、１０４…音声合成部、１０５…生成部、１０６…決定部、１０７…判定部、１０８…制御部、１０９…入力部、１３１…グループ、１４１…発話テンプレート、１５０…メッセージ、１７０…値辞書、１８０，１９０…範囲辞書、２００，３２０…文法認識辞書、２２０…第１キーワード認識辞書、２３０…第２キーワード認識辞書、２４０…文法認識辞書、２６１～２６３，２７１，２７２，３４１，３４３…区間、２８１…バッファ部、２９０…キーワード認識辞書、３１０…文法認識辞書、３４２…所定期間、３５１…コピー対象範囲、３５２…入力対象範囲、３６１…ＣＰＵ、３６２…ＲＡＭ、３６３…ＲＯＭ、３６４…ストレージ、３６５…表示装置、３６６…入力装置、３６７…通信装置、１１０１…文字列、１２０１…入力対象範囲

Claims

複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある１以上の項目に関するテンプレートを生成する生成部と、
ユーザの発話を音声認識し、音声認識結果を生成する音声認識部と、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された１以上の項目に関する入力対象範囲を決定する決定部と、
を具備する情報処理装置。
前記音声認識結果が前記テンプレートと一致する部分を含む場合、前記一致する部分に関する発話が、前記入力対象範囲を指定するための範囲指定発話であり、かつ前記音声認識結果の前記一致する部分よりも後の発話が、前記入力対象範囲に入力される値を示す値発話であると判定する判定部をさらに具備する、請求項１に記載の情報処理装置。
前記判定部は、前記音声認識結果が前記テンプレートと一致する部分を含まない場合、前記音声認識結果に関する発話が前記値発話であると判定する、請求項２に記載の情報処理装置。
前記生成部は、前記テンプレートに基づき、特定の文法による発話を音声認識するための文法認識辞書を生成し、
前記音声認識部は、前記文法認識辞書に一致した前記ユーザの発話を前記音声認識結果として生成する、請求項１から請求項３のいずれか１項に記載の情報処理装置。
前記生成部は、前記テンプレートに基づき、特定のキーワードを検出するためのキーワード認識辞書と、特定の文法による発話を音声認識するための文法認識辞書とを生成し、
前記音声認識部は、前記キーワード認識辞書に一致した前記ユーザの第１発話を第１音声認識結果として生成し、前記文法認識辞書に一致した、前記第１発話よりも後の第２発話を第２音声認識結果として生成し、
前記第１音声認識結果を前記入力対象範囲を指定するための範囲指定発話として判定し、前記第２音声認識結果を前記入力対象範囲に入力される値を示す値発話として判定する判定部をさらに具備する、請求項１に記載の情報処理装置。
前記ユーザの発話を音声データとしてバッファリングするバッファ部と、判定部とをさらに具備し、
前記生成部は、前記テンプレートに基づき、特定のキーワードを検出するためのキーワード認識辞書と、特定の文法による発話を音声認識するための文法認識辞書とを生成し、
前記音声認識部は、前記キーワード認識辞書に一致した前記ユーザの第１発話を第１音声認識結果として生成し、前記バッファリングされた音声データを用いて、前記第１音声認識結果に対応する音声データ部分から所定期間遡った音声データのうち前記文法認識辞書に一致した第２発話を第２音声認識結果として生成し、
前記判定部は、前記第２音声認識結果を前記入力対象範囲を指定するための範囲指定発話として判定する、請求項１に記載の情報処理装置。
前記音声認識部は、前記第１音声認識結果に対応する音声データ部分よりも後の音声データにおいて前記文法認識辞書に一致した第３発話を第３音声認識結果として生成し、
前記判定部は、前記第３音声認識結果を前記入力対象範囲に入力される値を示す値発話として判定する、請求項６に記載の情報処理装置。
前記入力対象範囲は、前記記録用データシート上での入力位置を特定する範囲であり、
前記入力位置に前記値発話に関する値を入力する入力部をさらに具備する、請求項２、請求項３、請求項５または請求項７に記載の情報処理装置。
前記判定部は、前記値発話が前記入力対象範囲に対する入力のスキップを意図する発話であるか否かを判定する、請求項８に記載の情報処理装置。
前記入力部は、前記値発話が前記入力のスキップを意図する発話であると判定された場合、前記入力対象範囲に値を入力しない又は所定の記号を入力する、請求項９に記載の情報処理装置。
前記記録用データシート上で前記入力対象範囲を強調表示する制御部をさらに具備する、請求項１から請求項１０のいずれか１項に記載の情報処理装置。
前記テンプレートは、前記入力対象範囲の終点と、前記入力対象範囲の始点および終点と、前記入力対象範囲に含まれる項目の個数と、前記入力対象範囲に含まれる項目の名称との少なくともいずれか１つを指定する発話に一致する表現である、請求項１から請求項１１のいずれか１項に記載の情報処理装置。
前記入力順序は、項目の名称と、前記項目に対する値を入力する入力位置の識別子と、前記項目のグループ名との少なくとも１つとそれぞれ対応付けられ、
前記テンプレートは、前記入力順序と対応付けられた、前記名称と、前記識別子と、前記グループ名との少なくとも１つを用いて前記入力位置を指し示す、請求項１から請求項１２のいずれか１項に記載の情報処理装置。
複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある１以上の項目に関するテンプレートを生成し、
ユーザの発話を音声認識し、音声認識結果を生成し、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された１以上の項目に関する入力対象範囲を決定する、情報処理方法。
コンピュータを、
複数の項目を含む記録用データシートに関し、前記複数の項目から選択された入力対象項目に関する入力順序を基準として、指定される可能性のある１以上の項目に関するテンプレートを生成する生成手段と、
ユーザの発話を音声認識し、音声認識結果を生成する音声認識手段と、
前記テンプレートおよび前記音声認識結果に基づき、前記複数の項目のうちの前記ユーザの発話により指定された１以上の項目に関する入力対象範囲を決定する決定手段として機能させるための情報処理プログラム。