JP2017072726A

JP2017072726A - 音声認識システム、方法およびプログラム

Info

Publication number: JP2017072726A
Application number: JP2015199528A
Authority: JP
Inventors: 正一菅谷; Shoichi Sugaya
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2015-10-07
Filing date: 2015-10-07
Publication date: 2017-04-13
Anticipated expiration: 2035-10-07
Also published as: JP6705589B2

Abstract

【課題】音声で回答を入力する質問項目の順番が進んだとしても、既に回答が記録されている質問項目に関して回答を訂正することができ、また、記録済みの回答を１回の発話で訂正することができる音声認識システムを提供する。【解決手段】音声出力制御手段７１は、質問項目を順次、音声出力する。音声認識手段７２は、質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う。回答記録手段７３は、音声認識の結果、質問項目に対する回答が得られた場合、その回答を１つのレコード内に記録する。回答記録手段７３は、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、既に記録した回答を、新たな回答に訂正する。【選択図】図１０

Description

本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特に、一旦記録した音声認識結果を訂正することができる音声認識システム、音声認識方法および音声認識プログラムに関する。

料理を提供する食堂（例えば、企業の社員食堂等）の調理場では、提供する料理の安全を確保するために、調理に関する種々の情報を記録することが求められている。記録対象となる情報の例として、例えば、食材の中心温度、食器や野菜等を洗浄するときの塩素濃度等が挙げられる。食材の温度を記録しておくことは、ＨＡＣＣＰ（Hazard Analysis and Critical Control Point）でも規定されている。

一般に、調理場では、調理師は手書きで情報を記録している。しかし、この場合、調理師は、記録の度に、例えば、手袋をとり、ペンにより情報を記録し、手を洗い、再度手袋をして調理に戻る。従って、調理師は、調理等の作業をしながら、このような煩雑な手順で情報を記録しなければならない。

そこで、調理に関する種々の情報を記録するために、音声認識装置を用いることが考えられる。しかし、調理場では、食器等の音が生じていて、これらの音がノイズとなり、音声が誤認識されることが多いと考えられる。

また、音声認識結果を記憶するとともに、記憶した内容を訂正することができるシステムが種々提案されている（特許文献１~３を参照）。

特許文献１には、音声認識結果を含む対話履歴を格納する音声対話システムが記載されている。特許文献１に記載の音声対話システムは、誤認識された結果を訂正するためにユーザが発話する訂正発話の認識に用いられるルールを生成する。さらに、特許文献１に記載の音声対話システムは、そのルールを用いてユーザの発話が認識された場合に、その発話を訂正発話とみなし、誤認識を修正する。

また、特許文献２には、音声認識結果を記録し、例えば、ユーザが「駅名を訂正」と発話した場合に、駅名を訂正するための処理を開始するシステムが記載されている。

また、特許文献３には、ある項目の音声が入力されると、その音声認識結果を、表示器に出力する音声認識装置が記載されている。特許文献３に記載の音声認識装置は、例えば、「月」の項目、「日」の項目等の入力順序を厳密に定めている。また、特許文献３に記載の音声認識装置は、音声認識結果と、標準パターンとのマッチング等の処理によって、どの項目の発話の音声認識結果であるのかを判断する。そして、特許文献３に記載の音声認識装置は、例えば、ユーザが「月」の項目を発話した場合、「月」の項目の音声認識結果を出力し、「月」の項目の音声認識結果が誤りであるとユーザに判断された場合、再度、「月」の項目の音声入力を受け付け、その音声認識結果で、「月」の項目の音声認識結果を訂正する。ユーザは、その音声認識結果が正しいと判断した場合には、「日」の項目を発話する。

特開２００５−３１６２４７号公報特開２０００−３１５０９６号公報特開平５−６６７９４号公報

特許文献２に記載のシステムは、例えば、ユーザが「駅名を訂正」と発話した場合に、駅名を訂正するための処理を開始する。従って、ユーザは、「訂正」という文言を含む「駅名を訂正」という制御語を発話した後に、正しい駅名を発話することになる。すなわち、ユーザは、「訂正」という文言を含む制御語を発話した後、訂正内容を発話しなければならない。よって、音声認識結果の訂正のための発話回数が２回になる。また、「訂正」等の発話すべき文言の数も多くなる。

調理場で音声入力によって情報を記録しようとする者は、調理等の種々の作業をしながら音声入力をすることが多いので、訂正のための発話回数が多くなったり、訂正のために発話しなければならない文言の数が多くなったりすることは好ましくない。

また、特許文献３に記載の音声認識装置が入力中の項目について音声を誤認識した場合、ユーザは、その項目の内容を再度、発話することで、音声認識装置にその項目の内容を訂正させることができる。しかし、特許文献３に記載の音声認識装置は、例えば、「月」の項目、「日」の項目等の入力順序を厳密に定めている。そして、ユーザは、１つの項目（例えば、「月」の項目）の音声認識結果が正しいと判断した場合に、次の項目（例えば、「日」の項目）の音声を入力する。すなわち、特許文献３に記載の音声認識装置は、ユーザが次の項目（例えば、「日」の項目）の音声入力を開始した場合、前の項目（例えば、「月」の項目）の音声認識結果は正しいと判定することになる。

すなわち、特許文献３に記載の音声認識装置は、定められた入力順序に従って、各項目の音声入力を受け付け、ユーザは現在入力中の項目について誤認識が生じたと判断した場合に、その項目について再度、発話することによって誤認識された結果を音声認識装置に訂正させることができる。しかし、特許文献３に記載の音声認識装置は、次の項目の入力に進んだ場合、前の項目の音声認識結果を訂正することはできない。

そこで、本発明は、音声で回答を入力する質問項目の順番が進んだとしても、既に回答が記録されている質問項目に関して回答を訂正することができ、また、記録済みの回答を１回の発話で訂正することができる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。

本発明による音声記録システムは、質問項目を順次、音声出力する音声出力制御手段と、質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う音声認識手段と、音声認識の結果、質問項目に対する回答が得られた場合、その回答を１つのレコード内に記録する回答記録手段とを備え、回答記録手段が、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、既に記録した回答を、新たな回答に訂正することを特徴とする。

また、本発明による音声記録方法は、質問項目を順次、音声出力し、質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行い、音声認識の結果、質問項目に対する回答が得られた場合、その回答を１つのレコード内に記録し、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、既に記録した回答を、新たな回答に訂正することを特徴とする。

また、本発明による音声記録プログラムは、コンピュータに、質問項目を順次、音声出力する音声出力制御処理、質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う音声認識処理、音声認識の結果、質問項目に対する回答が得られた場合、その回答を１つのレコード内に記録する回答記録処理、および、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、既に記録した回答を、新たな回答に訂正する訂正処理を実行させることを特徴とする。

本発明によれば、音声で回答を入力する質問項目の順番が進んだとしても、既に回答が記録されている質問項目に関して回答を訂正することができ、また、記録済みの回答を１回の発話で訂正することができる。

本発明の音声認識システムの例を示すブロック図である。レコード記憶部に記憶されるレコードの例を示す模式図である。質問項目セット記憶部に記憶される質問項目セットの例を示す説明図である。本発明の処理経過の例を示すフローチャートである。本発明の処理経過の例を示すフローチャートである。本発明の処理経過の例を示すフローチャートである。本発明の処理経過の例を示すフローチャートである。端末とサーバとを備える音声認識システムの構成例を示すブロック図である。共通の場所と異なる時間帯の組に対して質問項目セットを対応付けた情報の例を示す説明図である。本発明の音声認識システムの概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

図１は、本発明の音声認識システムの例を示すブロック図である。以下、説明を簡単にするために、音声認識システム１が、可搬型端末である場合を例にして説明する。ただし、後述するように、音声認識システム１は、可搬型端末とサーバとを備える構成であってもよい。図１に示す音声認識システム１は可搬型端末であり、以下、単に端末１と記す。

端末１は、質問項目セット記憶部２と、質問項目セット選択部３と、スピーカ４と、音声出力制御部５と、マイクロホン６と、音声認識部７と、回答記録部９と、レコード記憶部１０と、メモリ１１とを備える。

本実施形態では、端末１が、音声入力された調理に関する情報のレコードを記憶する場合を例にして説明する。複数のデータ項目を含む１件の情報の単位をレコードと称する。レコード内には、音声入力された担当者の情報（具体的には、担当者名）や場所の情報が含まれ、さらに、場所に基づいて選択された質問項目に応じて音声入力された種々の回答が含まれる。また、担当者とは、端末１のユーザであり、音声によって情報を入力する者である。本実施形態では、調理場で端末１を使用する調理師等が担当者である場合を例にして説明する。また、本実施形態では、場所とは、例えば、フライヤ、食器洗い場、冷蔵庫等の調理に関連する場所である。

レコード記憶部１０は、レコードを記憶する記憶装置である。レコード記憶部１０は、個々のレコードを記憶する。図２は、レコード記憶部１０に記憶されるレコードの例を示す模式図である。図２に示す例では、１つのレコード内に「担当者」、「場所」、「食材」、「温度１」、「温度２」、「温度３」という項目が含まれる場合を例示している。また、図２に示すように、個々のレコード内に、レコードを識別するための「レコード番号」が含まれていてもよい。また、図２に示すように、レコード内には、「打切りフラグ」という項目も含まれる。図２に例示する項目のうち、「担当者」、「場所」、「食材」、「温度１」、「温度２」、「温度３」の各項目の内容は、端末１が音声出力した質問項目に応じて担当者が発話した回答に基づいて記録される。

図２では、担当者の回答に基づいて記録される項目のうち、「担当者」および「場所」以外の項目として、「食材」、「温度１」、「温度２」、「温度３」という項目を例示している。これらの項目は、場所に応じて切り替わる。図２に示す例では、「フライヤ１」という場所に応じて、端末１が「食材」、「温度１」、「温度２」、「温度３」という項目を選択した場合を例示している。例えば、音声入力された場所の項目が「食器洗い場」であれば、端末１は、「塩素濃度判定結果」という項目を選択してもよい。

なお、ここでは、フライヤの場所が複数あり、その各場所を「フライヤ１」等のように番号で区別しているものとする。このように、同様の場所が複数存在する場合、それらの場所を番号で区別してもよい。

「打切りフラグ」の項目は、レコードの記録途中でレコードの記録が打切られたか、あるいは、１つのレコードが最後まで正常に記録されたかを示す。本実施形態では、打切りフラグの値が“１”であれば、途中でレコードの記録が打切られたことを意味し、打切りフラグの値が“０”であれば、１つのレコードが最後まで正常に記録されたことを意味する。

端末１は、ユーザの音声に対する音声認識の結果、特定の質問項目とその回答との組み合わせを得た場合に、記録中のレコードに対する記録を打切る。このように、レコードの記録の打切りの契機となる質問項目を、以下、特定質問項目と記す。本実施形態では、「担当者に関する質問項目」と「場所に関する質問項目」とが特定質問項目に該当する。例えば、「担当者は山田」という音声認識結果や、「場所は冷蔵庫」という音声認識結果が得られた場合、端末１は、記録中のレコードの「打切りフラグ」の値として“１”を記録し、そのレコードの記録を打切る。なお、「担当者は山田」という音声認識結果において、「担当者」が特定質問項目に該当し、「山田」がその回答に該当する。同様に、「場所は冷蔵庫」という音声認識結果において、「場所」が特定質問項目に該当し、「冷蔵庫」がその回答に該当する。

端末１は、レコードを記録する場合、「担当者に関する質問項目」および「場所に関する質問項目」を先に音声出力し、その後、場所に応じた各質問項目を音声出力する。そして、端末１は、音声出力した「担当者に関する質問項目」および「場所に関する質問項目」に応じて担当者が「田中」、「フライヤ１」等の回答のみを発話し、その音声認識結果を得た場合には、レコードの記録を打切りとするのではなく、それらの音声認識結果をメモリ１１に記憶させる。そして、端末１は、場所に応じた各質問項目のうち、最初の質問項目に対する回答の音声認識結果が得られたときに、この最初の質問項目に対する回答の音声認識結果と、既に得られている担当者に関する回答の音声認識結果、場所に関する回答の音声認識結果とを含む１つのレコードを記憶し、その後、順次、その他の回答をこのレコード内に追加していく。この後、音声認識結果として、特定質問項目とその回答との組み合わせ（例えば、「担当者は山田」、「場所は冷蔵庫」等）が得られた時に、端末１は、記録中のレコードの記録を打切る。

担当者は、回答の記録を意図している場合には、例えば、「田中」、「フライヤ１」、「フライドポテト」等の回答のみを発話すればよい。一方、レコードの記録の打切りを意図している場合には、担当者は、「担当者は山田」、「場所は冷蔵庫」等のように、特定質問項目と回答との組み合わせを発話すればよい。

なお、レコードの記録の打切りの契機とならない質問項目を、以下、「通常質問項目」と記す。場所に関する回答に応じて選択される質問項目の集合（以下、質問項目セットと記す。）に属する個々の質問は、通常質問項目に該当する。例えば、図２に例示する「食材」、「温度１」、「温度２」、「温度３」は、いずれも通常質問項目である。

質問項目セット記憶部２は、場所毎に予め定められた各質問項目セットを記憶する記憶装置である。図３は、質問項目セット記憶部２に記憶される質問項目セットの例を示す説明図である。図３に示すように、場所と質問項目セットとを対応付けた情報が質問項目セット記憶部２に予め記憶される。この情報は、場所に関する回答が得られた場合に、その回答に応じて選択される質問項目の集合（質問項目セット）を表している。例えば、図３に例示する「フライヤ１」に対応する質問項目セットには「食材」、「温度１」、「温度２」および「温度３」が含まれる。このことは、場所に関する回答が「フライヤ１」である場合には、質問項目として「食材」、「温度１」、「温度２」および「温度３」が選択されることを意味する。

また、質問項目セットに含まれる質問項目は１つであってもよい。例えば、図３に例示する「食器洗い場」に対応する質問項目セットには、１つの質問項目「塩素濃度判定結果」のみが含まれている。なお、「塩素濃度判定結果」は、水の塩素濃度が正常な範囲内か否かを、例えば、専用の試験紙等によって判定した結果を意味する。

また、質問項目の名称が共通であっても、場所によって、意味が異なっていてもよい。例えば、「フライヤ１」に対応する「温度１」、「温度２」、「温度３」がそれぞれ、フライヤで調理されコンベアで搬送される食材のうち、コンベア上の先頭部、中央部、後尾部に存在する食材の中心温度を意味していてもよい。そして、図３に例示する「冷蔵庫」に対応する「温度１」、「温度２」、「温度３」が、過去所定期間における最高温度、最低温度、および現在の温度を意味していてもよい。音声入力を行う担当者は、共通の名称を有する質問項目の意味が場所毎にどのように異なっているかを把握しておけばよい。

質問項目セット選択部３は、担当者が場所に関する回答を発話し、その音声認識結果が得られた場合、その音声認識結果が示す場所に対応する質問項目セットを、質問項目セット記憶部２に記憶されている質問項目セットの中から選択し、読み込む。

音声出力制御部５は、スピーカ４を介して、「担当者に関する質問項目」および「場所に関する質問項目」を音声出力する。その「場所に関する質問項目」の回答を担当者が発話し、その音声認識結果が得られた結果、上記のように質問項目セット選択部３が質問項目セットを選択したとする。すると、音声出力制御部５は、その質問項目セットに含まれる質問項目も、順次、スピーカ４を介して音声出力する。

また、音声出力制御部５は、音声出力した質問項目に対する回答が発話され、音声認識部７がその音声に対して音声認識を行ったときに、質問項目および回答の組み合わせを、スピーカ４を介して音声出力する。例えば、音声出力制御部５が「食材は？」と音声出力し、担当者が「フライドポテト」と発話し、「フライドポテト」という音声認識結果が得られたとする。この場合、音声出力制御部５は、「食材はフライドポテト」という音声を、スピーカ４を介して出力する。すなわち、音声出力制御部５は、回答が得られた場合、回答を復唱しているということが言える。

なお、音声出力制御部５が出力する音声は、合成音声である。

音声認識部７は、質問項目の音声出力に応じて担当者が発話した音声がマイクロホン６に入力されると、その音声に対して音声認識を行う。音声認識部７は、端末１内に設けられた辞書記憶部（図示略）に記憶された辞書を参照して、音声認識を行う。音声認識部７は、公知の方法で音声認識を行えばよい。

また、音声認識部７は、音声認識の結果として得られた回答が、直近に音声出力された質問項目に対する回答であるか否かを判定する。例えば、端末１は、質問項目と、その質問項目に対する回答候補とを対応付けた情報を、質問項目毎に記憶装置（図示略）に記憶しておけばよい。そして、音声認識部７は、音声認識の結果得られた回答と、回答候補とのマッチングを行うことで、音声認識の結果として得られた回答が、直近に音声出力された質問項目に対する回答であるか否かを判定すればよい。

また、音声認識部７は、音声認識の結果として、質問項目と回答との組み合わせが得られた場合、その回答は、その質問項目に対する回答であると判定する。質問項目と回答との組み合わせが得られる態様として、直近に音声出力された質問項目と回答との組み合わせが得られる態様と、既に回答が記録されている質問項目と回答との組み合わせが得られる態様と、未だ音声出力されていない質問項目と回答との組み合わせが得られる態様とがある。ただし、後述するように、未だ音声出力されていない質問項目と回答との組み合わせを担当者が発話した場合、その音声認識結果は無視される。

メモリ１１は、担当者に関する回答の音声認識結果や場所に関する回答の音声認識結果を記憶するためのメモリである。

回答記録部９は、音声認識部７による音声認識の結果得られた回答を、レコード内の項目として、レコード記憶部１０に記録する。ただし、音声出力制御部５は、「担当者に関する質問項目」および「場所に関する質問項目」を先に音声出力する。この結果、担当者に関する回答の音声認識結果や場所に関する音声認識結果が得られた場合、回答記録部９は、担当者に関する回答の音声認識結果や場所に関する回答の音声認識結果をメモリ１１に記憶させる。そして、その場所に応じて質問項目セットが選択され、その質問項目セットに属する質問項目（通常質問項目）のうち、最初の質問項目に対する回答の音声認識結果が得られたときに、回答記録部９は、その音声認識結果と、メモリ１１に記憶されている担当者に関する回答の音声認識結果および場所に関する回答の音声認識結果とを含む１つのレコードをレコード記憶部１０に記憶させる。この後、回答記録部９は、順次、その他の回答の音声認識結果をこのレコード内に追加していく。

また、音声認識部７による音声認識の結果、既に記録した回答に対応する通常質問項目と新たな回答の組み合わせが得られた場合、回答記録部９は、その既に記録した回答を、その新たな回答に訂正する。例えば、回答記録部９は、レコード内に、「温度１」として９０度という情報を既に記録済みであるとする。その後、音声認識部７によって、「温度１は８８度」という音声認識結果が得られたとする。この「温度１は８８度」という音声認識結果において、「温度１」は、既に記録した「９０度」に対応する通常質問項目であり、「８８度」は、新たな回答である。この場合、回答記録部９は、「温度１」として既にレコード内に記録されている「９０度」を、「８８度」に訂正する。

従って、音声認識部７が担当者の発話した音声を誤認識する等して、担当者が意図する回答とは異なる回答がレコード内に記録されたとしても、担当者が、その回答に対応する通常質問項目と新たな回答との組み合わせを発話することにより、回答記録部９に、レコード内に誤って記録された回答を、正しい回答に訂正させることができる。

なお、回答記録部９は、音声認識の結果、直近の質問項目とその回答が得られた場合、回答記録部９は、その回答をレコード内に記録すればよい。

既に説明したように、担当者は、回答の記録を意図している場合には、例えば、「田中」、「フライヤ１」、「フライドポテト」等の回答のみを発話すればよい。この場合の回答は、特定質問項目に対する回答であっても、通常質問項目に対する回答であってもよい。また、レコードの記録の打切りを意図している場合には、担当者は、「担当者は山田」、「場所は冷蔵庫」等のように、特定質問項目と回答との組み合わせを発話すればよい。

さらに、既にレコード内に記録済みの通常質問項目に対する回答の訂正を担当者が意図している場合、担当者は、「温度１は８８度」等のように、その通常質問項目と新たな回答との組み合わせを発話すればよい。

なお、担当者は、通常質問項目の回答の記録を意図している場合に、回答のみを発話する態様の他、直近に音声出力された通常質問項目と回答との組み合わせを発話してもよい。例えば、「温度１は？」という通常質問項目が音声出力され、担当者が温度１の情報を記録することを意図している場合、「８８度」等の回答のみを発話してもよく、また、「温度１は８８度」等のように通常質問項目と回答との組み合わせを発話してもよい。

担当者の発話の態様をまとめると、以下のようになる。担当者は、通常質問項目の回答の記録を意図している場合、回答のみを発話してもよく、あるいは、直近に音声出力された質問項目と回答との組み合わせを発話してもよい。また、担当者は、特定質問項目の回答の記録を意図している場合、回答のみを発話する。また、担当者は、レコードの記録の打切りを意図している場合、特定質問項目と回答との組み合わせを発話する。また、担当者は、既にレコード内に記録済みの通常質問項目に対する回答の訂正を意図している場合、その通常質問項目と新たな回答との組み合わせを発話する。

質問項目セット選択部３、音声出力制御部５、音声認識部７および回答記録部９は、例えば、音声認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、コンピュータのプログラム記憶装置（図示略）等のプログラム記録媒体から音声認識プログラムを読み込み、その音声認識プログラムに従って、質問項目セット選択部３、音声出力制御部５、音声認識部７および回答記録部９として動作すればよい。また、質問項目セット選択部３、音声出力制御部５、音声認識部７および回答記録部９が別々のハードウェアによって実現されていてもよい。

また、メモリ１１およびレコード記憶部１０が同一の記憶装置（例えば、同一のメモリ）で実現されていてもよい。

次に、本発明の処理経過の例について説明する。図４から図７までの各図は、本発明の処理経過の例を示すフローチャートである。ただし、図４から図７までに示すフローチャートは例示であり、本発明の処理経過は図４から図７までに示すフローチャートに限定されるわけではない。

端末１を所持する担当者が所定の操作を行うと、端末１は、ステップＳ１以降の処理を開始する。ステップＳ１以降の処理の開始の契機となる所定の操作は、予め定めておけばよい。

上記の所定の操作を検出すると、音声出力制御部５は、スピーカ４を介して、担当者に関する質問項目を音声出力する（ステップＳ１）。例えば、音声出力制御部５は、「担当者は？」という合成音声をスピーカ４から出力する。

担当者は、ステップＳ１で音声出力された質問項目に応じて、自分の名を発話する。例えば、担当者名が田中であるとすると、その担当者は「田中」と発話する。担当者に関する回答（すなわち、担当者に関する質問項目への回答）の音声がマイクロホン６を介して入力されると、音声認識部７は、その音声に対して音声認識を行う（ステップＳ２）。本例では、ステップＳ２で「田中」という音声認識結果が得られたとする。

次に、音声出力制御部５は、担当者に関する質問項目とステップＳ２で得られた回答の組み合わせを、スピーカ４を介して音声出力する（ステップＳ３）。例えば、音声出力制御部５は、「担当者は田中」という合成音声をスピーカ４から出力する。

次に、回答記録部９は、担当者に関する回答の音声認識結果（本例では「田中」）を、メモリ１１に記憶させる（ステップＳ４）。

次に、音声出力制御部５は、スピーカ４を介して、場所に関する質問項目を音声出力する（ステップＳ５）。例えば、音声出力制御部５は、「場所は？」という合成音声をスピーカ４から出力する。

担当者は、ステップＳ５で音声出力された質問項目に応じて、自分のいる場所の名称を発話する。本例では、担当者が、場所の名称として「フライヤ１」と発話する場合を例にする。場所に関する回答（すなわち、場所に関する質問項目への回答）の音声がマイクロホン６を介して入力されると、音声認識部７は、その音声に対して音声認識を行う（ステップＳ６）。本例では、ステップＳ６で「フライヤ１」という音声認識結果が得られたとする。

次に、音声出力制御部５は、場所に関する質問項目とステップＳ６で得られた回答の組み合わせを、スピーカ４を介して音声出力する（ステップＳ７）。例えば、音声出力制御部５は、「場所はフライヤ１」という合成音声をスピーカ４から出力する。

次に、回答記録部９は、場所に関する回答の音声認識結果（本例では「フライヤ１」）を、メモリ１１に記憶させる（ステップＳ８）。

本例では、ステップＳ４，Ｓ８の結果、メモリ１１は，担当者に関する回答の音声認識結果、および場所に関する回答の音声認識結果として、それぞれ、「田中」、「フライヤ１」を記憶している状態となる。

ステップＳ８の後、質問項目セット選択部３は、ステップＳ６の音声認識により得られた場所に関する回答に応じた質問項目セットを、質問項目セット記憶部２に記憶されている質問項目セットの中から選択し、読み込む（ステップＳ９）。本例では、質問項目セット選択部３は、図３に例示する「食材」、「温度１」、「温度２」および「温度３」を含む質問項目セットを選択するものとして説明する。

ステップＳ９の次に、回答記録部９は、ステップＳ９で選択された質問項目セット内の全ての質問項目に対する回答が記録済みであるか否かを判定する（ステップＳ１０）。すなわち、回答記録部９は、質問項目セット内の全ての質問項目に対する回答を含むレコードがレコード記憶部１０に記憶されているか否かを判定する。

質問項目セット内の全ての質問項目に対する回答が記録済みでない場合（ステップＳ１０のＮｏ）、音声出力制御部５は、質問項目セットの中から回答が記録済みでない１つの質問項目を選択し、スピーカ４を介して、その質問項目を音声出力する（ステップＳ１１）。なお、質問項目セットに属する各質問項目の出力の順番は予め定められている。本例では、「食材」、「温度１」、「温度２」、「温度３」の順に音声出力するものと定められているものとする。音声出力制御部５は、その順番に従って、ステップＳ１１に移行する毎に１つの質問項目を選択し、音声出力する。本例では、最初にステップＳ１１に移行した場合、音声出力制御部５は、質問項目として「食材」を選択し、「食材は？」という合成音声をスピーカ４から出力する。

ステップＳ１１で音声出力される質問項目は、通常質問項目である。担当者は、ステップＳ１１で音声出力された通常質問項目に対して回答を発話する場合、回答のみを発話してもよく、あるいは、直近に音声出力された質問項目と回答との組み合わせを発話してもよい。例えば、担当者は、「フライドポテト」と発話してもよく、「食材はフライドポテト」と発話してもよい。

また、ステップＳ１１の音声出力後、担当者が既にレコード内に記録済みの通常質問項目に対する回答の訂正を意図している場合、担当者は、その通常質問項目と新たな回答との組み合わせを発話する。また、担当者がレコードの記録の打切りを意図している場合、担当者は、特定質問項目と回答との組み合わせを発話する。ここでは、担当者が、ステップＳ１１で音声出力される通常質問項目（本例では、「食材は？」）に対する回答を発話するものとして説明する。

担当者の回答の音声がマイクロホン６を介して入力されると、音声認識部７は、その音声に対して音声認識を行う（ステップＳ１２）。

ただし、音声認識部７は、「フライドポテト」（あるいは「食材はフライドポテト」）という通常質問項目の回答に対して音声認識する際、「ハンバーグ」（あるいは「食材はハンバーグ」）等のように誤認識することもあり得る。ここでは、音声認識部７が「フライドポテト」という音声を正しく認識したものとして説明する。

また、音声認識部７は、ステップＳ１２において、その音声認識結果が、ステップＳ１１で音声出力された通常質問項目に対する回答、ステップＳ１１で音声出力された通常質問項目と回答との組み合わせ、レコード内に回答が記憶されている通常質問項目と回答との組み合わせ、および特定質問項目と回答との組み合わせの何れかに該当するか否かを判定する。音声認識部７は、音声認識結果が上記のいずれにも該当しない場合、上記の何れかの音声認識結果が得られるまで、入力された音声に対する音声認識を繰り返す。音声が入力されない場合、音声認識部７は、音声が入力されるまで待機する。換言すれば、音声認識部７は、音声認識結果が、ステップＳ１１で音声出力された通常質問項目に対する回答、ステップＳ１１で音声出力された通常質問項目と回答との組み合わせ、レコード内に回答が記憶されている通常質問項目と回答との組み合わせ、および特定質問項目と回答との組み合わせのいずれにも該当しない場合、その音声認識結果を無視し、上記の何れかの音声認識結果が得られるまで、ステップＳ１３に移行しない。例えば、ステップＳ１１で「温度２は？」という合成音声が出力されていない状態で、担当者が「温度２は９０度」と発話し、音声認識部７が「温度２は９０度」という音声認識結果を得たとしても、音声認識部７は、その音声認識結果を無視する。

次に、音声出力制御部５は、ステップＳ１２の音声認識結果により得られた回答と、その回答に対応する質問項目との組み合わせを、スピーカ４を介して音声出力する（ステップＳ１３）。本例では、音声出力制御部５は、「食材はフライドポテト」という合成音声をスピーカ４から出力する。

なお、ステップＳ１３で音声出力される質問項目および回答は、直近のステップＳ１１で音声出力された質問項目に対応しているとは限らない。前述のように、担当者が既にレコード内に記録済みの通常質問項目に対する回答の訂正を意図してその通常質問項目と新たな回答との組み合わせを発話し、その通常質問項目と新たな回答との組み合わせが音声認識により得られた場合、音声出力制御部５は、その通常質問項目と新たな回答との組み合わせの合成音声を出力する。また、担当者がレコードの記録の打切りを意図して特定質問項目と回答との組み合わせを発話し、その特定質問項目と回答との組み合わせが音声認識により得られた場合、音声出力制御部５は、その特定質問項目と回答との組み合わせの合成音声を出力する。

ステップＳ１３の後、音声認識部７は、音声認識の結果得られた回答が、直近に音声出力された質問項目（具体的には、直近のステップＳ１１で音声出力された通常質問項目）に対する回答であるか否かを判定する（ステップＳ１８）。例えば、担当者が「食材はフライドポテト」と発話し、「食材はフライドポテト」という音声認識結果が得られた場合、音声認識部７は、その音声認識結果により、直近に音声出力された通常質問項目に対する回答であると判定することができる。また、担当者が「フライドポテト」という回答のみを発話し、「フライドポテト」という音声認識結果が得られた場合、例えば、その音声認識結果が「食材」に関する質問項目の回答候補に含まれているか否かによって、音声認識部７は、得られた回答が、直近に音声出力された質問項目に対する回答であるか否かを判定できる。ここでは、音声認識部７は、得られた回答が、直近に音声出力された質問項目に対する回答であると判定するものとして説明する。

音声認識の結果得られた回答が、直近に音声出力された質問項目に対する回答である場合（ステップＳ１８のＹｅｓ）、音声認識部７は、直近に音声出力された質問項目（具体的には、直近のステップＳ１１で音声出力された通常質問項目）が質問項目セット内の１番目の質問項目であるか否かを判定する（ステップＳ１９）。

直近に音声出力された質問項目が質問項目セット内の１番目の質問項目である場合（ステップＳ１９のＹｅｓ）、回答記録部９は、メモリ１１に記録済みの担当者に関する回答、および場所に関する回答をメモリ１１から読み込み、それらの回答と、ステップＳ１２での音声認識により得られた回答とを含む新たなレコードをレコード記憶部１０に記憶させる（ステップＳ２０）。上記のように、ステップＳ１１で音声出力制御部５が「食材は？」という合成音声を出力したとする。その後、ステップＳ１２で「フライドポテト」という音声認識結果が得られ、ステップＳ１３，Ｓ１８，Ｓ１９の順に処理が移行したとする。食材に関する質問項目は、１番目の質問項目であるので、ステップＳ２０に移行する。本例では、メモリ１１は，担当者に関する回答の音声認識結果および場所に関する回答の音声認識結果として、それぞれ、「田中」、「フライヤ１」を記憶している状態となっている。従って、ステップＳ２０において、回答記録部９は、担当者の情報として「田中」を含み、場所の情報として「フライヤ１」を含み、食材の情報として「フライドポテト」を含む新たなレコードを、レコード記憶部１０に記憶させる。このとき、回答記録部９は、そのレコードにレコード番号を含めてもよい。

ステップＳ２０の後、ステップＳ１０以降の処理を繰り返す。

直近に音声出力された質問項目が質問項目セット内の１番目の質問項目でない場合（ステップＳ１９のＮｏ）、回答記録部９は、直近のステップＳ１２での音声認識結果で得られた回答を、現在記録中のレコードに記録する（ステップＳ２１）。例えば、ステップＳ２０の後、ステップＳ１０，Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ１９の順に移行したとする。このとき、ステップＳ１１で、音声出力制御部５が「温度１は？」という合成音声を出力し、ステップＳ１２で「９０度」という音声認識結果が得られたとする。なお、この音声認識結果は誤認識であるとする。「温度１」に関する質問項目は質問項目セット内の１番目の質問項目ではない。よって、この場合、ステップＳ２１に移行する。この結果、回答記録部９は、「田中」、「フライヤ１」、「フライドポテト」を含むレコードに、温度１の情報として「９０度」を記録する。

ステップＳ２１の後も、ステップＳ１０以降の処理を繰り返す。

前述のように、ステップＳ１１の音声出力後、担当者が既にレコード内に記録済みの通常質問項目に対する回答の訂正を意図している場合、担当者は、その通常質問項目と新たな回答との組み合わせを発話する。あるいは、担当者がレコードの記録の打切りを意図している場合、担当者が特定質問項目と回答との組み合わせを発話する。このような場合、音声認識部７は、ステップＳ１２での音声認識によりえられた回答が、直近に音声出力された質問項目に対する回答でないと判定する（ステップＳ１８のＮｏ）。

すると、音声認識部７は、ステップＳ１２での音声認識結果が、既に回答が記録されている通常質問項目と新たな回答との組み合わせであるか否かを判定する（ステップＳ２２）。

音声認識結果が、既に回答が記録されている通常質問項目と新たな回答との組み合わせである場合（ステップＳ２２のＹｅｓ）、回答記録部９は、その既に記録されている回答を、その新たな回答で訂正する（ステップＳ２３）。

例えば、端末１が、ステップＳ１０，Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ１９，Ｓ２０の順に移行した後、ステップＳ１０，Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ１９，Ｓ２１のループ処理を繰り返したとする。その結果、レコード内に、担当者「田中」、場所「フライヤ１」、食材「フライドポテト」、温度１「９０度」、温度２「９０度」が記録されたとする。そして、再び、端末１がステップＳ１０以降の処理を行ったとする。この場合、ステップＳ１１で音声出力制御部５は、「温度３は？」という合成音声をスピーカ４から出力する。一方、担当者が、温度１の「９０度」は、音声認識の誤りであると判断し、温度１の回答の訂正を意図して、「温度１は８８度」と発話し、ステップ１２で、音声認識部７は、「温度１は８８度」という音声を正しく認識したとする。

すると、ステップＳ１２の後、ステップＳ１３，Ｓ１８の順に移行し、音声認識部７は、「温度１は８８度」という音声認識結果に基づいて、「８８度」という回答が、直近の「温度３は？」という質問項目に対する回答でないと判定する（ステップＳ１８のＮｏ）。続いて、音声認識部７は、「温度１は８８度」という音声認識結果が、既に「９０度」という回答が記録されている通常質問項目「温度１」と「８８度」という新たな回答との組み合わせであると判定する（ステップＳ２２のＹｅｓ）。そして、回答記録部９は、温度１に関する質問項目の回答として既に記録されている「９０度」を、新たな回答「８８度」で訂正する（ステップＳ２３）。

ステップＳ２３の後、ステップＳ１０以降の処理を繰り返す。

なお、上記の例では、「温度３は？」という音声出力に対し、担当者が「温度１は８８度」と発話したため、温度３に関する回答はレコード内に記録されていない。そのため、ステップＳ１１に移行した場合、音声出力制御部５は、再度「温度３は？」という合成音声をスピーカ４から出力する。

その後、ステップＳ１２，Ｓ１３，Ｓ１８，Ｓ１９，Ｓ２１の順に移行し、「食材」、「温度１」、「温度２」および「温度３」に関する各回答がレコード内に記録されたとする。すると、次に、ステップＳ１０に移行した場合、回答記録部９は、ステップＳ９で選択された質問項目セット内の全ての質問項目に対する回答が記録済みであると判定する（ステップＳ１０のＹｅｓ）。

すると、音声出力制御部５は、１レコード分の記録を終了するかに関する質問の合成音声をスピーカ４から出力する（ステップＳ１４）。例えば、音声出力制御部５は、「記録を終了しますか？」という合成音声を出力する。なお、「記録を終了しますか？」という質問文は例示であり、１レコード分の記録を終了するかに関する質問文は、「記録を終了しますか？」という文に限定されない。

担当者は、１レコード分の記録を終了してよいと判断した場合には、ステップＳ１４の音声出力に対して、例えば、「終了」と発話する。この「終了」という音声がマイクロホン６を介して入力されると、音声認識部７は、その音声に対して音声認識を行う（ステップＳ１５）。この場合、「終了」という音声認識結果が得られる。また、担当者が、訂正すべき回答があると判断したとする。例えば、上記の例において、「温度３」の回答を訂正すべきと判断したとする。この場合、担当者は、「温度３は８８度」等のように発話する。この音声がマイクロホン６を介して入力されると、音声認識部７は、その音声に対して音声認識を行う（ステップＳ１５）。この場合、「温度３は８８度」という音声認識結果が得られる。

ステップＳ１５の後、回答記録部９は、ステップＳ１５における音声認識結果が、１レコード分の記録を終了する旨の回答であるか否かを判定する（ステップＳ１６）。回答記録部９は、ステップＳ１５での音声認識結果が「終了」である場合、１レコード分の記録を終了する旨の回答であると判定する（ステップＳ１６のＹｅｓ）。そして、回答記録部９は、記録中のレコードに対して打切りフラグの値“０”を記録し、１レコードの処理を終了する（ステップＳ１７）。打切りフラグの値が“０”であるということは、１つのレコードが最後まで正常に記録されたことを意味する。

また、ステップＳ１５での音声認識結果が「終了」ではない場合（ステップＳ１６のＮｏ）、端末１は、ステップＳ１３以降の処理を繰り返す。なお、ステップＳ１５での音声認識結果が「終了」ではない場合というのは、担当者が記録済みの回答の訂正を意図して、「温度３は８８度」等のように発話し、その音声に対する音声認識結果が得られた場合である。

また、前述のように、担当者がレコードの記録の打切りを意図している場合、担当者は、特定質問項目と回答との組み合わせを発話する。例えば、図２に例示するレコード番号“２”のように温度１の記録が終了した後に、端末１を使用する担当者が「田中」から「山田」に変わったとする。そして、新たな担当者は、前の担当者が記録していたレコード番号“２”のレコードの記録を打切ると判断したとする。この場合、新たな担当者は、「担当者は山田」というように、自分の名を発話する。

なお、ここでは、担当者が変わったことにより、新たな担当者が前のレコードを打切ると判断する場合を例示したが、担当者が変わらず、場所が変わったことにより、担当者が前のレコードを打切ると判断してもよい。例えば、図２に例示するレコード番号“２”のように温度１の記録が終了した後に、担当者が端末１を携帯したまま食器洗い場に移動したとする。そして、その担当者が、食器洗い場に関する情報を記録するために、レコード番号“２”のレコードの記録を打切ると判断してもよい。この場合、担当者は、「場所は食器洗い場」というように、新たな場所の名称を発話する。

また、担当者が変わったり、場所を移動したりしている間に、端末１は、図２に例示するレコード番号“２”のように温度１の記録が終了した後、ステップＳ１０，Ｓ１１の順に移行し、ステップＳ１１で「温度２は？」という合成音声を出力し、担当者の音声が入力されるのを待機した状態になっている。

この状態で、「担当者は山田」あるいは「場所は食器洗い場」等の特定質問項目と回答との組み合わせを担当者が発話したとする。音声認識部７は、マイクロホン６を介してその音声が入力されるとその音声に対する音声認識を行う（ステップＳ１２）。この場合、ステップＳ１２の後、ステップＳ１３，Ｓ１８，Ｓ２２の順に移行する。そして、音声認識部７は、ステップＳ１２での音声認識結果が、既に回答が記録されている通常質問項目と新たな回答との組み合わせではないと判定する（ステップＳ２２のＮｏ）。

ステップＳ１０、Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ２２の順に移行し、音声認識部７が、ステップＳ１２での音声認識結果は既に回答が記録されている通常質問項目と新たな回答との組み合わせではないと判定したとする（ステップＳ２２のＮｏ）。このことは、ステップＳ１２での音声認識結果が、特定質問項目と回答との組み合わせであることを意味する。この場合、音声認識部７は、直近に音声出力された質問項目（具体的には、直近のステップＳ１１で音声出力された通常質問項目）が質問項目セット内の１番目の質問項目であるか否かを判定する（ステップＳ２４）。ステップＳ２４は、ステップＳ１９と同様の判定処理である。

ステップＳ１０、Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ２２，Ｓ２４の順に移行し、直近のステップＳ１１で音声出力された通常質問項目が質問項目セット内の１番目の質問項目であるということは（ステップＳ２４のＹｅｓ）、まだ、ステップＳ２０が実行されていないことを意味する。すなわち、担当者の情報、場所の情報、１番目の通常質問項目の回答を含むレコードがレコード記憶部１０に記憶されていない状態であり、その状態で、担当者が、レコードの記録を打切るために、特定質問項目と回答との組み合わせを発話したことになる。この場合（ステップＳ２４のＹｅｓ）、レコードが存在していないので、回答記録部９は打切りフラグとして“１”を記録せずにステップＳ２６に移行する。

また、ステップＳ１０、Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ２２，Ｓ２４の順に移行し、直近のステップＳ１１で音声出力された通常質問項目が質問項目セット内の１番目の質問項目でないということは（ステップＳ２４のＮｏ）、ステップＳ２０が実行済みであることを意味する。すなわち、担当者の情報、場所の情報、および１つ以上の通常質問項目の回答を含むレコードがレコード記憶部１０に記憶されている状態であり、その状態で、担当者が、レコードの記録を打切るために、特定質問項目と回答との組み合わせを発話したことになる。この場合（ステップＳ２４のＮｏ）、回答記録部９は、そのレコードに対する回答の記録を打切る（ステップＳ２５）。具体的には、回答記録部９は、そのレコードに対して、打切りフラグの値“１”を記録する。ステップＳ２５の後、ステップＳ２６に移行する。

ステップＳ２６では、音声認識部７は、音声認識の結果、特定質問項目とともに得られた回答が、担当者に関する回答であるか、場所に関する回答であるかを判定する（ステップＳ２６）。

特定質問項目とともに得られた回答が担当者を示す回答である場合、端末１は、ステップＳ２６からステップＳ４に移行し、ステップＳ４以降の処理を実行する。この場合、ステップＳ４で、回答記録部９は、メモリ１１に記録されている担当者名を、その回答が示している担当者名で更新する。ステップＳ４以降の処理を実施するということは、担当者名をメモリ１１に記憶させるところから処理を行い、新たなレコードを作成していくことを意味する。すなわち、打切られたレコードの次のレコードを作成していくことを意味する。

特定質問項目とともに得られた回答が場所を示す回答である場合、端末１は、ステップＳ２６からステップＳ８に移行し、ステップＳ８以降の処理を実行する。この場合、ステップＳ８で、回答記録部９は、メモリ１１に記録されている場所の名称を、その回答が示している場所の名称で更新する。ステップＳ８以降の処理を実行することは、場所の名称をメモリ１１に記憶させるところから処理を行い、新たなレコードを作成していくことを意味する。すなわち、打切られたレコードの次のレコードを作成していくことを意味する。なお、特定質問項目とともに得られた回答が場所を示す回答である場合、端末１を使用する担当者が変わっているわけではないので、端末１は、ステップＳ８以降の処理を実行すればよい。

本発明によれば、ステップＳ１２での音声認識の結果が、レコード内に回答が記録されている通常質問項目と回答との組み合わせである場合、ステップＳ１２の後、ステップＳ１８，Ｓ２２，Ｓ２３の順に移行する。そして、回答記録部９は、その既に記録されている回答を新たな回答に訂正する。従って、担当者は、既に記録済みの回答を修正することを意図している場合、記録済みの回答に対応する通常質問項目と新たな回答との組み合わせを発話すればよい。例えば、「温度１」に関する回答が誤認識されていて、その回答を訂正しようとする場合には、担当者は、「温度１は８８度」等のように発話すればよい。そのように発話した場合、回答記録部９は、「温度１」に関する回答を「８８度」に訂正する。従って、担当者は、１回の発話で回答を訂正することができる。通常質問項目と新たな回答との組み合わせを発話すれば、記録済みの回答を新たな回答に訂正することができるので、担当者は、例えば、「訂正」という文言を発話する必要はなく、訂正時に発話すべき文言の数も少なくて済む。

また、ステップＳ１０，Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ１９，Ｓ２０の順で処理が進むことによって、ステップＳ２０で、回答記録部９は、新たなレコードをレコード記憶部１０に記憶させる。その後、ステップＳ１０，Ｓ１１，Ｓ１２，Ｓ１３，Ｓ１８，Ｓ１９，Ｓ２１の処理を繰り返すことで、端末１は、そのレコードに回答を記録していく。このとき、ステップＳ１２において、ステップＳ１１で音声出力された質問項目に対する回答の音声認識結果が得られなくても、レコード内に回答が記録されている通常質問項目と回答との組み合わせが得られた場合には、ステップＳ１３，Ｓ１８，Ｓ２２，Ｓ２３の処理を順次行い、ステップＳ２３で、回答記録部９が記録済みの回答を訂正し、再度、ステップＳ１０に移行する。よって、例えば、質問項目が、「温度１」、「温度２」等のように進んだとしても、記録済みの「温度１」の回答を訂正することができる。

また、上記の実施形態において、端末１は、ステップＳ１７の後、ステップＳ１０以降の処理を再度実行してもよい。ステップＳ１７の後、ステップＳ１０以降の処理を再度実行するということは、次のレコードを作成していくことを意味する。従って、端末１は、ステップＳ１７の後、ステップＳ１０以降の処理を再度実行することによって、２番目以降のレコードも連続して作成することができる。

また、上記のように、ステップＳ１７の後、ステップＳ１０以降の処理を再度実行することによって、２番目以降のレコードを作成する場合、端末１は、質問項目セットに属する各質問項目のうち、最初からｎ番目までの質問項目の回答については、既に作成済みのレコードの回答を引き継がせてもよい。ここでは、前述のように、「食材」、「温度１」、「温度２」、「温度３」の順に音声出力するものと定められているものとする。また、説明を簡単にするために、ｎ＝１であり、端末１は、１番目の質問項目「食材」の回答については、既に作成済みのレコードの回答を引き継がせるものとして説明する。

１回目にステップＳ１７に至るまでの処理経過は、既に説明した通りである。１回目のステップＳ１７が完了することによって、１番目のレコードが正常に作成されたことになる。ステップＳ１７の後、端末１は、ステップＳ１０以降の処理を再度実行する。ステップＳ１７からステップＳ１０に移行した後では、音声出力制御部５は、ステップＳ１１毎に１つずつ選択する質問項目を、質問項目セット内のｎ＋１番目の質問項目から開始する。本例では、ステップＳ１７の後、最初にステップＳ１１に移行した場合、音声出力制御部５は、ｎ＋１番目（本例では、２番目）の質問項目「温度１」を選択し、「温度１は？」という合成音声を出力する。

また、ステップＳ１７からステップＳ１０に移行した後のステップＳ１９では、音声認識部７は、直近に音声出力された質問項目（具体的には、直近のステップＳ１１で音声出力された通常質問項目）が質問項目セット内のｎ＋１番目（本例では２番目）の質問項目であるか否かを判定する。そして、直近に音声出力された質問項目が質問項目セット内のｎ＋１番目の質問項目である場合（ステップＳ１９のＹｅｓ）、回答記録部９は、メモリ１１に記録済みの担当者に関する回答、および場所に関する回答をメモリ１１から読み込み、それらの回答と、ステップＳ１２での音声認識により得られた回答とを含む新たなレコードをレコード記憶部１０に記憶させる（ステップＳ２０）。このとき、回答記録部９は、例えば、１つ前のレコードに記録されているｎ番目までの質問項目の回答と同一の回答（本例では１つ前のレコードに記録されている「食材」に関する回答）も、その新たなレコードに含める。すなわち、回答記録部９は、例えば、１つ前のレコードに記録されているｎ番目までの質問項目の回答を、新たなレコードに引き継がせる。この結果、ステップＳ２０では、担当者に関する回答、場所に関する回答、およびｎ＋１番目までの回答を含む新たなレコードがレコード記憶部１０に記憶される。この場合、２番目以降のレコード作成時には、質問項目セットに属する各質問項目のうち、ｎ番目までの質問項目の回答の音声入力を省略できる。

また、既に説明したように、ステップＳ２４は、ステップＳ１９と同様の判定処理である。従って、ステップＳ１７からステップＳ１０に移行した後のステップＳ２４では、音声認識部７は、直近に音声出力された質問項目（具体的には、直近のステップＳ１１で音声出力された通常質問項目）が質問項目セット内のｎ＋１番目の質問項目であるか否かを判定する。

ステップＳ１７からステップＳ１０に移行した後の処理経過において、上記で説明した点以外は、１回目にステップＳ１７に至るまでの処理経過と同様である。

次に、本発明の実施形態の種々の変形例について説明する。

本発明の音声認識システムは、端末１と、サーバとを備える構成であってもよい。図８は、端末とサーバとを備える音声認識システムの構成例を示すブロック図である。図１に示す要素と同様の要素については、説明を省略する。図８に示す例では、端末１は、図１に示す要素に加え、送信制御部１２と、通信インタフェース１３とを備える。

通信インタフェース１３は、端末１が通信ネットワーク３０を介してサーバ２０と通信を行う際の通信インタフェースである。

送信制御部１２は、レコード記憶部１０に記憶されたレコードを、通信インタフェース１３を介してサーバ２０に送信する。送信制御部１２は、例えば、打切りフラグとして“０”または“１”が記録されたレコードが生じると、そのレコードをレコード記憶部１０から読み込み、サーバ２０に送信する。なお、打切りフラグとして“０”が記録されたレコードは、最後まで正常に記録されたレコードである。また、打切りフラグとして“１”が記録されたレコードは途中で記録が打切られたレコードである。

ただし、送信制御部１２によるレコードの送信態様は、上記の例に限定されない。例えば、送信制御部１２は、１日のうち予め決められた時刻になると、その時刻までの間に新たにレコード記憶部１０に記憶されたレコードをまとめてサーバ２０に送信してもよい。

送信制御部１２は、例えば、音声認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。

また、サーバ２０は、通信インタフェース２１と、レコード登録部２２と、レコード記憶部２３とを備える。

通信インタフェース２１は、サーバ２０が通信ネットワーク３０を介して端末１と通信を行う際の通信インタフェースである。

レコード記憶部２３は、サーバ２０が端末１から受信したレコードを記憶する記憶装置である。

レコード登録部２２は、端末１の送信制御部１２が送信したレコードを、通信インタフェース２１を介して受信すると、そのレコードをレコード記憶部２３に記憶させる。

レコード登録部２２は、例えば、サーバ用プログラムに従って動作するＣＰＵによって実現される。

図８に示す構成では、端末１に記憶されたレコードを、サーバ２０も記憶することができる。また、図８に示す構成において、端末１が複数存在していてもよい。この場合、複数の端末１で記憶されたレコードを、サーバ２０がまとめて記憶することができる。その結果、レコードの管理者は、サーバ２０において一括してレコードを管理することができる。

また、上記の実施形態では、質問項目セット記憶部２は、図３に例示するように、場所と質問項目セットとを対応付けた情報を記憶する。共通の場所と異なる時間帯の組に対して、質問項目セットが対応付けられていてもよい。図９は、共通の場所と異なる時間帯の組に対して質問項目セットを対応付けた情報の例を示す。

図９に示す例では、「冷蔵庫、朝」という場所および時間帯の組に対して、「温度１」、「温度２」および「温度３」を含む質問項目セットが定められている。また、「冷蔵庫、夜」という場所および時間帯の組に対して、「温度１」および「温度２」を含む質問項目セットが定められている。ただし、図３に示すように、場所のみに対応付けられている質問項目セットが存在していてもよい。

図９に例示する情報が質問項目セット記憶部２に記憶されているとする。この場合、ステップＳ５で音声出力制御部５が「場所は？」という合成音声をしたときに、担当者は、「冷蔵庫、朝」あるいは「冷蔵庫、夜」と発話してもよい。「冷蔵庫、朝」という音声認識結果が得られた場合、質問項目セット選択部３は、ステップＳ９で、「温度１」、「温度２」および「温度３」を含む質問項目セットを選択する。また、「冷蔵庫、夜」という音声認識結果が得られた場合、質問項目セット選択部３は、ステップＳ９で、「温度１」および「温度２」を含む質問項目セットを選択する。

従って、共通の場所と異なる時間帯の組に対して質問項目セットを対応付けた情報を質問項目セット記憶部２に記憶させておけば、同一の場所であっても、時間帯によって、レコードに含める項目を変えることができる。

また、音声認識の結果が数値で表される場合、音声認識部７は、その数値が、予め定められた数値範囲に属しているか否かを判定してもよい。例えば、場所「フライヤ１」に対応する「温度１」関して、８０度〜９５度という数値範囲が定められているとする。音声認識部７は、温度１の回答の音声認識結果を得た場合、その値が、８０度〜９５度に属しているか否かを判定してもよい。また、回答が示す値がその数値範囲に属していないと判定された場合、音声出力制御部５は、「異常値です。」等のメッセージをスピーカ４から出力してもよい。

また、質問項目の中に、日付に関する質問項目が含まれていてもよい。この場合、音声認識部７は、日付に関する質問項目に対する回答として発話された音声に対する音声認識結果を変換してもよい。例えば、日付に関する質問項目に対する回答として「明日」という音声が発話され、音声認識部７がその音声認識結果として「明日」という文言を得たとする。この場合、「明日」に該当する日付が「９月１６日」であるとすると、音声認識部７は、「明日」という音声認識結果を「９月１６日」に変換してもよい。また、例えば、音声認識結果が「４月３１日」のような不適当な表現である場合、音声認識部７は、その音声認識結果を適当な表現に変換してもよい。例えば、音声認識部７は、「４月３１日」という音声認識結果を「５月１日」に変換してもよい。

また、端末１は、一人の担当者のみが継続して使用するものであってもよい。

また、端末１は、特定の場所に継続的に設置される端末であってもよい。この場合、端末１は、可搬型端末でなくてもよい。

また、以上の説明では、調理場における情報を記録する場合を例にして説明したが、本発明は、調理場以外の種々の情報を音声によって記録する場合にも適用可能である。

次に、本発明の概要について説明する。図１０は、本発明の音声認識システムの概要を示すブロック図である。本発明の音声認識システムは、音声出力制御手段７１と、音声認識手段７２と、回答記録手段７３とを備える。

音声出力制御手段７１（例えば、音声出力制御部５）は、質問項目を順次、音声出力する。

音声認識手段７２（例えば、音声認識部７）は、質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う。

回答記録手段７３（例えば、回答記録部９）は、音声認識の結果、質問項目に対する回答が得られた場合、その回答を１つのレコード内に記録する。

さらに、回答記録手段７３は、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、既に記録した回答を、新たな回答に訂正する。

そのような構成により、音声で回答を入力する質問項目の順番が進んだとしても、既に回答が記録されている質問項目に関して回答を訂正することができ、また、記録済みの回答を１回の発話で訂正することができる。

また、回答記録手段７３が、音声認識の結果、特定の質問項目と回答との組み合わせが得られた場合、記録中のレコードに対する回答の記録を打切り、音声出力制御手段７１が、レコードに対する回答の記録が打切られた場合、新たな１つのレコードに回答が記録される質問項目を順次、音声出力する構成であってもよい。

また、音声出力制御手段７１が、場所に関する質問項目を音声出力し、音声認識の結果、場所を示す回答が得られた場合に、当該場所に応じた質問項目を選択する選択手段（例えば、質問項目セット選択部３）を備え、音声出力制御手段７１が、場所に関する質問項目の後に、選択された質問項目を順次、音声出力する構成であってもよい。

本発明は、音声認識システムに好適に適用される。

２質問項目セット記憶部
３質問項目セット選択部
４スピーカ
５音声出力制御部
６マイクロホン
７音声認識部
９回答記録部
１０レコード記憶部
１１メモリ

Claims

質問項目を順次、音声出力する音声出力制御手段と、
質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う音声認識手段と、
音声認識の結果、質問項目に対する回答が得られた場合、前記回答を１つのレコード内に記録する回答記録手段とを備え、
前記回答記録手段は、音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、前記既に記録した回答を、前記新たな回答に訂正する
ことを特徴とする音声記録システム。
回答記録手段は、音声認識の結果、特定の質問項目と回答との組み合わせが得られた場合、記録中のレコードに対する回答の記録を打切り、
音声出力制御手段は、レコードに対する回答の記録が打切られた場合、新たな１つのレコードに回答が記録される質問項目を順次、音声出力する
請求項１に記載の音声記録システム。
音声出力制御手段は、場所に関する質問項目を音声出力し、
音声認識の結果、場所を示す回答が得られた場合に、当該場所に応じた質問項目を選択する選択手段を備え、
前記音声出力制御手段は、前記場所に関する質問項目の後に、選択された質問項目を順次、音声出力する
請求項１または請求項２に記載の音声記録システム。
質問項目を順次、音声出力し、
質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行い、
音声認識の結果、質問項目に対する回答が得られた場合、前記回答を１つのレコード内に記録し、
音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、前記既に記録した回答を、前記新たな回答に訂正する
ことを特徴とする音声記録方法。
音声認識の結果、特定の質問項目と回答との組み合わせが得られた場合、記録中のレコードに対する回答の記録を打切り、
レコードに対する回答の記録を打切った場合、新たな１つのレコードに回答が記録される質問項目を順次、音声出力する
請求項４に記載の音声記録方法。
場所に関する質問項目を音声出力し、
音声認識の結果、場所を示す回答が得られた場合に、当該場所に応じた質問項目を選択し、
前記場所に関する質問項目の後に、選択した質問項目を順次、音声出力する
請求項４または請求項５に記載の音声記録方法。
コンピュータに、
質問項目を順次、音声出力する音声出力制御処理、
質問項目の音声出力後に入力されたユーザの音声に対して音声認識を行う音声認識処理、
音声認識の結果、質問項目に対する回答が得られた場合、前記回答を１つのレコード内に記録する回答記録処理、および、
音声認識の結果、既に記録した回答に対応する質問項目と新たな回答との組み合わせが得られた場合、前記既に記録した回答を、前記新たな回答に訂正する訂正処理
を実行させるための音声記録プログラム。
コンピュータに、
音声認識の結果、特定の質問項目と回答との組み合わせが得られた場合、記録中のレコードに対する回答の記録を打切る処理を実行させ、
レコードに対する回答の記録が打切られた場合、音声出力制御処理で、新たな１つのレコードに回答が記録される質問項目を順次、音声出力させる
請求項７に記載の音声記録プログラム。
コンピュータに、
音声出力制御処理で、場所に関する質問項目を音声出力させ、
音声認識の結果、場所を示す回答が得られた場合に、当該場所に応じた質問項目を選択する選択処理を実行させ、
前記音声出力制御処理で、前記場所に関する質問項目の後に、選択された質問項目を順次、音声出力させる
請求項７または請求項８に記載の音声記録プログラム。