JP2010191223A - 音声認識方法、携帯端末及びプログラム。 - Google Patents

音声認識方法、携帯端末及びプログラム。 Download PDF

Info

Publication number
JP2010191223A
JP2010191223A JP2009035931A JP2009035931A JP2010191223A JP 2010191223 A JP2010191223 A JP 2010191223A JP 2009035931 A JP2009035931 A JP 2009035931A JP 2009035931 A JP2009035931 A JP 2009035931A JP 2010191223 A JP2010191223 A JP 2010191223A
Authority
JP
Japan
Prior art keywords
work
information
worker
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009035931A
Other languages
English (en)
Inventor
Junichi Kawada
潤一 川田
Fumitaka Sakai
文隆 酒井
Masahiro Tamura
正浩 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2009035931A priority Critical patent/JP2010191223A/ja
Publication of JP2010191223A publication Critical patent/JP2010191223A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザーが音声辞書を切り替えるための操作を意識的に行う必要がなく、自動的に最適な音声辞書を選択することができる音声辞書選択方法、携帯端末及びプログラムを提供すること。
【解決手段】作業者Aが携帯する作業者用端末2の現在の位置情報を取得する位置情報取得ステップS22と、作業者用端末2が記憶している位置情報に関連した音声認識辞書を複数備える音声認識辞書テーブル260から、取得した位置情報に対応する音声認識辞書を選択する選択ステップS23と、集音器から音を取得し、音声認識し音声情報を取得する音声情報取得ステップS24と、音声情報及び選択された音声認識辞書に基づき、音声情報を確定する確定ステップS25と、を含む。
【選択図】図10

Description

本発明は、音を音声認識する音声認識方法、携帯端末及びプログラムに関する。
従来、入力された音声の音声認識率を向上させる技術が提案されている。例えば、特許文献1には、入力された音声と認識辞書とに基づいて音声認識を実行するように構成された音声認識装置が記載されている。入力音声で表わされる語彙のカテゴリを指定可能に構成すると共に、認識辞書内の語彙のうちで指定されたカテゴリに属する語彙と入力された音声とに基づいて音声認識を行う。この構成によれば、音声認識に用いられる認識辞書の語彙の個数が絞られると共に、同じカテゴリの語彙となるので、音声認識の認識率が向上する。
また特許文献2には、ディスプレイに表示された地図上の任意の位置を指定する位置指定手段と、入力された入力音声と比較して音声認識するための比較データを記憶する認識辞書と、位置指定手段により指定された位置に応じて認識辞書から比較データを選択し、音声認識処理を行う処理対象データを絞り込む辞書選択手段と、入力音声と辞書選択手段により選択された処理対象データとを比較し、認識結果を出力する認識処理手段とを備えた音声認識装置が記載されている。この構成によれば、ナビゲーション装置における目的地設定等の操作の容易化を図り、音声認識処理時間の短縮を図り、誤認識の可能性を低くすることができる。
さらに特許文献3には、ユーザーがステアリングを握っている位置を検出し、複数の音声辞書のうちから握り位置に対応する音声辞書を使用辞書として切替え、ユーザーが発した音声を入力すると、その入力した音声の音声波形と使用辞書として切替えた音声辞書に登録されている語句の近似波形とを照合して当該ユーザーが発した音声を音声認識する音声認識装置が記載されている。この構成によれば、ユーザーが複数の音声辞書のうちからいずれかを使用辞書として切替えるための語句を発声する必要がなくなり、ユーザーが音声認識させたい語句のみを発声すれば良くなる。
特開平11−305790号公報 特開2004−020883号公報 特開2008−145676号公報
特許文献1に記載の音声認識装置では、語彙のカテゴリの選択をユーザーによるスイッチや操作キーによって行う構成となっている。また、特許文献2に記載の音声認識装置では、地図上の任意の位置指定をユーザーによるタッチパネル操作によって行う構成となっている。このため、ユーザーが操作画面をゆっくり参照することができる状況での使用形態に適している。特許文献3に記載の音声認識装置は、ユーザーによるステアリングの握り位置に応じて音声辞書を切り替えるため、運転中のユーザーは運転作業を中断することなく音声辞書を切り替えることはできる。
しかしながら特許文献1及び2に記載の音声認識装置は、1度作業を停止して操作画面を参照しカテゴリあるいは任意の位置指定を行わなければならない。このため、作業の効率が一時的に低下する。例えば、大きなホールで店員が動きながら作業に従事する飲食店やパチンコ店のような形態には採用し難い。また、特許文献3に記載の音声認識装置は、ユーザーは、音声認識辞書を切り替えるためにステアリングの握り位置を意識的に変更する必要がある。
本発明は、上記課題を解決するためになされたものであって、ユーザーが音声辞書を切り替えるための操作を意識的に行う必要がなく、自動的に最適な音声辞書を選択することができる音声辞書選択方法、携帯端末及びプログラムを提供することを目的とする。
上記課題を解決することのできる本発明は、携帯端末の位置情報を取得する位置情報取得ステップと、前記携帯端末が記憶している前記位置情報に関連した音声認識辞書を複数備える音声認識辞書テーブルから、前記取得した位置情報に対応する前記音声認識辞書を選択する選択ステップと、集音器から音を取得し、前記音を前記選択された音声認識辞書を用いて音声認識し音声情報を取得する音声情報取得ステップとを含むことを特徴とする。
また、前記音声情報及び前記選択された音声認識辞書に基づき、前記音声情報を確定する確定ステップと、を含むことを特徴とする。
上記構成によれば、携帯端末の位置情報を取得し、位置情報に対応した音声認識辞書を選択することができるので、作業者が音声認識辞書を切り替えるための操作を意識的に行う必要がなく、自動的に最適な音声認識辞書を選択することができる。このため大きなホールで店員が動きながら作業に従事する飲食店やパチンコ店のような形態にも容易に採用することができる。
また本発明は、前記確定ステップにおいて前記確定した音声情報を、サーバーへ送信する送信ステップを含むことを特徴とする。
上記構成によれば、正しく認識された音声情報が作業管理サーバーに送信されるので、作業管理サーバーにおいて実施する、音声情報を利用した処理の精度を向上させることができる。例えば、携帯端末に送信する次の作業指示をより的確なものとし、作業者の作業習熟度をより正確に判定することに寄与することができる。
また本発明において、前記位置情報は、前記携帯端末の絶対位置情報及び相対位置情報と、に基づき求められることを特徴とする。
上記構成によれば、相対位置情報を取得することができるので、絶対位置情報は少なくとも1回または1つだけ与えられれば、携帯端末の現在の位置情報を取得することができる。また、相対位置情報を取得できるので、絶対位置情報だけを取得する場合と比較すると、より携帯端末の正確な位置を取得することができるので、音声認識辞書を選択する際に間違った辞書を選択することを防止することができる。
また、前記音声認識辞書は、所定の場所に関連する音声情報を含む辞書であることを特徴とする。
上記構成によれば、所定の場所毎に音声認識辞書を備えているので、位置情報を取得するだけで、所定の場所で使用される可能性のある単語の個数を一度に減らすことができるので、音声認識時間を短縮するとともに、音声認識の精度を向上させることができる。
また、上記課題を解決することのできる本発明は、携帯端末であって、
位置情報を取得する位置情報取得部と、集音器から音を取得し、前記音を音声認識し音声情報を取得する音声情報取得部と、前記携帯端末が記憶している前記位置情報に関連した音声認識辞書を複数備える音声認識辞書テーブルと、前記音声認識辞書テーブルから前記取得した位置情報に対応する前記音声認識辞書を選択する選択部と、を有することを特徴とする。
さらに、前記音声情報及び前記選択された音声認識辞書に基づき、前記音声情報を確定する音声情報確定部と、を有することを特徴とする。
また、上記課題を解決することのできる本発明は、上記の位置情報取得ステップ、音声情報取得ステップ、選択ステップを前記携帯端末に実行させることを特徴とするプログラムである。
本発明を適用した実施形態に係る作業管理システムの概略構成を示す図である。 作業者用端末の構成を示す図である。 音声認識辞書テーブルの構成例を示した図である。 作業管理サーバーの制御系の構成を示す図である。 作業管理サーバーが実現する機能を示す図である。 習熟度判定基準データベースの構成例を示す図である。 作業者別習熟度データベースの構成例を示す図である。 標準作業フローデータベース(1)の構成例を示す図である。 標準作業フローデータベース(2)の構成例を示す図である。 本実施形態の店舗フロアの座標を示した図であり、店舗の平面図である。 音声認識処理及び作業別習熟度判定処理における作業者及び作業者用端末の処理を示すフローチャートである。 作業管理サーバーの処理を示すフローチャートである。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明を適用した実施形態に係る作業管理システム1の概略構成を示す図である。
作業管理システム1は、複数の作業者が作業を行う作業エリアにおいて、作業者が作業者用端末2(携帯端末)を携帯して使用し、作業管理サーバー5(サーバー)によって、作業者用端末2の位置検出や作業者用端末2への情報送信を行い、作業者の作業を支援および管理するシステムである。本実施形態では、作業エリアとして飲食業を営む店舗に適用した例を挙げて説明する。この店舗では、作業者が作業者用端末2を携帯し、作業管理サーバー5の機能によって、複数の作業者に対して接客を含む作業の支援および管理を行う。
作業管理システム1は、図1に示すように、作業者が使用する端末装置としての作業者用端末2と、顧客が操作可能な位置に設置されたリクエスト用端末装置としての表示用端末3と、作業エリアとしての店舗内の各所に設置された位置検出用タグ4と、作業管理サーバー5とを備えて構成される。
図中においては1個の表示用端末3を図示しているが、本実施形態では、表示用端末3は店舗内で顧客が着席するテーブル席に1個ずつまたは複数設置され、作業エリアとしての店舗内に多数存在する。同様に、図中においては1個の位置検出用タグ4を図示しているが、位置検出用タグ4は店舗内に複数配設されている。各々の表示用端末3および位置検出用タグ4には、固有の識別情報(ID)が付与されている。表示用端末3および位置検出用タグ4は、作業者用端末2との間で相互に通信可能に構成され、作業者用端末2からの要求に応じて、自己に付与されているIDを含むID情報を作業者用端末2に対して送信する。
作業者用端末2と、表示用端末3および位置検出用タグ4とは、例えば900MHz帯或いは2.45GHz帯の周波数を利用するRFID(Radio Frequency Identification)の通信方式に従ってID情報等の各種情報を送受信する。
また、図1には1台の作業者用端末2を図示しているが、実際には、店舗内で作業に従事する複数の作業者がそれぞれ作業者用端末2を携帯して使用する。これら複数の作業者用端末2と、上述した複数の表示用端末3と、作業管理サーバー5とは、例えばIEEE802.11規格に準拠した無線LANを構成し、相互に各種情報を送受信可能である。例えば、作業者用端末2は、作業管理サーバー5に対して、種々のコマンドを送信し、このコマンドに応じて、作業管理サーバー5は作業者用端末2に対し、作業指示等を送信して作業者を支援する。作業者用端末2は、作業管理サーバー5からの指示を受信すると、この指示を音声として作業者に伝達する。
例えば、作業者は、作業者用端末2を用いて現在の作業状況の報告、作業上の応援が必要な旨の要求、作業手順の案内を求める要求、異常発生の報告、店内放送を行う旨の要求、休憩を取得する旨の連絡等を送信する。これに応じて、作業管理サーバー5は、作業者用端末2を使用する各作業者の作業状況の把握、作業者に対する作業手順の指示、応援が要求された位置へ他の作業者を向かわせる指示、異常に対する警告および店内放送の実行、休憩に伴う勤務管理処理等を行う。
また、表示用端末3は、作業管理サーバー5から送信される表示情報に基づいて、メニュー等が表示される各種画面を表示する。その一方で、表示用端末3は、顧客の操作に応じて、店舗や作業者に対する顧客の苦情を示すクレーム情報や、作業者を呼ぶコール情報を、作業管理サーバー5へ送信する。
作業管理サーバー5は、本体部51と、この本体部51に接続されて各種の画像(映像を含む)や情報を表示する表示装置52と、本体部51の制御のもとに音声を出力するスピーカー53と、作業者用端末2および表示用端末3との間で無線通信を実行する無線LANアクセスポイント55とを備えている。また、作業管理サーバー5は、作業管理サーバー5が内蔵するハードディスク装置等の大容量記憶装置において仮想的または論理的に設けられたデータベース(DB)部6を備える。データベース部6には、作業者の作業習熟度の判定基準となる習熟度判定基準データベース600、作業者毎の習熟度を示す情報を格納した作業者別習熟度データベース601、標準作業フローデータベース602等を含む複数のデータベースが作成される。
作業管理サーバー5は、データベース部6の各データベースに対し、データベースの作成、情報の更新、削除、抽出等を行うデータベース管理機能を備えている。
以下、作業管理システム1を構成する各部について、詳細に説明する。
<作業者用端末の構成>
まず、図1及び図2を参照して作業者用端末2について説明する。図2は、作業者用端末2の構成を示す図である。
図1に示すように、作業者用端末2は、作業者の頭部に装着されるヘッドセット部と、作業者の腰や腕或いは衣服に保持される本体部とを備えて構成される。
また図2に示すように、作業者用端末2の内部構成は、主として絶対位置検出部210、相対位置検出部220、音声認識部230、無線LANアンテナ240及びメインCPU250を備える。
絶対位置検出部210は、RFIDタグリーダーアンテナ211を備えており、このRFIDタグリーダーアンテナ211を介して、本体部から所定距離以内に位置する位置検出用タグ4もしくは表示用端末3との間で通信を実行する。近距離通信専用CPU212は、具体的には店舗フロアに配置された複数のテーブルに設置されている表示用端末3や位置検出用タグ4から送信された近距離通信用の電波を解析し、各表示端末や各位置検出用タグに固有のIDを当該作業者用端末2が存在する絶対位置として取得する。取得したIDはメインCPU250へ送信する。
なお、本発明に使用可能な近距離通信としては、上記RFIDによる近距離通信以外にも、「Bluetooth」(10M〜100M)、[ZigBee](10M〜70M)、[Wibree](10M)、[UWB](10M)等がある。
相対位置検出部220は、相対位置検出センサーとして、3軸ジャイロセンサー221(角速度センサー)、3軸加速度センサー222が設けられている。本実施形態の作業者用端末2には、2種類の相対位置検出センサーが設けられているが、作業管理システム1の適用分野に応じて、2種類の相対位置検出センサーとは別のGPS等のような位置検出手段を使用することも可能である。また、気圧センサー、地磁気センサーを使用することも可能である。位置検出CPU225は、相対位置検出センサー221,222が検出した相対位置データを各データ特性に応じて最適化する。最適化された相対位置データは、メインCPU250へ送信される。
RAMやROMを備えるメモリー227には、相対位置データ演算用のプログラムが格納されている。位置検出CPUはROMに記憶されている演算用のプログラムをRAM上に読み出し、相対位置の演算処理を実行する。演算結果は必要に応じてメモリー227に格納される。
音声認識部230は、作業管理サーバー5から出力される音声信号に基づいて音声を出力するスピーカー231と、作業者が発した音声を集音して音声信号に変換するマイク232と、音声認識専用IC233と、を備える。
音声認識専用IC233は、音声認識処理部235と音声発声処理部236を備えている。音声認識処理部235は、作業者の発する声を作業者の頭部にセットされたヘッドセットのマイク232から集音し、集音した音声データをデジタルデータに変換(テキストデータ又はコードデータ等)して、メインCPU250へ送信する。
また、音声発生処理部236は、メインCPU250から送信されたデジタルデータ(テキストデータ又はコードデータ等)を音声データに変換して作業者の頭部にセットされたヘッドセットのスピーカー231から送出することができる。
RAMやROMを備えるメモリー234には、音声認識用のプログラムと音声発生用のプログラムが格納されている。音声認識専用ICはROMに記憶されている演算用のプログラムをRAM上に読み出し、音声認識及び音声発生のための演算処理を実行する。演算結果は必要に応じてメモリー234に格納される。
無線LANアンテナ240は、上述したように作業管理サーバー5、または表示用端末3との間で無線通信を実行する。
音声認識辞書テーブル260には、店舗内の作業者が作業に従事する作業場所毎の音声認識辞書が設定されている。
図3は、音声認識辞書テーブル260の構成例を示した図である。
例えば、作業者が出入口で作業する場合に発声する可能性のある関連用語例として、「満席」、「お待ち頂く」、「何名様」、「禁煙」、「喫煙」等を含む辞書が設定されている。
また、作業者が卓(テーブル)で作業する場合に発生する可能性のある関連用語例として、「メニュー」、「○番テーブル」、「お料理」、「お飲み物」、「ドリンク」、「ご注文」、「おしぼり」等を含む辞書が設定されている。
また、作業者が料理置き場で作業する場合に発声する可能性のある関連用語例として、「○卓様」、「お料理」、「ドリンク」等を含む辞書が設定されている。
さらに、作業者がレジで作業する場合に発声する可能性のある関連用語例として、「会計」、「領収書」、「レシート」、「おつり」、「円」、「割引券」、「サービス券」等を含む辞書が設定されている。
このように、作業場所毎に音声認識辞書を予め備えることによって、絶対位置検出部210及び相対位置検出部220に基づいて作業者用端末2の現在位置データを取得すれば、その現在位置データに対応する音声認識辞書を自動的に選択することができる。
メインCPU250は、3軸加速度センサー222から得られた加速度データを2回積分演算することで作業者用端末2を携帯している作業者の移動距離を算出する(以降積分モデルと呼ぶ)。もしくは、3軸加速度センサー222から得られた加速度データの強度を測定し、作業者の歩行の有無を判別することで作業者の歩数による移動距離を算出する方法を用いることもできる(以降歩行モデルと呼ぶ)。さらにメインCPU250は、3軸ジャイロセンサー221から得られた角速度データを1回積分することによって作業者用端末2の向き、すなわち作業者の向きを算出する。そして、積分モデルもしくは、歩行モデルにより算出された歩行者の移動距離と、端末の向き及び近距離通信用CPU212から受信した絶対位置データに基づいて、作業者用端末2の現在位置データと作業者が向いている方向を算出する。
算出された作業者用端末2の現在位置データ及び作業者の向いている方向は、無線LANアンテナ240を介して、作業管理サーバー5へ送信される。
また、メインCPU250は、音声認識部230を制御し、音声認識専用IC233から受信したデジタルデータを、無線LANアンテナ240を介して作業管理サーバー5へ送信する。
具体的には、本実施形態のメインCPU250は、音声認識辞書テーブル260から現在位置データに該当する音声認識辞書を選択し、音声認識専用IC233へ送信すると共に音声認識の開始を指示する。音声認識専用IC233はメインCPU250から送信された音声認識辞書を用い、マイクから取得されたアナログ音声データの音声認識を実施する。音声認識専用IC233による認識結果は、無線LANアンテナ240を介して作業管理サーバー5へ送信される。
このように現在位置データに該当する音声認識辞書を利用して音声認識を実施することにより、該当する可能性のある単語の個数を極力低減することができるため、認識時間の短縮が可能になるとともに、音声認識の精度を向上させることができる。
<作業管理サーバーの構成>
次に、作業管理サーバー5について説明する。図4は、作業管理サーバー5の制御系の構成を示す図である。
図4に示すように、作業管理サーバー5は、作業管理サーバー5の各部を制御する制御部501と、制御部501により処理されるプログラムやデータ等を揮発的または不揮発的に記憶するメモリー502とを備える。制御部501には、表示装置52により各種画面を表示させる表示処理部503、スピーカー53から音声を出力させる音声出力部504、および、図1に示したデータベース部6等を含む情報を記憶する記憶部505が接続されている。さらに、制御部501には、キー入力装置56が接続される。
表示処理部503は、制御部501の制御に従って、表示装置52に各種画面を表示するための映像信号を生成して表示装置52へ出力する。表示装置52は、LCD(液晶表示)パネル等を備え、表示処理部503から入力される映像信号に基づいて各種画面を表示する。
音声出力部504は、制御部501の制御に従って音声信号を生成し、スピーカー53に出力する。スピーカー53は、音声出力部504から出力される音声信号に基づいて音声を再生する。スピーカー53は、例えば、業務エリアとしての店舗内に設置され、店内放送を行う目的で音声を出力するものである。
記憶部505は、磁気的または光学的に情報の記録・読取が可能な記録媒体または半導体記憶素子を用いた記憶装置であり、各種プログラムやデータ等を不揮発的に記憶する。
記憶部505には、仮想的または論理的、或いは物理的に区分された記憶領域が設けられ、これら記憶領域は、習熟度判定基準データベース600、作業者別習熟度データベース601、標準作業フローデータベース602、作業履歴データベース603等の各データベースとして用いられる。
ネットワークインターフェイス部506は、無線LANアクセスポイント55に接続され、制御部501の制御により、無線LANアクセスポイント55を用いて作業者用端末2もしくは、表示用端末3からの情報を受信し、或いは、作業者用端末2もしくは、表示用端末3へ情報を送信する。
無線LANアクセスポイント55は、作業エリアとしての店舗において、表示用端末3および作業管理サーバー5を含むLANを構成する装置であり、無線LANの規格に準拠した通信を実行するためのアンテナ、RF部、変復調部、ベースバンド部等を内蔵している。
また、キー入力装置56は、数字を含む文字キーや各種機能が割り当てられた機能キーを備えた装置であり、オペレータにより操作されたキーに対応する操作信号を生成して、制御部501に出力する。
図5は、作業管理サーバー5が実現する機能を示す図であり、図5に示す機能部は、作業管理サーバー5がハードウェアとソフトウェアとの協働により実現される。
図5に示すように、作業管理サーバー5は、作業者用端末2および表示用端末3から無線送信される情報の入力を受けて動作するネットワーク入力部511、位置情報処理部512、音声情報処理部513、実施作業判定部516及びネットワーク出力部517として機能する。
ネットワーク入力部511は、作業者用端末2または表示用端末3から無線送信された情報を無線LANアクセスポイント55によって受信して復調する。このネットワーク入力部511は、制御部501およびネットワークインターフェイス部506により実現される。
位置情報処理部512は、ネットワーク入力部511によって受信した情報が作業者用端末2から送信された情報である場合に、この情報に含まれる位置情報を抽出する。位置情報処理部512は、制御部501により実現される。
音声情報処理部513は、ネットワーク入力部511によって作業者用端末2から送信された情報を受信した場合に、受信した情報から音声情報を抽出する。音声情報処理部513は、制御部501の機能により実現される。
実施作業判定部516は、作業内容特定部521、作業所要時間計測部523、習熟度データベース作成部524及び作業指示コマンド作成部525を備えている。
作業内容特定部521及び作業所要時間測定部523は、各作業者が実施した作業状況を取得し、作業場所、作業毎の実施回数、作業毎の開始時刻、終了時刻等の作業実績を作業履歴データベース603に記録するとともに、作業者別習熟度データベース601に反映させる。なお、作業実績には、休憩の開始および終了時刻を含めることも可能であり、予定終了時刻を含めることも可能である。作業履歴データベース603には、作業者毎、および、勤務日ごとに作業実績に係る情報が格納される。
習熟度データベース作成部524は、上述した作業場所、作業毎の実施回数、作業毎の開始時刻、終了時刻等の作業実績等と、習熟度判定基準データベース600と、を比較して、例えばランクA〜Dの4段階で表される各作業者の作業習熟度を判定し作業者別習熟度データベース601に反映させる。
図6は、習熟度判定基準データベース600の構成例を示す図である。
図6に例示する習熟度判定基準データベース600は、作業者の習熟度レベルを4段階(ランクA〜ランクD)に分けて判定するための判定基準を規定している。具体的には、会計作業習熟度を「会計平均作業時間」及び「会計作業回数」によって計る場合、ある作業者の会計作業に要した時間が2分以内であれば、その作業者の会計平均作業時間に関するランクはAと判定する。また、その作業者が過去に実施した会計作業の回数が100回を超えていれば、その作業者の会計作業回数に関するランクはAと判定する。
さらに、ホール作業習熟度を「片付け平均作業時間」、「片付け作業回数」、「クレーム回数」及び「累計ホール作業時間」によって計る場合、ある作業者のホール作業に要した平均作業時間が60秒/1人分以内であれば、その作業者の片付け平均作業時間に関するランクはCと判定する。また、その作業者が過去に実施した片付け作業の回数が200回以下であれば、その作業者の片付け作業回数に関するランクはBと判定する。同様に、その作業者が過去に受けたクレーム回数(作業30時間当たり)が1.0回を超えていれば、その作業者のクレーム回数に関するランクはDと判定し、累計ホール作業時間が500時間以下であれば、累計ホール作業時間に関するランクはCと判定する。
図7は、習熟度データベース作成部524が、作業履歴データベース603及び習熟度判定基準データベース600に基づいて作成した作業者別習熟度データベース601の構成例を示す図である。
図7に示す作業者別習熟度データベース601では、3人の作業者について、会計作業習熟度及びホール作業習熟度が格納されている。会計作業については「会計平均作業時間」及び「会計作業回数」の測定値と、習熟度判定基準データベース600に基づいて判定された習熟度レベルが格納されている。また、ホール作業については「片付け平均作業時間」、「片付け作業回数」、「クレーム回数」及び「累計ホール作業時間」の測定値と、習熟度判定基準データベース600に基づいて判定された習熟度レベルが格納されている。例えば、作業者Aの会計作業回数は21回であり、ランクCと判定されている。また、作業者Aの累計ホール作業時間は、1300時間であり、ランクAと判定されている。
図5に戻って、作業指示コマンド部525は、作業者用端末2に対して作業指示するための作業指示コマンドを作成する。作業指示コマンド作成部525は、位置情報、音声情報に基づき、標準作業フローデータベース602を参照し次に指示する作業を判断し、作業指示コマンドを作成する。作業指示コマンドはネットワーク出力部517により無線LANアクセスポイント55を介し、作業者用端末2へ送信される。
ネットワーク出力部517は、制御部501及びネットワークインターフェイス部506により実現される。
図8−1は、標準作業フローデータベースの構成例を示す図であり、図8−2は、各作業の開始位置に対する終了位置を示した標準作業フローデータベースの構成例を示す図であり、図9は、本実施形態の店舗フロアの座標を示した図であり、店舗の平面図である。
図8−1に示す標準作業フローデータベース602(1)は、作業内容と、その作業が行われる位置(作業場所)と、その作業場所に対応する音声指示あるいは音声認識情報が対応づけられている。作業管理サーバー5は、作業者用端末2から送信された位置情報、音声情報及び標準作業フローデータベース602(1)に基づいて、作業者が実施している作業を特定する。標準作業フローデータベース602(1)にしたがった作業が実施されなかった場合は、修正指示を作業者用端末2に送信する。
図9に示すように、作業管理システムが設置された業務エリアとしての店舗は、レジ、テーブル1〜5、トイレ及び料理置き場を含む接客業務を行う接客エリアと、洗い場、レンジ、フライヤー、冷蔵庫及びコンロを含む調理業務を行うキッチンエリアと、PC(パーソナルコンピューター)及び休憩用テーブルを含む管理業務を行うためのオフィスエリアと、に区分される。オフィスエリアは、作業者の休憩場所としても利用される。なお、作業管理サーバー5は、オフィスエリアの管理業務用のデスクに設置される。
図8−2に示すように、標準作業フローデータベース602(2)には、作業内容毎の作業開始場所と作業終了場所が設定されている。
例えば、レジ業務の作業開始場所はレジ、作業終了場所もレジと設定されている。また、調理配達作業の作業開始場所は料理置き場、作業終了場所には各テーブル1〜5が設定されている。さらに、テーブル片付け作業の作業開始場所はテーブル1〜5、作業終了場所には洗い場が設定されている。
作業者用端末2から送信された位置情報及び音声情報によって、作業者用端末2が調理配達作業を開始するため料理置き場に位置していることを特定すると、作業管理サーバー5は、調理配達作業の作業終了場所はテーブル1〜5の何れかであることを判定することができる。このため、次に作業者用端末2から送信される位置情報及び音声情報に基づいて特定された作業場所が、テーブル1〜5以外の調理場やレジ等であった場合は、標準作業フローデータベース602(2)と異なった作業を実施しているものと判定することができる。このような場合は、間違って実施した作業を実施した作業者用端末2に対して、作業修正指示を送信する。
なお、上述したように本実施形態の作業者用端末2は、作業者用端末2の絶対位置データ及び相対位置データに基づき算出された現在位置データを位置情報として送信する。この現在位置データは、座標データであり、図9に示す店舗の位置座標上に示すことができる。例えば、作業者用端末2から受信した現在位置を示す座標が、(X,Y)=(150,150)である場合は、テーブル4の周辺に位置していることが分かる。また、(X,Y)=(150,350)である場合は、洗い場周辺に位置していることがわかる。また、(X,Y)=(200,275)である場合は、料理置き場に位置していることがわかる。さらに、(X,Y)=(100,50)である場合は、レジに位置していることがわかる。
<音声認識処理及び作業者別習熟度判定処理について>
次に、作業者用端末2が行う音声認識処理及び、作業管理システム1が行う作業別習熟度判定処理について説明する。図10は、音声認識処理及び作業別習熟度判定処理における作業者A及び作業者用端末2の処理を示すフローチャートであり、図11は、作業管理サーバー5の処理を示すフローチャートである。以下では、作業者Aが実施する会計作業について習熟度を判定する処理を例示して説明する。
まず、作業者用端末2は作業管理サーバー5から作業指示を受信すると、スピーカー231から指示を発生させる(ステップS20)。ここでは、会計作業を指示するものとする。
作業者Aは、会計作業を開始する際に「会計入ります」とマイク232へ発声すると(ステップS11)、絶対位置データ又は前回の現在位置データに相対位置を加算することによって、作業者用端末2の現在位置を特定する(ステップS21,ステップS22)。
現在位置を算出する方法としては、絶対位置が検出可能であれば、絶対位置検出部210が絶対位置を検出する。また、絶対位置が検出できない場合は、例えばメモリー227に保存しておいた前回算出した現在位置データに相対位置データを加算することもできる。このように、作業者用端末2が位置検出用タグ4から離れているところにあるために、近距離通信が不可能な場合であっても、相対位置データによって補うことができるので、位置検出の精度を高めることができる。
CPU250は作業者用端末2の現在位置を取得すると、現在位置に適した音声認識辞書を音声認識辞書テーブル260から選択する(ステップS23)。
ここで、ステップS11において作業者Aが「会計入ります」と発声したときの作業者用端末2の位置が、現在位置データによると(X,Y)=(100,50)であったとする。作業者用端末2のメインCPU250は、座標(X,Y)=(100,50)がレジ付近であることが分かるため、作業者Aはレジに位置していると判定する。メインCPU250は音声認識辞書テーブル260を参照して、現在位置がレジに対応する音声認識辞書選択する。
取得した現在位置データに基づきレジに対応する音声認識辞書を自動的に選択し参照することによって、レジに関連する語彙の絞込みを行うことができる。本実施形態では、レジに対応する音声認識辞書に含まれる関連用語例は、「会計、領収書、レシート、おつり、円、割引券、サービス券」であり、レジ以外の作業場所に関連する関連用語例を除外することができ、一度に語彙を絞り込むことができる。
次に、作業者用端末2はマイク232を介して作業者Aの声を集音した音声データと、絞り込まれた関連用語例と、を比較し、音声認識を行う(ステップS24)。すなわち、ステップS11で作業者Aが発した音声データ「会計入ります」と、レジに関連しない語彙を除外した関連用語例「会計、領収書、レシート、おつり、円、割引券、サービス券」と、を比較するので、音声認識率を向上させることができる。
メインCPU250は、音声認識を行って音声情報を確定すると(ステップS25)、無線LANアンテナ240を介して作業管理サーバー5へ確定した音声情報を送信する(ステップS26)。また、メインCPU250は、現在位置情報を無線LANアンテナ240を介して作業管理サーバー5へ送信する。
図11へ移り、作業管理サーバー5は、作業者用端末2から音声情報と現在位置情報を受信する(ステップS41)。作業管理サーバー5は、受信した情報を一時的に記憶し、送信された音声情報と位置情報とに基づいて、作業者Aの会計作業の作業履歴の登録及び会計作業の作業時間測定処理を実行する。
作業内容特定部521は、受信した現在位置データ、音声情報及び標準作業フローデータベース602(1)に基づいて、作業内容を特定する。
ステップS11において作業者Aが「会計入ります」と発声したときの作業者用端末2の位置が、位置情報によると(X,Y)=(100,50)であり、作業内容特定部521は、店舗フロアのデータから座標(X,Y)=(100,50)がレジ付近であることを把握できるため、作業者Aがレジに位置していると判断する。
また、音声情報によると音声認識結果「会計入ります」が認識できる。図8−1に示すように、作業場所「レジ」、音声認識結果「会計入ります」に対応する作業内容は、「レジ業務」であることが特定できる。さらに、「会計開始」したことも認識することができる。
作業内容特定部521は、レジ業務の会計作業の開始を判断すると、作業所要時間計測部523は、会計作業の作業時間の計測を開始する(ステップS42)。また、作業者Aの会計処理の実施回数を1回増やす処理を行う(ステップS43)。
なお、ステップS42において、送信された位置情報から作業者Aがレジ付近に位置していることを検出できず、他の場所に位置していた場合は、作業指示コマンド作成部525は、レジへ移動するよう指示する修正指示コマンドを作成し、作業者用端末2へ送信することができる。作業者用端末2は修正指示コマンドを受信すると、これをスピーカーから発生させる。
図10に戻り作業者Aが会計作業を実施し(ステップS12)、会計作業を終了した際に「会計終了しました」と発声すると(ステップS13)、再び絶対位置データ又は前回の絶対位置データに相対位置を加算することによって、作業者用端末2の現在位置を特定する(ステップS27,ステップS28)。
CPU250は作業者用端末2の現在位置を取得すると、現在位置に適した音声認識辞書を音声認識辞書テーブル260から選択する(ステップS29)。
ここで、ステップS13において作業者Aが「会計終了しました」と発声したときの作業者用端末2の位置が、現在位置データによると同様に(X,Y)=(100,50)であったとする。作業者用端末2のメインCPU250は、座標(X,Y)=(100,50)がレジ付近であることが分かるため、作業者Aはレジに位置していると判定する。メインCPU250は音声認識辞書テーブル260を参照して、現在位置がレジに対応する音声認識辞書を選択する。
取得した現在位置データに基づきレジに対応する音声認識辞書を自動的に選択し参照することによって、レジに関連する語彙の絞込みを行うことができる。本実施形態では、レジに対応する音声認識辞書に含まれる関連用語例は、「会計、領収書、レシート、おつり、円、割引券、サービス券」であり、レジ以外の作業場所に対応する音声認識辞書に含まれる関連用語例を除外することができ、一度に語彙を絞り込むことができる。
次に、作業者用端末2はマイク232を介して作業者Aの声を集音した音声データと、絞り込まれた関連用語例と、を比較し、音声認識を行う(ステップS30)。すなわち、ステップS13で作業者Aが発した音声データ「会計終了しました」と、レジに関連しない語彙を除外した関連用語例「会計、領収書、レシート、おつり、円、割引券、サービス券」と、を比較するので、音声認識率を向上させることができる。
メインCPU250は、音声認識を行って音声情報を確定すると(ステップS31)、無線LANアンテナ240を介して作業管理サーバー5へ確定した音声情報を送信する(ステップS32)。また、メインCPU250は、現在位置情報を無線LANアンテナ240を介して作業管理サーバー5へ送信する。
図11へ移り、作業管理サーバー5は、作業者用端末2から音声情報及び位置情報を受信すると、作業管理サーバー5は、受信した情報を一時的に記憶し、送信された音声情報と位置情報とに基づいて会計作業を終了したかを判断する。
作業内容特定部521は、受信した現在位置データ、音声情報及び標準作業フローデータベース602(1)に基づいて、作業内容を特定する。
ステップS13において作業者Aが「会計終了しました」と発声したときの作業者用端末2の位置が、位置情報によると(X,Y)=(100,50)であり、作業内容特定部521は、店舗フロアのデータから座標(X,Y)=(100,50)がレジ付近であることを把握できるため、作業者Aがレジに位置していると判断する。
また、音声情報によると音声認識結果「会計終了しました」が認識できる。作業場所「レジ」、音声認識結果「会計終了しました」に対応する作業内容が、「レジ業務」であることが特定できる。さらに、「会計終了」したことも認識することができる。
ステップS42において作業時間の計測を開始してから3分経過する前に、「会計終了」を受信したと判定した場合は(ステップS44:Yes)、作業所要時間計測部523が会計作業終了を判断して作業時間の計測を終了する(ステップS46)。作業場所、会計作業の実施回数、会計作業の開始時刻及び終了時刻、作業所要時間が特定されると、作業履歴データベース603に反映する。また、習熟度データベース作成部524は、作業者Aの会計作業時間の平均値を算出し、会計作業の実施回数とともに作業者別習熟度データベース601に反映する(ステップS47,ステップS48)。
一方、ステップS42において作業時間の計測を開始してから3分経過する前に、「会計終了」を受信できなかった場合は(ステップS44:No,ステップS45:Yes)、会計作業が未終了であると判定する。このような場合は、例えば、作業者Aが他のお客等に呼ばれ会計作業以外の作業に従事したものと判断できるため、ステップS43において作業者Aの会計作業回数としてプラスした1回分を元に戻す(ステップS49)。
作業者Aに関する会計作業の実施回数、会計平均作業時間を作業者別習熟度データベース601に反映すると、習熟度データベース作成部524は習熟度判定基準データベース600を参照して作業者Aの会計平均作業時間の習熟度を判定し、作業者別習熟度データベース601に反映させる(ステップS50)。図7に示すように、作業者Aの会計平均作業時間は、4分20秒であり、ランクDと判定する。
同じように、習熟度データベース作成部524は習熟度判定基準データベース600を参照して作業者Aの会計作業回数の習熟度を判定し、作業者別習熟度データベース601に反映させる(ステップS51)。図7に示すように、作業者Aの会計作業回数は、21回であり、ランクCと判定する。
このように、作業内容毎に作業者別習熟度判定処理を行うことによって、作業者別習熟度データベース601が作成される。ホール作業に関しても習熟度判定処理を行うことによって、図7に示したホール作業習熟度に関するデータベースを作成することもできる。
以上のように、作業者Aの会計作業が終了すると、標準作業フローデータベース602(1)に基づいて次の作業指示を作業者用端末2へ送信する(ステップS52)。
このように、作業者用端末2の現在位置情報を取得し、現在位置情報に対応した音声認識辞書を予め備えた音声認識辞書テーブル260から選択することができるので、作業者Aが音声辞書を切り替えるための操作を意識的に行う必要がなく、自動的に最適な音声辞書を選択することができる。
特に本実施形態のように、作業者が店舗内を動き回らなければならない作業形態でも、作業者は作業者用端末を携帯しているだけで、作業者が発声した音声の音声認識率を向上させることができる。
また、正しく認識された音声情報が作業管理サーバーに送信されるので、作業管理サーバー2において実施する、音声情報を利用した処理の精度を向上させることができる。本実施形態では、作業者用端末2から送信された位置情報及び音声情報に基づいて、作業者用端末2を携帯している作業者の作業習熟度を判定することができる。
1…作業管理システム、2…作業者用端末(端末端末)、3…表示用端末、4…位置検出用タグ、5…作業管理サーバー、6…データベース部、51…本体部、52…表示装置、53…スピーカー、55…無線LANアクセスポイント、56…キー入力装置、210…絶対位置検出部、211…RFIDタグリーダーアンテナ、212…近距離通信専用CPU、220…相対位置検出部、221…3軸ジャイロセンサー、222…3軸加速度センサー、225…位置検出CPU、227…メモリー、230…音声認識部、231…スピーカー、232…マイク、233…音声認識専用IC、234…メモリー、235…音声認識処理部、236…音声発生処理部、240…無線LANアンテナ、250…メインCPU、260…音声認識辞書テーブル、501…制御部、502…メモリー、503…表示処理部、504…音声出力部、506…ネットワークインターフェイス、511…ネットワーク入力部、512…位置情報処理部、513…音声情報処理部、516…実施作業判定部、517…ネットワーク出力部、521…作業内容特定部、523…作業所要時間計測部、524…習熟度データベース作成部、525…作業指示コマンド作成部、600…習熟度判定基準データベース、601…作業者別習熟度データベース、602(1),602(2)…標準作業フローデータベース、作業履歴データベース。

Claims (8)

  1. 携帯端末の位置情報を取得する位置情報取得ステップと、
    前記携帯端末が記憶している前記位置情報に関連した音声認識辞書を複数備える音声認識辞書テーブルから、前記取得した位置情報に対応する前記音声認識辞書を選択する選択ステップと、
    集音器から音を取得し、前記音を前記選択された音声認識辞書を用いて音声認識し音声情報を取得する音声情報取得ステップと、を含むことを特徴とする音声認識方法。
  2. 前記音声情報及び前記選択された音声認識辞書に基づき、前記音声情報を確定する確定ステップと、を含むことを特徴とする請求項1に記載の音声認識方法。
  3. 前記確定ステップにおいて前記確定した音声情報を、サーバーへ送信する送信ステップを含むことを特徴とする請求項2に記載の音声認識方法。
  4. 前記位置情報は、前記携帯端末の絶対位置情報及び相対位置情報と、に基づき求められることを特徴とする請求項1から3のいずれか1項に記載の音声認識方法。
  5. 前記音声認識辞書は、所定の場所に関連する音声情報を含む辞書であることを特徴とする請求項1から4のいずれか1項に記載の音声認識方法。
  6. 携帯端末であって、
    位置情報を取得する位置情報取得部と、
    集音器から音を取得し、前記音を音声認識し音声情報を取得する音声情報取得部と、
    前記携帯端末が記憶している前記位置情報に関連した音声認識辞書を複数備える音声認識辞書テーブルと、
    前記音声認識辞書テーブルから取得した位置情報に対応する音声認識辞書を選択する選択部と、を有することを特徴とする携帯端末。
  7. 前記音声情報及び前記選択された音声認識辞書に基づき、前記音声情報を確定する音声情報確定部と、を有することを特徴とする請求項6に記載の携帯端末。
  8. 請求項1に記載の位置情報取得ステップ、音声情報取得ステップ、選択ステップを前記携帯端末に実行させることを特徴とするプログラム。
JP2009035931A 2009-02-18 2009-02-18 音声認識方法、携帯端末及びプログラム。 Pending JP2010191223A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009035931A JP2010191223A (ja) 2009-02-18 2009-02-18 音声認識方法、携帯端末及びプログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009035931A JP2010191223A (ja) 2009-02-18 2009-02-18 音声認識方法、携帯端末及びプログラム。

Publications (1)

Publication Number Publication Date
JP2010191223A true JP2010191223A (ja) 2010-09-02

Family

ID=42817316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009035931A Pending JP2010191223A (ja) 2009-02-18 2009-02-18 音声認識方法、携帯端末及びプログラム。

Country Status (1)

Country Link
JP (1) JP2010191223A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2013013066A (ja) * 2011-05-27 2013-01-17 Canon Inc 音検出装置及びその制御方法、プログラム
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
WO2016148157A1 (ja) * 2015-03-17 2016-09-22 株式会社メガチップス 音声認識システムおよび音声認識方法
WO2018043137A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法
JP2020187282A (ja) * 2019-05-16 2020-11-19 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US11042705B2 (en) 2018-09-20 2021-06-22 Dynabook Inc. Electronic device, recognition method, and non-transitory computer-readable storage medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
JP2013013066A (ja) * 2011-05-27 2013-01-17 Canon Inc 音検出装置及びその制御方法、プログラム
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
WO2016148157A1 (ja) * 2015-03-17 2016-09-22 株式会社メガチップス 音声認識システムおよび音声認識方法
WO2018043137A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置及び情報処理方法
CN109643545A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理设备和信息处理方法
US11042705B2 (en) 2018-09-20 2021-06-22 Dynabook Inc. Electronic device, recognition method, and non-transitory computer-readable storage medium
JP2020187282A (ja) * 2019-05-16 2020-11-19 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7096199B2 (ja) 2019-05-16 2022-07-05 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP2010191223A (ja) 音声認識方法、携帯端末及びプログラム。
JP5158174B2 (ja) 音声認識装置
EP2518447A1 (en) System and method for fixing user input mistakes in an in-vehicle electronic device
JP6388746B2 (ja) 情報提供制御装置および情報提供制御方法
JP5733720B2 (ja) 情報提供システム及び端末装置
JP2010191723A (ja) 位置検出方法、携帯端末及びプログラム
JP2015179493A (ja) ジェスチャ入力システム
CN112486165B (zh) 机器人领路方法、装置、设备及计算机可读存储介质
JP2010191643A (ja) 管理方法、サーバー及びプログラム
EP3855372A1 (en) Reservation device, reservation method, and reservation system
JP2010191642A (ja) 作業管理方法、プログラム及び作業管理システム
CN108510267B (zh) 一种账户信息获取方法、移动终端
JP2009265019A (ja) カーナビゲーション装置
JP6110264B2 (ja) ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、プログラム、システムおよび方法
JP2011203349A (ja) 音声認識システム及び自動検索システム
JP2009300195A (ja) ナビゲーション装置およびナビゲーションプログラム
CN101660917B (zh) 导航装置及导航装置的希望地点设定方法
JP2013183386A (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2020039901A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020181037A (ja) 音声操作システム、音声操作装置、音声操作制御方法、及び音声操作制御用プログラム
JP5338475B2 (ja) 携帯端末及びその管理システム及び携帯端末の位置データの補正方法、及び補正プログラム
JP2006215749A (ja) 車両整備情報通信システム及び整備情報サーバ
JP4682199B2 (ja) 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体
JP6959818B2 (ja) 情報処理装置、情報処理方法並びに情報処理用プログラム及び記録媒体
KR100838198B1 (ko) 콜 서비스 시스템 및 방법, 콜 서버, 단말기 및 저장매체