JP2010060729A

JP2010060729A - 受付装置、受付方法、及び受付プログラム

Info

Publication number: JP2010060729A
Application number: JP2008225062A
Authority: JP
Inventors: Shigeaki Komatsu; 慈明小松; Akiko Yamato; 亜紀子大和
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-09-02
Filing date: 2008-09-02
Publication date: 2010-03-18

Abstract

【課題】来訪者への応対を行う担当者が、来訪者の発話に含まれる必要な情報を容易に得ることができる受付装置、受付方法、及び受付プログラムを提供する。
【解決手段】来訪者に発話を促す質問メッセージが出力され（Ｓ５）、来訪者が行った発話の音声情報が取得される（Ｓ６）。取得された音声情報に、いずれのカテゴリに属する発話であるのかを示す分類情報であるフラグが対応付けられて（Ｓ１７）、音声ファイルが作成される。そして、来訪者への応対を行う担当者が特定され（Ｓ２０）、担当者が使用するユーザ端末から受付装置へ音声再生の指示が入力されると、音声ファイルに対応付けられているフラグに応じて発話の音声が再生される。
【選択図】図９

Description

本発明は、受付装置、受付方法、及び受付プログラムに関する。より具体的には、来訪者の来訪を受け付けて、この来訪者への応対を行う担当者に来訪者が来訪したことを通知する受付装置、受付方法、及び受付プログラムに関する。

従来、来訪者の来訪を受け付けて、この来訪者への応対を行う担当者に通知する受付システムが提案されている（例えば、特許文献１参照）。この受付システムでは、玄関先等に設置された通話手段のボタンが来訪者によって押下されると、音声が記録される。そして、記録された音声のデータが、来訪者への応対を行うユーザ（担当者）のパソコンへ送信され、パソコンでは来訪者の声等の音声が再生される。これにより、担当者が来訪者の来訪を遠隔地から確認することを実現している。
特開平６−２３３３０５号公報

しかしながら、特許文献１に記載の受付システムでは、録音を開始してから終了するまでの全ての音声が再生されるため、担当者が必要な情報を得るまでに無駄な時間を要するという問題点があった。すなわち、来訪者の名前等、担当者が必要とする情報を来訪者が最初に発話するとは限らないため、担当者は、必要な情報が得られるまで音声を聞き続けなければならなかった。

本発明は上記課題を解決するためになされたものであり、来訪者への応対を行う担当者が、来訪者の発話に含まれる必要な情報を容易に得ることができる受付装置、受付方法、及び受付プログラムを提供することを目的とする。

上記目的を達成するために、本発明の請求項１に記載の受付装置は、来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付装置であって、音声入力手段から入力された前記来訪者が行う発話を取得する取得手段と、前記取得手段によって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御手段と、情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信手段とを備えている。

また、本発明の請求項２に記載の受付装置は、請求項１に記載の発明の構成に加え、前記記憶手段に記憶された複数の前記発話の音声情報のうち、前記送信手段に送信させる前記発話の音声情報を特定する指示を前記端末から受け付ける特定指示受付手段を備え、
前記送信手段は、前記特定指示受付手段により受け付けられた指示によって特定された前記発話の音声情報を前記端末に送信することを特徴とする。

また、本発明の請求項３に記載の受付装置は、請求項１又は２に記載の発明の構成に加え、前記音声入力手段から入力された音声から、前記分類情報に応じた前記発話の開始時点を検出する開始時点検出手段を備え、前記送信手段は、前記開始時点検出手段によって検出された開始時点から前記発話の音声情報を送信することを特徴とする。

また、本発明の請求項４に記載の受付装置は、請求項１乃至３のいずれかに記載の発明の構成に加え、前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段を備え、前記記憶制御手段は、前記発話の音声情報に対応付ける前記分類情報を、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージのカテゴリに応じた分類情報である第一分類情報として、前記発話の音声情報を記憶させることを特徴とする。

また、本発明の請求項５に記載の受付装置は、請求項１乃至３のいずれかに記載の発明の構成に加え、前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段を備え、前記記憶制御手段は、前記音声認識手段による認識結果に応じた分類情報である第二分類情報を対応付けて、前記発話の音声情報を記憶させることを特徴とする。

また、本発明の請求項６に記載の受付装置は、請求項５に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする。

また、本発明の請求項７に記載の受付装置は、請求項５に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする。

また、本発明の請求項８に記載の受付装置は、請求項１乃至３のいずれかに記載の発明の構成に加え、前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段と、前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段と、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージが属するカテゴリに応じた分類情報である第一分類情報と、前記音声認識手段による認識結果に応じた分類情報である第二分類情報とが一致するか否かを判断する判断手段とを備え、前記記憶制御手段は、前記判断手段による判断結果に応じて、前記第一分類情報及び前記第二分類情報の少なくともいずれかに対応付けて、前記発話の音声情報を前記記憶手段に記憶させることを特徴とする。

また、本発明の請求項９に記載の受付装置は、請求項８に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする。

また、本発明の請求項１０に記載の受付装置は、請求項８に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする。

また、本発明の請求項１１に記載の受付装置は、請求項８乃至１０のいずれかに記載の発明の構成に加え、前記メッセージ出力制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記メッセージ出力手段によって出力された前記メッセージを再度出力させることを特徴とする。

また、本発明の請求項１２に記載の受付装置は、請求項８乃至１１のいずれかに記載の発明の構成に加え、前記記憶制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記第二分類情報を前記発話の音声情報に対応付けて前記記憶手段に記憶させることを特徴とする。

また、本発明の請求項１３に記載の受付装置は、請求項５乃至１２のいずれかに記載の発明の構成に加え、前記記憶制御手段によって前記分類情報が対応付けられた前記発話のうち、前記分類情報が示すカテゴリに属する発話部分の発話区間を、前記音声認識手段による認識結果から判定する発話区間判定手段を備え、前記送信手段は、前記発話区間判定手段によって判定された前記発話区間の開始時点から前記発話の音声情報を送信することを特徴とする。

また、本発明の請求項１４に記載の受付方法は、来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付方法であって、音声入力手段から入力された前記来訪者が行う発話を取得する取得ステップと、前記取得ステップによって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御ステップと、情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定ステップと、前記担当者特定ステップによって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信ステップとを備えている。

また、本発明の請求項１５に記載の受付プログラムは、請求項１乃至１３のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることを特徴とする。

本発明の請求項１に記載の受付装置は、音声入力手段から入力された来訪者の発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す分類情報を、発話に対応付ける。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用する端末に、対応する分類情報に応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。

また、本発明の請求項２に記載の受付装置は、分類情報が対応付けられた複数の発話の音声情報のうち、送信する発話の音声情報を特定する指示を担当者の端末から受け付けて、特定された発話の音声情報を端末に送信することができる。従って、請求項１に記載の発明の効果に加え、担当者は、無駄な音声を聞くことなく、所望する情報を効率よく得ることができる。

また、本発明の請求項３に記載の受付装置は、前記分類情報に応じた発話の開始時点から発話を出力させることができる。従って、請求項１又は２に記載の発明の効果に加え、担当者は、前記分類情報に応じた発話を、発話開始までの無音期間が省略された状態で聞くことができる。よって、担当者は、必要な情報を効率よく得ることができる。

また、本発明の請求項４に記載の受付装置は、複数のカテゴリ毎に記憶された、来訪者に発話を促すメッセージのいずれかを出力させて、出力させたメッセージのカテゴリにより、その後に行われる来訪者の発話の音声情報に分類情報を対応付けることができる。これにより、請求項１乃至３のいずれかに記載の発明の効果に加え、受付装置は、来訪者の発話を適切且つ容易に分類することができる。

また、本発明の請求項５に記載の受付装置は、音声認識手段による認識結果によって、発話の音声情報に分類情報を対応付けることができる。従って、請求項１乃至３のいずれかに記載の発明の効果に加え、受付装置は、異なるカテゴリに属する複数の発話が一連の発話に含まれていても、この一連の発話の各部分に分類情報を対応付けることができる。これにより、受付装置は、音声の情報を認識しつつ、来訪者の発話を適切に分類することができる。

また、本発明の請求項６に記載の受付装置は、音声認識手段による認識結果に含まれる単語が属するカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項５に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。

また、本発明の請求項７に記載の受付装置は、音声認識手段によって認識結果が得られた言語モデルのカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項５に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。

また、本発明の請求項８に記載の受付装置は、複数のカテゴリ毎に記憶された、来訪者に発話を促すメッセージのいずれかを出力させることができる。また、入力された音声の情報に基づき発話を認識することができる。そして、出力させたメッセージが属するカテゴリに応じた分類情報である第一分類情報と、及び音声認識の結果に応じた分類情報である第二分類情報とが一致するか否かを判断する。この判断結果に応じて、第一分類情報及び第二分類情報の少なくともいずれかに対応付けて発話の音声情報を記憶手段に記憶させることができる。従って、請求項１乃至３のいずれかに記載の発明の効果に加え、受付装置は、来訪者の発話を適切に分類することができる。

また、本発明の請求項９に記載の受付装置は、音声認識手段による認識結果に含まれる単語が属するカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項８に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。

また、本発明の請求項１０に記載の受付装置は、音声認識手段によって認識結果が得られた言語モデルのカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項８に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。

また、本発明の請求項１１に記載の受付装置は、メッセージのカテゴリに応じて発話に対応付けられる第一分類情報と、音声認識の結果に応じて発話に対応付けられる第二分類情報とが一致しなければ、メッセージ出力手段によって出力されたメッセージを再度出力する。従って、請求項８乃至１０のいずれかに記載の発明の効果に加え、受付装置は、メッセージの出力によって来訪者から取得すべき情報を、より高い割合で得ることができる。

また、本発明の請求項１２に記載の受付装置は、メッセージのカテゴリに応じて発話に対応付けられる第一分類情報と、音声認識の結果に応じて発話に対応付けられる第二分類情報とが一致しなければ、発話の音声情報を第二分類情報に対応付けて記憶手段に記憶させる。従って、請求項８乃至１１のいずれかに記載の発明の効果に加え、出力されたメッセージで催促された返答を来訪者が行わなかった場合でも、受付装置は来訪者の発話を分類して音声情報を送信することができる。

また、本発明の請求項１３に記載の受付装置は、一連の発話のうち、送信する発話部分の発話区間を判定し、判定した発話区間の開始時点から発話の音声情報を送信することができる。従って、請求項５乃至１２のいずれかに記載の発明の効果に加え、担当者は、無駄な音声を聞くことなく、必要な情報が含まれている発話部分のみを効率よく聞くことができる。

また、本発明の請求項１４に記載の受付方法によると、音声入力手段から入力された来訪者の発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す分類情報を、発話に対応付けることができる。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用する端末に、対応する分類情報に応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。

また、本発明の請求項１５に記載の受付プログラムは、コンピュータに実行させることにより、請求項１乃至１３のいずれかに記載の発明の効果を奏することができる。

以下、本発明を具現化した実施の形態について、図面を参照して説明する。尚、参照する図面は、本発明が採用し得る技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。

まず、図１乃至図８を参照して、本実施の形態に係る来訪者受付システム１の全体構成、並びに、来訪者受付システム１の構成要素である受付装置１０及びユーザ端末２０の構成について、順に説明する。

最初に、図１を参照して、来訪者受付システム１の全体構成の概略を説明する。図１は、来訪者受付システム１の概略構成を示すシステム構成図である。図１に示すように、来訪者受付システム１は、受付装置１０及び複数のユーザ端末２０を含み、これらは全てＬＡＮ９に接続されている。来訪者受付システム１は、例えば、ビルや会社に設置され、来訪者に対する受付業務を行うシステムである。本実施の形態では、来訪者受付システム１は、会社５に設置されているものとして説明する。受付装置１０は、例えば、会社５の入口ドア付近に設置される。複数のユーザ端末２０のそれぞれは、会社５の各従業員に割り当てられている。

ここで、本実施の形態の来訪者受付システム１全体で行われる処理の手順について、簡単に説明する。まず、会社５への来訪者が、入口付近に設けられた受付装置１０の呼び出しボタン１０７（図２参照）を押下すると、来訪者の来訪を受け付ける処理が行われる。この処理により、来訪先の担当者についての質問等が発せられ、この来訪者への応対を行う担当者が音声認識処理により特定される。同時に、来訪者が行った発話の音声情報が、発話内容に応じて複数のカテゴリのいずれかに対応付けられて記憶される。

その後、特定された担当者が使用するユーザ端末２０に、来訪者が来訪していることが通知される。そして、担当者がユーザ端末２０の入力機器２０７（図８参照）を操作し、来訪者が行った発話のいずれかを再生させる指示がユーザ端末２０から受付装置１０に入力されると、受付装置１０は、指示された発話の音声情報をユーザ端末２０に送信し、発話を再生させる。担当者は、発話を聞いて来訪者を認識すると、入力機器２０７を操作して来訪者に対する応対を指示し、受付装置１０は、ユーザ端末２０から入力された指示に応じて、担当者の代理で来訪者への応対を行う。このように、受付装置１０は、会社５における受付業務を自動的に行うことができる。尚、ここまでで簡単に説明した処理については、後に詳述する。

次に、図２を参照して、受付装置１０の構成について説明する。図２は、受付装置１０の電気的構成を示すブロック図である。図２に示すように、受付装置１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２及びＲＡＭ１０３とを含む制御回路部１００を備えている。ＣＰＵ１０１には、入出力（Ｉ／Ｏ）インタフェイス１０４が接続されている。Ｉ／Ｏインタフェイス１０４には、ハードディスク装置（ＨＤＤ）１５０、マイク１０６、呼び出しボタン１０７、スピーカ１０８、ディスプレイ１０９、及び通信装置１１０が接続されている。

ＣＰＵ１０１は、受付装置１０全体の制御を司る。ＲＯＭ１０２は、受付装置１０の基本的な動作に必要なプログラムやそのための設定値を記憶している。ＣＰＵ１０１は、ＲＯＭ１０２やＨＤＤ１５０に記憶されたプログラムに従って、受付装置１０の動作を制御する。ＲＡＭ１０３は、各種データを一時的に記憶するための記憶装置である。記憶装置であるＨＤＤ１５０には、詳細は後述するが、発話の音声情報に関する音声ファイルや、受付装置１０の各種動作を制御するための複数のプログラム等が記憶されている。

マイク１０６は、入力された来訪者の音声を、音声データに変換して出力する機器である。呼び出しボタン１０７は、来訪者が、受付装置１０で自己の来訪を告げ、受付処理を開始させる指示を入力するための機器である。スピーカ１０８は、音声情報を音声に変換して出力する機器である。ディスプレイ１０９には、例えば、受付業務を行っている想定の人物の画像や、スピーカ１０８から発話される音声に対応する文章等が表示される。

次に、図３乃至図７を参照して、受付装置１０のＨＤＤ１５０の構成について説明する。図３は、受付装置１０のＨＤＤ１５０の構成を示す模式図である。図４は、質問メッセージ記憶エリア１５０２に記憶された質問メッセージの説明図である。図５は、言語モデル記憶エリア１５０３に記憶された言語モデルの説明図である。図６は、単語辞書記憶エリア１５０４に記憶された単語辞書の説明図である。図７は、音声ファイル記憶エリア１５０５に記憶される音声ファイルの説明図である。

図３に示すように、ＨＤＤ１５０には、担当者端末情報記憶エリア１５０１、質問メッセージ記憶エリア１５０２、言語モデル記憶エリア１５０３、単語辞書記憶エリア１５０４、音声ファイル記憶エリア１５０５、及びプログラム記憶エリア１５０６が少なくとも設けられている。以下、各記憶エリアについて詳細に説明する。

まず、担当者端末情報記憶エリア１５０１について説明する。担当者端末情報記憶エリア１５０１には、会社５の社員についての情報と、各社員が使用するユーザ端末２０に接続するためのアドレスとが対応付けて記憶されている。この情報は、社員の移動等に伴い随時更新することができる。

次いで、質問メッセージ記憶エリア１５０２について説明する。図４に示すように、質問メッセージ記憶エリア１５０２には、来訪者に発話を促す複数のメッセージが記憶されている。各質問メッセージは、質問内容に応じてカテゴリ分けされている。本実施の形態では、担当者名カテゴリ「ｅ」、及び来訪者名カテゴリ「ｖ」の２つのカテゴリが設けられている。担当者名カテゴリ「ｅ」は、来訪者への応対を行う担当者の名前についてのカテゴリである。来訪者名カテゴリ「ｖ」は、来訪者の名前についてのカテゴリである。担当者名の発話を促す質問メッセージには、担当者名カテゴリに属することを示す「ｅ」が対応付けられており、来訪者自身の名前の発話を促す質問メッセージには、来訪者名カテゴリに属することを示す「ｖ」が対応付けられている。

そして、詳細は後述するが、来訪者が呼び出しボタン１０７（図２参照）を押下すると、質問メッセージ記憶エリア１５０２に記憶されている質問メッセージが出力される。質問メッセージに対して来訪者が発話を行うと、質問メッセージに対応付けられているカテゴリに応じて、来訪者が行った発話をいずれかのカテゴリに分類することができる。これにより、分類されたカテゴリに応じて発話の音声情報を再生することを可能としている。

次いで、言語モデル記憶エリア１５０３について説明する。言語モデル記憶エリア１５０３には、来訪者が行う発話の認識に使用される言語モデルが記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法（グラマー）で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル（例えば、単語Ｎ−ｇｒａｍ）がある。

これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、あらかじめ人手で記述して定義するものである。従って、記述される受理可能な文のパターンの数には限りがあるが、定義された文のパターンに発話が対応していれば、高精度な音声認識が可能である。本実施の形態では、会社５に来訪してきた人物の発話という、比較的限られた状況での発話について音声認識が行われるため、言語モデルとして記述文法モデルを採用している。しかしながら、採用する言語モデルは必ずしも記述文法モデルである必要はなく、統計モデルを採用してもよい。

図５に示すように、言語モデル記憶エリア１５０３には、受付装置１０と来訪者との対話で想定される様々な場面に応じてあらかじめ作成された受理可能な文のパターンが、先述したカテゴリ毎に言語モデルとして記憶されている。文のパターンは、例えば、文を構成する単語が属する単語種別を順に並べることによって定義することができる。本実施の形態では、例えば、担当者名についての発話として受理可能な文として、単語種別「担当者名」に属する単語、単語種別「敬称」に属する単語、及び単語種別「末尾１」に属する単語が順に連結された文が記憶されている。この文は、担当者名カテゴリ「ｅ」に対応付けられている。また、「会社名」、「接続」、「来訪者名」、「末尾２」のそれぞれの単語種別に属する単語が連結された文、及び「来訪者名」、「末尾２」のそれぞれの単語種別に属する単語が連結された文が、来訪者名カテゴリ「ｖ」に対応付けられて記憶されている。来訪者名カテゴリ「ｖ」に対応する文は、来訪者名についての発話として受理可能な文である。

そして、受付装置１０は、音声認識によって認識結果が得られた言語モデルのカテゴリにより、発話をいずれかのカテゴリに分類することができる。これにより、分類されたカテゴリに応じて発話の音声情報を再生することを可能としている。尚、言語モデル記憶エリア１５０３には、図５に例示した言語モデル以外にも、例えば来訪先の部署についての発話として受理可能な言語モデル等、様々な場面に対応して複数の言語モデルが記憶されている。

次いで、単語辞書記憶エリア１５０４について説明する。単語辞書記憶エリア１５０４には、言語モデルと共に音声認識に使用される単語辞書（図６参照）が記憶されている。図６に示すように、単語辞書は、あらかじめ設定された単語種別毎に、その単語種別に属する単語と、各単語の発音に関する情報とを記述するものである。図６は、単語種別「担当者名」、「敬称」、「来訪者名」、「末尾２」に対応する単語辞書の例を示している。尚、図６では、表記を簡略化するため、発音に関する情報として片仮名が使用されているが、実際には、単語辞書では音素列として記憶されている。例えば、単語「さま」に対応する発音は、図６では片仮名で「サマ」と記載されているが、音素列にローマ字表記を用いる場合には「ｓａｍａ」として記憶されている。また、図示は省略するが、単語辞書記憶エリア１５０４には、「敬称」及び「末尾２」のみでなく、「会社名」等の様々な単語種別についても同様に、単語と発音に関する情報の対応が記憶されている。

次いで、音声ファイル記憶エリア１５０５について説明する。図７に示すように、音声ファイル記憶エリア１５０５には、担当者についての情報が付されたフォルダ毎に、少なくとも１つの音声ファイルが記憶されている。フォルダ名には、記憶日及び記憶時刻を示す情報が含まれているため、来訪者の来訪日時及び担当者をフォルダから特定できる。そして、音声ファイルは、ファイル名、音声情報・ラベル、及びフラグからなる。

ファイル名は一連の発話の音声情報の各々に付されており、記憶日時を示す情報と、フォルダ内での記憶順を示す情報とを含む。音声情報は、来訪者への質問メッセージが出力されてから発話終了が検知されるまでに入力された音声の音声情報である。フラグは、音声ファイルがいずれのカテゴリに属するかを示す分類情報である。音声ファイルが担当者名カテゴリ「ｅ」に属する場合には「ｅ」、来訪者名カテゴリ「ｖ」に属する場合には「ｖ」、両方に属する場合には「ｅ，ｖ」のフラグが音声ファイルに付与される。フラグは発話再生時に利用される。

そして、音声情報には、発話内容が属するカテゴリ、及びこのカテゴリに属する発話部分の発話区間を示すラベルが付されている。例えば、ファイル名「０８０８０４＿０９＿５０＿２４＿１．ｗａｖ」の音声ファイル内の音声情報は、来訪者名カテゴリ「ｖ」に属する発話部分と、担当者名カテゴリ「ｅ」に属する発話部分とが含まれている。そして、来訪者名カテゴリ「ｖ」に属する「Ａ社のＢと申しますが」の発話部分の最初に、来訪者名カテゴリ「ｖ」の発話区間の開始を示す「ｖ開始」のラベルが付されている。「Ａ社のＢと申しますが」の発話部分の最後には、来訪者名カテゴリ「ｖ」の発話区間の終了を示す「ｖ終了」のラベルが付されている。また、担当者名カテゴリ「ｅ」に属する「Ｃ様はいらっしゃいますか」の発話部分の最初には、担当者名カテゴリ「ｅ」の発話区間の開始を示す「ｅ開始」のラベルが付されている。「Ｃ様はいらっしゃいますか」の発話部分の最後には、担当者名カテゴリ「ｅ」の発話区間の終了を示す「ｅ終了」のラベルが付されている。そして、ラベルには時間を示す情報が含まれているため、音声ファイル内の音声情報にラベルを付与することで、音声情報が取得された時間をラベルによって管理することが可能となる。発話区間の判定、及びラベルの付与には音声認識が用いられ、ラベルは発話再生時に利用されるが、これらの詳細はフローチャートを参照して後述する。

次いで、プログラム記憶エリア１５０６について説明する。プログラム記憶エリア１５０６には、後述する来訪者受付処理に使用されるプログラム群、システムプログラム、通信プログラム等、各種処理を受付装置１０に実行させるための各種プログラムが記憶されている。尚、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示外）を介してインストールされ、プログラム記憶エリア１５０６に記憶される。又は、ＬＡＮ９を介してインターネット（図示外）に接続し、インターネット上からダウンロードされたプログラムが記憶されてもよい。

図示はされていないが、ＨＤＤ１５０には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。尚、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴（例えば、周波数特性）と対応する音素とで表現されている。

次に、図８を参照して、ユーザ端末２０の構成について説明する。図８は、ユーザ端末２０の電気的構成を示すブロック図である。ユーザ端末２０は、音声情報を音声に変換して出力する機器を備えていれば本実施の形態において使用できる。例えば、ユーザ端末２０として、スピーカを備えた汎用のパーソナルコンピュータ（ＰＣ）、携帯電話、携帯端末等を使用できる。

図８に示すように、ユーザ端末２０は、ＣＰＵ２０１と、ＣＰＵ２０１に各々接続されたＲＯＭ２０２及びＲＡＭ２０３とを含む制御回路部２００を備えている。ＣＰＵ２０１には、その他、入出力（Ｉ／Ｏ）インタフェイス２０４が接続されている。Ｉ／Ｏインタフェイス２０４には、ハードディスク装置（ＨＤＤ）２５０、入力機器２０７、スピーカ２０８、ディスプレイ２０９、及び通信装置２１０が接続されている。

ＣＰＵ２０１は、ユーザ端末２０全体の制御を司る。ＲＯＭ２０２は、ユーザ端末２０を動作させるための各種プログラムを記憶している。ＣＰＵ２０１は、ＲＯＭ２０２やＨＤＤ２５０に記憶されたプログラムに従って、ユーザ端末２０の動作を制御する。ＲＡＭ２０３は、各種データを一時的に記憶するための記憶装置である。記憶装置であるＨＤＤ２５０は、例えば、ユーザ端末２０の各種動作を制御するための複数のプログラムが記憶されている。入力機器２０７は、ユーザ端末２０を使用するユーザ（担当者）による入力を受け付ける機器である。この入力機器２０７としては、例えば、ユーザ端末２０としてＰＣが用いられている場合にはマウスやキーボードが該当し、携帯電話や携帯端末が用いられている場合にはボタン、十字キー、タッチパネル等が該当する。スピーカ２０８は、音声情報を音声に変換して出力する機器である。ディスプレイ２０９には様々な画像や文章等が表示されるが、特に、受付装置１０からの指示に応じて、来訪者が来訪したことを担当者に通知する来訪通知画面が表示される。

以下、受付装置１０において行われる来訪者受付処理について、図９乃至図１３を参照して説明する。図９及び図１０は、来訪者受付処理のフローチャートである。図１１は、来訪者受付処理中に実行されるフラグ初期化処理のフローチャートである。図１２は、来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。図１３は、来訪者受付処理中に実行される来訪応対処理のフローチャートである。来訪者が来訪し、受付装置１０の呼び出しボタン１０７を操作すると、来訪者受付処理が開始される。これらの処理は、ＨＤＤ１５０のプログラム記憶エリア１５０６に記憶されたプログラムに従って、ＣＰＵ１０１が実行する。

図９に示す来訪者受付処理が開始されると、まず、来訪者受付処理で使用される各種フラグを初期化するフラグ初期化処理が開始される（Ｓ１）。以下のフラグの初期値は全て「０」である。図１１に示すように、フラグ初期化処理が開始されると、初回質問済フラグ（ｅｅ）が初期化される（Ｓ２１）。初回質問済フラグは、担当者名質問メッセージの最初の出力が終了したか否かを示すフラグである。次いで、質問回数フラグ（ｑ）が初期化される（Ｓ２２）。質問回数フラグは、担当者名質問メッセージの出力回数を計数するフラグである。次いで、来訪者名取得済フラグ（ｖｇ）が初期化される（Ｓ２３）。来訪者名取得済フラグは、来訪者名が既に取得されているか否かを示すフラグである。そして、認識失敗回数フラグ（ｍ）が初期化されて（Ｓ２４）、来訪者受付処理へ戻る。認識失敗回数フラグは、音声認識によって担当者名及び来訪者名のいずれも認識できなかった回数を計数するフラグである。

図９の説明に戻り、各種フラグが初期化されると（Ｓ１）、認識失敗回数フラグ（ｍ）が「２」であるか否かが判断され（Ｓ２）、「２」でなければ（Ｓ２：ＮＯ）、質問回数フラグ（ｑ）が「３」であるか否かが判断される（Ｓ３）。認識失敗回数フラグ（ｍ）が「２」であり、音声認識に２度失敗していると判断された場合には（Ｓ２：ＹＥＳ）、処理が終了する。また、質問回数フラグ（ｑ）が「３」であり、担当者名質問メッセージが既に３回出力されていると判断された場合にも（Ｓ３：ＹＥＳ）、処理が終了する。

認識失敗回数フラグ（ｍ）が「２」でなく（Ｓ２：ＮＯ）、質問回数フラグ（ｑ）が「３」でない場合には（Ｓ３：ＮＯ）、質問回数フラグ（ｑ）に「１」が加算される（Ｓ４）。そして、担当者名カテゴリ「ｅ」が対応付けられている質問メッセージである担当者名質問メッセージ（図４参照）のいずれかを、スピーカ１０８及びディスプレイ１０９に出力させる処理が行われる（Ｓ５）。これにより、受付装置１０のスピーカ１０８からは、担当者名の発話を来訪者に促す「担当者名を教えてください」等の音声が出力されると共に、同様の文章がディスプレイ１０９に表示される。担当者名質問メッセージの後に行われる発話は、担当者名についての発話であると仮定されて、その後の処理が行われることとなる。すなわち、担当者名質問メッセージの後の発話がＲＡＭ１０３に記憶されると、質問メッセージで指定された担当者名カテゴリ「ｅ」が一時的に対応付けられて、その後の処理が行われる。

次いで、マイク１０６から入力された音声情報がＲＡＭ１０３に記憶されると共に、音響モデル、言語モデル（図５参照）、及び単語辞書（図６参照）を用いて、音声認識が行われる（Ｓ６）。より具体的には、担当者名質問メッセージの後の発話の音声情報が、質問メッセージで指定された担当者名カテゴリ「ｅ」に一時的に対応付けられてＲＡＭ１０３に記憶される。そして、マイク１０６から入力された発話の音声情報を分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングが行われる。その結果、言語モデルで受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。マッチングの際、言語モデルは単語辞書を参照する。尚、尤度が規定の閾値以下の値になった場合には、認識失敗として認識結果は得られない。

そして、この音声認識では、他の一般的な受付装置と同様の音声を認識する処理に加え、音声認識を利用して発話にカテゴリを一時的に対応付ける処理が行われている。詳細には、担当者名カテゴリ「ｅ」が対応付けられた言語モデルによって認識結果が得られた場合には、発話が担当者名カテゴリ「ｅ」に属することが一時的にＲＡＭ１０３に記憶される。また、来訪者名カテゴリ「ｖ」が対応付けられた言語モデルによって認識結果が得られた場合には、来訪者名カテゴリ「ｖ」に属する発話であることが一時的にＲＡＭ１０３に記憶される。録音及び音声認識は、発話が終了したことが検知されるまで継続して行われる（Ｓ７：ＮＯ）。発話終了の検知は、無音を示す音声波形が所定時間継続したか否かを監視することによって行われる。

発話終了が検知されると（Ｓ７：ＹＥＳ）、音声認識が成功したか否かが判断される（Ｓ８）。この判断では、担当者名カテゴリ「ｅ」が対応付けられた言語モデル、及び来訪者名カテゴリ「ｖ」が対応付けられた言語モデルの少なくともいずれかにより認識結果が得られた場合に、認識が成功したと判断される。いずれの言語モデルでも認識結果が得られず、音声認識に失敗したと判断された場合には（Ｓ８：ＮＯ）、認識失敗回数フラグ（ｍ）に「１」が加算され（Ｓ９）、Ｓ２の判断へ戻る。認識に成功したと判断されると（Ｓ８：ＹＥＳ）、認識結果が得られた言語モデルに対応付けられている、担当者名カテゴリ「ｅ」及び来訪者名カテゴリ「ｖ」の少なくともいずれかが取得される（Ｓ１１）。このカテゴリは、先の音声認識（Ｓ６）によって発話に一時的に対応付けられたカテゴリである。例えば、「鈴木と申します」という認識結果が得られた場合、認識結果が得られた言語モデルは＜来訪者名＞＜末尾２＞であり（図５参照）、この言語モデルに対応付けられているカテゴリは来訪者名カテゴリ「ｖ」である。この場合、来訪者名カテゴリ「ｖ」が取得されることとなる。

次いで、言語モデルから取得されたカテゴリに、質問メッセージで指定された担当者名カテゴリ「ｅ」があるか否かが判断される（Ｓ１２）。換言すると、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かが判断される。音声認識の認識結果に応じたカテゴリに「ｅ」がない場合、すなわち、Ｓ１１で取得されたカテゴリが来訪者名カテゴリ「ｖ」のみである場合には（Ｓ１２：ＮＯ）、質問メッセージで指定されたカテゴリと、音声認識によって取得されたカテゴリとが異なっている。そこで、質問メッセージを再度出力するための処理が行われる。詳細には、初回質問済フラグ（ｅｅ）が「１」であるか否かが判断され（Ｓ１３）、「１」でない場合には（Ｓ１３：ＮＯ）、初回質問済フラグ（ｅｅ）が「１」とされて（Ｓ１４）、Ｓ２の判断へ戻る。そして、担当者名質問メッセージが再度出力されることとなる（Ｓ５）。

初回質問済フラグ（ｅｅ）が「１」であり、担当者名質問メッセージが既に２度出力されていると判断された場合には（Ｓ１３：ＹＥＳ）、来訪者名の発話部分に「ｖ開始」及び「ｖ終了」のラベルを付与する処理が行われる（Ｓ１６）。詳細には、記憶された一連の発話の音声情報のうち、音声認識の認識結果が得られた言語モデルに対応する発話部分の最初に「ｖ開始」が、最後に「ｖ終了」が付与される。次いで、音声認識によって取得されたカテゴリを優先して音声情報に対応付けることが決定されて、来訪者名カテゴリ「ｖ」に属することを示すフラグが音声ファイルに付与される（Ｓ１７）。そして、来訪者名が既に取得されたことを示す「１」が来訪者名取得済フラグ（ｖｇ）に記憶され（Ｓ１８）、初回質問済フラグ（ｅｅ）が初期化されて（Ｓ１９）、Ｓ２の判断へ戻る。これにより、音声認識の認識結果に応じたカテゴリが優先して付与されている、担当者名カテゴリ「ｅ」に属さない音声ファイルが１つ作成される。また、言語モデルから取得されたカテゴリに担当者名カテゴリ「ｅ」がある場合には（Ｓ１２：ＹＥＳ）、質問メッセージで指定されたカテゴリと、音声認識によって取得されたカテゴリとが一致している。この場合、音声認識の認識結果と、担当者端末情報記憶エリア１５０１の情報とによって、来訪者への応対を行う担当者、及びこの担当者が使用するユーザ端末２０のアドレスが特定される（Ｓ２０）。そして、Ｓ３１（図１０参照）の判断へ移行する。

図１０に示すように、言語モデルから取得されたカテゴリに、来訪者名カテゴリ「ｖ」があるか否かが判断される（Ｓ３１）。「ｖ」がある場合には（Ｓ３１：ＹＥＳ）、来訪者が担当者名質問メッセージに対して担当者名と自身の名前とを発話している。そこで、担当者名の発話部分に「ｅ開始」及び「ｅ終了」のラベルが付与されて（Ｓ３２）、来訪者名の発話部分に「ｖ開始」及び「ｖ終了」のラベルが付与される（Ｓ３３）。そして、担当者名カテゴリ「ｅ」及び来訪者名カテゴリ「ｖ」の両方を音声情報に対応付けることが決定され、両方のカテゴリに属することを示す「ｅ」、「ｖ」のフラグが音声ファイルに付与されて（Ｓ３４）、Ｓ３９の処理へ移行する。

また、言語モデルから取得されたカテゴリに、来訪者名カテゴリ「ｖ」がない場合には（Ｓ３１：ＮＯ）、来訪者が担当者名のみを発話している。そこで、担当者名の発話部分に「ｅ開始」及び「ｅ終了」のラベルが付与される（Ｓ３５）。そして、質問メッセージ及び音声認識の両方によって対応付けられた担当者名カテゴリ「ｅ」を音声情報に付与することが決定され、担当者名カテゴリ「ｅ」に属することを示すフラグが音声ファイルに付与される（Ｓ３６）。次いで、来訪者名が既に取得されているか否かが来訪者名取得済フラグ（ｖｇ）によって判断される（Ｓ３７）。来訪者名取得済フラグ（ｖｇ）が「１」となっており、来訪者名が既に取得されていると判断された場合には（Ｓ３７：ＹＥＳ）、そのままＳ３９の処理へ移行する。来訪者名取得済フラグ（ｖｇ）が「０」となっていれば（Ｓ３７：ＮＯ）、来訪者名取得処理が行われて（Ｓ３８）、Ｓ３９の処理へ移行する。

図１２に示すように、来訪者名取得処理が開始されると、来訪者名カテゴリ「ｖ」が対応付けられている質問メッセージ（図４参照）のいずれかを、スピーカ１０８及びディスプレイ１０９に出力させる処理が行われる（Ｓ５１）。次いで、マイク１０６から入力された音声情報が、来訪者名カテゴリ「ｖ」に一時的に対応付けられてＲＡＭ１０３に記憶されると共に、来訪者の発話に対する音声認識が行われる（Ｓ５２）。この処理では、Ｓ６の処理と同様に、他の一般的な受付装置と同様の音声を認識する処理に加え、音声認識を利用して発話にカテゴリを一時的に対応付ける処理が行われている。この処理は、発話終了が検知されるまで継続して行われる（Ｓ５３：ＮＯ）。

発話終了が検知されると（Ｓ５３：ＹＥＳ）、音声認識が成功したか否かが判断される（Ｓ５４）。この判断では、Ｓ８（図９参照）の判断と同様に、担当者名カテゴリ「ｅ」が対応付けられた言語モデル、及び来訪者名カテゴリ「ｖ」が対応付けられた言語モデルの少なくともいずれかにより認識結果が得られた場合に、認識が成功したと判断される。失敗したと判断された場合には（Ｓ５４：ＮＯ）、そのまま来訪者受付処理に戻る。成功したと判断された場合には（Ｓ５４：ＹＥＳ）、認識結果が得られた言語モデルのカテゴリ、すなわち、音声認識を利用して一時的に対応付けられたカテゴリが取得され（Ｓ５５）、取得されたカテゴリに来訪者名カテゴリ「ｖ」があるか否かが判断される（Ｓ５６）。「ｖ」がなければ（Ｓ５６：ＮＯ）、そのまま来訪者受付処理（図１０参照）に戻る。「ｖ」があれば（Ｓ５６：ＹＥＳ）、来訪者名の発話部分に「ｖ開始」及び「ｖ終了」のラベルが付与される（Ｓ５７）。そして、来訪者名カテゴリ「ｖ」を音声情報に対応付けることが決定され、来訪者名カテゴリ「ｖ」に属することを示すフラグが音声ファイルに付与されて（Ｓ５８）、来訪者受付処理に戻る。

図１０の説明に戻り、担当者名及び来訪者名を取得する処理が終了すると、来訪日時及び担当者に対応するフォルダが音声ファイル記憶エリア１５０５（図７参照）に作成されると共に、既に作成されている音声ファイルが保存される（Ｓ３９）。次いで、特定された担当者が使用するユーザ端末２０のスピーカ２０８に呼び出し音を出力させると共に、来訪者の来訪を通知する画面である来訪通知画面の画像データを、ユーザ端末２０に送信する処理が行われる（Ｓ４０）。すると、ユーザ端末２０のディスプレイ２０９には来訪通知画面が表示される。来訪通知画面には、担当者によって操作される各種ボタンが表示される。そして、担当者からの指示に応じて来訪者への応対を行う来訪応対処理が行われる（Ｓ４１）。

図１３に示すように、来訪応対処理が開始されると、来訪者に対する応対方法の指示がユーザ端末２０から入力されたか否かが判断され（Ｓ６１）、入力されていなければ（Ｓ６１：ＮＯ）、音声の再生指示が入力されたか否かが判断される（Ｓ６２）。入力されていなければ（Ｓ６２：ＮＯ）、いずれかの指示が入力されるまで、これらの判断が繰り返し行われる。

担当者が入力機器２０７（図８参照）を操作して、来訪通知画面に表示されたボタンを選択することにより、担当者名及び来訪者名のいずれかについての発話音声の再生の指示を行うと、ユーザ端末２０から受付装置１０に音声の再生指示が出力される。この再生指示が入力されると（Ｓ６２：ＹＥＳ）、再生指示された発話のカテゴリが取得される（Ｓ６３）。詳細には、担当者名の再生指示であれば担当者名カテゴリ「ｅ」が、来訪者名の再生指示であれば来訪者名カテゴリ「ｖ」が取得される。次いで、対応するフォルダに格納された音声ファイルから、取得されたカテゴリのフラグが付与された音声ファイルが抽出される（Ｓ６４）。音声ファイルが１つも抽出されなければ（Ｓ６５：ＮＯ）、「録音データはありません」というエラーメッセージをユーザ端末２０のスピーカ２０８に出力させる処理が行われて（Ｓ６６）、Ｓ６１の判断へ戻る。

音声ファイルが抽出された場合には（Ｓ６５：ＹＥＳ）、抽出された音声ファイルの中に、付与されたフラグが１つである音声ファイルが存在するか否かが判断される（Ｓ６８）。存在しない場合、すなわち、担当者名及び来訪者名が共に含まれている発話の音声データしか存在しない場合には（Ｓ６８：ＮＯ）、抽出された音声ファイルから任意の音声ファイルが選択される（Ｓ６９）。そして、再生指示されたカテゴリの開始ラベル位置から音声を再生させる処理が行われて（Ｓ７０）、Ｓ６１の判断へ戻る。これにより、担当者が使用するユーザ端末２０のスピーカ２０８からは、来訪者が行った発話の音声が、再生指示された担当者名又は来訪者名の発話部分の開始時点から出力されることとなる。

また、抽出された音声ファイルの中に、付与されたフラグが１つである音声ファイルが存在する場合には（Ｓ６８：ＹＥＳ）、フラグが１つの音声ファイルから任意の音声ファイルが選択される（Ｓ７２）。そして、音声情報の先頭から開始ラベル位置まで５秒以上あるか否かが判断される（Ｓ７３）。この５秒の基準は例示であり、変更が可能であることは勿論である。５秒以上であれば（Ｓ７３：ＹＥＳ）、開始ラベルの位置、すなわち、発話開始位置から音声を再生させる処理が行われて（Ｓ７４）、Ｓ６１の判断へ戻る。５秒未満であれば（Ｓ７３：ＮＯ）、音声情報の先頭から音声を再生させる処理が行われて（Ｓ７５）、Ｓ６１の判断へ戻る。

そして、来訪者に対する応対方法の指示がユーザ端末２０から入力された場合には（Ｓ６１：ＹＥＳ）、入力された指示に応じた応対処理が行われる（Ｓ７７）。詳細には、応対する指示が入力された場合には、「少々お待ちください」というメッセージをスピーカ１０８から出力させる処理が行われる。また、不在であることを通知する指示が入力された場合、及び来訪通知画面表示後所定時間が経過したことが入力された場合には、「担当者は不在です」というメッセージを出力させる処理が行われる。そして、来訪応対処理が終了し、そのまま来訪者受付処理が終了する（図１０参照）。尚、来訪者受付処理が終了した場合、不要となった音声ファイルはフォルダごと削除してもよいし、来訪者の来訪を後で確認するためにそのまま保存してもよい。

以上説明したように、本実施の形態の来訪者受付システム１によれば、発話の少なくとも一部がいずれのカテゴリに属するかを示すフラグを、来訪者の発話の音声ファイルに対応付けることができる。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用するユーザ端末２０に、対応するフラグに応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。

音声ファイルへのフラグの対応付けは、来訪者の発話が行われる前に出力された質問メッセージに応じて容易に行うことができる。さらに、異なるカテゴリに属する複数の発話内容が一連の発話に含まれていても、音声認識を利用することで、対応付けるカテゴリを適切に決定し、決定したカテゴリに属することを示すフラグを付与することができる。また、各カテゴリに属する発話部分の開始時点及び終了時点にラベルを付与することもできる。そして、質問メッセージに応じて対応付けられるカテゴリと、音声認識に基づいて対応付けられるカテゴリとが一致しない場合には、質問メッセージを再度出力することで、来訪者から取得すべき情報をより高い割合で得ることができる。また、カテゴリが一致しない場合には、音声認識に基づいて対応付けられたカテゴリに属することを示すフラグを、質問メッセージに応じて対応付けられたカテゴリに属することを示すフラグよりも優先して付与する。これにより、出力された質問メッセージで催促された返答を来訪者が行わなかった場合でも、来訪者の発話に適切にフラグを付与し、必要な音声を適宜再生させることができる。

また、受付装置１０は、音声の再生指示がユーザ端末２０から入力されると、再生指示によって特定された音声情報をユーザ端末２０に送信して音声を再生させることができる。よって、担当者は、無駄な音声を聞くことなく、所望する情報を効率よく得ることができる。さらに、受付装置１０は、発話開始時点や、再生指示された発話部分の開始時点から音声を再生させることができるため、担当者は必要な情報を効率よく得ることができる。

尚、上記実施の形態のマイク１０６が本発明の「音声入力手段」に相当し、図９のＳ６でマイク１０６から音声情報を入力するＣＰＵ１０１が「取得手段」として機能する。ＨＤＤ１５０の音声ファイル記憶エリア１５０５が「記憶手段」に相当する。図９のＳ１７、図１０のＳ３４，３６，３９、及び図１２のＳ５８で、フラグを対応付けて音声ファイルを音声ファイル記憶エリア１５０５に記憶させるＣＰＵ１０１が「記憶制御手段」として機能する。図９のＳ２０で、音声認識の認識結果から担当者を特定するＣＰＵ１０１が「担当者特定手段」として機能する。図１３のＳ６２〜Ｓ７５で、対応付けられているフラグに応じて音声情報をユーザ端末２０に送信するＣＰＵ１０１が「送信手段」として機能する。

図１３のＳ６２，６３で、音声再生指示をユーザ端末２０から受け付けるＣＰＵ１０１が「特定指示受付手段」として機能する。図１３のＳ７４で、発話の開始時点を開始ラベルから検出するＣＰＵ１０１が「開始時点検出手段」として機能する。ＨＤＤ１５０の質問メッセージ記憶エリア１５０２が「メッセージ記憶手段」に相当し、受付装置１０のスピーカ１０８及びディスプレイ１０９が「メッセージ出力手段」に相当する。図９のＳ５及び図１２のＳ５１で、スピーカ１０８及びディスプレイ１０９に質問メッセージを出力させるＣＰＵ１０１が「メッセージ出力制御手段」として機能する。

図９のＳ６、及び図１２のＳ５２で音声認識を実行するＣＰＵ１０１が「音声認識手段」として機能する。図９のＳ１２で、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かを判断するＣＰＵ１０１が「判断手段」として機能する。図１３のＳ７０で、各カテゴリに属する発話部分の発話区間を開始ラベル及び終了ラベルから判定するＣＰＵ１０１が「発話区間判定手段」として機能する。

また、図９のＳ６でマイク１０６から音声情報を入力する処理が「取得ステップ」に相当する。図９のＳ１７、図１０のＳ３４，３６，３９、及び図１２のＳ５８で、フラグを対応付けて音声ファイルを音声ファイル記憶エリア１５０５に記憶させる処理が「記憶制御ステップ」に相当する。図９のＳ２０で、音声認識の認識結果から担当者を特定する処理が「担当者特定ステップ」に相当する。図１３のＳ６２〜Ｓ７５で、対応付けられているフラグに応じて音声情報をユーザ端末２０に送信する処理が「送信ステップ」に相当する。

尚、上記実施の形態に示される構成や処理は例示であり、各種の変更が可能であることは言うまでもない。以下、上記実施の形態の変形例について説明する。

まず、音声認識の認識結果を利用した発話のカテゴリ分類のみを行う変形例について説明する。上記実施の形態では、発話が属するカテゴリを音声情報に対応付ける方法として、音声認識の認識結果を利用する方法、及び質問メッセージに応じて対応付ける方法の２つの方法が用いられている。しかし、いずれか一方の方法のみを利用することも可能である。音声認識の認識結果を利用した発話のカテゴリ分類のみを行う場合、例えば、図９に示すＳ１２の判断で、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かを判断する必要はなく、音声認識の認識結果に応じて取得されたカテゴリに担当者名カテゴリ「ｅ」があるか否かを判断すればよい。そして、担当者名カテゴリ「ｅ」がなかった場合には（Ｓ１２：ＮＯ）、Ｓ１３の判断の代わりに、来訪者名取得済フラグ（ｖｇ）が「１」となっているか否かを判断し、「１」となっていなければ、音声認識の認識結果に応じて、Ｓ１６〜Ｓ１８の処理を行えばよい。また、来訪者名取得済フラグ（ｖｇ）が既に「１」となっていれば、そのままＳ２の判断へ戻ればよい。この場合、Ｓ１４及びＳ１９の処理は不要である。以上のように、音声認識を利用した発話のカテゴリ分類のみを行うことも可能である。

次に、質問メッセージに応じた発話のカテゴリ分類のみを行う変形例について、図１４及び図１５を参照して説明する。図１４は、変形例の来訪者受付処理のフローチャートである。図１５は、変形例の来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。尚、上記実施の形態における来訪者受付処理（図９及び図１０参照）、及び来訪者名取得処理（図１２参照）中の処理と同じ処理を行うステップについては、同一のステップ番号を付し、説明を省略又は簡略化する。

図１４に示すように、変形例の来訪者受付処理が開始されると、まず、フラグ初期化処理が行われる（Ｓ１０１）。この変形例では、質問回数フラグ（ｑ）及び認識失敗回数フラグ（ｍ）のみが使用されるため、この２つのフラグに初期値である「０」が記憶される。そして、認識失敗回数フラグ（ｍ）が「２」でなく（Ｓ２：ＮＯ）、質問回数フラグ（ｑ）が「３」でなければ（Ｓ３：ＮＯ）、質問回数フラグに「１」が加算される（Ｓ４）。次いで、担当者名カテゴリ「ｅ」が対応付けられている質問メッセージのいずれかを出力させる処理が行われて（Ｓ５）、音声情報の記憶、及び音声認識が行われる（Ｓ１０２）。この処理では、上記実施の形態における音声認識の処理（Ｓ６、図９参照）とは異なり、音声認識を利用して発話にカテゴリを対応付ける処理は行われず、周知の音声認識のみが実行される。

そして、発話終了が検知されると（Ｓ７：ＹＥＳ）、音声認識が成功したか否かが判断される（Ｓ１０３）。この判断では、担当者名カテゴリ「ｅ」が対応付けられた言語モデルによって認識結果が得られた場合に、音声認識が成功したと判断される。音声認識に成功した場合には（Ｓ１０３：ＹＥＳ）、来訪者への応対を行う担当者が音声認識の結果から特定され（Ｓ２０）、担当者名の発話部分に「ｅ開始」及び「ｅ終了」のラベルが付与される（Ｓ３５）。次いで、質問メッセージで指定されたカテゴリ、すなわち、担当者名カテゴリ「ｅ」に属することを示す「ｅ」のフラグが音声ファイルに付与されて、音声情報が属するカテゴリが担当者名カテゴリ「ｅ」であることが決定される（Ｓ３６）。次いで、来訪者名取得処理が行われる（Ｓ１０４）。

図１５に示すように、来訪者名取得処理が開始されると、来訪者名カテゴリ「ｖ」が対応付けられている質問メッセージのいずれかを出力させる処理が行われて（Ｓ５１）、音声情報の記憶、及び音声認識が行われる（Ｓ１０５）。この処理では、Ｓ１０２（図１４参照）の処理と同様に、周知の音声認識が行われ、発話にカテゴリを対応付ける処理は行われない。発話終了が検知されると（Ｓ５３：ＹＥＳ）、来訪者名カテゴリ「ｖ」が対応付けられた言語モデルによって認識結果が得られたか否かにより、音声認識が成功したか否かが判断され（Ｓ１０６）、成功していない場合には（Ｓ１０６：ＮＯ）、来訪者受付処理に戻る。音声認識に成功している場合には（Ｓ１０６：ＹＥＳ）、来訪者名の発話部分に「ｖ開始」及び「ｖ終了」のラベルが付与される（Ｓ５７）。次いで、質問メッセージで指定されたカテゴリ、すなわち、来訪者名カテゴリ「ｖ」に属することを示す「ｖ」のフラグが音声ファイルに付与されて、音声情報が属するカテゴリが来訪者名カテゴリ「ｖ」であることが決定される（Ｓ５８）。そして、来訪者受付処理に戻る。

図１４の説明に戻り、来訪者名取得処理（Ｓ１０４）が終了すると、作成されている音声ファイルが対応するフォルダに保存され（Ｓ３９）、来訪通知画面の画像データが担当者のユーザ端末２０に送信される（Ｓ４０）。そして、来訪応対処理が行われて（Ｓ４１）処理が終了する。以上説明したように、音声認識を利用した発話のカテゴリ分類を行わず、質問メッセージに応じた発話のカテゴリ分類のみを行うことも可能である。

また、上記実施の形態はその他の変更も可能である。上記実施の形態では、担当者がユーザ端末２０の入力機器２０７を操作し、ユーザ端末２０から受付装置１０へ音声の再生指示が入力された場合に、再生指示によって特定された音声の音声情報がユーザ端末２０に送信される。しかし、ユーザ端末２０からの再生指示の入力は必須ではない。例えば、図１０のＳ４０で来訪通知画面の画像データを送信する場合に、所定のカテゴリ（例えば、担当者名カテゴリ）に属する発話の音声を同時に再生させてもよい。また、カテゴリ毎に特定の順（例えば、担当者名カテゴリの発話の再生後、来訪者名カテゴリの発話を再生）で発話を再生させてもよい。この場合でも、必要な音声のみを担当者に聞かせることができ、担当者は必要な情報を容易に得ることができる。

また、上記実施の形態では、発話が分類されるカテゴリとして、来訪者への応対を行う担当者の名前についてのカテゴリである担当者名カテゴリ「ｅ」、及び来訪者名についてのカテゴリである来訪者名カテゴリ「ｖ」の２つのカテゴリが設定されている。しかし、設定できるカテゴリの種類はこれに限られないことは勿論である。例えば、来訪先の部署についてのカテゴリである部署カテゴリを設けてもよいし、用件についてのカテゴリを設けてもよい。また、カテゴリの数も２つに限られず、１つ、又は３つ以上であってもよい。

また、上記実施の形態では、音声認識を利用したフラグ付与の処理において、認識結果が得られた言語モデルと同じカテゴリのフラグを、音声ファイルに付与している。この処理を行うために、所定の言語モデルにあらかじめカテゴリが対応付けられている（図５参照）。しかし、認識された単語が属するカテゴリに応じて、音声ファイルにフラグを付与することも可能である。この場合、図６に示す単語辞書に含まれる単語にあらかじめカテゴリを対応付けておく。例えば、単語種別が「担当者名」である単語に、担当者名カテゴリ「ｅ」を対応付けておき、来訪者名や来訪者の会社名に、来訪者名カテゴリ「ｖ」を対応付けておく。また、来訪者が担当者名の後に話す「敬称」の単語種別の単語に、担当者名カテゴリ「ｅ」を対応付けておいてもよい。そして、図９のＳ１１で、認識された単語に対応付けられているカテゴリを取得し、その後の処理を行えばよい。これにより、音声の情報を認識しつつ、来訪者の発話を適切に分類することができる。

また、上記実施の形態では、音声認識によって担当者名を認識することで、来訪者への応対を行う担当者を特定している（Ｓ２０、図９参照）。すなわち、本実施の形態では、本発明の「音声入力手段」に相当する受付装置１０のマイク１０６が、本発明の「情報入力手段」を兼ねている。しかし、タッチパネルを操作させる方法や、選択ボタンにより担当者を来訪者に選択させる方法等、他の方法によって来訪者からの情報を入力し、担当者を特定してもよい。この場合は、タッチパネル又は選択ボタンが本発明の「情報入力手段」に相当する。

また、上記実施の形態では、一連の発話の音声データに開始ラベル及び終了ラベルを付与し、開始ラベルの位置を発話開始の位置として音声を再生させている（Ｓ７４、図１３参照）。これにより、担当者が必要な情報を効率よく得ることを可能としている。しかし、この方法も変更が可能であり、例えば、入力された音声波形を監視することによって発話開始を検知しても、発話開始位置から音声を再生させることが可能である。また、音声認識の結果を用いて、発話が行われていない区間である無音区間に無音区間用の開始ラベル及び終了ラベルを付与し、無音区間を省略して音声を再生させることも可能である。これにより、担当者が必要な情報を得るまでに費やす無駄な時間をさらに減少させることができる。

また、来訪者受付システム１の装置構成も変更が可能である。上記実施の形態では、マイク１０６、呼び出しボタン１０７、スピーカ１０８等を備えた受付装置１０のＣＰＵ１０１が、発話へのフラグの付与や音声情報の送信等の各種処理を行っている。しかし、これらの処理を行うのは受付装置１０のＣＰＵ１０１に限られない。例えば、マイク、呼び出しボタン、スピーカ、及びディスプレイを備え、受付装置１０に接続されたインターホン型の受付端末を会社５の入口近辺に設置し、受付装置１０は会社５内の別の場所に設置してもよい。そして、受付端末で来訪者の検知や音声情報の入力を行い、その情報を受付装置１０に送信してもよい。また、受付装置１０ではＨＤＤ１５０に音声ファイルを保存せず、ユーザ端末２０への音声情報等のデータの送信のみを行って、ユーザ端末２０で音声ファイルを保存することもできる。また、音声ファイルを保存する記憶装置が、受付装置１０に着脱可能に設けられてもよいし、ＬＡＮ９を介して受付装置１０に接続可能な別個の記憶装置であってもよい。また、来訪者受付処理（図９乃至図１３参照）で行われている処理の少なくとも一部をユーザ端末２０のＣＰＵ２０１に実行させてもよい。

また、上記実施の形態では、呼び出しボタン１０７が押下されることで来訪者が来訪したことを検知している。しかし、例えば、人間を検知するための人感センサを用いてもよいし、カメラによって来訪者が撮影された場合に来訪者の来訪を検知してもよい。

来訪者受付システム１の概略構成を示すシステム構成図である。受付装置１０の電気的構成を示すブロック図である。受付装置１０のＨＤＤ１５０の構成を示す模式図である。質問メッセージ記憶エリア１５０２に記憶された質問メッセージの説明図である。言語モデル記憶エリア１５０３に記憶された言語モデルの説明図である。単語辞書記憶エリア１５０４に記憶された単語辞書の説明図である。音声ファイル記憶エリア１５０５に記憶される音声ファイルの説明図である。ユーザ端末２０の電気的構成を示すブロック図である。来訪者受付処理のフローチャートである。来訪者受付処理のフローチャートであって、図９の続きである。来訪者受付処理中に実行されるフラグ初期化処理のフローチャートである。来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。来訪者受付処理中に実行される来訪応対処理のフローチャートである。変形例の来訪者受付処理のフローチャートである。変形例の来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。

符号の説明

１０受付装置
２０ユーザ端末
１０１ＣＰＵ
１０６マイク
１０８スピーカ
１０９ディスプレイ
１５０ＨＤＤ
２０８スピーカ
１５０２質問メッセージ記憶エリア
１５０５音声ファイル記憶エリア

Claims

来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付装置であって、
音声入力手段から入力された前記来訪者が行う発話を取得する取得手段と、
前記取得手段によって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御手段と、
情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定手段と、
前記担当者特定手段によって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信手段とを備えたことを特徴とする受付装置。
前記記憶手段に記憶された複数の前記発話の音声情報のうち、前記送信手段に送信させる前記発話の音声情報を特定する指示を前記端末から受け付ける特定指示受付手段を備え、
前記送信手段は、前記特定指示受付手段により受け付けられた指示によって特定された前記発話の音声情報を前記端末に送信することを特徴とする請求項１に記載の受付装置。
前記音声入力手段から入力された音声から、前記分類情報に応じた前記発話の開始時点を検出する開始時点検出手段を備え、
前記送信手段は、前記開始時点検出手段によって検出された開始時点から前記発話の音声情報を送信することを特徴とする請求項１又は２に記載の受付装置。
前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段を備え、
前記記憶制御手段は、前記発話の音声情報に対応付ける前記分類情報を、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージのカテゴリに応じた分類情報である第一分類情報として、前記発話の音声情報を記憶させることを特徴とする請求項１乃至３のいずれかに記載の受付装置。
前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段を備え、
前記記憶制御手段は、前記音声認識手段による認識結果に応じた分類情報である第二分類情報を対応付けて、前記発話の音声情報を記憶させることを特徴とする請求項１乃至３のいずれかに記載の受付装置。
前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、
前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする請求項５に記載の受付装置。
前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、
前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする請求項５に記載の受付装置。
前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段と、
前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段と、
前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージが属するカテゴリに応じた分類情報である第一分類情報と、前記音声認識手段による認識結果に応じた分類情報である第二分類情報とが一致するか否かを判断する判断手段とを備え、
前記記憶制御手段は、前記判断手段による判断結果に応じて、前記第一分類情報及び前記第二分類情報の少なくともいずれかに対応付けて、前記発話の音声情報を前記記憶手段に記憶させることを特徴とする請求項１乃至３のいずれかに記載の受付装置。
前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、
前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする請求項８に記載の受付装置。
前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、
前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする請求項８に記載の受付装置。
前記メッセージ出力制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記メッセージ出力手段によって出力された前記メッセージを再度出力させることを特徴とする請求項８乃至１０のいずれかに記載の受付装置。
前記記憶制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記第二分類情報を前記発話の音声情報に対応付けて前記記憶手段に記憶させることを特徴とする請求項８乃至１１のいずれかに記載の受付装置。
前記記憶制御手段によって前記分類情報が対応付けられた前記発話のうち、前記分類情報が示すカテゴリに属する発話部分の発話区間を、前記音声認識手段による認識結果から判定する発話区間判定手段を備え、
前記送信手段は、前記発話区間判定手段によって判定された前記発話区間の開始時点から前記発話の音声情報を送信することを特徴とする請求項５乃至１２のいずれかに記載の受付装置。
来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付方法であって、
音声入力手段から入力された前記来訪者が行う発話を取得する取得ステップと、
前記取得ステップによって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御ステップと、
情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定ステップと、
前記担当者特定ステップによって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信ステップとを備えたことを特徴とする受付方法。
請求項１乃至１３のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させるための受付プログラム。