JP2010060729A - 受付装置、受付方法、及び受付プログラム - Google Patents

受付装置、受付方法、及び受付プログラム Download PDF

Info

Publication number
JP2010060729A
JP2010060729A JP2008225062A JP2008225062A JP2010060729A JP 2010060729 A JP2010060729 A JP 2010060729A JP 2008225062 A JP2008225062 A JP 2008225062A JP 2008225062 A JP2008225062 A JP 2008225062A JP 2010060729 A JP2010060729 A JP 2010060729A
Authority
JP
Japan
Prior art keywords
utterance
information
visitor
voice
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008225062A
Other languages
English (en)
Inventor
Shigeaki Komatsu
慈明 小松
Akiko Yamato
亜紀子 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2008225062A priority Critical patent/JP2010060729A/ja
Publication of JP2010060729A publication Critical patent/JP2010060729A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】来訪者への応対を行う担当者が、来訪者の発話に含まれる必要な情報を容易に得ることができる受付装置、受付方法、及び受付プログラムを提供する。
【解決手段】来訪者に発話を促す質問メッセージが出力され(S5)、来訪者が行った発話の音声情報が取得される(S6)。取得された音声情報に、いずれのカテゴリに属する発話であるのかを示す分類情報であるフラグが対応付けられて(S17)、音声ファイルが作成される。そして、来訪者への応対を行う担当者が特定され(S20)、担当者が使用するユーザ端末から受付装置へ音声再生の指示が入力されると、音声ファイルに対応付けられているフラグに応じて発話の音声が再生される。
【選択図】図9

Description

本発明は、受付装置、受付方法、及び受付プログラムに関する。より具体的には、来訪者の来訪を受け付けて、この来訪者への応対を行う担当者に来訪者が来訪したことを通知する受付装置、受付方法、及び受付プログラムに関する。
従来、来訪者の来訪を受け付けて、この来訪者への応対を行う担当者に通知する受付システムが提案されている(例えば、特許文献1参照)。この受付システムでは、玄関先等に設置された通話手段のボタンが来訪者によって押下されると、音声が記録される。そして、記録された音声のデータが、来訪者への応対を行うユーザ(担当者)のパソコンへ送信され、パソコンでは来訪者の声等の音声が再生される。これにより、担当者が来訪者の来訪を遠隔地から確認することを実現している。
特開平6−233305号公報
しかしながら、特許文献1に記載の受付システムでは、録音を開始してから終了するまでの全ての音声が再生されるため、担当者が必要な情報を得るまでに無駄な時間を要するという問題点があった。すなわち、来訪者の名前等、担当者が必要とする情報を来訪者が最初に発話するとは限らないため、担当者は、必要な情報が得られるまで音声を聞き続けなければならなかった。
本発明は上記課題を解決するためになされたものであり、来訪者への応対を行う担当者が、来訪者の発話に含まれる必要な情報を容易に得ることができる受付装置、受付方法、及び受付プログラムを提供することを目的とする。
上記目的を達成するために、本発明の請求項1に記載の受付装置は、来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付装置であって、音声入力手段から入力された前記来訪者が行う発話を取得する取得手段と、前記取得手段によって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御手段と、情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信手段とを備えている。
また、本発明の請求項2に記載の受付装置は、請求項1に記載の発明の構成に加え、前記記憶手段に記憶された複数の前記発話の音声情報のうち、前記送信手段に送信させる前記発話の音声情報を特定する指示を前記端末から受け付ける特定指示受付手段を備え、
前記送信手段は、前記特定指示受付手段により受け付けられた指示によって特定された前記発話の音声情報を前記端末に送信することを特徴とする。
また、本発明の請求項3に記載の受付装置は、請求項1又は2に記載の発明の構成に加え、前記音声入力手段から入力された音声から、前記分類情報に応じた前記発話の開始時点を検出する開始時点検出手段を備え、前記送信手段は、前記開始時点検出手段によって検出された開始時点から前記発話の音声情報を送信することを特徴とする。
また、本発明の請求項4に記載の受付装置は、請求項1乃至3のいずれかに記載の発明の構成に加え、前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段を備え、前記記憶制御手段は、前記発話の音声情報に対応付ける前記分類情報を、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージのカテゴリに応じた分類情報である第一分類情報として、前記発話の音声情報を記憶させることを特徴とする。
また、本発明の請求項5に記載の受付装置は、請求項1乃至3のいずれかに記載の発明の構成に加え、前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段を備え、前記記憶制御手段は、前記音声認識手段による認識結果に応じた分類情報である第二分類情報を対応付けて、前記発話の音声情報を記憶させることを特徴とする。
また、本発明の請求項6に記載の受付装置は、請求項5に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする。
また、本発明の請求項7に記載の受付装置は、請求項5に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする。
また、本発明の請求項8に記載の受付装置は、請求項1乃至3のいずれかに記載の発明の構成に加え、前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段と、前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段と、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージが属するカテゴリに応じた分類情報である第一分類情報と、前記音声認識手段による認識結果に応じた分類情報である第二分類情報とが一致するか否かを判断する判断手段とを備え、前記記憶制御手段は、前記判断手段による判断結果に応じて、前記第一分類情報及び前記第二分類情報の少なくともいずれかに対応付けて、前記発話の音声情報を前記記憶手段に記憶させることを特徴とする。
また、本発明の請求項9に記載の受付装置は、請求項8に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする。
また、本発明の請求項10に記載の受付装置は、請求項8に記載の発明の構成に加え、前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする。
また、本発明の請求項11に記載の受付装置は、請求項8乃至10のいずれかに記載の発明の構成に加え、前記メッセージ出力制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記メッセージ出力手段によって出力された前記メッセージを再度出力させることを特徴とする。
また、本発明の請求項12に記載の受付装置は、請求項8乃至11のいずれかに記載の発明の構成に加え、前記記憶制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記第二分類情報を前記発話の音声情報に対応付けて前記記憶手段に記憶させることを特徴とする。
また、本発明の請求項13に記載の受付装置は、請求項5乃至12のいずれかに記載の発明の構成に加え、前記記憶制御手段によって前記分類情報が対応付けられた前記発話のうち、前記分類情報が示すカテゴリに属する発話部分の発話区間を、前記音声認識手段による認識結果から判定する発話区間判定手段を備え、前記送信手段は、前記発話区間判定手段によって判定された前記発話区間の開始時点から前記発話の音声情報を送信することを特徴とする。
また、本発明の請求項14に記載の受付方法は、来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付方法であって、音声入力手段から入力された前記来訪者が行う発話を取得する取得ステップと、前記取得ステップによって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御ステップと、情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定ステップと、前記担当者特定ステップによって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信ステップとを備えている。
また、本発明の請求項15に記載の受付プログラムは、請求項1乃至13のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることを特徴とする。
本発明の請求項1に記載の受付装置は、音声入力手段から入力された来訪者の発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す分類情報を、発話に対応付ける。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用する端末に、対応する分類情報に応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。
また、本発明の請求項2に記載の受付装置は、分類情報が対応付けられた複数の発話の音声情報のうち、送信する発話の音声情報を特定する指示を担当者の端末から受け付けて、特定された発話の音声情報を端末に送信することができる。従って、請求項1に記載の発明の効果に加え、担当者は、無駄な音声を聞くことなく、所望する情報を効率よく得ることができる。
また、本発明の請求項3に記載の受付装置は、前記分類情報に応じた発話の開始時点から発話を出力させることができる。従って、請求項1又は2に記載の発明の効果に加え、担当者は、前記分類情報に応じた発話を、発話開始までの無音期間が省略された状態で聞くことができる。よって、担当者は、必要な情報を効率よく得ることができる。
また、本発明の請求項4に記載の受付装置は、複数のカテゴリ毎に記憶された、来訪者に発話を促すメッセージのいずれかを出力させて、出力させたメッセージのカテゴリにより、その後に行われる来訪者の発話の音声情報に分類情報を対応付けることができる。これにより、請求項1乃至3のいずれかに記載の発明の効果に加え、受付装置は、来訪者の発話を適切且つ容易に分類することができる。
また、本発明の請求項5に記載の受付装置は、音声認識手段による認識結果によって、発話の音声情報に分類情報を対応付けることができる。従って、請求項1乃至3のいずれかに記載の発明の効果に加え、受付装置は、異なるカテゴリに属する複数の発話が一連の発話に含まれていても、この一連の発話の各部分に分類情報を対応付けることができる。これにより、受付装置は、音声の情報を認識しつつ、来訪者の発話を適切に分類することができる。
また、本発明の請求項6に記載の受付装置は、音声認識手段による認識結果に含まれる単語が属するカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項5に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。
また、本発明の請求項7に記載の受付装置は、音声認識手段によって認識結果が得られた言語モデルのカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項5に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。
また、本発明の請求項8に記載の受付装置は、複数のカテゴリ毎に記憶された、来訪者に発話を促すメッセージのいずれかを出力させることができる。また、入力された音声の情報に基づき発話を認識することができる。そして、出力させたメッセージが属するカテゴリに応じた分類情報である第一分類情報と、及び音声認識の結果に応じた分類情報である第二分類情報とが一致するか否かを判断する。この判断結果に応じて、第一分類情報及び第二分類情報の少なくともいずれかに対応付けて発話の音声情報を記憶手段に記憶させることができる。従って、請求項1乃至3のいずれかに記載の発明の効果に加え、受付装置は、来訪者の発話を適切に分類することができる。
また、本発明の請求項9に記載の受付装置は、音声認識手段による認識結果に含まれる単語が属するカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項8に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。
また、本発明の請求項10に記載の受付装置は、音声認識手段によって認識結果が得られた言語モデルのカテゴリによって、発話の音声情報に分類情報を対応付けることができる。これにより、請求項8に記載の発明の効果に加え、受付装置は、音声の情報を認識しつつ来訪者の発話を適切に分類することができる。
また、本発明の請求項11に記載の受付装置は、メッセージのカテゴリに応じて発話に対応付けられる第一分類情報と、音声認識の結果に応じて発話に対応付けられる第二分類情報とが一致しなければ、メッセージ出力手段によって出力されたメッセージを再度出力する。従って、請求項8乃至10のいずれかに記載の発明の効果に加え、受付装置は、メッセージの出力によって来訪者から取得すべき情報を、より高い割合で得ることができる。
また、本発明の請求項12に記載の受付装置は、メッセージのカテゴリに応じて発話に対応付けられる第一分類情報と、音声認識の結果に応じて発話に対応付けられる第二分類情報とが一致しなければ、発話の音声情報を第二分類情報に対応付けて記憶手段に記憶させる。従って、請求項8乃至11のいずれかに記載の発明の効果に加え、出力されたメッセージで催促された返答を来訪者が行わなかった場合でも、受付装置は来訪者の発話を分類して音声情報を送信することができる。
また、本発明の請求項13に記載の受付装置は、一連の発話のうち、送信する発話部分の発話区間を判定し、判定した発話区間の開始時点から発話の音声情報を送信することができる。従って、請求項5乃至12のいずれかに記載の発明の効果に加え、担当者は、無駄な音声を聞くことなく、必要な情報が含まれている発話部分のみを効率よく聞くことができる。
また、本発明の請求項14に記載の受付方法によると、音声入力手段から入力された来訪者の発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す分類情報を、発話に対応付けることができる。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用する端末に、対応する分類情報に応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。
また、本発明の請求項15に記載の受付プログラムは、コンピュータに実行させることにより、請求項1乃至13のいずれかに記載の発明の効果を奏することができる。
以下、本発明を具現化した実施の形態について、図面を参照して説明する。尚、参照する図面は、本発明が採用し得る技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
まず、図1乃至図8を参照して、本実施の形態に係る来訪者受付システム1の全体構成、並びに、来訪者受付システム1の構成要素である受付装置10及びユーザ端末20の構成について、順に説明する。
最初に、図1を参照して、来訪者受付システム1の全体構成の概略を説明する。図1は、来訪者受付システム1の概略構成を示すシステム構成図である。図1に示すように、来訪者受付システム1は、受付装置10及び複数のユーザ端末20を含み、これらは全てLAN9に接続されている。来訪者受付システム1は、例えば、ビルや会社に設置され、来訪者に対する受付業務を行うシステムである。本実施の形態では、来訪者受付システム1は、会社5に設置されているものとして説明する。受付装置10は、例えば、会社5の入口ドア付近に設置される。複数のユーザ端末20のそれぞれは、会社5の各従業員に割り当てられている。
ここで、本実施の形態の来訪者受付システム1全体で行われる処理の手順について、簡単に説明する。まず、会社5への来訪者が、入口付近に設けられた受付装置10の呼び出しボタン107(図2参照)を押下すると、来訪者の来訪を受け付ける処理が行われる。この処理により、来訪先の担当者についての質問等が発せられ、この来訪者への応対を行う担当者が音声認識処理により特定される。同時に、来訪者が行った発話の音声情報が、発話内容に応じて複数のカテゴリのいずれかに対応付けられて記憶される。
その後、特定された担当者が使用するユーザ端末20に、来訪者が来訪していることが通知される。そして、担当者がユーザ端末20の入力機器207(図8参照)を操作し、来訪者が行った発話のいずれかを再生させる指示がユーザ端末20から受付装置10に入力されると、受付装置10は、指示された発話の音声情報をユーザ端末20に送信し、発話を再生させる。担当者は、発話を聞いて来訪者を認識すると、入力機器207を操作して来訪者に対する応対を指示し、受付装置10は、ユーザ端末20から入力された指示に応じて、担当者の代理で来訪者への応対を行う。このように、受付装置10は、会社5における受付業務を自動的に行うことができる。尚、ここまでで簡単に説明した処理については、後に詳述する。
次に、図2を参照して、受付装置10の構成について説明する。図2は、受付装置10の電気的構成を示すブロック図である。図2に示すように、受付装置10は、CPU101と、CPU101に各々接続されたROM102及びRAM103とを含む制御回路部100を備えている。CPU101には、入出力(I/O)インタフェイス104が接続されている。I/Oインタフェイス104には、ハードディスク装置(HDD)150、マイク106、呼び出しボタン107、スピーカ108、ディスプレイ109、及び通信装置110が接続されている。
CPU101は、受付装置10全体の制御を司る。ROM102は、受付装置10の基本的な動作に必要なプログラムやそのための設定値を記憶している。CPU101は、ROM102やHDD150に記憶されたプログラムに従って、受付装置10の動作を制御する。RAM103は、各種データを一時的に記憶するための記憶装置である。記憶装置であるHDD150には、詳細は後述するが、発話の音声情報に関する音声ファイルや、受付装置10の各種動作を制御するための複数のプログラム等が記憶されている。
マイク106は、入力された来訪者の音声を、音声データに変換して出力する機器である。呼び出しボタン107は、来訪者が、受付装置10で自己の来訪を告げ、受付処理を開始させる指示を入力するための機器である。スピーカ108は、音声情報を音声に変換して出力する機器である。ディスプレイ109には、例えば、受付業務を行っている想定の人物の画像や、スピーカ108から発話される音声に対応する文章等が表示される。
次に、図3乃至図7を参照して、受付装置10のHDD150の構成について説明する。図3は、受付装置10のHDD150の構成を示す模式図である。図4は、質問メッセージ記憶エリア1502に記憶された質問メッセージの説明図である。図5は、言語モデル記憶エリア1503に記憶された言語モデルの説明図である。図6は、単語辞書記憶エリア1504に記憶された単語辞書の説明図である。図7は、音声ファイル記憶エリア1505に記憶される音声ファイルの説明図である。
図3に示すように、HDD150には、担当者端末情報記憶エリア1501、質問メッセージ記憶エリア1502、言語モデル記憶エリア1503、単語辞書記憶エリア1504、音声ファイル記憶エリア1505、及びプログラム記憶エリア1506が少なくとも設けられている。以下、各記憶エリアについて詳細に説明する。
まず、担当者端末情報記憶エリア1501について説明する。担当者端末情報記憶エリア1501には、会社5の社員についての情報と、各社員が使用するユーザ端末20に接続するためのアドレスとが対応付けて記憶されている。この情報は、社員の移動等に伴い随時更新することができる。
次いで、質問メッセージ記憶エリア1502について説明する。図4に示すように、質問メッセージ記憶エリア1502には、来訪者に発話を促す複数のメッセージが記憶されている。各質問メッセージは、質問内容に応じてカテゴリ分けされている。本実施の形態では、担当者名カテゴリ「e」、及び来訪者名カテゴリ「v」の2つのカテゴリが設けられている。担当者名カテゴリ「e」は、来訪者への応対を行う担当者の名前についてのカテゴリである。来訪者名カテゴリ「v」は、来訪者の名前についてのカテゴリである。担当者名の発話を促す質問メッセージには、担当者名カテゴリに属することを示す「e」が対応付けられており、来訪者自身の名前の発話を促す質問メッセージには、来訪者名カテゴリに属することを示す「v」が対応付けられている。
そして、詳細は後述するが、来訪者が呼び出しボタン107(図2参照)を押下すると、質問メッセージ記憶エリア1502に記憶されている質問メッセージが出力される。質問メッセージに対して来訪者が発話を行うと、質問メッセージに対応付けられているカテゴリに応じて、来訪者が行った発話をいずれかのカテゴリに分類することができる。これにより、分類されたカテゴリに応じて発話の音声情報を再生することを可能としている。
次いで、言語モデル記憶エリア1503について説明する。言語モデル記憶エリア1503には、来訪者が行う発話の認識に使用される言語モデルが記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法(グラマー)で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル(例えば、単語N−gram)がある。
これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、あらかじめ人手で記述して定義するものである。従って、記述される受理可能な文のパターンの数には限りがあるが、定義された文のパターンに発話が対応していれば、高精度な音声認識が可能である。本実施の形態では、会社5に来訪してきた人物の発話という、比較的限られた状況での発話について音声認識が行われるため、言語モデルとして記述文法モデルを採用している。しかしながら、採用する言語モデルは必ずしも記述文法モデルである必要はなく、統計モデルを採用してもよい。
図5に示すように、言語モデル記憶エリア1503には、受付装置10と来訪者との対話で想定される様々な場面に応じてあらかじめ作成された受理可能な文のパターンが、先述したカテゴリ毎に言語モデルとして記憶されている。文のパターンは、例えば、文を構成する単語が属する単語種別を順に並べることによって定義することができる。本実施の形態では、例えば、担当者名についての発話として受理可能な文として、単語種別「担当者名」に属する単語、単語種別「敬称」に属する単語、及び単語種別「末尾1」に属する単語が順に連結された文が記憶されている。この文は、担当者名カテゴリ「e」に対応付けられている。また、「会社名」、「接続」、「来訪者名」、「末尾2」のそれぞれの単語種別に属する単語が連結された文、及び「来訪者名」、「末尾2」のそれぞれの単語種別に属する単語が連結された文が、来訪者名カテゴリ「v」に対応付けられて記憶されている。来訪者名カテゴリ「v」に対応する文は、来訪者名についての発話として受理可能な文である。
そして、受付装置10は、音声認識によって認識結果が得られた言語モデルのカテゴリにより、発話をいずれかのカテゴリに分類することができる。これにより、分類されたカテゴリに応じて発話の音声情報を再生することを可能としている。尚、言語モデル記憶エリア1503には、図5に例示した言語モデル以外にも、例えば来訪先の部署についての発話として受理可能な言語モデル等、様々な場面に対応して複数の言語モデルが記憶されている。
次いで、単語辞書記憶エリア1504について説明する。単語辞書記憶エリア1504には、言語モデルと共に音声認識に使用される単語辞書(図6参照)が記憶されている。図6に示すように、単語辞書は、あらかじめ設定された単語種別毎に、その単語種別に属する単語と、各単語の発音に関する情報とを記述するものである。図6は、単語種別「担当者名」、「敬称」、「来訪者名」、「末尾2」に対応する単語辞書の例を示している。尚、図6では、表記を簡略化するため、発音に関する情報として片仮名が使用されているが、実際には、単語辞書では音素列として記憶されている。例えば、単語「さま」に対応する発音は、図6では片仮名で「サマ」と記載されているが、音素列にローマ字表記を用いる場合には「sama」として記憶されている。また、図示は省略するが、単語辞書記憶エリア1504には、「敬称」及び「末尾2」のみでなく、「会社名」等の様々な単語種別についても同様に、単語と発音に関する情報の対応が記憶されている。
次いで、音声ファイル記憶エリア1505について説明する。図7に示すように、音声ファイル記憶エリア1505には、担当者についての情報が付されたフォルダ毎に、少なくとも1つの音声ファイルが記憶されている。フォルダ名には、記憶日及び記憶時刻を示す情報が含まれているため、来訪者の来訪日時及び担当者をフォルダから特定できる。そして、音声ファイルは、ファイル名、音声情報・ラベル、及びフラグからなる。
ファイル名は一連の発話の音声情報の各々に付されており、記憶日時を示す情報と、フォルダ内での記憶順を示す情報とを含む。音声情報は、来訪者への質問メッセージが出力されてから発話終了が検知されるまでに入力された音声の音声情報である。フラグは、音声ファイルがいずれのカテゴリに属するかを示す分類情報である。音声ファイルが担当者名カテゴリ「e」に属する場合には「e」、来訪者名カテゴリ「v」に属する場合には「v」、両方に属する場合には「e,v」のフラグが音声ファイルに付与される。フラグは発話再生時に利用される。
そして、音声情報には、発話内容が属するカテゴリ、及びこのカテゴリに属する発話部分の発話区間を示すラベルが付されている。例えば、ファイル名「080804_09_50_24_1.wav」の音声ファイル内の音声情報は、来訪者名カテゴリ「v」に属する発話部分と、担当者名カテゴリ「e」に属する発話部分とが含まれている。そして、来訪者名カテゴリ「v」に属する「A社のBと申しますが」の発話部分の最初に、来訪者名カテゴリ「v」の発話区間の開始を示す「v開始」のラベルが付されている。「A社のBと申しますが」の発話部分の最後には、来訪者名カテゴリ「v」の発話区間の終了を示す「v終了」のラベルが付されている。また、担当者名カテゴリ「e」に属する「C様はいらっしゃいますか」の発話部分の最初には、担当者名カテゴリ「e」の発話区間の開始を示す「e開始」のラベルが付されている。「C様はいらっしゃいますか」の発話部分の最後には、担当者名カテゴリ「e」の発話区間の終了を示す「e終了」のラベルが付されている。そして、ラベルには時間を示す情報が含まれているため、音声ファイル内の音声情報にラベルを付与することで、音声情報が取得された時間をラベルによって管理することが可能となる。発話区間の判定、及びラベルの付与には音声認識が用いられ、ラベルは発話再生時に利用されるが、これらの詳細はフローチャートを参照して後述する。
次いで、プログラム記憶エリア1506について説明する。プログラム記憶エリア1506には、後述する来訪者受付処理に使用されるプログラム群、システムプログラム、通信プログラム等、各種処理を受付装置10に実行させるための各種プログラムが記憶されている。尚、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示外)を介してインストールされ、プログラム記憶エリア1506に記憶される。又は、LAN9を介してインターネット(図示外)に接続し、インターネット上からダウンロードされたプログラムが記憶されてもよい。
図示はされていないが、HDD150には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。尚、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
次に、図8を参照して、ユーザ端末20の構成について説明する。図8は、ユーザ端末20の電気的構成を示すブロック図である。ユーザ端末20は、音声情報を音声に変換して出力する機器を備えていれば本実施の形態において使用できる。例えば、ユーザ端末20として、スピーカを備えた汎用のパーソナルコンピュータ(PC)、携帯電話、携帯端末等を使用できる。
図8に示すように、ユーザ端末20は、CPU201と、CPU201に各々接続されたROM202及びRAM203とを含む制御回路部200を備えている。CPU201には、その他、入出力(I/O)インタフェイス204が接続されている。I/Oインタフェイス204には、ハードディスク装置(HDD)250、入力機器207、スピーカ208、ディスプレイ209、及び通信装置210が接続されている。
CPU201は、ユーザ端末20全体の制御を司る。ROM202は、ユーザ端末20を動作させるための各種プログラムを記憶している。CPU201は、ROM202やHDD250に記憶されたプログラムに従って、ユーザ端末20の動作を制御する。RAM203は、各種データを一時的に記憶するための記憶装置である。記憶装置であるHDD250は、例えば、ユーザ端末20の各種動作を制御するための複数のプログラムが記憶されている。入力機器207は、ユーザ端末20を使用するユーザ(担当者)による入力を受け付ける機器である。この入力機器207としては、例えば、ユーザ端末20としてPCが用いられている場合にはマウスやキーボードが該当し、携帯電話や携帯端末が用いられている場合にはボタン、十字キー、タッチパネル等が該当する。スピーカ208は、音声情報を音声に変換して出力する機器である。ディスプレイ209には様々な画像や文章等が表示されるが、特に、受付装置10からの指示に応じて、来訪者が来訪したことを担当者に通知する来訪通知画面が表示される。
以下、受付装置10において行われる来訪者受付処理について、図9乃至図13を参照して説明する。図9及び図10は、来訪者受付処理のフローチャートである。図11は、来訪者受付処理中に実行されるフラグ初期化処理のフローチャートである。図12は、来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。図13は、来訪者受付処理中に実行される来訪応対処理のフローチャートである。来訪者が来訪し、受付装置10の呼び出しボタン107を操作すると、来訪者受付処理が開始される。これらの処理は、HDD150のプログラム記憶エリア1506に記憶されたプログラムに従って、CPU101が実行する。
図9に示す来訪者受付処理が開始されると、まず、来訪者受付処理で使用される各種フラグを初期化するフラグ初期化処理が開始される(S1)。以下のフラグの初期値は全て「0」である。図11に示すように、フラグ初期化処理が開始されると、初回質問済フラグ(ee)が初期化される(S21)。初回質問済フラグは、担当者名質問メッセージの最初の出力が終了したか否かを示すフラグである。次いで、質問回数フラグ(q)が初期化される(S22)。質問回数フラグは、担当者名質問メッセージの出力回数を計数するフラグである。次いで、来訪者名取得済フラグ(vg)が初期化される(S23)。来訪者名取得済フラグは、来訪者名が既に取得されているか否かを示すフラグである。そして、認識失敗回数フラグ(m)が初期化されて(S24)、来訪者受付処理へ戻る。認識失敗回数フラグは、音声認識によって担当者名及び来訪者名のいずれも認識できなかった回数を計数するフラグである。
図9の説明に戻り、各種フラグが初期化されると(S1)、認識失敗回数フラグ(m)が「2」であるか否かが判断され(S2)、「2」でなければ(S2:NO)、質問回数フラグ(q)が「3」であるか否かが判断される(S3)。認識失敗回数フラグ(m)が「2」であり、音声認識に2度失敗していると判断された場合には(S2:YES)、処理が終了する。また、質問回数フラグ(q)が「3」であり、担当者名質問メッセージが既に3回出力されていると判断された場合にも(S3:YES)、処理が終了する。
認識失敗回数フラグ(m)が「2」でなく(S2:NO)、質問回数フラグ(q)が「3」でない場合には(S3:NO)、質問回数フラグ(q)に「1」が加算される(S4)。そして、担当者名カテゴリ「e」が対応付けられている質問メッセージである担当者名質問メッセージ(図4参照)のいずれかを、スピーカ108及びディスプレイ109に出力させる処理が行われる(S5)。これにより、受付装置10のスピーカ108からは、担当者名の発話を来訪者に促す「担当者名を教えてください」等の音声が出力されると共に、同様の文章がディスプレイ109に表示される。担当者名質問メッセージの後に行われる発話は、担当者名についての発話であると仮定されて、その後の処理が行われることとなる。すなわち、担当者名質問メッセージの後の発話がRAM103に記憶されると、質問メッセージで指定された担当者名カテゴリ「e」が一時的に対応付けられて、その後の処理が行われる。
次いで、マイク106から入力された音声情報がRAM103に記憶されると共に、音響モデル、言語モデル(図5参照)、及び単語辞書(図6参照)を用いて、音声認識が行われる(S6)。より具体的には、担当者名質問メッセージの後の発話の音声情報が、質問メッセージで指定された担当者名カテゴリ「e」に一時的に対応付けられてRAM103に記憶される。そして、マイク106から入力された発話の音声情報を分析し、特徴量を抽出した後、音響モデルと言語モデルとのマッチングが行われる。その結果、言語モデルで受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。マッチングの際、言語モデルは単語辞書を参照する。尚、尤度が規定の閾値以下の値になった場合には、認識失敗として認識結果は得られない。
そして、この音声認識では、他の一般的な受付装置と同様の音声を認識する処理に加え、音声認識を利用して発話にカテゴリを一時的に対応付ける処理が行われている。詳細には、担当者名カテゴリ「e」が対応付けられた言語モデルによって認識結果が得られた場合には、発話が担当者名カテゴリ「e」に属することが一時的にRAM103に記憶される。また、来訪者名カテゴリ「v」が対応付けられた言語モデルによって認識結果が得られた場合には、来訪者名カテゴリ「v」に属する発話であることが一時的にRAM103に記憶される。録音及び音声認識は、発話が終了したことが検知されるまで継続して行われる(S7:NO)。発話終了の検知は、無音を示す音声波形が所定時間継続したか否かを監視することによって行われる。
発話終了が検知されると(S7:YES)、音声認識が成功したか否かが判断される(S8)。この判断では、担当者名カテゴリ「e」が対応付けられた言語モデル、及び来訪者名カテゴリ「v」が対応付けられた言語モデルの少なくともいずれかにより認識結果が得られた場合に、認識が成功したと判断される。いずれの言語モデルでも認識結果が得られず、音声認識に失敗したと判断された場合には(S8:NO)、認識失敗回数フラグ(m)に「1」が加算され(S9)、S2の判断へ戻る。認識に成功したと判断されると(S8:YES)、認識結果が得られた言語モデルに対応付けられている、担当者名カテゴリ「e」及び来訪者名カテゴリ「v」の少なくともいずれかが取得される(S11)。このカテゴリは、先の音声認識(S6)によって発話に一時的に対応付けられたカテゴリである。例えば、「鈴木と申します」という認識結果が得られた場合、認識結果が得られた言語モデルは<来訪者名><末尾2>であり(図5参照)、この言語モデルに対応付けられているカテゴリは来訪者名カテゴリ「v」である。この場合、来訪者名カテゴリ「v」が取得されることとなる。
次いで、言語モデルから取得されたカテゴリに、質問メッセージで指定された担当者名カテゴリ「e」があるか否かが判断される(S12)。換言すると、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かが判断される。音声認識の認識結果に応じたカテゴリに「e」がない場合、すなわち、S11で取得されたカテゴリが来訪者名カテゴリ「v」のみである場合には(S12:NO)、質問メッセージで指定されたカテゴリと、音声認識によって取得されたカテゴリとが異なっている。そこで、質問メッセージを再度出力するための処理が行われる。詳細には、初回質問済フラグ(ee)が「1」であるか否かが判断され(S13)、「1」でない場合には(S13:NO)、初回質問済フラグ(ee)が「1」とされて(S14)、S2の判断へ戻る。そして、担当者名質問メッセージが再度出力されることとなる(S5)。
初回質問済フラグ(ee)が「1」であり、担当者名質問メッセージが既に2度出力されていると判断された場合には(S13:YES)、来訪者名の発話部分に「v開始」及び「v終了」のラベルを付与する処理が行われる(S16)。詳細には、記憶された一連の発話の音声情報のうち、音声認識の認識結果が得られた言語モデルに対応する発話部分の最初に「v開始」が、最後に「v終了」が付与される。次いで、音声認識によって取得されたカテゴリを優先して音声情報に対応付けることが決定されて、来訪者名カテゴリ「v」に属することを示すフラグが音声ファイルに付与される(S17)。そして、来訪者名が既に取得されたことを示す「1」が来訪者名取得済フラグ(vg)に記憶され(S18)、初回質問済フラグ(ee)が初期化されて(S19)、S2の判断へ戻る。これにより、音声認識の認識結果に応じたカテゴリが優先して付与されている、担当者名カテゴリ「e」に属さない音声ファイルが1つ作成される。また、言語モデルから取得されたカテゴリに担当者名カテゴリ「e」がある場合には(S12:YES)、質問メッセージで指定されたカテゴリと、音声認識によって取得されたカテゴリとが一致している。この場合、音声認識の認識結果と、担当者端末情報記憶エリア1501の情報とによって、来訪者への応対を行う担当者、及びこの担当者が使用するユーザ端末20のアドレスが特定される(S20)。そして、S31(図10参照)の判断へ移行する。
図10に示すように、言語モデルから取得されたカテゴリに、来訪者名カテゴリ「v」があるか否かが判断される(S31)。「v」がある場合には(S31:YES)、来訪者が担当者名質問メッセージに対して担当者名と自身の名前とを発話している。そこで、担当者名の発話部分に「e開始」及び「e終了」のラベルが付与されて(S32)、来訪者名の発話部分に「v開始」及び「v終了」のラベルが付与される(S33)。そして、担当者名カテゴリ「e」及び来訪者名カテゴリ「v」の両方を音声情報に対応付けることが決定され、両方のカテゴリに属することを示す「e」、「v」のフラグが音声ファイルに付与されて(S34)、S39の処理へ移行する。
また、言語モデルから取得されたカテゴリに、来訪者名カテゴリ「v」がない場合には(S31:NO)、来訪者が担当者名のみを発話している。そこで、担当者名の発話部分に「e開始」及び「e終了」のラベルが付与される(S35)。そして、質問メッセージ及び音声認識の両方によって対応付けられた担当者名カテゴリ「e」を音声情報に付与することが決定され、担当者名カテゴリ「e」に属することを示すフラグが音声ファイルに付与される(S36)。次いで、来訪者名が既に取得されているか否かが来訪者名取得済フラグ(vg)によって判断される(S37)。来訪者名取得済フラグ(vg)が「1」となっており、来訪者名が既に取得されていると判断された場合には(S37:YES)、そのままS39の処理へ移行する。来訪者名取得済フラグ(vg)が「0」となっていれば(S37:NO)、来訪者名取得処理が行われて(S38)、S39の処理へ移行する。
図12に示すように、来訪者名取得処理が開始されると、来訪者名カテゴリ「v」が対応付けられている質問メッセージ(図4参照)のいずれかを、スピーカ108及びディスプレイ109に出力させる処理が行われる(S51)。次いで、マイク106から入力された音声情報が、来訪者名カテゴリ「v」に一時的に対応付けられてRAM103に記憶されると共に、来訪者の発話に対する音声認識が行われる(S52)。この処理では、S6の処理と同様に、他の一般的な受付装置と同様の音声を認識する処理に加え、音声認識を利用して発話にカテゴリを一時的に対応付ける処理が行われている。この処理は、発話終了が検知されるまで継続して行われる(S53:NO)。
発話終了が検知されると(S53:YES)、音声認識が成功したか否かが判断される(S54)。この判断では、S8(図9参照)の判断と同様に、担当者名カテゴリ「e」が対応付けられた言語モデル、及び来訪者名カテゴリ「v」が対応付けられた言語モデルの少なくともいずれかにより認識結果が得られた場合に、認識が成功したと判断される。失敗したと判断された場合には(S54:NO)、そのまま来訪者受付処理に戻る。成功したと判断された場合には(S54:YES)、認識結果が得られた言語モデルのカテゴリ、すなわち、音声認識を利用して一時的に対応付けられたカテゴリが取得され(S55)、取得されたカテゴリに来訪者名カテゴリ「v」があるか否かが判断される(S56)。「v」がなければ(S56:NO)、そのまま来訪者受付処理(図10参照)に戻る。「v」があれば(S56:YES)、来訪者名の発話部分に「v開始」及び「v終了」のラベルが付与される(S57)。そして、来訪者名カテゴリ「v」を音声情報に対応付けることが決定され、来訪者名カテゴリ「v」に属することを示すフラグが音声ファイルに付与されて(S58)、来訪者受付処理に戻る。
図10の説明に戻り、担当者名及び来訪者名を取得する処理が終了すると、来訪日時及び担当者に対応するフォルダが音声ファイル記憶エリア1505(図7参照)に作成されると共に、既に作成されている音声ファイルが保存される(S39)。次いで、特定された担当者が使用するユーザ端末20のスピーカ208に呼び出し音を出力させると共に、来訪者の来訪を通知する画面である来訪通知画面の画像データを、ユーザ端末20に送信する処理が行われる(S40)。すると、ユーザ端末20のディスプレイ209には来訪通知画面が表示される。来訪通知画面には、担当者によって操作される各種ボタンが表示される。そして、担当者からの指示に応じて来訪者への応対を行う来訪応対処理が行われる(S41)。
図13に示すように、来訪応対処理が開始されると、来訪者に対する応対方法の指示がユーザ端末20から入力されたか否かが判断され(S61)、入力されていなければ(S61:NO)、音声の再生指示が入力されたか否かが判断される(S62)。入力されていなければ(S62:NO)、いずれかの指示が入力されるまで、これらの判断が繰り返し行われる。
担当者が入力機器207(図8参照)を操作して、来訪通知画面に表示されたボタンを選択することにより、担当者名及び来訪者名のいずれかについての発話音声の再生の指示を行うと、ユーザ端末20から受付装置10に音声の再生指示が出力される。この再生指示が入力されると(S62:YES)、再生指示された発話のカテゴリが取得される(S63)。詳細には、担当者名の再生指示であれば担当者名カテゴリ「e」が、来訪者名の再生指示であれば来訪者名カテゴリ「v」が取得される。次いで、対応するフォルダに格納された音声ファイルから、取得されたカテゴリのフラグが付与された音声ファイルが抽出される(S64)。音声ファイルが1つも抽出されなければ(S65:NO)、「録音データはありません」というエラーメッセージをユーザ端末20のスピーカ208に出力させる処理が行われて(S66)、S61の判断へ戻る。
音声ファイルが抽出された場合には(S65:YES)、抽出された音声ファイルの中に、付与されたフラグが1つである音声ファイルが存在するか否かが判断される(S68)。存在しない場合、すなわち、担当者名及び来訪者名が共に含まれている発話の音声データしか存在しない場合には(S68:NO)、抽出された音声ファイルから任意の音声ファイルが選択される(S69)。そして、再生指示されたカテゴリの開始ラベル位置から音声を再生させる処理が行われて(S70)、S61の判断へ戻る。これにより、担当者が使用するユーザ端末20のスピーカ208からは、来訪者が行った発話の音声が、再生指示された担当者名又は来訪者名の発話部分の開始時点から出力されることとなる。
また、抽出された音声ファイルの中に、付与されたフラグが1つである音声ファイルが存在する場合には(S68:YES)、フラグが1つの音声ファイルから任意の音声ファイルが選択される(S72)。そして、音声情報の先頭から開始ラベル位置まで5秒以上あるか否かが判断される(S73)。この5秒の基準は例示であり、変更が可能であることは勿論である。5秒以上であれば(S73:YES)、開始ラベルの位置、すなわち、発話開始位置から音声を再生させる処理が行われて(S74)、S61の判断へ戻る。5秒未満であれば(S73:NO)、音声情報の先頭から音声を再生させる処理が行われて(S75)、S61の判断へ戻る。
そして、来訪者に対する応対方法の指示がユーザ端末20から入力された場合には(S61:YES)、入力された指示に応じた応対処理が行われる(S77)。詳細には、応対する指示が入力された場合には、「少々お待ちください」というメッセージをスピーカ108から出力させる処理が行われる。また、不在であることを通知する指示が入力された場合、及び来訪通知画面表示後所定時間が経過したことが入力された場合には、「担当者は不在です」というメッセージを出力させる処理が行われる。そして、来訪応対処理が終了し、そのまま来訪者受付処理が終了する(図10参照)。尚、来訪者受付処理が終了した場合、不要となった音声ファイルはフォルダごと削除してもよいし、来訪者の来訪を後で確認するためにそのまま保存してもよい。
以上説明したように、本実施の形態の来訪者受付システム1によれば、発話の少なくとも一部がいずれのカテゴリに属するかを示すフラグを、来訪者の発話の音声ファイルに対応付けることができる。そして、来訪者への応対を行う担当者を特定し、特定した担当者が使用するユーザ端末20に、対応するフラグに応じて発話の音声情報を送信することができる。従って、担当者は、来訪者の発話に含まれる必要なカテゴリの情報を、長時間音声を聞くことなく容易に得ることができる。
音声ファイルへのフラグの対応付けは、来訪者の発話が行われる前に出力された質問メッセージに応じて容易に行うことができる。さらに、異なるカテゴリに属する複数の発話内容が一連の発話に含まれていても、音声認識を利用することで、対応付けるカテゴリを適切に決定し、決定したカテゴリに属することを示すフラグを付与することができる。また、各カテゴリに属する発話部分の開始時点及び終了時点にラベルを付与することもできる。そして、質問メッセージに応じて対応付けられるカテゴリと、音声認識に基づいて対応付けられるカテゴリとが一致しない場合には、質問メッセージを再度出力することで、来訪者から取得すべき情報をより高い割合で得ることができる。また、カテゴリが一致しない場合には、音声認識に基づいて対応付けられたカテゴリに属することを示すフラグを、質問メッセージに応じて対応付けられたカテゴリに属することを示すフラグよりも優先して付与する。これにより、出力された質問メッセージで催促された返答を来訪者が行わなかった場合でも、来訪者の発話に適切にフラグを付与し、必要な音声を適宜再生させることができる。
また、受付装置10は、音声の再生指示がユーザ端末20から入力されると、再生指示によって特定された音声情報をユーザ端末20に送信して音声を再生させることができる。よって、担当者は、無駄な音声を聞くことなく、所望する情報を効率よく得ることができる。さらに、受付装置10は、発話開始時点や、再生指示された発話部分の開始時点から音声を再生させることができるため、担当者は必要な情報を効率よく得ることができる。
尚、上記実施の形態のマイク106が本発明の「音声入力手段」に相当し、図9のS6でマイク106から音声情報を入力するCPU101が「取得手段」として機能する。HDD150の音声ファイル記憶エリア1505が「記憶手段」に相当する。図9のS17、図10のS34,36,39、及び図12のS58で、フラグを対応付けて音声ファイルを音声ファイル記憶エリア1505に記憶させるCPU101が「記憶制御手段」として機能する。図9のS20で、音声認識の認識結果から担当者を特定するCPU101が「担当者特定手段」として機能する。図13のS62〜S75で、対応付けられているフラグに応じて音声情報をユーザ端末20に送信するCPU101が「送信手段」として機能する。
図13のS62,63で、音声再生指示をユーザ端末20から受け付けるCPU101が「特定指示受付手段」として機能する。図13のS74で、発話の開始時点を開始ラベルから検出するCPU101が「開始時点検出手段」として機能する。HDD150の質問メッセージ記憶エリア1502が「メッセージ記憶手段」に相当し、受付装置10のスピーカ108及びディスプレイ109が「メッセージ出力手段」に相当する。図9のS5及び図12のS51で、スピーカ108及びディスプレイ109に質問メッセージを出力させるCPU101が「メッセージ出力制御手段」として機能する。
図9のS6、及び図12のS52で音声認識を実行するCPU101が「音声認識手段」として機能する。図9のS12で、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かを判断するCPU101が「判断手段」として機能する。図13のS70で、各カテゴリに属する発話部分の発話区間を開始ラベル及び終了ラベルから判定するCPU101が「発話区間判定手段」として機能する。
また、図9のS6でマイク106から音声情報を入力する処理が「取得ステップ」に相当する。図9のS17、図10のS34,36,39、及び図12のS58で、フラグを対応付けて音声ファイルを音声ファイル記憶エリア1505に記憶させる処理が「記憶制御ステップ」に相当する。図9のS20で、音声認識の認識結果から担当者を特定する処理が「担当者特定ステップ」に相当する。図13のS62〜S75で、対応付けられているフラグに応じて音声情報をユーザ端末20に送信する処理が「送信ステップ」に相当する。
尚、上記実施の形態に示される構成や処理は例示であり、各種の変更が可能であることは言うまでもない。以下、上記実施の形態の変形例について説明する。
まず、音声認識の認識結果を利用した発話のカテゴリ分類のみを行う変形例について説明する。上記実施の形態では、発話が属するカテゴリを音声情報に対応付ける方法として、音声認識の認識結果を利用する方法、及び質問メッセージに応じて対応付ける方法の2つの方法が用いられている。しかし、いずれか一方の方法のみを利用することも可能である。音声認識の認識結果を利用した発話のカテゴリ分類のみを行う場合、例えば、図9に示すS12の判断で、質問メッセージで指定されたカテゴリと、音声認識の認識結果に応じたカテゴリとが一致しているか否かを判断する必要はなく、音声認識の認識結果に応じて取得されたカテゴリに担当者名カテゴリ「e」があるか否かを判断すればよい。そして、担当者名カテゴリ「e」がなかった場合には(S12:NO)、S13の判断の代わりに、来訪者名取得済フラグ(vg)が「1」となっているか否かを判断し、「1」となっていなければ、音声認識の認識結果に応じて、S16〜S18の処理を行えばよい。また、来訪者名取得済フラグ(vg)が既に「1」となっていれば、そのままS2の判断へ戻ればよい。この場合、S14及びS19の処理は不要である。以上のように、音声認識を利用した発話のカテゴリ分類のみを行うことも可能である。
次に、質問メッセージに応じた発話のカテゴリ分類のみを行う変形例について、図14及び図15を参照して説明する。図14は、変形例の来訪者受付処理のフローチャートである。図15は、変形例の来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。尚、上記実施の形態における来訪者受付処理(図9及び図10参照)、及び来訪者名取得処理(図12参照)中の処理と同じ処理を行うステップについては、同一のステップ番号を付し、説明を省略又は簡略化する。
図14に示すように、変形例の来訪者受付処理が開始されると、まず、フラグ初期化処理が行われる(S101)。この変形例では、質問回数フラグ(q)及び認識失敗回数フラグ(m)のみが使用されるため、この2つのフラグに初期値である「0」が記憶される。そして、認識失敗回数フラグ(m)が「2」でなく(S2:NO)、質問回数フラグ(q)が「3」でなければ(S3:NO)、質問回数フラグに「1」が加算される(S4)。次いで、担当者名カテゴリ「e」が対応付けられている質問メッセージのいずれかを出力させる処理が行われて(S5)、音声情報の記憶、及び音声認識が行われる(S102)。この処理では、上記実施の形態における音声認識の処理(S6、図9参照)とは異なり、音声認識を利用して発話にカテゴリを対応付ける処理は行われず、周知の音声認識のみが実行される。
そして、発話終了が検知されると(S7:YES)、音声認識が成功したか否かが判断される(S103)。この判断では、担当者名カテゴリ「e」が対応付けられた言語モデルによって認識結果が得られた場合に、音声認識が成功したと判断される。音声認識に成功した場合には(S103:YES)、来訪者への応対を行う担当者が音声認識の結果から特定され(S20)、担当者名の発話部分に「e開始」及び「e終了」のラベルが付与される(S35)。次いで、質問メッセージで指定されたカテゴリ、すなわち、担当者名カテゴリ「e」に属することを示す「e」のフラグが音声ファイルに付与されて、音声情報が属するカテゴリが担当者名カテゴリ「e」であることが決定される(S36)。次いで、来訪者名取得処理が行われる(S104)。
図15に示すように、来訪者名取得処理が開始されると、来訪者名カテゴリ「v」が対応付けられている質問メッセージのいずれかを出力させる処理が行われて(S51)、音声情報の記憶、及び音声認識が行われる(S105)。この処理では、S102(図14参照)の処理と同様に、周知の音声認識が行われ、発話にカテゴリを対応付ける処理は行われない。発話終了が検知されると(S53:YES)、来訪者名カテゴリ「v」が対応付けられた言語モデルによって認識結果が得られたか否かにより、音声認識が成功したか否かが判断され(S106)、成功していない場合には(S106:NO)、来訪者受付処理に戻る。音声認識に成功している場合には(S106:YES)、来訪者名の発話部分に「v開始」及び「v終了」のラベルが付与される(S57)。次いで、質問メッセージで指定されたカテゴリ、すなわち、来訪者名カテゴリ「v」に属することを示す「v」のフラグが音声ファイルに付与されて、音声情報が属するカテゴリが来訪者名カテゴリ「v」であることが決定される(S58)。そして、来訪者受付処理に戻る。
図14の説明に戻り、来訪者名取得処理(S104)が終了すると、作成されている音声ファイルが対応するフォルダに保存され(S39)、来訪通知画面の画像データが担当者のユーザ端末20に送信される(S40)。そして、来訪応対処理が行われて(S41)処理が終了する。以上説明したように、音声認識を利用した発話のカテゴリ分類を行わず、質問メッセージに応じた発話のカテゴリ分類のみを行うことも可能である。
また、上記実施の形態はその他の変更も可能である。上記実施の形態では、担当者がユーザ端末20の入力機器207を操作し、ユーザ端末20から受付装置10へ音声の再生指示が入力された場合に、再生指示によって特定された音声の音声情報がユーザ端末20に送信される。しかし、ユーザ端末20からの再生指示の入力は必須ではない。例えば、図10のS40で来訪通知画面の画像データを送信する場合に、所定のカテゴリ(例えば、担当者名カテゴリ)に属する発話の音声を同時に再生させてもよい。また、カテゴリ毎に特定の順(例えば、担当者名カテゴリの発話の再生後、来訪者名カテゴリの発話を再生)で発話を再生させてもよい。この場合でも、必要な音声のみを担当者に聞かせることができ、担当者は必要な情報を容易に得ることができる。
また、上記実施の形態では、発話が分類されるカテゴリとして、来訪者への応対を行う担当者の名前についてのカテゴリである担当者名カテゴリ「e」、及び来訪者名についてのカテゴリである来訪者名カテゴリ「v」の2つのカテゴリが設定されている。しかし、設定できるカテゴリの種類はこれに限られないことは勿論である。例えば、来訪先の部署についてのカテゴリである部署カテゴリを設けてもよいし、用件についてのカテゴリを設けてもよい。また、カテゴリの数も2つに限られず、1つ、又は3つ以上であってもよい。
また、上記実施の形態では、音声認識を利用したフラグ付与の処理において、認識結果が得られた言語モデルと同じカテゴリのフラグを、音声ファイルに付与している。この処理を行うために、所定の言語モデルにあらかじめカテゴリが対応付けられている(図5参照)。しかし、認識された単語が属するカテゴリに応じて、音声ファイルにフラグを付与することも可能である。この場合、図6に示す単語辞書に含まれる単語にあらかじめカテゴリを対応付けておく。例えば、単語種別が「担当者名」である単語に、担当者名カテゴリ「e」を対応付けておき、来訪者名や来訪者の会社名に、来訪者名カテゴリ「v」を対応付けておく。また、来訪者が担当者名の後に話す「敬称」の単語種別の単語に、担当者名カテゴリ「e」を対応付けておいてもよい。そして、図9のS11で、認識された単語に対応付けられているカテゴリを取得し、その後の処理を行えばよい。これにより、音声の情報を認識しつつ、来訪者の発話を適切に分類することができる。
また、上記実施の形態では、音声認識によって担当者名を認識することで、来訪者への応対を行う担当者を特定している(S20、図9参照)。すなわち、本実施の形態では、本発明の「音声入力手段」に相当する受付装置10のマイク106が、本発明の「情報入力手段」を兼ねている。しかし、タッチパネルを操作させる方法や、選択ボタンにより担当者を来訪者に選択させる方法等、他の方法によって来訪者からの情報を入力し、担当者を特定してもよい。この場合は、タッチパネル又は選択ボタンが本発明の「情報入力手段」に相当する。
また、上記実施の形態では、一連の発話の音声データに開始ラベル及び終了ラベルを付与し、開始ラベルの位置を発話開始の位置として音声を再生させている(S74、図13参照)。これにより、担当者が必要な情報を効率よく得ることを可能としている。しかし、この方法も変更が可能であり、例えば、入力された音声波形を監視することによって発話開始を検知しても、発話開始位置から音声を再生させることが可能である。また、音声認識の結果を用いて、発話が行われていない区間である無音区間に無音区間用の開始ラベル及び終了ラベルを付与し、無音区間を省略して音声を再生させることも可能である。これにより、担当者が必要な情報を得るまでに費やす無駄な時間をさらに減少させることができる。
また、来訪者受付システム1の装置構成も変更が可能である。上記実施の形態では、マイク106、呼び出しボタン107、スピーカ108等を備えた受付装置10のCPU101が、発話へのフラグの付与や音声情報の送信等の各種処理を行っている。しかし、これらの処理を行うのは受付装置10のCPU101に限られない。例えば、マイク、呼び出しボタン、スピーカ、及びディスプレイを備え、受付装置10に接続されたインターホン型の受付端末を会社5の入口近辺に設置し、受付装置10は会社5内の別の場所に設置してもよい。そして、受付端末で来訪者の検知や音声情報の入力を行い、その情報を受付装置10に送信してもよい。また、受付装置10ではHDD150に音声ファイルを保存せず、ユーザ端末20への音声情報等のデータの送信のみを行って、ユーザ端末20で音声ファイルを保存することもできる。また、音声ファイルを保存する記憶装置が、受付装置10に着脱可能に設けられてもよいし、LAN9を介して受付装置10に接続可能な別個の記憶装置であってもよい。また、来訪者受付処理(図9乃至図13参照)で行われている処理の少なくとも一部をユーザ端末20のCPU201に実行させてもよい。
また、上記実施の形態では、呼び出しボタン107が押下されることで来訪者が来訪したことを検知している。しかし、例えば、人間を検知するための人感センサを用いてもよいし、カメラによって来訪者が撮影された場合に来訪者の来訪を検知してもよい。
来訪者受付システム1の概略構成を示すシステム構成図である。 受付装置10の電気的構成を示すブロック図である。 受付装置10のHDD150の構成を示す模式図である。 質問メッセージ記憶エリア1502に記憶された質問メッセージの説明図である。 言語モデル記憶エリア1503に記憶された言語モデルの説明図である。 単語辞書記憶エリア1504に記憶された単語辞書の説明図である。 音声ファイル記憶エリア1505に記憶される音声ファイルの説明図である。 ユーザ端末20の電気的構成を示すブロック図である。 来訪者受付処理のフローチャートである。 来訪者受付処理のフローチャートであって、図9の続きである。 来訪者受付処理中に実行されるフラグ初期化処理のフローチャートである。 来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。 来訪者受付処理中に実行される来訪応対処理のフローチャートである。 変形例の来訪者受付処理のフローチャートである。 変形例の来訪者受付処理中に実行される来訪者名取得処理のフローチャートである。
符号の説明
10 受付装置
20 ユーザ端末
101 CPU
106 マイク
108 スピーカ
109 ディスプレイ
150 HDD
208 スピーカ
1502 質問メッセージ記憶エリア
1505 音声ファイル記憶エリア

Claims (15)

  1. 来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付装置であって、
    音声入力手段から入力された前記来訪者が行う発話を取得する取得手段と、
    前記取得手段によって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御手段と、
    情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定手段と、
    前記担当者特定手段によって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信手段とを備えたことを特徴とする受付装置。
  2. 前記記憶手段に記憶された複数の前記発話の音声情報のうち、前記送信手段に送信させる前記発話の音声情報を特定する指示を前記端末から受け付ける特定指示受付手段を備え、
    前記送信手段は、前記特定指示受付手段により受け付けられた指示によって特定された前記発話の音声情報を前記端末に送信することを特徴とする請求項1に記載の受付装置。
  3. 前記音声入力手段から入力された音声から、前記分類情報に応じた前記発話の開始時点を検出する開始時点検出手段を備え、
    前記送信手段は、前記開始時点検出手段によって検出された開始時点から前記発話の音声情報を送信することを特徴とする請求項1又は2に記載の受付装置。
  4. 前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段を備え、
    前記記憶制御手段は、前記発話の音声情報に対応付ける前記分類情報を、前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージのカテゴリに応じた分類情報である第一分類情報として、前記発話の音声情報を記憶させることを特徴とする請求項1乃至3のいずれかに記載の受付装置。
  5. 前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段を備え、
    前記記憶制御手段は、前記音声認識手段による認識結果に応じた分類情報である第二分類情報を対応付けて、前記発話の音声情報を記憶させることを特徴とする請求項1乃至3のいずれかに記載の受付装置。
  6. 前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、
    前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする請求項5に記載の受付装置。
  7. 前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、
    前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする請求項5に記載の受付装置。
  8. 前記複数のカテゴリ毎にメッセージ記憶手段に記憶された、前記来訪者に発話を促す複数のメッセージのいずれかを、メッセージを出力するメッセージ出力手段に出力させるメッセージ出力制御手段と、
    前記音声入力手段から入力された音声の情報に基づき前記発話を認識する音声認識手段と、
    前記発話が行われる前に前記メッセージ出力手段によって出力された前記メッセージが属するカテゴリに応じた分類情報である第一分類情報と、前記音声認識手段による認識結果に応じた分類情報である第二分類情報とが一致するか否かを判断する判断手段とを備え、
    前記記憶制御手段は、前記判断手段による判断結果に応じて、前記第一分類情報及び前記第二分類情報の少なくともいずれかに対応付けて、前記発話の音声情報を前記記憶手段に記憶させることを特徴とする請求項1乃至3のいずれかに記載の受付装置。
  9. 前記音声認識手段は、前記複数のカテゴリ毎に分類された複数の単語を含む単語辞書を用いて前記発話を認識し、
    前記第二分類情報は、前記音声認識手段による前記認識結果に含まれる単語と同じカテゴリに属することを示す分類情報であることを特徴とする請求項8に記載の受付装置。
  10. 前記音声認識手段は、前記複数のカテゴリ毎に分類された、単語間の結びつきに関する制約を定義する複数の言語モデルを用いて前記発話を認識し、
    前記第二分類情報は、前記音声認識手段による前記認識結果が得られた言語モデルと同一のカテゴリに属することを示す分類情報であることを特徴とする請求項8に記載の受付装置。
  11. 前記メッセージ出力制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記メッセージ出力手段によって出力された前記メッセージを再度出力させることを特徴とする請求項8乃至10のいずれかに記載の受付装置。
  12. 前記記憶制御手段は、前記第一分類情報と前記第二分類情報とが一致しないと前記判断手段によって判断された場合、前記第二分類情報を前記発話の音声情報に対応付けて前記記憶手段に記憶させることを特徴とする請求項8乃至11のいずれかに記載の受付装置。
  13. 前記記憶制御手段によって前記分類情報が対応付けられた前記発話のうち、前記分類情報が示すカテゴリに属する発話部分の発話区間を、前記音声認識手段による認識結果から判定する発話区間判定手段を備え、
    前記送信手段は、前記発話区間判定手段によって判定された前記発話区間の開始時点から前記発話の音声情報を送信することを特徴とする請求項5乃至12のいずれかに記載の受付装置。
  14. 来訪者の来訪を受け付けて、前記来訪者への応対を行う担当者が使用する端末に通知する受付方法であって、
    音声入力手段から入力された前記来訪者が行う発話を取得する取得ステップと、
    前記取得ステップによって取得された前記発話の少なくとも一部が複数のカテゴリのいずれに属するかを示す情報である分類情報に対応付けて、前記発話の音声情報を記憶手段に記憶させる記憶制御ステップと、
    情報入力手段によって入力された情報に基づいて、前記来訪者への応対を行う担当者を特定する担当者特定ステップと、
    前記担当者特定ステップによって特定された前記担当者が使用する前記端末に、前記記憶手段に記憶された前記発話の音声情報を、対応する前記分類情報に応じて送信する送信ステップとを備えたことを特徴とする受付方法。
  15. 請求項1乃至13のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させるための受付プログラム。
JP2008225062A 2008-09-02 2008-09-02 受付装置、受付方法、及び受付プログラム Pending JP2010060729A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008225062A JP2010060729A (ja) 2008-09-02 2008-09-02 受付装置、受付方法、及び受付プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008225062A JP2010060729A (ja) 2008-09-02 2008-09-02 受付装置、受付方法、及び受付プログラム

Publications (1)

Publication Number Publication Date
JP2010060729A true JP2010060729A (ja) 2010-03-18

Family

ID=42187617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225062A Pending JP2010060729A (ja) 2008-09-02 2008-09-02 受付装置、受付方法、及び受付プログラム

Country Status (1)

Country Link
JP (1) JP2010060729A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170644A (ja) * 2017-03-30 2018-11-01 アイホン株式会社 インターホン装置
CN110176231A (zh) * 2018-02-19 2019-08-27 株式会社东芝 音响输出系统、音响输出方法及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170644A (ja) * 2017-03-30 2018-11-01 アイホン株式会社 インターホン装置
CN110176231A (zh) * 2018-02-19 2019-08-27 株式会社东芝 音响输出系统、音响输出方法及存储介质
CN110176231B (zh) * 2018-02-19 2023-04-25 株式会社东芝 音响输出系统、音响输出方法及存储介质

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
KR100312060B1 (ko) 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식등록 방법 및 장치
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
TW201214413A (en) Modification of speech quality in conversations over voice channels
JP2018124425A (ja) 音声対話装置及び音声対話方法
JP2000035795A (ja) 音声認識におけるノンインタラクティブ方式のエンロ―ルメント
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
CN107909995B (zh) 语音交互方法和装置
JPWO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
KR20190032557A (ko) 음성 기반 통신
JP2017167270A (ja) 音声処理装置および音声処理方法
JPH10326176A (ja) 音声対話制御方法
JP2007072331A (ja) 音声対話方法および音声対話システム
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP3846300B2 (ja) 録音原稿作成装置および方法
JPH10173769A (ja) 音声メッセージ検索装置
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム