JP2005182140A - Order receiving device and order receiving method for restaurant - Google Patents

Order receiving device and order receiving method for restaurant Download PDF

Info

Publication number
JP2005182140A
JP2005182140A JP2003417943A JP2003417943A JP2005182140A JP 2005182140 A JP2005182140 A JP 2005182140A JP 2003417943 A JP2003417943 A JP 2003417943A JP 2003417943 A JP2003417943 A JP 2003417943A JP 2005182140 A JP2005182140 A JP 2005182140A
Authority
JP
Japan
Prior art keywords
microphone
food
restaurant
drink
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003417943A
Other languages
Japanese (ja)
Other versions
JP4379105B2 (en
Inventor
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003417943A priority Critical patent/JP4379105B2/en
Publication of JP2005182140A publication Critical patent/JP2005182140A/en
Application granted granted Critical
Publication of JP4379105B2 publication Critical patent/JP4379105B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide the order receiving device and method of a restaurant for recognizing an order with a voice from a customer, and for receiving the order of food and drink. <P>SOLUTION: This order receiving device is provided with a data processing part 100 for intensively managing order receiving conditions, a customer terminal 200 set in the provision place of food and drink to a customer, a store terminal 300 set in the management place of a restaurant and a kitchen display part 400 set in the kitchen of the restaurant. A microphone 220 of the customer terminal 200 inputs a voice signal related with the order of the food and drink of the customer, and a data processing part 100 specifies order content by voice recognition processing based on the voice signal, and updates an order reception management file, and makes a customer terminal display part 210 of the customer terminal 200, a store terminal display part 310 of the store terminal 300 and the kitchen display part 400 display the order reception result based on the updated order reception management file. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、電気信号を介して顧客の注文を受注する飲食店の受注装置および受注方法に関するものである。   The present invention relates to an order receiving apparatus and an order receiving method for a restaurant that receives an order from a customer via an electrical signal.

従来、レストラン等の飲食店における顧客からの飲食物の受注は、たとえばウェートレス等の人手を介して行われてきた。すなわち、顧客が飲食店に来店し、飲食店の従業員が顧客の来店を認識すると、ウェートレスがその顧客の場所で注文を受け、飲食店は、その注文に係る飲食物の調理を開始する。   Conventionally, orders for food and drink from customers in restaurants such as restaurants have been made through manual operations such as waitresses. That is, when a customer visits a restaurant and a restaurant employee recognizes the customer's visit, the waitress receives an order at the customer's location, and the restaurant starts cooking the food and drink associated with the order. .

しかしながら、上述した従来の飲食物の受注方法は、人手を介して受注が行われているので、飲食店にとっては、その分の人件費が掛かるという問題がある。
また、顧客にとっては、飲食物が提供されるまでに時間が掛かり、かつ、煩雑であるという問題がある。
たとえば、顧客が来店したことを飲食店の従業員等が認識しなかった場合には、顧客は、ウェートレスが注文を受けに来るまで待たなければならず、注文までに時間が掛かる。また、顧客が来店したことを飲食店の従業員が認識した場合でも、飲食店が混雑している時は、ウェートレスは、来店した顧客を対応できないので、注文までに時間が掛かる。
さらに、顧客が追加注文を希望する場合には、わざわざウェートレスをテーブル等まで呼ばなければならず煩雑であり、注文を躊躇する場合がある。
さらに、従来の受注方法は、人手を介しているため、しばしば顧客が注文した飲食物と実際に提供された飲食物が一致しないという問題が起こる。
However, the above-described conventional method for ordering foods and drinks has a problem in that labor costs are required for restaurants because orders are made by hand.
Moreover, there is a problem that it takes time and troublesome for customers to provide food and drink.
For example, if a restaurant employee or the like does not recognize that the customer has visited the store, the customer must wait until the waitress receives the order, and the order takes time. Even when the restaurant employee recognizes that the customer has visited the store, when the restaurant is crowded, the waitress cannot respond to the customer who visited the store, so it takes time to place an order.
Furthermore, when a customer desires an additional order, the waitress must be called up to a table or the like, which is cumbersome and sometimes hesitates to place an order.
Furthermore, since the conventional order receiving method requires manual labor, there is often a problem that the food and drink ordered by the customer do not match the food and drink actually provided.

本発明はかかる事情に鑑みてなされたものであり、その目的は、顧客からの音声による注文を認識して飲食物を受注する飲食店の受注装置および受注方法を提供することにある。   This invention is made | formed in view of this situation, The objective is to provide the order receiving apparatus and order receiving method of the restaurant which recognizes the order by the voice from a customer, and receives food and drink.

上記目的を達成するための本発明の第1の観点は、顧客の注文を音声により受注して飲食物を提供する飲食店の受注装置であって、前記飲食店の飲食物の提供場所に配設され、提供可能な複数の飲食物の一覧を表示する第1の表示手段と、前記飲食店の飲食物の提供場所に配設され、音声による顧客の注文を集音するマイクロフォンと、前記飲食店の調理場所に配設される第2の表示手段と、前記マイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定する音声認識手段と、前記音声認識手段により特定された飲食物を、第1の表示手段,第2の表示手段および第3の表示手段に表示させる制御手段とを具備する。   In order to achieve the above object, a first aspect of the present invention is an order receiving apparatus for a restaurant that provides a food by receiving a customer's order by voice, and is arranged at a place where the food and drink is provided in the restaurant. A first display means configured to display a list of a plurality of foods and drinks that can be provided; a microphone that is disposed at a food and drink provision location of the restaurant and that collects customer orders by voice; and the food and drinks The second display means arranged at the cooking place of the store and voice recognition based on the voice collected by the microphone, and based on the voice recognition result, the customer out of the plurality of food and drink Voice recognition means for specifying food and drink related to the order, and control means for causing the first display means, the second display means, and the third display means to display the food and drink specified by the voice recognition means. It has.

好適には、前記飲食店の飲食物の注文状況を管理する管理場所に配設される第3の表示手段をさらに有し、前記制御手段は、前記音声認識手段により特定された飲食物を、第1の表示手段,第2の表示手段および第3の表示手段に表示させる。   Preferably, it further includes a third display means disposed in a management place for managing the order status of the food and drink at the restaurant, and the control means includes the food and drink specified by the voice recognition means, The first display means, the second display means, and the third display means are displayed.

好適には、複数の飲食物の提供場所がある場合、前記第1の表示手段と前記マイクロフォンは、各提供場所に配設され、前記制御手段は、前記各提供場所毎に、前記音声認識手段が特定した飲食物を管理する。   Preferably, when there are a plurality of places where food and drink are provided, the first display means and the microphone are arranged at each provision place, and the control means is configured to provide the voice recognition means for each provision place. Manage the food and drink identified by.

上記目的を達成するための本発明の第2の観点は、顧客の注文を音声により受注して飲食物を提供する飲食店の受注装置であって、前記飲食店の飲食物の提供場所に配設され、提供可能な複数の飲食物の一覧を表示する第1の表示手段と、前記飲食店の飲食物の提供場所に配設され、指向性を有する少なくとも2つのマイクロフォンをそれぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択するマイクロフォン選択手段と、前記飲食店の調理場所に配設される第2の表示手段と、前記マイクロフォン選択手段により選択された1つのマイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定する音声認識手段と、前記音声認識手段により特定された飲食物を、第1の表示手段,第2の表示手段および第3の表示手段に表示させる制御手段とを具備する。   A second aspect of the present invention for achieving the above object is an order receiving apparatus of a restaurant that provides food and drink by receiving a customer's order by voice, and is arranged at a place where the food and drink is provided in the restaurant. A first display means for displaying a list of a plurality of foods and drinks that can be provided, and at least two microphones having different directivities disposed in the food and drink provision location of the restaurant. The microphone selection means for selecting one microphone based on the sound pressure collected by the microphone, the second display means disposed at the cooking place of the restaurant, Voice recognition is performed based on the voice collected by one microphone selected by the microphone selection means, and the customer order is selected from the plurality of foods and drinks based on the voice recognition result. A speech recognition means for identifying the food that the food that has been specified by the speech recognition means, first display means, and control means for displaying on the second display unit and third display means.

上記目的を達成するための本発明の第3の観点は、顧客の注文を音声により受注して飲食物を提供する飲食店の受注方法であって、前記飲食店の飲食物の提供場所に配設された第1の表示部に、提供可能な複数の飲食物の一覧を表示し、前記飲食店の飲食物の提供場所に配設されたマイクロフォンにより、音声による顧客の注文を集音し、前記マイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定し、特定された飲食物を、前記第1の表示部と前記飲食店の調理場所に配設された第2の表示部とに表示させる。   A third aspect of the present invention for achieving the above object is a restaurant ordering method for providing food and drink by receiving a customer order by voice, and is arranged at the food and beverage provision place of the restaurant. A list of a plurality of foods and drinks that can be provided is displayed on the first display unit that is provided, and a customer order by voice is collected by a microphone disposed at the food and drink provision location of the restaurant, Voice recognition is performed based on the voice collected by the microphone, and based on the result of the voice recognition, the food and drink related to the customer's order is identified from the plurality of food and drink, and the identified food and drink And the first display unit and the second display unit disposed at the cooking place of the restaurant.

本発明の第1の観点に係る飲食店の受注装置によれば、第1の表示手段は、飲食店の飲食物の提供場所に配設され、提供可能な複数の飲食物の一覧を表示し、マイクロフォンは、前記飲食店の飲食物の提供場所に配設され、音声による顧客の注文を集音し、第2の表示手段は、前記飲食店の調理場所に配設され、音声認識手段は、前記マイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定し、制御手段は、前記音声認識手段により特定された飲食物を、第1の表示手段および第2の表示手段に表示させるので、音声による顧客の注文が制御手段により集中管理され、迅速かつ確実に注文に係る飲食物を提供できる。   According to the restaurant order receiving apparatus according to the first aspect of the present invention, the first display means displays a list of a plurality of foods and drinks that can be provided and provided at a food and drink provision place of the restaurant. The microphone is disposed at a place where food and drink is provided in the restaurant, collects customer orders by voice, the second display means is disposed at a cooking place in the restaurant, and the voice recognition means is , Performing voice recognition based on the voice collected by the microphone, identifying food and drink related to the customer's order from the plurality of food and drink based on the result of the voice recognition, the control means, Since the food and drink specified by the voice recognition means are displayed on the first display means and the second display means, the customer orders by voice are centrally managed by the control means, and the food and drink related to the order can be quickly and reliably Can be provided.

本発明によれば、顧客からの音声による注文を認識して飲食物を受注するので、迅速な受注が可能になると同時に、受注のための人件費が低減できるという利点がある。また、顧客側の観点では、従来通り音声により簡便に注文ができ、注文した飲食物が早期に提供されるので、満足度が向上する。   According to the present invention, since an order by voice from a customer is recognized to receive a food and drink, there is an advantage that a quick order can be received and at the same time the labor cost for the order can be reduced. Further, from the viewpoint of the customer side, the order can be simply made by voice as before, and the ordered food and drink are provided at an early stage, so that the satisfaction is improved.

第1の実施形態
以下、まず、第3の実施形態において使用される本発明のマイクロフォン選択手段としての通話装置(双方向通話装置)について詳述する。
図1(A)〜(C)は本発明の通話装置が適用される1例を示す構成図である。
図1(A)に図解したように、遠隔に位置する2つの会議室901、902にそれぞれ通話装置1A、1Bが設置されており、これらの通話装置1A、1Bが電話回線920で接続されている。
図1(B)に図解したように、2つの会議室901、902において、双方向通話装置1A、1Bがそれぞれテーブル911、912の上に置かれている。ただし、図1(B)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aについてのみ図解している。会議室902内の双方向通話装置1Bも同様である。双方向通話装置1A、1Bの外観斜視図を図2に示す。
図1(C)に図解したように、双方向通話装置1A、1Bの周囲にそれぞれ複数(本実施の形態においては6名)の会議参加者A1〜A6が位置している。ただし、図1(C)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aの周囲の会議参加者のみ図解している。他方の会議室902内の双方向通話装置1Bの周囲に位置する会議参加者の配置も同様である。
First Embodiment Hereinafter, the telephone device (two-way communication device) as the microphone selection means of the present invention used in the third embodiment will be described in detail.
FIGS. 1A to 1C are configuration diagrams showing an example to which the communication device of the present invention is applied.
As illustrated in FIG. 1A, communication devices 1A and 1B are installed in two remote conference rooms 901 and 902, respectively, and these communication devices 1A and 1B are connected by a telephone line 920. Yes.
As illustrated in FIG. 1B, in the two conference rooms 901 and 902, the two-way communication devices 1A and 1B are placed on the tables 911 and 912, respectively. However, in FIG. 1B, only the two-way communication device 1A in the conference room 901 is illustrated for simplification of illustration. The same applies to the two-way communication device 1B in the conference room 902. FIG. 2 shows an external perspective view of the two-way communication devices 1A and 1B.
As illustrated in FIG. 1C, a plurality (six in this embodiment) of conference participants A1 to A6 are located around the two-way communication devices 1A and 1B, respectively. However, in FIG. 1C, only conference participants around the two-way communication device 1A in the conference room 901 are illustrated for simplification. The arrangement of conference participants located around the two-way communication device 1B in the other conference room 902 is the same.

本発明の双方向通話装置は、たとえば、2つの会議室901、902との間で電話回線920を介して音声による応答が可能である。
通常、電話回線920を介しての会話は、一人の話者と一人の話者同士、すなわち、1対1で通話を行うが、本発明の双方向通話装置は1つの電話回線920を用いて複数の会議参加者A1〜A6同士が通話できる。ただし、詳細は後述するが、音声の混雑を回避するため、同時刻(同じ時間帯)の話者は、相互に一人に限定する。
本発明の双方向通話装置は音声(通話)を対象としているから、電話回線920を介して音声を伝送するだけである。換言すれば、テレビ会議システムのような多量の画像データは伝送しない。さらに、本発明の双方向通話装置は会議参加者の通話を圧縮して伝送しているので電話回線920の伝送負担は軽い。
The two-way communication device of the present invention can respond by voice via the telephone line 920 between two conference rooms 901 and 902, for example.
Normally, a conversation via the telephone line 920 is performed by one speaker and one speaker, that is, one-on-one, but the two-way communication device of the present invention uses one telephone line 920. A plurality of conference participants A1 to A6 can talk with each other. Although details will be described later, the number of speakers at the same time (same time zone) is limited to one each other in order to avoid voice congestion.
Since the two-way communication device of the present invention is intended for voice (call), only voice is transmitted via the telephone line 920. In other words, a large amount of image data as in the video conference system is not transmitted. Furthermore, since the two-way communication device of the present invention compresses and transmits conference participants' calls, the transmission burden on the telephone line 920 is light.

双方向通話装置の構成
図2〜図4を参照して本発明の1実施の形態としての双方向通話装置の構成について述べる。
図2は本発明の1実施の形態としての双方向通話装置の斜視図である。
図3は図2に図解した双方向通話装置の断面図である。
図4は図1に図解した双方向通話装置のマイクロフォン・電子回路収容部の平面図であり、図3の線X−X−Yにおける平面図である。
Configuration of Interactive Communication Device The configuration of an interactive communication device as an embodiment of the present invention will be described with reference to FIGS.
FIG. 2 is a perspective view of a two-way communication device as an embodiment of the present invention.
FIG. 3 is a sectional view of the two-way communication apparatus illustrated in FIG.
4 is a plan view of the microphone / electronic circuit housing portion of the two-way communication apparatus illustrated in FIG. 1, and is a plan view taken along line X-XY in FIG.

図2に図解したように、双方向通話装置1は、上部カバー11と、音反射板12と、連結部材13と、スピーカ収容部14と、操作部15とを有する。
図3に図解したように、スピーカ収容部14は、音反射面14aと、底面14bと、上部音出力開口部14cとを有する。音反射面14aと底面14bで包囲された空間である内腔14dに受話再生スピーカ16が収容されている。スピーカ収容部14の上部に音反射板12が位置し、スピーカ収容部14と音反射板12とが連結部材13によって連結されている。
As illustrated in FIG. 2, the two-way communication device 1 includes an upper cover 11, a sound reflection plate 12, a connecting member 13, a speaker housing portion 14, and an operation portion 15.
As illustrated in FIG. 3, the speaker housing 14 includes a sound reflecting surface 14 a, a bottom surface 14 b, and an upper sound output opening 14 c. The reception / reproduction speaker 16 is accommodated in a lumen 14d which is a space surrounded by the sound reflection surface 14a and the bottom surface 14b. The sound reflecting plate 12 is positioned above the speaker housing portion 14, and the speaker housing portion 14 and the sound reflecting plate 12 are connected by a connecting member 13.

連結部材13内には拘束部材17が貫通しており、拘束部材17は、スピーカ収容部14の底面14bの拘束部材・下部固定部14eと、音反射板12の拘束部材固定部12bとの間を拘束している。ただし、拘束部材17はスピーカ収容部14の拘束部材・貫通部14fは貫通しているだけである。拘束部材17が拘束部材・貫通部14fを貫通してここで拘束していないのはスピーカ16の動作によってスピーカ収容部14が振動するが、その振動を上部音出力開口部14cの周囲においては拘束させないためである。   A constraining member 17 passes through the connecting member 13, and the constraining member 17 is between the constraining member / lower fixing portion 14 e on the bottom surface 14 b of the speaker housing portion 14 and the constraining member fixing portion 12 b of the sound reflecting plate 12. Is restrained. However, the restraining member 17 only penetrates the restraining member / penetrating portion 14 f of the speaker housing portion 14. The reason why the restraining member 17 penetrates the restraining member / penetrating portion 14f and is not restrained here is that the speaker housing portion 14 vibrates due to the operation of the speaker 16, but the vibration is restrained around the upper sound output opening 14c. This is to prevent it from happening.

スピーカ
相手会議室の話者が話した音声は、受話再生スピーカ16を介して上部音出力開口部14cから抜け、音反射板12の音反射面12aとスピーカ収容部14の音反射面14aとで規定される空間に沿って軸C−Cを中心として360度の全方位に拡散する。
音反射板12の音反射面12aの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面12aの断面は軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
同様にスピーカ収容部14の音反射面14aの断面も図解したように、ゆるやかな凸面を描いている。音反射面14aの断面も軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
The voice spoken by the speaker in the speaker partner conference room is removed from the upper sound output opening 14c through the reception / reproduction speaker 16, and is transmitted between the sound reflecting surface 12a of the sound reflecting plate 12 and the sound reflecting surface 14a of the speaker accommodating portion 14. It spreads in all directions of 360 degrees around the axis CC along the defined space.
As illustrated, the cross section of the sound reflecting surface 12a of the sound reflecting plate 12 depicts a gentle trumpet arc. The cross section of the sound reflecting surface 12a has a cross-sectional shape illustrated over 360 degrees (omnidirectional) about the axis CC.
Similarly, as illustrated in the cross section of the sound reflection surface 14a of the speaker housing portion 14, a gentle convex surface is drawn. The cross section of the sound reflecting surface 14a also has the illustrated cross sectional shape over 360 degrees (omnidirectional) about the axis CC.

受話再生スピーカ16から出た音Sは、上部音出力開口部14cを抜け、音反射面12aと音反射面14aとで規定される断面がラッパ状の音出力空間を経て、音声応答装置1が載置されているテーブル911の面に沿って、軸C−Cを中心として360度全方位に拡散していき、全ての会議参加者A1〜A6に等しい音量で聞き取られる。本実施の形態においては、テーブル911の面も音伝播手段の一部として利用している。
受話再生スピーカ16から出力された音Sの拡散状態を矢印で図示した。
The sound S emitted from the reception / reproduction speaker 16 passes through the upper sound output opening 14c, passes through a sound output space having a trumpet-shaped cross section defined by the sound reflection surface 12a and the sound reflection surface 14a, and the voice response device 1 Along the surface of the placed table 911, the sound spreads in all directions 360 degrees around the axis C-C, and is heard at a volume equal to all conference participants A1 to A6. In the present embodiment, the surface of the table 911 is also used as part of the sound propagation means.
The diffusion state of the sound S output from the receiving / reproducing speaker 16 is shown by arrows.

音反射板12は、プリント基板21を支持している。
プリント基板21には、図4に平面を図解したように、マイクロフォン・電子回路収容部2のマイクロフォンMC1〜MC6、発光ダイオードLED1〜6、マイクロプロセッサ23、コーデック(CODEC)24、第1のディジタルシグナルプロセッサ(DSP1)DSP25、第2のディジタルシグナルプロセッサ(DSP2)DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29などの各種電子回路が搭載されており、音反射板12はマイクロフォン・電子回路収容部2を支持する部材としても機能している。
The sound reflecting plate 12 supports the printed circuit board 21.
On the printed circuit board 21, as illustrated in a plan view in FIG. 4, the microphones MC <b> 1 to MC <b> 6, the light emitting diodes LED <b> 1 to 6, the microprocessor 23, the codec (CODEC) 24, and the first digital signal Various electronic circuits such as a processor (DSP 1) DSP 25, a second digital signal processor (DSP 2) DSP 26, an A / D converter block 27, a D / A converter block 28, and an amplifier block 29 are mounted on the sound reflector. Reference numeral 12 also functions as a member that supports the microphone / electronic circuit housing portion 2.

プリント基板21には、受話再生スピーカ16からの振動が音反射板12を伝達してマイクロフォンMC1〜MC6などに進入して騒音とならないように、受話再生スピーカ16からの振動を吸収するダンパー18が取り付けられている。ダンパー18は、ネジと、このネジとプリント基板21との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板21にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ16からプリント基板21に伝達される振動が吸収される。これにより、マイクロフォンMC1〜MC6は、スピーカ16からの音の影響を受けない。   The printed circuit board 21 has a damper 18 that absorbs vibration from the reception / reproduction speaker 16 so that vibration from the reception / reproduction speaker 16 is transmitted to the sound reflector 12 and does not enter the microphones MC1 to MC6. It is attached. The damper 18 includes a screw and a cushioning material such as an anti-vibration rubber inserted between the screw and the printed board 21, and the cushioning material is screwed to the printed board 21 with a screw. That is, the vibration transmitted from the reception / reproduction speaker 16 to the printed circuit board 21 is absorbed by the buffer material. Thereby, the microphones MC1 to MC6 are not affected by the sound from the speaker 16.

マイクロフォンの配置
図4に図解したように、プリント基板21の中心軸Cから放射状に等間隔(本実施の形態では60度間隔で)で6本のマイクロフォンMC1〜MC6が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンMC1〜MC6は、共に柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで、揺動自在に支持されており(図解を簡単にするため、マイクロフォンMC1の部分の第1のマイク支持部材22aと第2のマイク支持部材22bとについてのみ図解している)、上述した緩衝材を用いたダンパー18による受話再生スピーカ16からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで受話再生スピーカ16からの振動で振動するプリント基板21の振動を吸収して受話再生スピーカ16の振動の影響を受けないようにして、受話再生スピーカ16の騒音を回避している。
As shown in FIG. 4, six microphones MC <b> 1 to MC <b> 6 are located radially from the central axis C of the printed circuit board 21 at equal intervals (60 degrees in this embodiment). Each microphone is a unidirectional microphone. Its characteristics will be described later.
Each of the microphones MC1 to MC6 is swingably supported by a first microphone support member 22a and a second microphone support member 22b, both of which are flexible or elastic (in order to simplify the illustration, the microphones Only the first microphone support member 22a and the second microphone support member 22b in the MC1 portion are illustrated), and is not affected by the vibration from the reception / reproduction speaker 16 by the damper 18 using the above-described cushioning material. In addition to the countermeasures, the first microphone support member 22a and the second microphone support member 22b having flexibility or elasticity absorb the vibration of the printed circuit board 21 that is vibrated by the vibration from the reception / reproduction speaker 16, and reproduce the reception. The noise of the receiving / reproducing speaker 16 is avoided so as not to be affected by the vibration of the speaker 16.

図3に図解したように、受話再生スピーカ16はマイクロフォンMC1〜MC6が位置する平面の中心軸C−Cに対して垂直に指向しており(本実施の形態においては上方向に向いている(指向している))、このような受話再生スピーカ16と6本のマイクロフォンMC1〜MC6の配置により、受話再生スピーカ16と各マイクロフォンMC1〜MC6との距離は等距離となり、受話再生スピーカ16からの音声は、各マイクロフォンMC1〜MC6に対しほとんど同音量、同位相で届く。ただし、上述した音反射板12の音反射面12aおよびスピーカ収容部14の音反射面14aの構成により、受話再生スピーカ16の音が直接マイクロフォンMC1〜MC6には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー18と、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとを用いることにより、受話再生スピーカ16の振動の影響を低減している。
会議参加者A1〜A6は、通常、図1(C)に例示したように、音声応答装置1の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
As illustrated in FIG. 3, the reception / reproduction speaker 16 is oriented perpendicularly to the central axis CC of the plane on which the microphones MC1 to MC6 are located (in the present embodiment, it is directed upward) With the arrangement of the reception / reproduction speaker 16 and the six microphones MC1 to MC6, the distance between the reception / reproduction speaker 16 and each of the microphones MC1 to MC6 is equal. The sound reaches the microphones MC1 to MC6 with almost the same volume and phase. However, due to the configuration of the sound reflecting surface 12a of the sound reflecting plate 12 and the sound reflecting surface 14a of the speaker housing portion 14, the sound of the receiving and reproducing speaker 16 is not directly input to the microphones MC1 to MC6. In addition, as described above, by using the damper 18 using the buffer material, the first microphone support member 22a and the second microphone support member 22b having flexibility or elasticity, the reception / reproduction speaker 16 is provided. The influence of vibration is reduced.
As shown in FIG. 1C, the conference participants A1 to A6 are usually almost equal to the vicinity of the microphones MC1 to MC6 arranged at intervals of 60 degrees in the direction of 360 degrees around the voice response device 1. Located at intervals.

発光ダイオード
後述する話者を決定したことを通報する手段として発光ダイオードLED1〜6がマイクロフォンMC1〜MC6の近傍に配置されている。
発光ダイオードLED1〜6は上部カバー11を装着した状態でも、全ての会議参加者A1〜A6から視認可能に設けられている。したがって、上部カバー11は発光ダイオードLED1〜6の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー11に発光ダイオードLED1〜6の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部2への防塵の観点からは透光窓が好ましい。
Light- emitting diodes Light-emitting diodes LED1 to 6 are arranged in the vicinity of the microphones MC1 to MC6 as means for reporting that a speaker to be described later has been determined.
The light emitting diodes LED1 to 6 are provided so as to be visible from all the conference participants A1 to A6 even when the upper cover 11 is attached. Therefore, the upper cover 11 is provided with a transparent window so that the light emitting states of the light emitting diodes LED1 to LED6 can be visually recognized. Of course, the upper cover 11 may be provided with openings in the portions of the light emitting diodes LEDs 1 to 6, but a light transmitting window is preferable from the viewpoint of dust prevention to the microphone / electronic circuit housing portion 2.

プリント基板21には、後述する各種の信号処理を行うために、第1のディジタルシグナルプロセッサ(DSP1)25、第2のディジタルシグナルプロセッサ(DSP2)26、各種電子回路27〜29が、マイクロフォンMC1〜MC6が位置する部分以外の空間に配置されている。
本実施の形態においては、DSP25を各種電子回路27〜29とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、DSP26をエコーキャンセラーとして用いている。
The printed circuit board 21 includes a first digital signal processor (DSP1) 25, a second digital signal processor (DSP2) 26, and various electronic circuits 27 to 29 for performing various signal processing described later. It is arranged in a space other than the part where MC6 is located.
In the present embodiment, the DSP 25 is used as signal processing means for performing processing such as filter processing and microphone selection processing together with various electronic circuits 27 to 29, and the DSP 26 is used as an echo canceller.

図5は、マイクロプロセッサ23、コーデック24、DSP25、DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29、その他各種電子回路の概略構成図である。
マイクロプロセッサ23はマイクロフォン・電子回路収容部2の全体制御処理を行う。 コーデック24は相手方会議室に送信する音声を圧縮符号化する。
DSP25が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
DSP26はエコーキャンセラーとして機能する。
図5においては、A/D変換器ブロック27の1例として、4個のA/D変換器271〜274を例示し、D/A変換器ブロック28の1例として、2個のD/A変換器281〜282を例示し、増幅器ブロック29の1例として、2個の増幅器291〜292を例示している。
その他、マイクロフォン・電子回路収容部2としては電源回路など各種の回路がプリント基板21に搭載されている。
FIG. 5 is a schematic configuration diagram of the microprocessor 23, the codec 24, the DSP 25, the DSP 26, the A / D converter block 27, the D / A converter block 28, the amplifier block 29, and other various electronic circuits.
The microprocessor 23 performs overall control processing of the microphone / electronic circuit housing unit 2. The codec 24 compresses and encodes the voice to be transmitted to the other party conference room.
The DSP 25 performs various signal processing described below, such as filter processing and microphone selection processing.
The DSP 26 functions as an echo canceller.
In FIG. 5, four A / D converters 271 to 274 are illustrated as an example of the A / D converter block 27, and two D / A converters are illustrated as an example of the D / A converter block 28. The converters 281 to 282 are illustrated, and two amplifiers 291 to 292 are illustrated as an example of the amplifier block 29.
In addition, as the microphone / electronic circuit housing portion 2, various circuits such as a power supply circuit are mounted on the printed circuit board 21.

図4においてプリント基板21の中心軸Cに対してそれぞれ対称(または対向する)位置に一直線上に配設された1対のマイクロフォンMC1−MC4:MC2−MC5:MC3−M6が、それぞれ2チャネルのアナログ信号をディジタル信号に変換するA/D変換器271〜273に入力されている。本実施の形態においては、1個のA/D変換器が2チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Cを挟んで一直線上に位置する2個(1対)のマイクロフォン、たとえば、マイクロフォンMC1とMC4の検出信号を1個のA/D変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する2個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する2個のマイクロフォンの信号を同じA/D変換器に入力すると、変換タイミングもほぼ同じになり、2個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、A/D変換器271〜274は可変利得型増幅機能付きのA/D変換器271〜274として構成することもできる。
A/D変換器271〜274で変換したマイクロフォンMC1〜MC6の集音信号はDSP25に入力されて、後述する各種の信号処理が行われる。
DSP25の処理結果の1つとして、マイクロフォンMC1〜MC6のうちの1つを選択した結果が、発光ダイオードLED1〜6に出力される。
In FIG. 4, a pair of microphones MC1-MC4: MC2-MC5: MC3-M6 arranged in a straight line at symmetrical (or opposite) positions with respect to the central axis C of the printed circuit board 21 each have two channels. The analog signals are input to A / D converters 271 to 273 that convert digital signals. In this embodiment, one A / D converter converts a 2-channel analog input signal into a digital signal. Therefore, the detection signals of two (one pair) microphones, for example, microphones MC1 and MC4, which are positioned on a straight line across the central axis C, are input to one A / D converter and converted into digital signals. Yes. Further, in this embodiment, in order to identify the speaker of the voice to be sent to the other party's conference room, the difference between the two microphones positioned on a straight line, the volume of the voice, etc. are referred to. When the signals of two microphones located on the line are input to the same A / D converter, the conversion timing is also substantially the same, and there is little timing error when taking the difference between the audio outputs of the two microphones. There are advantages such as being easy.
The A / D converters 271 to 274 can also be configured as A / D converters 271 to 274 with a variable gain amplification function.
The collected sound signals of the microphones MC1 to MC6 converted by the A / D converters 271 to 274 are input to the DSP 25, and various signal processing described later is performed.
As one of the processing results of the DSP 25, the result of selecting one of the microphones MC1 to MC6 is output to the light emitting diodes LED1 to LED6.

DSP25の処理結果が、DSP26に出力されてエコーキャンセル処理が行われる。DSP26は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
DSP26の処理結果が、D/A変換器281〜282でアナログ信号に変換される。D/A変換器281からの出力が、必要に応じて、コーデック24で符号化されて、増幅器291を介して電話回線920(図1(A))のラインアウトに出力され、相手方会議室に設置された音声応答装置1の受話再生スピーカ16を介して音として出力される。
相手方の会議室に設置された双方向通話装置1からの音声が電話回線920(図1(A))のラインインを介して入力され、A/D変換器274においてディジタル信号に変換されて、DSP26に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された双方向通話装置1からの音声は図示しない経路でスピーカ16に印加されて音として出力される。
D/A変換器282からの出力が増幅器292を介してこの双方向通話装置1の受話再生スピーカ16から音として出力される。すなわち、会議参加者A1〜A6は、上述した受話再生スピーカ16から相手会議室の選択された話者の音声に加えて、その会議室のいる発言者が発した音声をも受話再生スピーカ16を介して聞くことが出来る。
The processing result of the DSP 25 is output to the DSP 26 and an echo cancellation process is performed. The DSP 26 includes, for example, an echo cancellation transmission processing unit and an echo cancellation reception unit.
The processing result of the DSP 26 is converted into an analog signal by the D / A converters 281 to 282. The output from the D / A converter 281 is encoded by the codec 24 as necessary, and output to the line-out of the telephone line 920 (FIG. 1 (A)) via the amplifier 291 to the partner conference room. The sound is output as a sound through the reception / reproduction speaker 16 of the installed voice response device 1.
Voice from the two-way communication device 1 installed in the other party's conference room is input via the line-in of the telephone line 920 (FIG. 1A), converted into a digital signal by the A / D converter 274, The signal is input to the DSP 26 and used for echo cancellation processing. In addition, the voice from the two-way communication device 1 installed in the other party's conference room is applied to the speaker 16 through a route (not shown) and output as sound.
The output from the D / A converter 282 is output as a sound from the reception / reproduction speaker 16 of the bidirectional communication apparatus 1 via the amplifier 292. In other words, in addition to the voice of the speaker selected in the other party's conference room from the reception / reproduction speaker 16 described above, the conference participants A1 to A6 also use the reception / reproduction speaker 16 for the voice uttered by the speaker in the conference room. Can be heard through.

マイクロフォンMC1〜MC6
図6は各マイクロフォンMC1〜MC6の特性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図6に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、100Hz、150Hz、200Hz、300Hz、400Hz、500Hz、700Hz、1000Hz、1500Hz、2000Hz、3000Hz、4000Hz、5000Hz、7000Hzの時の指向性を示している。ただし、図解を簡単にするため、図6は代表的に、150Hz、500Hz、1500Hz、3000Hz、7000Hzについての指向性を図解している。
Microphones MC1 to MC6
FIG. 6 is a graph showing the characteristics of the microphones MC1 to MC6.
Each unidirectional characteristic microphone changes its frequency characteristic and level characteristic as illustrated in FIG. 6 depending on the arrival angle of sound from the speaker to the microphone. The plurality of curves indicate directivity when the frequency of the sound collection signal is 100 Hz, 150 Hz, 200 Hz, 300 Hz, 400 Hz, 500 Hz, 700 Hz, 1000 Hz, 1500 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, and 7000 Hz. However, in order to simplify the illustration, FIG. 6 typically illustrates the directivity for 150 Hz, 500 Hz, 1500 Hz, 3000 Hz, and 7000 Hz.

図7(A)〜(D)は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、双方向通話装置1と所定距離、たとえば、1.5メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示している。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。
図6の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、DSP25においてマイクロフォンの選定処理を行う。
7A to 7D are graphs showing the analysis results of the position of the sound source and the sound collection level of the microphone. A speaker is placed at a predetermined distance, for example, a distance of 1.5 meters, from the two-way communication device 1. The result of performing fast Fourier transform (FFT) on the sound collected by each microphone at regular time intervals is shown. The X axis represents frequency, the Y axis represents signal level, and the Z axis represents time.
When the microphone having directivity shown in FIG. 6 is used, strong directivity is shown in front of the microphone. In the present embodiment, using such characteristics, the DSP 25 performs a microphone selection process.

本発明のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音するので発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン1本で集音することによって周辺のノイズとのS/Nを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクアレイを用いることができるが、このような方法では、複数の信号の時間軸(位相)の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、DSPの信号処理系にも複雑な信号処理を必要とする。本発明は図6に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクアレイ信号を合成して指向性収音マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。
When a non-directional microphone is used instead of a directional microphone as in the present invention, since all sounds around the microphone are collected, the S / N between the voice of the speaker and the ambient noise is confused. Good sound cannot be collected. In order to avoid this, in the present invention, S / N with surrounding noise is improved by collecting sound with one directional microphone.
Furthermore, a microphone array using a plurality of omnidirectional microphones can be used as a method for obtaining the directivity of the microphone. However, in such a method, the time axis (phase) of a plurality of signals is complicated, and thus complicated. Since processing is required, it takes time and response is low, and the apparatus configuration is complicated. That is, the DSP signal processing system also requires complicated signal processing. The present invention solves such a problem by using the directional microphone illustrated in FIG.
Further, in order to synthesize a microphone array signal and use it as a directional sound pickup microphone, there is a disadvantage that the outer shape is restricted by the pass frequency characteristic and the outer shape becomes large. The present invention also solves this problem.

通話装置の装置構成の効果
上述した構成の通話装置は下記の利点を示す。
(1)等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンMC1〜MC6と受話再生スピーカ16との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ16から出た音が会議室(部屋)環境を経てマイクロフォンMC1〜MC6に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ16からマイクロフォンMC1〜MC6に音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、本発明の実施の形態における双方向通話装置1においてはいつも伝達関数が同じという利点がある。
(2)それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、本双方向通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
(3)上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー(DSP26)が一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板21に複数のDSPを配置する必要がなく、プリント基板21におけるDSPの配置するスペースも少なくてよい。その結果、プリント基板21、ひいては、本発明の通話装置を小型にできる。
(4)上述したように、受話再生スピーカ16とマイクロフォンMC1〜MC6間の伝達関数が一定であるため、たとえば、±3dBもあるマイクロフォン自体の感度差調整を双方向通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
(5)双方向通話装置1が搭載されるテーブルは、通常、円いテーブル(円卓)または多角テーブルを用いるが、双方向通話装置11内の一つの受話再生スピーカ16で均等な品質の音声を軸Cを中心として360度全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカ16から出た音は円卓のテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカ16から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンMC1〜MC6に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
(8)偶数個、たとえば、6本のマイクロフォンを等角度で放射状かつ等間隔で、対向する1対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
(9)ダンパー18、マイクロフォン支持部材22などにより、受話再生スピーカ16の音による振動が、マイクロフォンMC1〜MC6の集音に与える影響を低減することができる。
(10)図3に図解したように、構造的に、受話再生スピーカ16の音が直接、マイクロフォンMC1〜MC6には伝搬しない。したがって、この双方向通話装置1においは受話再生スピーカ16からのノイズの影響が少ない。
Effects of the device configuration of the communication device The communication device configured as described above exhibits the following advantages.
(1) The positional relationship between the even number of microphones MC1 to MC6 arranged radially at equal angles and at equal intervals and the reception / reproduction speaker 16 is constant, and the distance from the reception / reproduction speaker 16 is very short. The level at which the output sound returns directly to the microphones MC1 to MC6 via the conference room (room) environment is overwhelmingly dominant. Therefore, the characteristics (signal level (intensity), frequency characteristics (f characteristic), phase) that the sound reaches from the speaker 16 to the microphones MC1 to MC6 are always the same. That is, there is an advantage that the two-way communication device 1 in the embodiment of the present invention always has the same transfer function.
(2) Therefore, there is no change in the transfer function when the output of the microphone sent to the other party's conference room is switched when the speakers are different, and there is no need to adjust the gain of the microphone system every time the microphone is switched. Have advantages. In other words, there is an advantage that once the adjustment is made at the time of manufacturing the interactive communication apparatus, it is not necessary to redo the adjustment.
(3) Even if the microphones are switched when the speakers are different for the same reason as described above, only one echo canceller (DSP 26) is required. The DSP is expensive, and it is not necessary to arrange a plurality of DSPs on the printed circuit board 21 on which various members are mounted and the space is small, and the space for arranging the DSPs on the printed circuit board 21 may be small. As a result, the printed circuit board 21, and thus the communication device of the present invention can be made smaller.
(4) As described above, since the transfer function between the reception and reproduction speaker 16 and the microphones MC1 to MC6 is constant, for example, the sensitivity difference adjustment of the microphone itself having ± 3 dB can be performed by the microphone unit of the two-way communication device alone. There is an advantage. Details of the sensitivity difference adjustment will be described later.
(5) The table on which the two-way communication device 1 is mounted normally uses a round table or a polygonal table. However, a single reception / reproduction speaker 16 in the two-way communication device 11 can provide sound of equal quality. A loudspeaker system that is uniformly distributed (diffused) in all directions of 360 degrees around the axis C has become possible.
(6) The sound emitted from the receiving / reproducing speaker 16 is transmitted to the table surface of the round table (boundary effect), effectively and evenly delivering high-quality sound to the conference participants, and facing the ceiling direction of the conference room There is an advantage that the sound and phase on the side are canceled and become a small sound, and there are few reflected sounds from the ceiling direction to the conference participants, and as a result, a clear sound is distributed to the participants.
(7) Since the sound emitted from the reception / reproduction speaker 16 reaches all the microphones MC1 to MC6 arranged radially and at equal intervals at the same angle at the same volume at the same time, it is determined whether the sound is the voice of the speaker or the received voice. It becomes easy. As a result, erroneous determination of microphone selection processing is reduced. Details thereof will be described later.
(8) Even number, for example, six microphones are arranged at equal angles radially and at equal intervals, and a pair of opposing microphones are arranged in a straight line, so that level comparison for direction detection can be easily performed.
(9) By the damper 18, the microphone support member 22, and the like, it is possible to reduce the influence of the vibration due to the sound of the reception and reproduction speaker 16 on the sound collection of the microphones MC1 to MC6.
(10) As illustrated in FIG. 3, structurally, the sound of the reception / reproduction speaker 16 does not directly propagate to the microphones MC1 to MC6. Therefore, in the two-way communication apparatus 1, the influence of noise from the reception / reproduction speaker 16 is small.

変形例
図2〜図3を参照して述べた通話装置1は、下部に受話再生スピーカ16を配置させ、上部にマイクロフォンMC1〜MC6(および関連する電子回路)を配置させたが、受話再生スピーカ16とマイクロフォンMC1〜MC6(および関連する電子回路)の位置を、図8に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。
The communication device 1 described with reference to FIGS. 2 to 3 has the reception reproduction speaker 16 disposed in the lower portion and the microphones MC1 to MC6 (and related electronic circuits) disposed in the upper portion. The positions of 16 and microphones MC1-MC6 (and associated electronic circuitry) can also be turned upside down as illustrated in FIG. Even in such a case, the above-described effects are exhibited.

マイクロフォンの本数は6には限定されず、4本、8本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Cを複数対それぞれ一直線に(同方向に)、たとえば、マイクロフォンMC1とMC4のように一直線に配置する。2本のマイクロフォンMC1、MC4を対向させて一直線に配置する理由は、マイクロフォンの選定して話者を特定するためである。   The number of microphones is not limited to six, and any number of microphones such as four, eight, etc. may be arranged in a straight line (in the same direction) with a plurality of pairs of axes C radially and equally spaced at the same angle. They are arranged in a straight line like MC1 and MC4. The reason why the two microphones MC1 and MC4 are arranged to face each other is to select a microphone and specify a speaker.

信号処理内容
以下、主として第1のディジタルシグナルプロセッサ(DSP)25で行う処理内容について述べる。
図9はDSP25が行う処理の概要を図解した図である。以下、その概要を述べる。
Signal Processing Contents Hereinafter, processing contents mainly performed by the first digital signal processor (DSP) 25 will be described.
FIG. 9 is a diagram illustrating an outline of processing performed by the DSP 25. The outline is described below.

(1)周囲のノイズの測定
初期動作として、好ましくは、双方向通話装置1が設置される周囲のノイズの測定する。
双方向通話装置1は種々の環境(会議室)で使用されうる。マイクロフォンの選択の正確さを期し、双方向通話装置1の性能を高めるために、本発明においては、初期段階において、双方向通話装置1が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、双方向通話装置1を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
ノイズ測定の詳細は後述する。
(1) Measurement of ambient noise As an initial operation, preferably, ambient noise where the two-way communication device 1 is installed is measured.
The two-way communication device 1 can be used in various environments (conference rooms). In order to improve the performance of the two-way communication device 1 in order to ensure the accuracy of selection of the microphone, in the present invention, noise in the surrounding environment where the two-way communication device 1 is installed is measured in the initial stage. It is possible to eliminate the influence from the signal collected by the microphone.
Of course, when the two-way communication apparatus 1 is repeatedly used in the same conference room, noise measurement is performed in advance, and this process can be omitted when the noise state does not change.
Note that noise measurement can also be performed in a normal state.
Details of the noise measurement will be described later.

(2)議長の選定
たとえば、双方向通話装置1を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の1態様としては、双方向通話装置1を使用する初期段階において、双方向通話装置1の操作部15から議長を設定する。議長の設定方法としては、たとえば、操作部15の近傍に位置する第1マイクロフォンMC1を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、双方向通話装置1を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
議長選定の詳細は後述する。
(2) Selection of Chairperson For example, when the two-way communication device 1 is used for a two-way conference, it is beneficial to have a chairman who manages the proceedings in each conference room. Therefore, as one aspect of the present invention, the chairperson is set from the operation unit 15 of the interactive communication device 1 in the initial stage of using the interactive communication device 1. As a chairperson setting method, for example, the first microphone MC1 located in the vicinity of the operation unit 15 is used as a chairperson microphone. Of course, the chairman's microphone can be arbitrary.
Note that this processing can be omitted when the chairperson who repeatedly uses the interactive communication device 1 is the same. Or you may decide the microphone of the position where a chairperson sits beforehand. In that case, there is no need to select a chairman each time.
Of course, the selection of the chair is not limited to the initial state, and can be performed at any timing.
Details of the chairperson selection will be described later.

(3)マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ16とマイクロフォンMC1〜MC6との音響結合が等しくなるように、マイクロフォンMC1〜MC6の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
感度差調整については後述する。
(3) Microphone sensitivity difference adjustment As an initial operation, preferably, the gain or attenuation unit of the amplification unit that amplifies the signals of the microphones MC1 to MC6 so that the acoustic coupling between the reception reproduction speaker 16 and the microphones MC1 to MC6 is equal. Automatically adjust the attenuation value.
The sensitivity difference adjustment will be described later.

通常処理として下記に例示する各種の処理を行う。
(4)マイクロフォン選択、切り替え処理
1つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者A1〜A6にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には1人ずつ通話させる。そのため、DSP25においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、電話回線920を介して相手方会議室の音声応答装置1に伝送されてスピーカから出力される。もちろん、図5を参照して述べたように、選択された話者のマイクロフォンの近傍のLEDが点灯し、さらに、その部屋の双方向通話装置1のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にS/Nの良い信号を送ることを目的としている。
(5)選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者A1〜A6全員に容易に認識できるように、発光ダイオードLED1〜6の該当するものを点灯させる。
(6)上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
(a)マイクロフォンの集音信号の帯域分離と、レベル変換処理
(b)発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するた め。
(c)発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフ ォンを判定するため。
(d)発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。 (e)通常動作時のフロアノイズの測定
Various processes exemplified below are performed as normal processes.
(4) Microphone selection / switching process When a plurality of conference participants make a call at the same time in one conference room, voices are mixed and difficult for the conference participants A1 to A6 in the other conference room. Therefore, in the present invention, in principle, one person is allowed to talk at a time. For this reason, the DSP 25 performs microphone selection / switching processing.
As a result, only the call from the selected microphone is transmitted to the voice response device 1 in the other party conference room via the telephone line 920 and output from the speaker. Of course, as described with reference to FIG. 5, the LED in the vicinity of the selected speaker's microphone is turned on, and the selected speaker's voice is also output from the speaker of the interactive communication device 1 in the room. Can hear and recognize who is an authorized speaker.
The purpose of this processing is to select a signal from a unidirectional microphone facing the speaker and send a signal having a good S / N to the other party as a transmission signal.
(5) Display of the selected microphone Lights so that all the conference participants A1 to A6 can easily recognize which conference participant's microphone is selected and allowed to speak. The corresponding ones of the diodes LEDs 1 to 6 are turned on.
(6) As a background art of the microphone selection process described above, or in order to accurately perform the microphone selection process, various signal processes exemplified below are performed.
(A) Band separation and level conversion processing of microphone collected signal (b) Start / end determination processing of speech
To be used as a trigger to start selecting the microphone signal that faces the speaker direction.
(C) Speaker direction microphone detection processing
To analyze the collected sound signal of each microphone and determine the microphone used by the speaker.
(D) Speaker direction microphone switching timing determination processing, and microphone signal selection switching processing facing the detected speaker
An instruction to switch to the microphone selected from the above processing result is given. (E) Measurement of floor noise during normal operation

フロア(環境)ノイズの測定
この処理は双方向通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。
Measurement of floor (environment) noise This process is divided into an initial process and a normal process immediately after the two-way communication device is turned on.
This process is performed under the following exemplary preconditions.

Figure 2005182140
Figure 2005182140

Figure 2005182140
Figure 2005182140

Figure 2005182140
Figure 2005182140

双方向通話装置1の電源投入直後、DSP25は図10〜図12を参照して述べる下記のノイズ測定を行う。
双方向通話装置1の電源投入直後のDSP25の初期処理は、フロアノイズと基準信号レベルを測定し、その差を元に話者と本システムとの有効距離の目安と発言開始、終了判定閾値レベルの設定するために行う。
DSP25内の音圧レベル検出部でピークホールドしたレベル値を一定時間間隔、たとえば、10mSecで読み出し、単位時間の値の平均値を算出しフロアノイズとする。そして、DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
Immediately after turning on the power of the interactive communication apparatus 1, the DSP 25 performs the following noise measurement described with reference to FIGS.
The initial processing of the DSP 25 immediately after turning on the power of the two-way communication device 1 is to measure the floor noise and the reference signal level, and based on the difference between them, a guideline of the effective distance between the speaker and the present system and the speech start / end determination threshold level. To set up.
The level value peak-held by the sound pressure level detection unit in the DSP 25 is read at a constant time interval, for example, 10 mSec, and an average value of unit time values is calculated and used as floor noise. Then, the DSP 25 determines a threshold value for a speech start detection level and a speech end detection level based on the measured floor noise level.

図10、処理1:テストレベル測定
DSP25は、図10に図解した処理に従い、図5に図解した受話信号系のラインイン端子にテストトーンを出力し、受話再生スピーカ16からの音を各マイクロフォンMC1〜MC6で集音し、その信号を発言開始基準レベルとして平均値を求める。
FIG. 10, Process 1: Test Level Measurement The DSP 25 outputs a test tone to the line-in terminal of the reception signal system illustrated in FIG. 5 according to the process illustrated in FIG. The sound is collected at ~ MC6, and the average value is obtained using the signal as a speech start reference level.

図11、処理2:ノイズ測定1
DSP25は、図11に図解した処理に従い、各マイクロフォンMC1〜MC6からの集音信号のレベルをフロアノイズレベルとして一定時間収集し、平均値を求める。
FIG. 11, Process 2: Noise measurement 1
In accordance with the process illustrated in FIG. 11, the DSP 25 collects the level of the collected sound signal from each of the microphones MC1 to MC6 as a floor noise level for a predetermined time and obtains an average value.

図12、処理3:有効距離試算
DSP25は、図12に図解した処理に従い、発言開始基準レベルとフロアノイズレベルを比較し、双方向通話装置1の設置されている会議室などの部屋の騒音レベルを推定し、本双方向通話装置1が良好に働く発言者と本双方向通話装置1との有効距離を計算する。
FIG. 12, Process 3: Effective distance trial DSP 25 compares the speech start reference level with the floor noise level according to the process illustrated in FIG. And the effective distance between the speaker who works well in the two-way communication device 1 and the two-way communication device 1 is calculated.

マイク選択禁止判定
処理3の結果、フロアノイズの方が発言開始基準レベルより大きい(高い)場合、DSP25はそのマイクロフォンの方向に強大なノイズ源が有ると判定し、その方向のマイクロフォンの自動選択を禁止に設定し、それを、たとえば、発光ダイオードLED1〜6または操作部15に表示する。
As a result of the microphone selection prohibition determination process 3, if the floor noise is larger (higher) than the speech start reference level, the DSP 25 determines that there is a strong noise source in the direction of the microphone, and automatically selects a microphone in that direction. The prohibition is set, and this is displayed, for example, on the light emitting diodes LED1 to 6 or the operation unit 15.

しきい値決定
DSP25は、図13に図解したように、発言開始基準レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
As illustrated in FIG. 13, the threshold value determination DSP 25 compares the speech start reference level and the floor noise level, and determines the threshold values of the speech start and end levels from the difference.

ノイズ測定に関する限り、次の処理は通常処理なので、DSP25は各タイマ(カウンタ)をセットして次処理の準備をする。   As far as noise measurement is concerned, the next process is a normal process, so the DSP 25 sets each timer (counter) and prepares for the next process.

ノイズ通常処理
DSP25は、双方向通話装置1の初期動作時の上記ノイズ測定の後も、通常動作状態において、図14に示す処理に従って、ノイズ処理を行い、6本のマイクロフォンMC1〜MC6に対しそれぞれ選択された発言者の音量レベル平均値と発言終了検出後のノイズレベルを測定し一定時間単位で、発言開始、終了判定閾値レベルを再設定する。
The noise normal processing DSP 25 performs noise processing according to the processing shown in FIG. 14 in the normal operation state after the noise measurement during the initial operation of the two-way communication device 1, and each of the six microphones MC1 to MC6. The volume level average value of the selected speaker and the noise level after detection of the end of the speech are measured, and the speech start / end determination threshold level is reset in a fixed time unit.

図14、処理1:DSP25は、発言中か発言終了かの判断で処理2か処理3への分岐を決定する。 FIG. 14, Process 1 : The DSP 25 determines branching to Process 2 or Process 3 based on the determination of whether the speech is in progress or the end of speech.

図14、処理2:発言者レベル測定
DSP25は、発言中の単位時間、たとえば、10秒分のレベルデータを複数回、たとえば、10回分平均して発言者レベルとして記録する。
単位時間内に発言終了になった場合、新たな発言開始まで時間計測及び発言レベル測定を中止し、新たな発言検出後、測定処理を再開する。
FIG. 14, Process 2 : Speaker Level Measurement The DSP 25 averages and records the level data for a unit time, for example, 10 seconds, for a plurality of times, for example, 10 times, as a speaker level.
If the utterance ends within the unit time, the time measurement and the utterance level measurement are stopped until a new utterance starts, and the measurement process is resumed after the new utterance is detected.

図14、処理3:フロアノイズ測定2
DSP25は、発言終了検出後から発言開始までの間の単位時間、たとえば、10秒分のノイズレベルデータを複数回、たとえば、10回分平均してフロアノイズレベルとして記録する。
単位時間内に新たな発言があった場合は、DSP25は途中で時間計測及びノイズ測定を中止し、新たな発言終了検出後、測定処理を再開する。
FIG. 14, Process 3 : Floor noise measurement 2
The DSP 25 averages the noise level data for a unit time, for example, 10 seconds from the detection of the end of the speech to the start of the speech, and records the average as a floor noise level a plurality of times, for example, 10 times.
If there is a new message within the unit time, the DSP 25 stops the time measurement and noise measurement on the way, and restarts the measurement process after detecting the end of the new message.

図14、処理4:閾値決定2
DSP25は、発言レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
なおこのほかに応用として、発言者の発言レベルの平均値が求められているのでそのマイクロフォンに対向した発言者固有の発言開始、終了検出閾値レベルを設定することもできる。
FIG. 14, Process 4 : Threshold Determination 2
The DSP 25 compares the speech level and the floor noise level, and determines the threshold values for the speech start and end levels from the difference.
In addition to this, since the average value of the speaking level of the speaker is obtained, the speaking start and end detection threshold levels specific to the speaking party facing the microphone can be set.

フィルタ処理による各種周波数成分信号の生成
図15はマイクロフォンで集音した音信号を前処理として、DSP25で行うフィルタリング処理を示す構成図である。図15は1マイクロフォン(チャネル(1集音信号))分の処理について示す。
各マイクロフォンの集音信号は、たとえば、100Hzのカットオフ周波数を持つアナログ・ローカットフィルタ101で処理され、100Hz以下の周波数が除去されたフィルタ処理された音声信号がA/D変換器102に出力され、A/D変換器102でディジタル信号に変換された集音信号が、それぞれ7.5KHz、4KHz、1.5KHz、600Hz、250Hzのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ103a〜103e(総称して103)で高周波成分が除去される(ハイカット処理)。ディジタル・ハイカットフィルタ103a〜103eの結果はさらに、減算器104a〜104d(総称して104)において隣接するディジタル・ハイカットフィルタ103a〜103eのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ103a〜103eおよび減算器104a〜104dは、実際はDSP25において処理している。A/D変換器102はA/D変換器ブロック27の1つとして実現できる。
Generation of Various Frequency Component Signals by Filter Processing FIG. 15 is a configuration diagram showing filtering processing performed by the DSP 25 using sound signals collected by a microphone as preprocessing. FIG. 15 shows processing for one microphone (channel (one sound collection signal)).
The collected sound signal of each microphone is processed by an analog low cut filter 101 having a cutoff frequency of 100 Hz, for example, and a filtered audio signal from which a frequency of 100 Hz or less has been removed is output to the A / D converter 102. , Digital high-cut filters 103a to 103e (collectively referred to as “collection signals”) having cut-off frequencies of 7.5 KHz, 4 KHz, 1.5 KHz, 600 Hz, and 250 Hz, respectively. 103), high frequency components are removed (high cut processing). The results of the digital high cut filters 103a to 103e are further subtracted for each filter signal of the adjacent digital high cut filters 103a to 103e in subtractors 104a to 104d (collectively 104).
In the embodiment of the present invention, the digital high cut filters 103a to 103e and the subtractors 104a to 104d are actually processed in the DSP 25. The A / D converter 102 can be realized as one of the A / D converter blocks 27.

図16は、図15を参照して述べたフィルタ処理結果を示す周波数特性図である。このように1つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。   FIG. 16 is a frequency characteristic diagram showing the filter processing result described with reference to FIG. Thus, a plurality of signals having various frequency components are generated from a signal collected by a microphone having one directivity.

バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために使用する信号が、DSP25で行う図17に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図17はマイクロフォンMC1〜MC6で集音した6チャネル(CH)の入力信号処理中の1CHのみを示す。
DSP25内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ100〜600Hz、200〜250Hz、250〜600Hz、600〜1500Hz、1500〜4000Hz、4000〜7500Hzの帯域通過特性を持つバンドパス・フィルタ201a〜201a(総称してバンドパス・フィルタ・ブロック201)と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器202a〜202g(総称して、レベル変換ブロック202)を有する。
The start and end of speech is determined as one of the triggers for starting the band-pass filter processing and microphone signal level conversion processing microphone selection processing. A signal used for this purpose is obtained by the bandpass filter processing and level conversion processing illustrated in FIG. FIG. 17 shows only 1CH during input signal processing of 6 channels (CH) collected by the microphones MC1 to MC6.
The band-pass filter processing and level conversion processing unit in the DSP 25 respectively collects the collected sound signals of the microphones of each channel at 100 to 600 Hz, 200 to 250 Hz, 250 to 600 Hz, 600 to 1500 Hz, 1500 to 4000 Hz, 4000 to 7500 Hz. Band-pass filters 201a to 201a having band-pass characteristics (collectively, band-pass filter block 201), original microphone sound collection signals, and level converters 202a to 202g (for level conversion of the band-pass sound collection signals) Collectively, it has a level conversion block 202).

各レベル変換部202a〜202gは、信号絶対値処理部203とピークホールド処理部204を有する。したがって、波形図を例示したように、信号絶対値処理部203は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部204は、信号絶対値処理部203の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部204を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。   Each level conversion unit 202 a to 202 g includes a signal absolute value processing unit 203 and a peak hold processing unit 204. Therefore, as illustrated in the waveform diagram, the signal absolute value processing unit 203 inverts the sign and converts it to a positive signal when a negative signal indicated by a broken line is input. The peak hold processing unit 204 holds the maximum value of the output signal of the signal absolute value processing unit 203. However, in the present embodiment, the held maximum value is somewhat lowered with the passage of time. Of course, the peak hold processing unit 204 can be improved so that the maximum value can be held for a long time by reducing the decrease.

バンドパス・フィルタについて述べる。双方向通話装置1に使用するバンドパス・フィルタは、たとえば、2次IIRハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、1バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数+1のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号1チャネル(CH)当りで下記6バンドのバンドパス・フィルタとなる。
A bandpass filter will be described. The band-pass filter used for the two-way communication device 1 is composed of, for example, a secondary IIR high-cut filter and a microphone signal input stage low-cut filter only.
In the present embodiment, it is utilized that if the signal that has passed through the high-cut filter is subtracted from the signal having a flat frequency characteristic, the rest is substantially equivalent to the signal that has passed through the low-cut filter.
In order to match the frequency-level characteristics, an extra band-pass bandpass filter is required for one band, but the band required by the number of filter stages equal to the number of bands of the required bandpass filter + 1 and the filter coefficient A pass is obtained. The band frequency of the hand pass filter required this time is the following 6 band pass filter per channel (CH) of the microphone signal.

Figure 2005182140
Figure 2005182140

この方法でDSP25における上記のIIR・フィルタの計算プログラムは、6CH(チャネル)×5(IIR・フィルタ) =30のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は2次IIRフィルタを使用するとして、本発明のように6本のマイク信号にそれぞれ6バンドのバンドパス・フィルタを用意すると、従来方法では、6×6×2=72回路のIIR・フィルタ処理が必要になる。この処理には、最新の優秀なDSPでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する2次IIRハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの5種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、IIRフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。
In this method, the calculation program of the above IIR filter in the DSP 25 is only 6CH (channel) × 5 (IIR filter) = 30.
Contrast with the conventional band-pass filter configuration. Assuming that the band-pass filter uses a second-order IIR filter and a 6-band band-pass filter is prepared for each of six microphone signals as in the present invention, in the conventional method, 6 × 6 × 2 = 72. Circuit IIR / filtering is required. This processing requires considerable program processing even with the latest excellent DSP, and affects other processing.
In the embodiment of the present invention, the 100 Hz low cut filter is processed by an analog filter in the input stage. There are five types of cutoff frequencies of the prepared second-order IIR high cut filters: 250 Hz, 600 Hz, 1.5 KHz, 4 KHz, and 7.5 KHz. Of these, the high-cut filter with a cutoff frequency of 7.5 kHz is not necessary because the sampling frequency is actually 16 KHz. Deliberately rotate the phase of the attenuator to reduce the phenomenon.

図18は図17に図解した構成による処理をDSP25で処理したときのフローチャートである。   FIG. 18 is a flowchart when processing by the DSP 25 is performed according to the configuration illustrated in FIG.

図18に図解したDSP25におけるフィルタ処理は1段目の処理としてハイパス・フィルタ処理、2段目の処理として1段目のハイパス・フィルタ処理結果からの減算処理を行う。図16はその信号処理結果のイメージ周波数特性図である。下記、〔x〕は図16における各処理ケースを示す。   In the DSP 25 illustrated in FIG. 18, a high-pass filter process is performed as the first stage process, and a subtraction process from the result of the first-stage high-pass filter process is performed as the second stage process. FIG. 16 is an image frequency characteristic diagram of the signal processing result. [X] below shows each processing case in FIG.

第一段階
〔1〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。
First stage [1] The input signal is passed through a 7.5 kHz high cut filter for the whole band pass filter. This filter output signal becomes a bandpass filter output of [100Hz-7.5KHz] by matching the analog low cut of the input.

〔2〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。   [2] Pass the input signal through a 4KHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-4KHz] by combining with the input analog low cut filter.

〔3〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] 入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。   [3] Pass the input signal through a 1.5 kHz high cut filter. This filter output signal is combined with the input analog low cut filter [100Hz-1.5KHz] is combined with the input analog low cut filter [100Hz-1.5KHz] When combined with the input analog low cut filter [100Hz -1.5KHz] bandpass filter output.

〔4〕入力信号を600KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。   [4] Pass the input signal through a 600 kHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-600Hz] by combining with the input analog low cut filter.

〔5〕入力信号を250KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。   [5] The input signal is passed through a 250 kHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-250Hz] by combining with the input analog low cut filter.

第二段階
〔1〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔2〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔3〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔4〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。 〔5〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔6〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記(4)の出力信号とする。
DSP25における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。
The second stage [1] band pass filter (BPF5 = [4KHz ~ 7.5KHz]) executes the process of filter output [1]-[2] ([100Hz ~ 7.5KHz]-[100Hz ~ 4KHz]) The signal output is [4KHz to 7.5KHz].
[2] The bandpass filter (BPF4 = [1.5KHz to 4KHz]) will perform the above processing when the filter output [2]-[3] ([100Hz to 4KHz]-[100Hz to 1.5KHz]) is executed. Output [1.5KHz ~ 4KHz].
[3] The bandpass filter (BPF3 = [600Hz to 1.5KHz]) performs the above processing when the filter output [3]-[4] ([100Hz to 1.5KHz]-[100Hz to 600Hz]) is executed. Output [600Hz ~ 1.5KHz].
[4] The bandpass filter (BPF2 = [250Hz to 600Hz]) performs the process of filter output [4]-[5] ([100Hz to 600Hz]-[100Hz to 250Hz]). ~ 600Hz]. [5] The bandpass filter (BPF1 = [100 Hz to 250 Hz]) uses the signal [5] as it is as the output signal [5].
[6] The bandpass filter (BPF6 = [100 Hz to 600 Hz]) uses the signal [4] as it is and outputs it as the output signal (4).
The bandpass filter output required by the above processing in the DSP 25 is obtained.

入力されたマイクロフォンの集音信号MIC1〜MIC6は、DSP25において、全帯域の音圧レベル、バンドパス・フィルタを通過した6帯域の音圧レベルとして表5のように常時更新される。   The input microphone sound collection signals MIC1 to MIC6 are constantly updated in the DSP 25 as the sound pressure level of the entire band and the sound pressure level of the six bands that have passed through the bandpass filter as shown in Table 5.

Figure 2005182140
Figure 2005182140

表5において、たとえば、L1-1はマイクロフォンMC1の集音信号が第1バンドパス・フィルタ201aを通過したときのピークレベルを示す。
発言の開始、終了判定は、図17に図示した100Hz〜600Hzのバンドパス・フィルタ201aを通過し、レベル変換部202bで音圧レベル変換されたマイクロフォン集音信号を用いる。
In Table 5, for example, L1-1 indicates a peak level when the collected sound signal of the microphone MC1 passes through the first bandpass filter 201a.
The start and end of speech is determined using a microphone sound collection signal that has passed through the 100 Hz to 600 Hz bandpass filter 201a shown in FIG. 17 and whose sound pressure level has been converted by the level converter 202b.

従来のバンドパス・フィルタの構成は、バンドパス・フィルタ1段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の36回路のバンドパス・フィルタを構築すると72回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。   The conventional band-pass filter is configured by combining a high-pass filter and a low-pass filter for each stage of the band-pass filter. Therefore, a 36-band band-pass filter of the specification used in this embodiment is used. When constructed, 72 circuits of filter processing are required. In contrast, the filter configuration of the embodiment of the present invention is simplified as described above.

発言の開始・終了判定処理
第1のディジタルシグナルプロセッサ(DSP1)25は、音圧レベル検出部から出力される値を元に、図19に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、0.5秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図17に図解したマイク信号変換処理部202bで音圧レベル変換された100Hz〜600Hzのバンドパス・フィルタを通過した音圧レベルデータ(マイク信号レベル(1))が図19に例示した閾値レベル以上になった時から発言開始と判定する。
DSP25は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間、たとえば、0.5秒間は次の発言開始を検出しないようにしている。
Sentence start / end determination processing The first digital signal processor (DSP1) 25, based on the value output from the sound pressure level detector, as shown in FIG. If it rises and exceeds the threshold of the speech start level, it is determined that the speech starts.If the level continues to be higher than the threshold of the start level, the floor noise is determined if the level is lower than the threshold of speech end during speech. The speech end determination time is determined, for example, when it is continued for 0.5 seconds, the speech end is determined.
The start and end of speech is determined based on sound pressure level data (microphone signal level (1)) that has passed through a 100 Hz to 600 Hz bandpass filter whose sound pressure level has been converted by the microphone signal conversion processing unit 202b illustrated in FIG. It is determined that the utterance has started when the threshold level illustrated in FIG. 19 is reached.
In order to avoid malfunction due to frequent microphone switching, the DSP 25 does not detect the next speech start after the speech start determination time, for example, 0.5 seconds.

マイクロフォン選択
DSP25は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図20は双方向通話装置1の動作形態を図解したグラフである。
図21は双方向通話装置1の通常処理を示すフローチャートである。
The microphone selection DSP 25 performs speaker direction detection and automatic selection of a microphone signal facing the speaker in the mutual communication system based on a so-called “star chart method”.
FIG. 20 is a graph illustrating the operation mode of the interactive communication device 1.
FIG. 21 is a flowchart showing normal processing of the interactive communication device 1.

双方向通話装置1は図20に図解したように、マイクロフォンMC1〜MC6からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果を発光ダイオードLED1〜6に表示する。
以下、図21のフローチャートを参照して双方向通話装置1におけるDSP25を主体として動作を述べる。なお、マイクロフォン・電子回路収容部2の全体制御はマイクロプロセッサ23によって行われるが、DSP25の処理を中心に述べる。
As illustrated in FIG. 20, the two-way communication device 1 performs voice signal monitoring processing according to the collected sound signals from the microphones MC1 to MC6, performs speech start / end determination, performs speech direction determination, and selects a microphone. The result is displayed on the light emitting diodes LED1 to LED6.
The operation will be described below with the DSP 25 in the two-way communication device 1 as a main component with reference to the flowchart of FIG. The overall control of the microphone / electronic circuit housing unit 2 is performed by the microprocessor 23, and the processing of the DSP 25 will be mainly described.

ステップ1:レベル変換信号の監視
マイクロフォンMC1〜MC6で集音した信号はそれぞれ、図16〜図18、特に、図17を参照して述べた、バンドパス・フィルタ・ブロック201、レベル変換ブロック202において、7種類のレベルデータとして変換されているから、DSP25は各マイクロフォン集音信号についての7種類の信号を常時監視する。
その監視結果に基づいて、DSP25は、発言者方向検出処理1、発言者方向検出処理2、発言開始・終了判定処理のいずれかの処理に移行する。
Step 1: Level Conversion Signal Monitoring Signals collected by the microphones MC1 to MC6 are respectively obtained in the band-pass filter block 201 and the level conversion block 202 described with reference to FIGS. Therefore, the DSP 25 constantly monitors seven types of signals for each microphone sound collection signal.
Based on the monitoring result, the DSP 25 proceeds to any one of the speaker direction detection processing 1, the speaker direction detection processing 2, and the speech start / end determination processing.

ステップ2:発言開始・終了判定処理
DSP25は図19を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。DSP25が処理が発言開始を検出した場合、ステップ4の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ2における発言の開始、終了の判定処理が発言レベルが発言終了レベルより小さくなった時、発言終了判定時間(たとえば、0.5秒)のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。
Step 2: Speech Start / End Determination Processing The DSP 25 determines the start and end of speech according to the method described in detail below with reference to FIG. When the DSP 25 detects the start of speech, the DSP 25 informs the speaker direction determination processing in step 4 of the start of speech.
When the speech start / end determination process in step 2 is performed, when the speech level becomes lower than the speech end level, a speech end determination time (for example, 0.5 second) timer is activated and the speech end determination time and the speech level are When the level is lower than the end level, it is determined that the speech has ended.
If it becomes larger than the speech end level within the speech end determination time, it waits until it becomes smaller than the speech end level again.

ステップ3:発言者方向の検出処理
DSP25における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ4の発言者方向の判定処理へデータを供給する。
Step 3: Speaker Direction Detection Processing The speaker direction detection processing in the DSP 25 is continuously performed by continuously searching for the speaker direction. Thereafter, the data is supplied to the speaker direction determination processing in step 4.

ステップ4:発言者方向マイクの切り換え処理
DSP25に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ2の処理とステップ3の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ4のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部15から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報を発光ダイオードLED1〜6に表示する。
Step 4: Speaker direction microphone switching processing The timing determination processing in the speaker direction microphone switching processing in the DSP 25 has been selected from the results of the processing in step 2 and step 3 and the speaker detection direction at that time. If the speaker direction is different, the microphone selection in step 4 is instructed to select a microphone in a new speaker direction.
However, if the chairman's microphone is set from the operation unit 15 and the chairman's microphone and another conference participant speak at the same time, the chairman's comment is given priority.
At this time, the selected microphone information is displayed on the light emitting diodes LED1 to LED6.

ステップ5:マイクロフォン集音信号の伝送
マイク信号切り換え処理は6本のマイク信号の中からステップ4処理により選択されたマイク信号のみを送話信号として、双方向通話装置1から電話回線920を介して相手側の双方向通話装置に伝送するため、図5に図解した電話回線920のラインアウトへ出力する。
Step 5: Transmission of microphone sound collecting signal In the microphone signal switching process, only the microphone signal selected by the process of Step 4 from the six microphone signals is used as the transmission signal, and the two-way communication device 1 through the telephone line 920. For transmission to the other party's two-way communication device, the data is output to the line-out of the telephone line 920 illustrated in FIG.

発言開始レベル閾値、発言終了閾値の設定
処理1:電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、1秒間分のフロアノイズを測定する。
DSP25は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、1分間の値の平均値を算出しフロアノイズとする。
DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル(フロアノイズ +9dB)、発言終了の検出レベルの閾値(フロアノイズ+6dB)を決定する。DSP25は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、DSP25は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。
Processing for setting a speech start level threshold and a speech end threshold 1: Immediately after turning on the power, the floor noise for a predetermined time, for example, 1 second, of each microphone is measured.
The DSP 25 reads out the peak-held level value of the sound pressure level detection unit at a constant time interval, for example, 10 mSec interval in this embodiment, and calculates an average value of values for a predetermined time, for example, 1 minute to obtain floor noise. And
The DSP 25 determines a speech start detection level (floor noise +9 dB) and a speech end detection level threshold (floor noise +6 dB) based on the measured floor noise level. The DSP 25 thereafter reads the peak-held level value of the sound pressure level detector at regular time intervals.
When it is determined that the speech has ended, the DSP 25 functions as a floor noise measurement, detects the start of speech, and updates the threshold for the detection level of speech end.

この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定出来され、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。   According to this method, since the floor noise level at the position where the microphone is placed is different in this threshold setting, a threshold can be set for each microphone, and erroneous determination in selection of the microphone by the noise source can be prevented.

処理2:周辺ノイズ(フロアノイズの大きい)部屋への対応
処理2は処理1ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
DSP25は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
DSP25は、発言開始閾値レベルは発言終了閾値レベルより大きく(たとえば、3dB以上の差)に設定する。
DSP25は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。
Process 2: Dealing with ambient noise (large floor noise) rooms Process 2 performs the following as a countermeasure when it is difficult to detect the start and end of speech when the floor level is high in Process 1 and the threshold level is automatically updated. .
The DSP 25 determines a threshold for the detection level of the speech start and the detection level of the speech end based on the predicted floor noise level.
The DSP 25 sets the speech start threshold level to be greater than the speech end threshold level (for example, a difference of 3 dB or more).
The DSP 25 reads the level value peak-held by the sound pressure level detector at regular time intervals.

この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度で発言開始が認識できる。   According to this method, since the threshold value is the same value for all microphones, the person who is behind the noise source and the person who is not so have the same voice volume and can recognize the start of speech.

発言開始判定
処理1:6個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
DSP25は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ16からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ16と全てのマイクロフォンMC1〜MC6との距離は同じであるから、受話再生スピーカ16からの音は全てのマイクロフォンMC1〜MC6にほぼ均等に到達するからである。
Talk start judgment
Process 1 : The output level of the sound pressure level detector corresponding to the six microphones is compared with the threshold value of the speech start level.
When the output level of the sound pressure level detector corresponding to all the microphones exceeds the threshold of the speech start level, the DSP 25 determines that the signal is from the reception / reproduction speaker 16 and does not determine that the speech is started. This is because the distance between the reception / reproduction speaker 16 and all the microphones MC1 to MC6 is the same, so that the sound from the reception / reproduction speaker 16 reaches almost all the microphones MC1 to MC6.

処理2:図4に図解した6個のマイクロフォンについての60度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に180度ずらした単一指向性マイク2本(マイクロフォンMC1とMC4、マイクロフォンMC2とMC5、マイクロフォンMC3とMC6)の3組構成し、マイク信号のレベル差を利用する。すなわち下記の演算を実行する。 Process 2 : Two unidirectional microphones (with microphones MC1 and MC1) with the directional axes shifted by 180 degrees in the opposite direction at an equal angle of 60 degrees with respect to the six microphones illustrated in FIG. Three sets of MC4, microphones MC2 and MC5, and microphones MC3 and MC6) are used, and the level difference of the microphone signal is used. That is, the following calculation is performed.

Figure 2005182140
Figure 2005182140

DSP25は上記絶対値[1],[2],[3]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理1のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので(受話再生スピーカ16からの音が全てのマイクロフォンに等しく到達するから)、受話再生スピーカ16からの音か話者からの音声かの判定は不要になる。
The DSP 25 compares the absolute values [1], [2], and [3] with the threshold value of the speech start level, and determines that the speech is started when the threshold value of the speech start level is exceeded.
In the case of this process, since all the absolute values do not become larger than the threshold value of the speech start level as in process 1 (because the sound from the reception / reproduction speaker 16 reaches all the microphones equally), the reception / reproduction speaker 16 It is not necessary to determine whether the sound is from the speaker or from the speaker.

発言者方向の検出処理
発言者方向の検出には図6に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図6に例示したように、周波数特性、レベル特性が変化する。その結果を図7(A)〜(D)に例示した。図7(A)〜(D)は、双方向通話装置1から所定距離、たとえば、1.5メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示す。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図15〜図18を参照して述べたマイク信号レベル変換処理からの5バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。
Speaker Direction Detection Processing For detecting the speaker direction, the characteristics of the unidirectional microphone illustrated in FIG. 6 are used. As illustrated in FIG. 6, the frequency characteristics and level characteristics of the unidirectional microphone change depending on the sound arrival angle from the speaker to the microphone. The results are illustrated in FIGS. 7 (A) to (D). FIGS. 7A to 7D show a fast Fourier transform (FFT) at a predetermined time interval for the sound collected by each microphone with a speaker placed at a predetermined distance from the two-way communication device 1, for example, a distance of 1.5 meters. ) Result. The X axis represents frequency, the Y axis represents signal level, and the Z axis represents time. The horizontal line represents the cut-off frequency of the band-pass filter, and the level of the frequency band sandwiched between the lines is the 5-band band pass from the microphone signal level conversion processing described with reference to FIGS.・ Data converted to sound pressure level through the filter.

本発明の1実施の形態としての双方向通話装置1における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理(1dBフルスパン(1dBFs)ステップなら0dBFsの時0、-3dBFsなら3というように、又はこの逆に)を行う。この重み付けのステップで処理の分解能が決まる。
1サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい(大きい)マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表7である。
A determination method applied as an actual process for detecting the direction of the speaker in the two-way communication device 1 as one embodiment of the present invention will be described.
Appropriate weighting processing is performed on the output level of each band-pass filter (0 for 1 dB full span (1 dBFs) step, 0 for 0 dBFs, 3 for -3 dBFs, or vice versa). This weighting step determines the processing resolution.
The above weighting process is executed for each sample clock, and the weighted score of each microphone is added and averaged with a fixed number of samples, and the microphone signal having a small (large) total score is determined as a microphone facing the speaker. To do. Table 7 below is an image of this result.

Figure 2005182140
Figure 2005182140

表7に例示したこの例では一番合計点が小さいのは第1マイクロフォンMC1なので、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定する。DSP25はその結果を音源方向マイク番号という形で保持する。
上述したように、DSP25は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい(または大きい)マイク信号順に順位をつけ、1位の順位が3つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)として、下記表8のような成績表を作成する。
In this example illustrated in Table 7, the smallest total point is the first microphone MC1, so the DSP 25 determines that there is a sound source in the direction of the first microphone MC1 (there is a speaker). The DSP 25 holds the result in the form of a sound source direction microphone number.
As described above, the DSP 25 performs weighting on the output level of the bandpass filter in the frequency band for each microphone, and ranks the microphone signals in the order of smaller (or larger) scores of the output of each bandbandpass filter. The microphone signal having the first rank in three or more bands is determined as the microphone facing the speaker. Then, the DSP 25 creates a score table as shown in Table 8 below assuming that there is a sound source in the direction of the first microphone MC1 (there is a speaker).

Figure 2005182140
Figure 2005182140

実際には部屋の特性により音の反射や定在波の影響で、必ずしも第1マイクロフォンMC1の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、5バンド中の過半数が1位であれば第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定することができる。DSP25はその結果を音源方向マイク番号という形で保持する。   Actually, the performance of the first microphone MC1 is not necessarily the best in the output of all bandpass filters due to the reflection of sound and the influence of standing waves depending on the characteristics of the room, but the majority in the 5 bands If it is 1st place, it can be determined that there is a sound source in the direction of the first microphone MC1 (there is a speaker). The DSP 25 holds the result in the form of a sound source direction microphone number.

DSP25は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表9に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。   The DSP 25 sums the output level data of each band band pass filter of each microphone in the form shown in Table 9 below, determines that the microphone signal having a high level is the microphone facing the speaker, and determines the result as the sound source direction microphone number. Hold in the form of.

Figure 2005182140
Figure 2005182140

発言者方向マイクの切り換えタイミング判定処理
図21のステップ2の発言開始判定結果により起動し、ステップ3の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、DSP25は、ステップ5のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、発光ダイオードLED1〜6へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し本双方向通話装置1が応答した事を知らせる。
Talker direction microphone switching timing determination processing When activated by the speech start determination result of step 2 in FIG. 21 and when a new speaker microphone is detected from the speaker direction detection processing result of step 3 and past selection information, The DSP 25 issues a microphone signal switching command to the microphone signal selection switching process in step 5 and notifies the light emitting diodes LED1 to 6 that the speaker microphone has been switched. Informs that the communication device 1 has responded.

反響の大きい部屋で、反射音や定在波の影響を除くため、DSP25は、マイクロフォンを切り換えてから発言終了判定時間(たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図21のステップ1のマイク信号レベル変換処理結果、および、ステップ3の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは2通りを準備する。
In order to eliminate the influence of reflected sound and standing waves in a room with high reverberation, the DSP 25 prohibits the activation of a new microphone selection command if the speech end determination time (for example, 0.5 seconds) has not elapsed after switching the microphone.
In this embodiment, two microphone selection switching timings are prepared from the result of the microphone signal level conversion process in step 1 in FIG. 21 and the result of the speaker direction detection process in step 3.

第1の方法:発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、DSP25は、全てのマイク信号レベル(1)とマイク信号レベル(2)が発言終了閾値レベル以下になってから発言終了判定時間(たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(1)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を開始する。
First method : When it is possible to clearly determine the start of speech When speech from the direction of the selected microphone has ended and there is a new speech from another direction.
In this case, the DSP 25 starts speaking after all the microphone signal level (1) and the microphone signal level (2) are equal to or lower than the speech end threshold level and more than the speech end determination time (for example, 0.5 seconds). When any microphone signal level (1) is equal to or higher than the speech start threshold level, it is determined that speech has started, and a microphone facing the speaker direction is properly collected based on the information of the microphone number in the sound source direction. The microphone is determined, and the microphone signal selection switching process in step 5 is started.

第2の方法:発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はDSP25は発言開始(マイク信号レベル(1)が閾値レベル以上になった時)から発言終了判定時間(たとえば、0.5 秒)以上経過してから判定処理を開始する。 発言終了検出前に、3の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、DSP25は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を起動する。
Second method : When there is a new louder voice from another direction while the voice is continuing In this case, the DSP 25 starts the voice from the start of the voice (when the microphone signal level (1) exceeds the threshold level) and the voice ends. The determination process starts after the determination time (for example, 0.5 seconds) has elapsed. If it is determined that the sound source direction microphone number from the process 3 is changed and is stable before the end of the speech is detected, the DSP 25 is more than the speaker currently selected for the microphone corresponding to the sound source direction microphone number. It is determined that there is a speaker who is speaking loudly, the sound source direction microphone is determined as a valid sound collecting microphone, and the microphone signal selection switching process in step 5 is started.

検出された発言者に対向したマイク信号の選択切り替え処理
DSP25は図21のステップ4の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
DSP25のマイク信号の選択切り替え処理は、図22に図解したように、6回路の乗算器と6入力の加算器で構成する。マイク信号を選択する為には、DSP25は選択したいマイク信号が接続されている乗算器のチャネルゲイン(チャネル利得:CH Gain)を〔1〕に、その他の乗算器のCH Gainを〔0〕とする事で、加算器には選択された(マイク信号×〔1])の信号と(マイク信号×〔0])の処理結果が加算されて希望のマイク選択信号が出力に得られる。
The microphone signal selection switching processing DSP 25 facing the detected speaker is activated by the command selected and determined by the command from the speaker direction microphone switching timing determination processing in step 4 of FIG.
The microphone signal selection switching process of the DSP 25 is composed of a 6-circuit multiplier and a 6-input adder as illustrated in FIG. In order to select the microphone signal, the DSP 25 sets the channel gain (channel gain: CH Gain) of the multiplier to which the microphone signal to be selected is connected to [1], and the CH gains of the other multipliers to [0]. By doing so, the selected signal of (microphone signal × [1]) and the processing result of (microphone signal × [0]) are added to the adder, and a desired microphone selection signal is obtained at the output.

上記の様にチャネルゲインを[1]か[0]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、双方向通話装置1では、図23に図解したように、CH Gainの変化を[1]から[0]へ、[0]から[1]へ変化するのに、切替遷移時間、たとえば、10m秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。   When the channel gain is switched between [1] and [0] as described above, there is a possibility that a click sound is generated due to the level difference of the microphone signal to be switched. Therefore, in the two-way communication device 1, as illustrated in FIG. 23, in order to change the change in CH Gain from [1] to [0] and from [0] to [1], for example, By continuously changing and crossing in a time of 10 milliseconds, the generation of a click sound due to the difference in the level of the microphone signal is avoided.

また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のDSP25におけるエコーキャンセル処理動作の調整を行うこともできる。   Further, by setting the maximum channel gain to other than [1], for example, [0.5], the echo cancellation processing operation in the DSP 25 at the subsequent stage can be adjusted.

上述したように、本発明の実施形態の通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。   As described above, the call device according to the embodiment of the present invention is not affected by noise, and can be effectively applied to a call device such as a conference.

本発明の実施形態の通話装置は構造面から下記の利点を有する。
(1)複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室(部屋)環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。
The communication device according to the embodiment of the present invention has the following advantages in terms of structure.
(1) The positional relationship between a plurality of microphones having a single directivity and the reception / reproduction speaker is constant, and furthermore, since the distance is very close, the sound emitted from the reception / reproduction speaker passes through the conference room (room) environment. The level that returns directly to the multiple microphones is overwhelmingly dominant. Therefore, the characteristics (signal level (intensity), frequency characteristics (f characteristic), phase) for sound to reach a plurality of microphones from the receiving / reproducing speaker are always the same. That is, there is an advantage that the transfer function is always the same in the communication device.

(2)それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。   (2) Therefore, there is no change in the transfer function when the microphone is switched, and there is an advantage that it is not necessary to adjust the gain of the microphone system every time the microphone is switched. In other words, there is an advantage that it is not necessary to start over once the adjustment is made at the time of manufacturing the communication device.

(3)上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ(DSP)で構成するエコーキャンセラが一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板にDSPを配置するスペースも少なくてよい。   (3) Even if the microphone is switched for the same reason as described above, only one echo canceller configured by a digital signal processor (DSP) may be used. The DSP is expensive, and the space for placing the DSP on a printed circuit board on which various members are mounted and there is little space may be small.

(4)受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±3dBもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。 (5)通話装置が搭載されるテーブルは、通常、円卓を用いるが、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散(閑散)するスピーカシステムが可能になった。   (4) Since the transfer function between the receiving / reproducing speaker and the plurality of microphones is constant, there is an advantage that the sensitivity difference of the microphone itself having ± 3 dB can be adjusted by the unit alone. (5) The table on which the communication device is mounted normally uses a round table, but a speaker system that evenly distributes sound of equal quality in all directions with one reception / reproduction speaker in the communication device can be realized. became.

(6)受話再生スピーカから出た音はテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音 と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。   (6) The sound emitted from the receiving / reproducing speaker is transmitted to the table surface (boundary effect), and the sound is effectively and evenly delivered to the conference participants, and the sound on the opposite side to the ceiling of the conference room. The phase is canceled to produce a small sound, and there is an advantage that the conference participant has less reflected sound from the ceiling direction, and as a result, a clear sound is distributed to the participant.

(7)受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。   (7) Since the sound emitted from the reception / reproduction speaker reaches all of the plurality of microphones at the same volume at the same time, it is easy to determine whether the sound is the speaker's voice or the reception voice. As a result, erroneous determination of microphone selection processing is reduced.

(8)偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。   (8) By arranging even number of microphones at equal intervals, level comparison for direction detection can be easily performed.

(9)緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に影響を低減することができる。   (9) Due to a damper using a cushioning material, a microphone support member having flexibility or elasticity, vibration due to the sound of the reception and reproduction speaker that can be transmitted through the printed circuit board on which the microphone is mounted is collected by the microphone. Can reduce the influence.

(10)受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この双方向通話装置においは受話再生スピーカからのノイズの影響が少ない。   (10) The sound of the receiving / reproducing speaker does not directly enter the microphone. Therefore, in this two-way communication device, the influence of noise from the reception / reproduction speaker is small.

上述した通話装置は信号処理面から下記の利点を有する。
(a)複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてS/Nの良い音、クリアな音を集音(収音)して、相手方に送信することができる。
(b)周辺の発言者からの音声をS/N良く集音して、発言者に対向したマイクを自動選択できる。
(c)本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事のレベルを比較する事で、信号分析を簡略化している。
(d)本発明のマイク信号切り換え処理をDSPの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
(e)マイク選択結果を、発光ダイオードなどの表示手段、または、外部への通知処理することができる。したがって、たとえば、テレビカメラへの発言者位置情報として活用することもできる。
The above communication device has the following advantages from the signal processing aspect.
(A) A plurality of unidirectional microphones are arranged radially at equal intervals so that the direction of the sound source can be detected, and the microphone signal is switched to collect (collect) sound with good S / N and clear sound. Can be sent to the other party.
(B) Sound from surrounding speakers can be collected with good S / N and a microphone facing the speaker can be automatically selected.
(C) In the present invention, signal analysis is simplified by dividing a passing voice frequency band as a method of microphone selection processing and comparing levels of the divided frequency bands.
(D) The microphone signal switching processing of the present invention is realized as DSP signal processing, and a plurality of signals are all cross-fade processed so as not to generate a clicking sound at the time of switching.
(E) The microphone selection result can be notified to display means such as a light emitting diode or to the outside. Therefore, for example, it can be used as speaker position information for a television camera.

第2の実施形態
以下、第2の実施形態に係る飲食店の受注装置について、添付図面に関連付けて説明する。
本実施形態に係る飲食店の受注装置(以下、受注装置)は、レストランや喫茶店等の飲食物を提供する飲食店において使用される装置であり、顧客の注文を音声によって受注する。
図24は、本実施形態における受注装置40の構成の1例を示した図である。
図24において、客席用テーブルT1に座るA1は飲食店の顧客であり、A2は飲食店のオーナー等の管理者であり、A3は飲食店の厨房におり、注文に応じて調理する調理人である。また、図24に示すように、本実施形態における受注装置40は、データ処理部100と、客用端末200と、店用端末300と、厨房用表示部400とを備えて構成される。各構成部分は、信号線900によって接続されている。
また、客用端末200は、各客席テーブルT1,T2に配設されている。
Second Embodiment Hereinafter, a restaurant order receiving apparatus according to a second embodiment will be described with reference to the accompanying drawings.
A restaurant order receiving device (hereinafter referred to as an order receiving device) according to the present embodiment is a device used in a restaurant that provides food and drink such as a restaurant or a coffee shop, and receives a customer order by voice.
FIG. 24 is a diagram showing an example of the configuration of the order receiving device 40 in the present embodiment.
In FIG. 24, A1 sitting on the table for passenger seat T1 is a restaurant customer, A2 is a manager such as a restaurant owner, and A3 is a cook who cooks according to orders in the restaurant kitchen. is there. As shown in FIG. 24, the order receiving device 40 in this embodiment includes a data processing unit 100, a customer terminal 200, a store terminal 300, and a kitchen display unit 400. Each component is connected by a signal line 900.
Further, the customer terminal 200 is disposed in each of the passenger seat tables T1, T2.

図25は、本実施形態に係る受注装置40のシステム構成の1例を示す図である。図26は、受注装置40のデータ処理部100のブロック図の1例を示す図である。
以下、図25,図26に関連付けて、受注装置40の各構成要素について説明する。
FIG. 25 is a diagram illustrating an example of a system configuration of the order receiving device 40 according to the present embodiment. FIG. 26 is a diagram illustrating an example of a block diagram of the data processing unit 100 of the order receiving device 40.
Hereinafter, each component of the order receiving device 40 will be described with reference to FIGS. 25 and 26.

受注装置40においては、図25に示すように、各構成要素間で信号線900を介した信号の授受を行う。
なお、前述したように、飲食店において、客用端末200は1つとは限らず、テーブルが複数ある場合には、各テーブル毎に配設される。各客用端末200は、データ処理部100によって、顧客テーブル番号として管理されている。
In the order receiving device 40, as shown in FIG. 25, signals are exchanged between the components via the signal line 900.
As described above, in the restaurant, the number of customer terminals 200 is not limited to one, and when there are a plurality of tables, they are arranged for each table. Each customer terminal 200 is managed as a customer table number by the data processing unit 100.

データ処理部100は、信号線900を介して、各テーブルに配設された客用端末200のマイクロフォン220からの音声信号S220を入力する。
本実施形態では、客用端末200のマイクロフォン220からの音声信号線は、各テーブル毎に独立の信号線(パラレル)であり、データ処理部100では、入力した音声信号により、対応する顧客テーブル番号を認識できるものとする。なお、各テーブルの客用端末200に対して共通線(シリアル)を接続し、各客用端末200から音声信号に顧客テーブル番号を重畳した信号を送出するように構成できることは無論である。
The data processing unit 100 inputs the audio signal S220 from the microphone 220 of the customer terminal 200 arranged in each table via the signal line 900.
In this embodiment, the audio signal line from the microphone 220 of the customer terminal 200 is an independent signal line (parallel) for each table, and the data processing unit 100 determines the corresponding customer table number according to the input audio signal. Can be recognized. It goes without saying that a common line (serial) can be connected to the customer terminal 200 of each table, and a signal in which the customer table number is superimposed on the voice signal can be transmitted from each customer terminal 200.

データ処理部100は、信号線900を介して、客用端末表示部210,店用端末表示部310および厨房用表示部400に対し、表示用制御信号S100を送出する。   The data processing unit 100 sends a display control signal S100 to the customer terminal display unit 210, the store terminal display unit 310, and the kitchen display unit 400 via the signal line 900.

図26に示すように、データ処理部100は、制御手段としてのCPU110と、音声認識手段としての音声認識処理部120と、音声認識メモリ130と、飲食物データファイル140、受注管理ファイル150とを有している。
CPU110は、受注装置40のデータ処理の全体制御を司っている。すなわち、CPU110は、客用端末200,店用端末300および厨房用表示部400との入出力制御およびタイミング制御や、音声認識処理部120,飲食物データファイル140および受注管理ファイル150に対するデータ処理などを実行する。
また、CPU110は、音声認識処理部120により注文に係る飲食物が特定されると、受注管理ファイル150を更新する。
さらに、受注管理ファイル150に基づいて、飲食物の受注状況を表示させるため、客用端末表示部210,店用端末表示部310および厨房用表示部400に対して、表示用制御信号S100を送出する。
その際、複数の客用端末表示部210に対して、それぞれ独立に表示用制御信号S100を送出し、注文がないテーブルの客用端末200の客用端末表示部210に対しては、飲食物データファイル140に基づいて、提供可能な飲食物データの一覧(いわゆるメニュー)を表示させるように、表示用制御信号S100を送出する。
As shown in FIG. 26, the data processing unit 100 includes a CPU 110 as a control unit, a voice recognition processing unit 120 as a voice recognition unit, a voice recognition memory 130, a food and drink data file 140, and an order management file 150. Have.
The CPU 110 controls the entire data processing of the order receiving device 40. That is, the CPU 110 performs input / output control and timing control with the customer terminal 200, the shop terminal 300, and the kitchen display unit 400, data processing for the voice recognition processing unit 120, the food and drink data file 140, and the order management file 150, and the like. Execute.
Moreover, CPU110 will update the order management file 150, if the food and drink which concerns on an order are specified by the speech recognition process part 120. FIG.
Furthermore, in order to display the order status of food and drink based on the order management file 150, a display control signal S100 is sent to the customer terminal display unit 210, the shop terminal display unit 310, and the kitchen display unit 400. To do.
At that time, a display control signal S100 is independently sent to each of the plurality of customer terminal display units 210, and food and drink are supplied to the customer terminal display unit 210 of the customer terminal 200 of the table where there is no order. Based on the data file 140, a display control signal S100 is transmitted so as to display a list of food and drink data that can be provided (so-called menu).

音声認識処理部120は、データ処理部100がマイクロフォン220から入力した顧客A1の注文に係る音声信号S220に基づいて、音声認識処理を行うことにより、注文に係る飲食物を特定する。
具体的には、先ず、マイクロフォン220から注文に係る音声信号S220を入力すると、入力された音声信号を分析し、後述するように、音声認識メモリ130に格納された音響モデルから音響的な特徴量(音響特徴)を抽出する。すなわち、入力された音声信号に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位(音素)ごとに音響特徴を抽出する。
The voice recognition processing unit 120 performs the voice recognition processing based on the voice signal S220 related to the order of the customer A1 input from the microphone 220 by the data processing unit 100, thereby specifying the food or drink related to the order.
Specifically, first, when an audio signal S220 related to an order is input from the microphone 220, the input audio signal is analyzed, and an acoustic feature amount is calculated from an acoustic model stored in the audio recognition memory 130, as will be described later. Extract (acoustic features). That is, an acoustic feature is extracted for each input sound signal for each basic sound unit used for speech recognition, that is, for each unit of small human pronunciation (phoneme) such as a consonant or a vowel.

さらに、音声認識処理部120は、音声信号から抽出した音素ごとの音響特徴を、音声認識メモリ130に格納された認識辞書と参照し、認識対象の文字列データの中で、入力された音声信号の各音素に最も近い候補を、音声認識結果(文字列データ)とする。すなわち、認識辞書には、音素単位の音響特徴に対応する文字列データが記述されているので、音声信号S220から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応する文字列データを選択する。   Furthermore, the speech recognition processing unit 120 refers to the acoustic features for each phoneme extracted from the speech signal with the recognition dictionary stored in the speech recognition memory 130, and inputs the speech signal input from the character string data to be recognized. The candidate closest to each phoneme is defined as a speech recognition result (character string data). That is, since the character string data corresponding to the acoustic features in phonemes is described in the recognition dictionary, the acoustic features extracted from the speech signal S220 are compared with the acoustic features described in the recognition dictionary. The character string data corresponding to the closest acoustic feature is selected.

上述したように、マイクロフォン220から入力した音声信号S220を文字列データに変換すると、音声認識処理部120は、変換した文字列データに基づいて注文内容に係る飲食物を特定し、飲食物データファイル140を参照して、特定した飲食物に対応する注文コードを、CPU110に出力する。その際、変換した文字列データに基づいて、注文に係る飲食物の数量のデータを、注文コードと併せてCPU110に出力する。   As described above, when the voice signal S220 input from the microphone 220 is converted into character string data, the voice recognition processing unit 120 identifies the food and drink related to the order contents based on the converted character string data, and the food and drink data file With reference to 140, an order code corresponding to the specified food or drink is output to CPU 110. At that time, based on the converted character string data, data on the quantity of food and drink related to the order is output to the CPU 110 together with the order code.

音声認識メモリ130には、上述した音響モデルと認識辞書が格納されている。
音響モデルは、人間の発音の小さな単位(音素)が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
認識辞書には、音声認識をさせる文字列データが記述されており、音素単位の音響特徴に対応する文字列データを参照することが可能となる。
The voice recognition memory 130 stores the above-described acoustic model and recognition dictionary.
In the acoustic model, a small unit (phoneme) of human pronunciation is described by an acoustic feature, and it is possible to refer to an acoustic feature corresponding to the phoneme unit of an audio signal. This acoustic feature is statistical acoustic feature information of phonemes obtained from the voices of many speakers.
Character string data for speech recognition is described in the recognition dictionary, and it is possible to refer to character string data corresponding to acoustic features in units of phonemes.

図27は、飲食物データファイル140および受注管理ファイル150の各ファイルを例示する図であり、(A)は飲食物データファイル140の1例を、(B)は受注管理ファイル150の1例を、それぞれ示す。
図27(A)に示すように、飲食物データファイル140は、飲食店が提供可能な飲食物と対応する注文コートが関連付けられて記憶されている。たとえば、「ラーメン」に対応する注文コードは、「0x02」である。
食材等の調達状況により、飲食店が提供可能な飲食物は随時変更されることがあり得るため、飲食物データファイル140は、外部から更新のためにアクセス可能に構成することが望ましい。
27A and 27B are diagrams illustrating examples of the food and drink data file 140 and the order management file 150. FIG. 27A shows an example of the food and drink data file 140, and FIG. 27B shows an example of the order management file 150. , Respectively.
As shown in FIG. 27 (A), the food / drink data file 140 is stored in association with food / beverage that can be provided by a restaurant and an order court corresponding to the food / drink. For example, the order code corresponding to “ramen” is “0x02”.
The food and drink data file 140 is preferably configured to be accessible for updating from the outside because the food and drink that can be provided by the restaurant may be changed from time to time depending on the procurement status of food and the like.

受注管理ファイル150は、飲食店に配置された顧客テーブルの番号(顧客テーブル番号)と各テーブルからの受注状況をCPU110が管理するためのファイルである。
図27(B)に示す例では、顧客テーブル番号1のテーブルに対して、注文コードがそれぞれ「0x02」,「0x03」である「ラーメン」,「餃子」を1つずつ受注している。
受注管理ファイル150のファイル内容は、音声認識処理部120からCPU110に供給される受注内容、すなわち、注文コードと数量のデータに基づいて、CPU110により更新される。また、注文された飲食物の提供が完了した場合には、受注管理ファイル150に記録された注文コードは、飲食店の従業者等が削除する必要があるので、受注管理ファイル150は、外部からアクセス可能に構成する。
The order management file 150 is a file for the CPU 110 to manage the customer table number (customer table number) arranged in the restaurant and the order status from each table.
In the example shown in FIG. 27B, orders for “ramen” and “gyoza” with order codes “0x02” and “0x03” are received one by one from the table of customer table number 1, respectively.
The file contents of the order management file 150 are updated by the CPU 110 based on the order contents supplied from the voice recognition processing unit 120 to the CPU 110, that is, the order code and quantity data. In addition, when the provision of the ordered food and drink is completed, the order code recorded in the order management file 150 needs to be deleted by an employee of the restaurant or the like. Configure to be accessible.

客用端末200は、図25に示すとおり、第1の表示手段としての客用端末表示部210とマイクロフォン220とを含んで構成される。
客用端末表示部210は、データ処理部100から供給される表示用制御信号S100に基づいて、飲食店で提供可能な飲食物の一覧および受注状況を表示する。
マイクロフォン220は、顧客の音声による注文を集音し、音声信号S220としてデータ処理部100に供給する。
As shown in FIG. 25, the customer terminal 200 includes a customer terminal display unit 210 and a microphone 220 as first display means.
Based on the display control signal S100 supplied from the data processing unit 100, the customer terminal display unit 210 displays a list of foods and drinks that can be provided at the restaurant and the order status.
The microphone 220 collects the customer's voice order and supplies it to the data processing unit 100 as an audio signal S220.

店用端末300は、第3の表示手段としての店用端末表示部310を含んで構成される。店用端末表示部310は、データ処理部100から供給される表示用制御信号S100に基づいて、顧客からの受注状況を表示する。
厨房用表示部400は、第2の表示手段としてのデータ処理部100から供給される表示用制御信号S100に基づいて、顧客からの受注状況を表示する。
The store terminal 300 includes a store terminal display unit 310 as a third display means. The shop terminal display unit 310 displays the order status from the customer based on the display control signal S100 supplied from the data processing unit 100.
The kitchen display section 400 displays the order status from the customer based on the display control signal S100 supplied from the data processing section 100 as the second display means.

以上、受注装置40の各構成要素について説明した。
次に、受注装置40の動作について、図24〜図27に関連付けて説明する。
以下の動作説明では、図24に示すように、受注装置40を備えた飲食店に顧客A1が来店し、テーブルT1において、「ラーメンと餃子をください。」と注文した場合を想定する。
なお、図24において、各テーブルに配設された客用端末200の客用端末表示部210の初期画面では、データ処理部100から表示用制御信号S100に基づいて、提供可能な飲食物データの一覧(いわゆるメニュー)を表示されており、顧客A1は、提供可能な飲食物データの一覧の中から飲食物を選択して注文する。
Heretofore, each component of the order receiving device 40 has been described.
Next, the operation of the order receiving device 40 will be described with reference to FIGS.
In the following description of the operation, as shown in FIG. 24, it is assumed that the customer A1 comes to a restaurant equipped with the order receiving device 40 and orders “Please give ramen and dumplings” at the table T1.
In addition, in FIG. 24, in the initial screen of the customer terminal display unit 210 of the customer terminal 200 arranged in each table, based on the display control signal S100 from the data processing unit 100, the food and drink data that can be provided is displayed. A list (so-called menu) is displayed, and the customer A1 selects and orders food and drink from a list of food and drink data that can be provided.

先ず、顧客A1の「ラーメンと餃子をください。」という音声による注文が、テーブルT1に配置された客用端末200に内蔵されたマイクロフォン220に集音される。
マイクロフォン220に集音されたアナログの音声信号は、ディジタル信号に変換された後、信号線S900を介して、信号S220としてデータ処理部100に供給される。なお、マイクロフォン220に集音された音声信号は、アナログ信号のままデータ処理部100に供給され、データ処理部100側でディジタル信号に変換されてもよい。
First, an order by voice of “Please give ramen and dumplings” of customer A1 is collected by microphone 220 built in customer terminal 200 arranged on table T1.
The analog audio signal collected by the microphone 220 is converted into a digital signal, and then supplied to the data processing unit 100 as a signal S220 via the signal line S900. Note that the audio signal collected by the microphone 220 may be supplied to the data processing unit 100 as an analog signal and converted to a digital signal on the data processing unit 100 side.

データ処理部100では、各テーブルから信号線をパラレルに入力しているので、入力した音声信号がテーブルT1からの注文に係る音声信号であることを認識する。
入力した音声信号S220は、図26に示すように、先ず、音声認識処理部120において音声認識処理され、注文内容が特定される。
すなわち、
(1)入力した音声信号S220を分析し、音声認識メモリ130に格納された音響モデルから音響的な特徴量(音響特徴)を抽出し、
(2)抽出した音素ごとの音響特徴を、音声認識メモリ130に格納された認識辞書と参照し、認識対象の文字列データの中で、入力された音声信号の各音素に最も近い候補を、音声認識結果(文字列データ)とし、
(3)変換した文字列データに基づいて注文内容に係る飲食物を特定し、飲食物データファイル140を参照して、特定した飲食物に対応する注文コードを、CPU110に出力する。その際、変換した文字列データに基づいて、注文に係る飲食物の数量のデータを、注文コードと併せてCPU110に出力する。
以上の処理の結果、音声認識処理部120では、音声信号S220に基づいて、「ラーメン」と「餃子」の文字列データが抽出され、「ラーメン」と「餃子」に対応する注文コード「0x02」,「0x03」が飲食物データファイル140から参照され(図27(A)参照)、それぞれの数量についての文字列データは抽出されなかったので、それぞれ1個ずつであると擬制され、CPU110に出力される。
Since the data processing unit 100 inputs signal lines from each table in parallel, it recognizes that the input audio signal is an audio signal related to an order from the table T1.
As shown in FIG. 26, the input voice signal S220 is first subjected to voice recognition processing in the voice recognition processing unit 120, and the order contents are specified.
That is,
(1) The input audio signal S220 is analyzed, and an acoustic feature amount (acoustic feature) is extracted from the acoustic model stored in the speech recognition memory 130;
(2) The acoustic feature for each extracted phoneme is referred to the recognition dictionary stored in the speech recognition memory 130, and the candidate closest to each phoneme of the input speech signal in the character string data to be recognized is Use voice recognition results (character string data)
(3) Based on the converted character string data, the food and drink related to the order contents are specified, and the order code corresponding to the specified food and drink is output to the CPU 110 with reference to the food and drink data file 140. At that time, based on the converted character string data, data on the quantity of food and drink related to the order is output to the CPU 110 together with the order code.
As a result of the above processing, the speech recognition processing unit 120 extracts character string data of “ramen” and “gyoza” based on the audio signal S220, and the order code “0x02” corresponding to “ramen” and “gyoza”. , “0x03” is referred to from the food / drink data file 140 (see FIG. 27A), and the character string data for each quantity is not extracted. Is done.

注文コードと数量のデータを入力したCPU110は、先ず、受注管理ファイル150を更新する。具体的には、図27(B)に示すように、入力した注文コードと数量のデータに基づいて、テーブルT1の顧客テーブル番号1に対応する注文コードおよびその数量に対してデータ書込みを行う。
さらに、CPU110は、図26に示すように、更新した受注管理ファイル150に基づいて、テーブルT1の客用端末200,店用端末300および厨房用表示部400に対し、信号線900を介して、受注結果を表示させるための表示用制御信号S100を送出する。
これにより、図24に示すように、顧客A1は、自分が音声により発注した飲食物が正しく受注されたことを認識でき、飲食店の管理者A2は、受注内容に基づいて伝票業務や在庫補充業務等を行うことができ、厨房の料理人A3は、発注に係る飲食物を認識してすぐに調理に取りかかることができる。
The CPU 110 that has input the order code and quantity data first updates the order management file 150. Specifically, as shown in FIG. 27B, based on the input order code and quantity data, data is written to the order code corresponding to the customer table number 1 in the table T1 and its quantity.
Further, as shown in FIG. 26, the CPU 110 connects the customer terminal 200, the shop terminal 300, and the kitchen display unit 400 of the table T <b> 1 via the signal line 900 based on the updated order management file 150. A display control signal S100 for displaying the order reception result is transmitted.
As a result, as shown in FIG. 24, the customer A1 can recognize that the food and drink ordered by himself / herself has been correctly ordered, and the restaurant manager A2 can manage the voucher and the inventory replenishment based on the contents of the order. The kitchen chef A3 can start cooking immediately after recognizing the food and drink related to the order.

以上説明したように、本実施形態に係る受注装置40によれば、受注状況を集中管理するデータ処理部100と、顧客に対する飲食物の提供場所に配設された客用端末200と、飲食店の管理場所に配設された店用端末300と、飲食店の厨房に配設された厨房用表示部400とを有し、客用端末200のマイクロフォン220が、顧客の飲食物の注文に係る音声信号を入力し、データ処理部100がその音声信号に基づいて音声認識処理により注文内容を特定し、受注管理ファイル150を更新し、更新された受注管理ファイル150に基づいて、客用端末200の客用端末表示部210,店用端末300の店用端末表示部310および厨房用表示部400に受注結果を表示させるので、以下の効果を得ることができる。   As described above, according to the order receiving device 40 according to the present embodiment, the data processing unit 100 that centrally manages the order receiving status, the customer terminal 200 disposed in a place where food and drink are provided to customers, the restaurant The store terminal 300 disposed in the management place of the restaurant and the kitchen display section 400 disposed in the restaurant kitchen, and the microphone 220 of the customer terminal 200 relates to the order of the customer's food and drink The voice signal is input, the data processing unit 100 specifies the order contents by voice recognition processing based on the voice signal, updates the order management file 150, and the customer terminal 200 based on the updated order management file 150. Since the order receiving result is displayed on the customer terminal display unit 210, the store terminal display unit 310 of the store terminal 300, and the kitchen display unit 400, the following effects can be obtained.

すなわち、
(1)顧客の飲食物の注文を音声により受注するので、人手が要らず、飲食店の経営者にとっては、その分の人件費が節約できる。
(2)飲食店に来店した顧客は、来店後に音声で客用端末200に対して注文するだけでよいので、ウェートレスが注文を取りに来る等の受注に係る無駄時間がなく、結果的に注文された飲食物を迅速に提供できるので、顧客満足度が向上する。
(3)追加注文がある場合にも、顧客は、わざわざウェートレス等を呼ぶ必要がなく、煩雑でないため、結果的に顧客満足度が向上する。
(4)受注された飲食物は、データ処理部100により集中管理され、店用端末表示部310および厨房用表示部400にすぐに注文内容が表示されるので、迅速に注文に係る飲食物の調理を開始でき、迅速に飲食店の管理業務(会計、仕入れ等)を行うことができる。さらに、顧客が注文した飲食物と実際に提供される飲食物が一致しないという問題は生じない。
That is,
(1) Since orders for customers' food and drink are received by voice, there is no need for manpower, and the restaurant manager can save labor costs accordingly.
(2) Since the customer who has visited the restaurant only needs to place an order for the customer terminal 200 by voice after coming to the restaurant, there is no wasted time related to ordering such as a waitress taking an order. Since the ordered food and drink can be provided quickly, customer satisfaction is improved.
(3) Even when there is an additional order, the customer does not have to bother to call a waitress or the like and is not cumbersome. As a result, customer satisfaction is improved.
(4) The ordered food and drink is centrally managed by the data processing unit 100, and the order details are immediately displayed on the shop terminal display unit 310 and the kitchen display unit 400. Cooking can be started and restaurant management operations (accounting, purchasing, etc.) can be performed quickly. Furthermore, the problem that the food and drink ordered by the customer does not match the food and drink actually provided does not occur.

なお、本実施形態は、上述した内容に拘泥せず、様々な改変が可能である。
たとえば、
(1)データ処理部100に言語変換機能を付加すれば、マイクロフォン220が入力する様々な言語による音声を認識して、注文内容を特定することができる。
(2)客用端末表示部210に表示させる内容として、様々な内容を付加することができる。たとえば、注文の飲食物に係る会計結果やポイントサービス、イベント内容の告知等が考えられる。
(3)データ処理部100は受注内容を集中管理しているので、飲食物に係る材料仕入れや会計等の処理システムと連携させることも可能である。
(4)上述した実施形態では、信号線900により信号伝達することとしたが、客用端末200や店用端末300等の設置自由度を向上させるため、無線通信により行ってもよい。
(5)客用端末200にスピーカを付加し、さらに実用度を向上させることもできる。たとえば、「いらっしゃいませ」や「注文をお受けしました。」といった音声をスピーカに出力させることが考えられる。この場合には、データ処理部100に音声合成処理部を付加する必要がある。
Note that the present embodiment is not limited to the above-described contents, and various modifications can be made.
For example,
(1) If a language conversion function is added to the data processing unit 100, it is possible to recognize voices in various languages input by the microphone 220 and specify order contents.
(2) Various contents can be added as contents to be displayed on the customer terminal display unit 210. For example, accounting results and point services related to ordered foods and drinks, notification of event contents, and the like can be considered.
(3) Since the data processing unit 100 centrally manages the order contents, the data processing unit 100 can also be linked with a processing system such as material procurement and accounting for food and drink.
(4) In the above-described embodiment, the signal is transmitted through the signal line 900. However, in order to improve the degree of freedom of installation of the customer terminal 200, the store terminal 300, and the like, it may be performed by wireless communication.
(5) A speaker can be added to the customer terminal 200 to further improve the practicality. For example, it may be possible to output sound such as “I welcome you” or “I received an order” to the speaker. In this case, it is necessary to add a speech synthesis processing unit to the data processing unit 100.

第3の実施形態
次に、第3の実施形態に係る受注装置について説明する。
第3の実施形態に係る受注装置では、各テーブルに複数の顧客が存在する場合にも、各顧客毎に飲食物を受注することを可能とする装置である。
そのために、第3の実施形態に係る受注装置40aは、第2の実施形態に係る受注装置40と比較して、特に客用端末200が大きく異なる。
Third Embodiment Next, an order receiving apparatus according to a third embodiment will be described.
In the order receiving device according to the third embodiment, even when there are a plurality of customers in each table, the order receiving device can receive food and drink for each customer.
Therefore, in particular, the order receiving device 40a according to the third embodiment is greatly different from the order receiving device 40 according to the second embodiment in the customer terminal 200.

図28は、第3の実施形態に係る飲食店の受注装置40aの適用例を示す図である。
以下、第2の実施形態に係る受注装置40と比較して、本実施形態の受注装置40aの異なる構成(第2の実施形態と符号が異なる部位)について、以下説明する。
客用端末200aは、客用端末200のマイクロフォン220の代わりに、第1の実施形態で説明した双方向通話装置1(通話装置1)である本発明マイクロフォン選択手段としてのマイクロフォン選択部230を有する。
FIG. 28 is a diagram illustrating an application example of the order receiving device 40a for a restaurant according to the third embodiment.
Hereinafter, as compared with the order receiving device 40 according to the second embodiment, a different configuration of the order receiving device 40a according to the present embodiment (a portion having a reference numeral different from that of the second embodiment) will be described below.
The customer terminal 200a has a microphone selection unit 230 as the microphone selection means of the present invention which is the two-way communication device 1 (call device 1) described in the first embodiment, instead of the microphone 220 of the customer terminal 200. .

マイクロフォン選択部230は、全方位に均等に配置した指向性マイクロフォンを備えているので、図28に示すように、顧客A1,A1a等を含むテーブルT1に座るすべての顧客の受注に係る音声信号を捉えるべく、極力テーブルT1の中央部に配置される。
客用端末200aは、データ処理部に出力する音声信号S220として、マイクロフォン選択部230に内蔵されたDSP26のD/A変換器281に供給される音声ディジタル信号を送出する(図5を参照)。
さらに、マイクロフォン選択部230に内蔵されたDSP25の出力であるマイク選択結果(図5を参照)を、音声信号S220に重畳させて、または、独立した別の信号線によりデータ処理部100aに送出する。これにより、データ処理部100a側では、入力した音声信号S220が、テーブルT1のどこに座っている顧客からの注文であるかについて認識することができる。
Since the microphone selection unit 230 includes directional microphones that are uniformly arranged in all directions, as shown in FIG. 28, the audio signals related to orders of all customers sitting on the table T1 including the customers A1, A1a, etc. In order to catch, it arrange | positions in the center part of table T1 as much as possible.
The customer terminal 200a transmits an audio digital signal supplied to the D / A converter 281 of the DSP 26 built in the microphone selection unit 230 as the audio signal S220 output to the data processing unit (see FIG. 5).
Furthermore, the microphone selection result (see FIG. 5), which is the output of the DSP 25 built in the microphone selection unit 230, is superimposed on the audio signal S220 or sent to the data processing unit 100a through another independent signal line. . Thereby, on the data processing unit 100a side, it is possible to recognize where the input audio signal S220 is an order from a customer sitting in the table T1.

データ処理部100aは、第2の実施形態に係るデータ処理部100と異なり、マイクロフォン選択部230からのマイク選択結果に基づいて、各テーブルの座席位置毎に受注状況を管理する。そのため、マイクロフォン選択部230の各指向性マイクロフォンが各テーブルのどの位置を指向するかについては、あらかじめ登録しておく。
データ処理部100aの受注管理ファイル150a(図示しない)は、上述した各テーブルの座席位置単位での管理を行うため、図27(B)に示した第2の実施形態における受注管理ファイル150と異なり、各顧客テーブル番号の座席位置データ毎に、注文コードと数量データを管理する。
データ処理部100aは、注文に応じて更新した受注管理ファイル150aに基づいて、客用端末表示部210,店用端末表示部310および厨房用表示部400が各テーブルの座席位置毎に受注状況を表示するように、表示用制御信号S100を送出する。
Unlike the data processing unit 100 according to the second embodiment, the data processing unit 100a manages the order reception status for each seat position of each table based on the microphone selection result from the microphone selection unit 230. Therefore, it is registered in advance as to which position of each table each directional microphone of the microphone selection unit 230 is directed.
The order management file 150a (not shown) of the data processing unit 100a is different from the order management file 150 in the second embodiment shown in FIG. 27B in order to perform management in units of seat positions of each table described above. The order code and quantity data are managed for each seat position data of each customer table number.
Based on the order management file 150a updated according to the order, the data processing unit 100a allows the customer terminal display unit 210, the store terminal display unit 310, and the kitchen display unit 400 to display the order reception status for each seat position of each table. A display control signal S100 is transmitted so as to be displayed.

以上説明したように、本実施形態に係る受注装置40aによれば、第1の実施形態で説明した通話装置の特徴を備えたマイクロフォン選択部230を有し、マイクロフォン選択部230が出力する音声信号により受注を行っているので、下記の効果が得られる。
すなわち、
(1)マイクロフォン選択部230は全方位に配置した指向性マイクロフォンを備えているので、テーブルの各方向に位置する複数の顧客からの音声による注文を処理することが可能である。
(2)テーブルの各方向に位置する顧客が同時に発話した場合でも、客用端末200aのマイクロフォン選択部230は、音圧レベルの高いマイクロフォンを選択して、選択したマイクロフォンの音声信号をデータ処理部100aに供給するため、主の注文に係る音声信号のみをデータ処理部100aは処理する。したがって、データ処理部100aの音声認識処理部120は、複数の音声が混在した音声信号を音声認識処理することがなく、正しく処理を行うことができる。
結果として、順番に各テーブルの顧客の注文を処理することができる。
(3)複数のマイクロフォンを各顧客に対して使用する必要がなく、各テーブルの中央に1つのマイクロフォン選択部230を配置すればよいので、顧客に対して違和感がない状態で、上述の効果を得ることができる。
As described above, the order receiving device 40a according to the present embodiment has the microphone selection unit 230 having the features of the communication device described in the first embodiment, and the audio signal output by the microphone selection unit 230. The following effects can be obtained.
That is,
(1) Since the microphone selection unit 230 includes directional microphones arranged in all directions, it is possible to process voice orders from a plurality of customers located in each direction of the table.
(2) Even when customers located in each direction of the table speak at the same time, the microphone selection unit 230 of the customer terminal 200a selects a microphone with a high sound pressure level, and the audio signal of the selected microphone is a data processing unit. In order to supply to 100a, the data processor 100a processes only the audio signal related to the main order. Therefore, the voice recognition processing unit 120 of the data processing unit 100a can correctly perform processing without performing voice recognition processing on a voice signal in which a plurality of voices are mixed.
As a result, customer orders in each table can be processed in turn.
(3) Since there is no need to use a plurality of microphones for each customer and only one microphone selection unit 230 is arranged at the center of each table, the above-described effects can be obtained without feeling uncomfortable for the customers. Can be obtained.

なお、本実施形態は、上述した内容に拘泥せず、様々な改変が可能である。
たとえば、各テーブルが円卓であって、多くの人間が1つのテーブルに座る場合でも、マイクロフォン選択部230が全方位に均等に備える指向性マイクロフォンの数をその分増やすように構成すれば、各座席位置毎に受注することが可能である。
Note that the present embodiment is not limited to the above-described contents, and various modifications can be made.
For example, even if each table is a round table and many people are sitting on one table, if the microphone selection unit 230 is configured to increase the number of directional microphones provided uniformly in all directions, each seat It is possible to receive an order for each position.

(A)は双方向通話装置が適用される1例しての会議システムの概要を示す図であり、(B)は(A)における通話装置が載置される状態を示す図であり、(C)はテーブルに載置された通話装置と会議参加者との配置を示す図である。(A) is a figure which shows the outline | summary of the conference system as an example to which a two-way communication apparatus is applied, (B) is a figure which shows the state in which the telephone apparatus in (A) is mounted, (C) is a diagram showing the arrangement of the communication device placed on the table and the conference participants. 双方向通話装置の斜視図である。It is a perspective view of a two-way communication device. 図1に図解した双方向通話装置の内部断面図である。FIG. 2 is an internal sectional view of the two-way communication device illustrated in FIG. 1. 図1に図解した双方向通話装置の上部カバーを取り外したマイクロフォン・電子回路収容部の平面図である。FIG. 2 is a plan view of a microphone / electronic circuit housing unit from which an upper cover of the two-way communication device illustrated in FIG. 1 is removed. マイクロフォン・電子回路収容部の主要回路の接続状態を示す図であり、第1のディジタルシグナルプロセッサ(DSP1)および第2のディジタルシグナルプロセッサ(DSP2)の接続の接続状態を示している。It is a figure which shows the connection state of the main circuit of a microphone and an electronic circuit accommodating part, and has shown the connection state of the connection of a 1st digital signal processor (DSP1) and a 2nd digital signal processor (DSP2). 図4に図解したマイクロフォンの特性図である。FIG. 5 is a characteristic diagram of the microphone illustrated in FIG. 4. (A)〜(D)は、図6に図解した特性を持つマイクロフォンの指向性を分析した結果を示すグラフである。(A)-(D) is a graph which shows the result of having analyzed the directivity of the microphone which has the characteristic illustrated in FIG. 双方向通話装置の変形態様の部分構成図である。It is a partial block diagram of the deformation | transformation aspect of a two-way communication apparatus. 第1のディジタルシグナルプロセッサ(DSP1)における全体処理内容の概要を示すグラフである。It is a graph which shows the outline | summary of the whole processing content in a 1st digital signal processor (DSP1). 双方向通話装置のノイズ測定方法の第1形態を示すフローチャートである。It is a flowchart which shows the 1st form of the noise measuring method of a two-way communication apparatus. 双方向通話装置のノイズ測定方法の第2形態を示すフローチャートである。It is a flowchart which shows the 2nd form of the noise measuring method of a two-way communication apparatus. 双方向通話装置のノイズ測定方法の第3形態を示すフローチャートである。It is a flowchart which shows the 3rd form of the noise measuring method of a two-way communication apparatus. 双方向通話装置のノイズ測定方法の第4形態を示すフローチャートである。It is a flowchart which shows the 4th form of the noise measuring method of a two-way communication apparatus. 双方向通話装置のノイズ測定方法の第5形態を示すフローチャートである。It is a flowchart which shows the 5th form of the noise measuring method of a two-way communication apparatus. 通話装置内のフィルタリング処理を示す図面である。It is drawing which shows the filtering process in a telephone apparatus. 図15の処理結果を示す周波数特性図である。It is a frequency characteristic figure which shows the process result of FIG. バンドパス・フィルタリング処理とレベル変換処理を示すブロック図である。It is a block diagram which shows a band pass filtering process and a level conversion process. 図17の処理を示すフローチャートである。It is a flowchart which shows the process of FIG. 双方向通話装置の発言開始、終了を判定する処理を示すグラフである。It is a graph which shows the process which determines the speech start and completion | finish of a two-way communication apparatus. 双方向通話装置の通常処理の流れを示すグラフである。It is a graph which shows the flow of the normal process of a two-way communication apparatus. 双方向通話装置の通常処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the normal process of a two-way communication apparatus. 双方向通話装置のマイクロフォン切り替え処理を図解したブロック図である。It is the block diagram which illustrated the microphone switching process of a two-way communication apparatus. 双方向通話装置のマイクロフォン切り替え処理の方法を図解したブロック図である。It is the block diagram which illustrated the method of the microphone switching process of a two-way communication apparatus. 第2の実施形態に係る飲食店の受注装置の適用例を示す図である。It is a figure which shows the application example of the order receiving apparatus of the restaurant which concerns on 2nd Embodiment. 飲食店の受注装置のシステム構成の1例を示す図である。It is a figure which shows one example of the system configuration | structure of the order receiving apparatus of a restaurant. 飲食店の受注装置のデータ処理部の構成の1例を示す図である。It is a figure which shows one example of a structure of the data processing part of the order receiving apparatus of a restaurant. 飲食店の受注装置で管理するファイルを例示する図である。It is a figure which illustrates the file managed with the order receiving apparatus of a restaurant. 第3の実施形態に係る飲食店の受注装置の適用例を示す図である。It is a figure which shows the application example of the order receiving apparatus of the restaurant which concerns on 3rd Embodiment.

符号の説明Explanation of symbols

1…双方向通話装置、MC1〜MC6…マイクロフォン、16…受話スピーカ、23…マイクロプロセッサ、24…コーデック、25…第1のディジタルシグナルプロセッサ(DSP1)、26…第2のディジタルシグナルプロセッサ(DSP2)、27…A/D変換器ブロック、28…D/A変換器ブロック、29…増幅器ブロック、40,40a…受注装置、100,100a…データ処理部、110…CPU、120…音声認識処理部、130…音声認識メモリ、140…飲食物データファイル、150…受注管理ファイル、200,200a…客用端末、210…客用端末表示部、220…マイクロフォン、230…マイクロフォン選択部、300…店用端末、310…店用端末表示部、400…厨房用表示部。   DESCRIPTION OF SYMBOLS 1 ... Two-way communication apparatus, MC1-MC6 ... Microphone, 16 ... Reception speaker, 23 ... Microprocessor, 24 ... Codec, 25 ... 1st digital signal processor (DSP1), 26 ... 2nd digital signal processor (DSP2) 27 ... A / D converter block, 28 ... D / A converter block, 29 ... amplifier block, 40,40a ... order receiving device, 100,100a ... data processing unit, 110 ... CPU, 120 ... voice recognition processing unit, DESCRIPTION OF SYMBOLS 130 ... Voice recognition memory, 140 ... Food and drink data file, 150 ... Order management file, 200, 200a ... Customer terminal, 210 ... Customer terminal display part, 220 ... Microphone, 230 ... Microphone selection part, 300 ... Shop terminal 310 ... Store terminal display unit, 400 ... Kitchen display unit.

Claims (5)

顧客の注文を音声により受注して飲食物を提供する飲食店の受注装置であって、
前記飲食店の飲食物の提供場所に配設され、提供可能な複数の飲食物の一覧を表示する第1の表示手段と、
前記飲食店の飲食物の提供場所に配設され、音声による顧客の注文を集音するマイクロフォンと、
前記飲食店の調理場所に配設される第2の表示手段と、
前記マイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定する音声認識手段と、
前記音声認識手段により特定された飲食物を、第1の表示手段および第2の表示手段に表示させる制御手段と
を具備する飲食店の受注装置。
An order receiving device of a restaurant that provides a food by receiving a customer order by voice,
First display means for displaying a list of a plurality of foods and drinks that can be provided and provided at a place where food and drink is provided in the restaurant;
A microphone that is arranged at a place to provide food and drink at the restaurant and collects customer orders by voice;
Second display means disposed at a cooking place of the restaurant;
Voice recognition means for performing voice recognition based on the voice collected by the microphone, and identifying food and drink related to the customer's order from the plurality of food and drink based on the result of the voice recognition;
An order receiving apparatus for a restaurant comprising: control means for displaying food and drink specified by the voice recognition means on the first display means and the second display means.
前記飲食店の飲食物の注文状況を管理する管理場所に配設される第3の表示手段をさらに有し、
前記制御手段は、
前記音声認識手段により特定された飲食物を、第1の表示手段,第2の表示手段および第3の表示手段に表示させる
請求項1記載の飲食店の受注装置。
And further comprising third display means disposed in a management place for managing the order status of food and drink at the restaurant,
The control means includes
The order receiving apparatus for a restaurant according to claim 1, wherein the food and drink specified by the voice recognition means are displayed on the first display means, the second display means and the third display means.
複数の飲食物の提供場所がある場合、
前記第1の表示手段と前記マイクロフォンは、各提供場所に配設され、
前記制御手段は、前記各提供場所毎に、前記音声認識手段が特定した飲食物を管理する 請求項1記載の飲食店の受注装置。
If there are multiple food and beverage provision locations,
The first display means and the microphone are disposed at each providing place,
The restaurant order receiving apparatus according to claim 1, wherein the control unit manages the food and drink specified by the voice recognition unit for each of the providing locations.
顧客の注文を音声により受注して飲食物を提供する飲食店の受注装置であって、
前記飲食店の飲食物の提供場所に配設され、提供可能な複数の飲食物の一覧を表示する第1の表示手段と、
前記飲食店の飲食物の提供場所に配設され、指向性を有する少なくとも2つのマイクロフォンをそれぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択するマイクロフォン選択手段と、
前記飲食店の調理場所に配設される第2の表示手段と、
前記マイクロフォン選択手段により選択された1つのマイクロフォンが集音した音声に基づいて音声認識を行い、前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定する音声認識手段と、
前記音声認識手段により特定された飲食物を、第1の表示手段および第2の表示手段に表示させる制御手段と
を具備する飲食店の受注装置。
An order receiving device of a restaurant that provides a food by receiving a customer order by voice,
First display means for displaying a list of a plurality of foods and drinks that can be provided and provided at a place where food and drink is provided in the restaurant;
Based on the sound pressure collected by the microphones, the microphones are arranged at the food and beverage provision location of the restaurant and arranged to direct at least two microphones having different directivities, respectively. A microphone selection means for selecting a microphone;
Second display means disposed at a cooking place of the restaurant;
Voice recognition is performed based on the voice collected by one microphone selected by the microphone selection means, and the food and drink related to the customer's order is selected from the plurality of food and drink based on the result of the voice recognition. A voice recognition means to identify;
An order receiving apparatus for a restaurant comprising: control means for causing the first display means and the second display means to display the food and drink specified by the voice recognition means.
顧客の注文を音声により受注して飲食物を提供する飲食店の受注方法であって、
前記飲食店の飲食物の提供場所に配設された第1の表示部に、提供可能な複数の飲食物の一覧を表示し、
前記飲食店の飲食物の提供場所に配設されたマイクロフォンにより、音声による顧客の注文を集音し、
前記マイクロフォンが集音した音声に基づいて音声認識を行い、
前記音声認識の結果に基づいて、前記複数の飲食物の中から前記顧客の注文に係る飲食物を特定し、
特定された飲食物を、前記第1の表示部と前記飲食店の調理場所に配設された第2の表示部とに表示させる
飲食店の受注方法。
An ordering method for a restaurant that provides a food by receiving a customer order by voice,
A list of a plurality of foods and drinks that can be provided is displayed on the first display unit disposed in the place where the food and drink is provided in the restaurant,
Collecting customer orders by voice by using a microphone arranged at a place where food and drink is provided in the restaurant,
Perform voice recognition based on the voice collected by the microphone,
Based on the result of the voice recognition, the food and drink related to the customer's order is identified from the plurality of food and drink,
A method for ordering a restaurant, wherein the identified food and drink are displayed on the first display unit and the second display unit disposed at the cooking place of the restaurant.
JP2003417943A 2003-12-16 2003-12-16 Order receiving equipment at restaurants Expired - Lifetime JP4379105B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003417943A JP4379105B2 (en) 2003-12-16 2003-12-16 Order receiving equipment at restaurants

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003417943A JP4379105B2 (en) 2003-12-16 2003-12-16 Order receiving equipment at restaurants

Publications (2)

Publication Number Publication Date
JP2005182140A true JP2005182140A (en) 2005-07-07
JP4379105B2 JP4379105B2 (en) 2009-12-09

Family

ID=34780291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003417943A Expired - Lifetime JP4379105B2 (en) 2003-12-16 2003-12-16 Order receiving equipment at restaurants

Country Status (1)

Country Link
JP (1) JP4379105B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007181099A (en) * 2005-12-28 2007-07-12 Yamaha Corp Voice playing and picking-up apparatus
JP2017162027A (en) * 2016-03-07 2017-09-14 セイコーソリューションズ株式会社 Order input device and order input method
CN111081240A (en) * 2019-11-18 2020-04-28 北京小米移动软件有限公司 Voice ordering method, device and system and computer readable storage medium
CN111128148A (en) * 2019-11-18 2020-05-08 北京小米移动软件有限公司 Voice ordering method, device, system and computer readable storage medium
CN111612444A (en) * 2020-05-20 2020-09-01 重庆好未来智能科技有限公司 Intelligent ordering system and method for intelligent restaurant
WO2021137431A1 (en) * 2020-01-02 2021-07-08 박성진 Ai-based voice ordering system and method therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273298A (en) * 1991-02-28 1992-09-29 Fujitsu Ltd Voice recognition device
JPH07336790A (en) * 1994-06-13 1995-12-22 Nec Corp Microphone system
JP2003085255A (en) * 2001-09-11 2003-03-20 Teruo Natsume Order processing system
JP2003087890A (en) * 2001-09-14 2003-03-20 Sony Corp Voice input device and voice input method
JP2003122966A (en) * 2001-10-12 2003-04-25 Seiko Instruments Inc Wireless type order data control device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273298A (en) * 1991-02-28 1992-09-29 Fujitsu Ltd Voice recognition device
JPH07336790A (en) * 1994-06-13 1995-12-22 Nec Corp Microphone system
JP2003085255A (en) * 2001-09-11 2003-03-20 Teruo Natsume Order processing system
JP2003087890A (en) * 2001-09-14 2003-03-20 Sony Corp Voice input device and voice input method
JP2003122966A (en) * 2001-10-12 2003-04-25 Seiko Instruments Inc Wireless type order data control device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007181099A (en) * 2005-12-28 2007-07-12 Yamaha Corp Voice playing and picking-up apparatus
JP2017162027A (en) * 2016-03-07 2017-09-14 セイコーソリューションズ株式会社 Order input device and order input method
CN111081240A (en) * 2019-11-18 2020-04-28 北京小米移动软件有限公司 Voice ordering method, device and system and computer readable storage medium
CN111128148A (en) * 2019-11-18 2020-05-08 北京小米移动软件有限公司 Voice ordering method, device, system and computer readable storage medium
CN111081240B (en) * 2019-11-18 2022-06-17 北京小米移动软件有限公司 Voice ordering method, device and system and computer readable storage medium
CN111128148B (en) * 2019-11-18 2022-08-12 北京小米移动软件有限公司 Voice ordering method, device, system and computer readable storage medium
WO2021137431A1 (en) * 2020-01-02 2021-07-08 박성진 Ai-based voice ordering system and method therefor
CN111612444A (en) * 2020-05-20 2020-09-01 重庆好未来智能科技有限公司 Intelligent ordering system and method for intelligent restaurant

Also Published As

Publication number Publication date
JP4379105B2 (en) 2009-12-09

Similar Documents

Publication Publication Date Title
JP3891153B2 (en) Telephone device
JP3972921B2 (en) Voice collecting device and echo cancellation processing method
JP2004343262A (en) Microphone-loudspeaker integral type two-way speech apparatus
JP4192800B2 (en) Voice collecting apparatus and method
JP2005086365A (en) Talking unit, conference apparatus, and photographing condition adjustment method
US9294860B1 (en) Identifying directions of acoustically reflective surfaces
JP4411959B2 (en) Audio collection / video imaging equipment
JP4379105B2 (en) Order receiving equipment at restaurants
JP4639639B2 (en) Microphone signal generation method and communication apparatus
JP4225129B2 (en) Microphone / speaker integrated type interactive communication device
JP4281568B2 (en) Telephone device
JP4479227B2 (en) Audio pickup / video imaging apparatus and imaging condition determination method
KR101145401B1 (en) Test equipment and method for speech recognition performance of Robot
JP4453294B2 (en) Microphone / speaker integrated configuration / communication device
JP2005181391A (en) Device and method for speech processing
JP4269854B2 (en) Telephone device
JP4403370B2 (en) Microphone / speaker integrated configuration / communication device
JP2005148301A (en) Speech processing system and speech processing method
JP2005151042A (en) Sound source position specifying apparatus, and imaging apparatus and imaging method
JP4470413B2 (en) Microphone / speaker integrated configuration / communication device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090825

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090907

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3