JP6160658B2 - CONFERENCE SYSTEM AND CONTROL METHOD - Google Patents

CONFERENCE SYSTEM AND CONTROL METHOD Download PDF

Info

Publication number
JP6160658B2
JP6160658B2 JP2015138620A JP2015138620A JP6160658B2 JP 6160658 B2 JP6160658 B2 JP 6160658B2 JP 2015138620 A JP2015138620 A JP 2015138620A JP 2015138620 A JP2015138620 A JP 2015138620A JP 6160658 B2 JP6160658 B2 JP 6160658B2
Authority
JP
Japan
Prior art keywords
terminal device
sound
party
restriction
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015138620A
Other languages
Japanese (ja)
Other versions
JP2015213360A (en
Inventor
加藤 喜永
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015138620A priority Critical patent/JP6160658B2/en
Publication of JP2015213360A publication Critical patent/JP2015213360A/en
Application granted granted Critical
Publication of JP6160658B2 publication Critical patent/JP6160658B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、距離的に離れた場所の間で出席者の画像、音声等を含めた会議情報の送受信を行なって会議を行う会議システムにおいて、情報漏洩を防止することができる端末装置および会議システムに関する。   The present invention relates to a terminal device and a conference system capable of preventing information leakage in a conference system in which conference information including images, sounds, etc. of attendees is transmitted and received between places that are separated from each other in a conference. About.

インターネット等の通信ネットワークを介して、距離的に離れた場所の間で会議を行う会議システムが普及している。
この会議システムにおいては、会議を行う出席者等の当事者の一方がいる会議室において、会議システムの端末装置を用いて会議の当事者などの会議室の画像および発言などの音声を撮影および収集し、それを電子データに変換して相手方の会議装置に送信し、相手方の会議室のテレビ画面等のディスプレイに表示およびスピーカにより音声出力して、実際の会議に近い状態で会議を行っている。
2. Description of the Related Art Conference systems that conduct conferences between places that are distant from each other via a communication network such as the Internet have become widespread.
In this conference system, in a conference room where one of the parties such as attendees holding the conference is present, the terminal device of the conference system is used to shoot and collect images of the conference room such as the parties of the conference and voices such as remarks, The data is converted into electronic data, transmitted to the other party's conference device, displayed on a display such as a television screen in the other party's conference room, and output as sound through a speaker, and the conference is held in a state close to an actual conference.

会議システムの端末装置としては、最近は小型軽量の携帯可能なものが普及してきており、会議を行うときに会議室や通常の部屋に持ち込んでセットするようにしていることが多い。   Recently, small and light portable devices have become widespread as terminal devices for conference systems, and are often brought into a conference room or a normal room when a conference is performed.

また、最近、企業において在宅勤務制度が導入されるようになってきているが、この場合には、社員の自宅と会社との間の打合せにも会議システムが用いられようになってきており、この状況から、会議システムを用いた会議の人数については、大人数から少人数の場合がありまたは相手方が一人の場合もある。   Recently, companies have introduced a telecommuting system. In this case, a conference system has also been used for meetings between employees' homes and companies. From this situation, the number of conferences using the conference system may be from a large number to a small number, or the other party may be one.

会議の部屋についても、企業内の業務を行なう居室とは別の独立した会議室ではなく、居室内の一画を仕切った会議室を使用したり、在宅勤務の場合には家庭内の一部屋などが用いられることも多く、会議の当事者以外の他人が突然部屋を覗き込んで声をかけたり、入ってくることが簡単に行なわれやすい環境になってきている。   As for the meeting room, it is not an independent meeting room that is separate from the office where the company works. Etc. are often used, and it has become an environment in which it is easy for others other than the parties of the conference to suddenly look into the room and call out or enter.

その結果、会議の当事者以外の他人に、会議中の相手方の画像を見られたり、会話を聞かれたりすること等が生じることになり情報セキュリティ上の問題が生じる。   As a result, a person other than the party of the conference may be able to see the image of the other party during the conference or be heard a conversation, resulting in an information security problem.

これに対して、従来においては他人が入ってきた場合に、会議の当事者が端末装置の操作により画像をオフにしたり音声を消したりして対処している。   On the other hand, conventionally, when another person comes in, the parties to the conference deal with it by turning off the image or turning off the sound by operating the terminal device.

しかしながら、このような対処は人の行為に依存するものであり、上記の状況が発生したときにいつも迅速に対応できるとは限らず、当事者が会議に集中していると対応できなかったり、対応が遅れたりして、結果として情報漏洩が生じる危険性がある。   However, this kind of response depends on the actions of the person, and when the above situation occurs, it is not always possible to respond quickly. There is a risk that information leaks as a result.

情報通信における情報漏洩への従来の一般的な対策としては、例えば、ネットワークにおいてVPN(Virtual Private Network)等を用いたリモートアクセスを活用し、企業内のネットワークに接続されたサーバのデータにアクセスする方法が用いられている。VPNでは、データが認証や暗号化により厳重に保護および管理されるため、情報漏洩の危険性は低くなる。   As a conventional general countermeasure against information leakage in information communication, for example, the remote access using VPN (Virtual Private Network) etc. is used in the network to access the data of the server connected to the corporate network. The method is used. In VPN, data is strictly protected and managed by authentication and encryption, so the risk of information leakage is reduced.

またVPNでは、ネットワークを利用してデータの送受信を行うため、ネットワーク負荷の高い大容量のデータを取り扱う場合は、効率性の向上のため、データを端末装置に保存して作業を行うことがしばしば行われる。
このような場合には、作業が終わった後に、端末装置に保存したデータを消去する処置を行っていないと、何らかの原因でこのデータの情報漏洩が発生する可能性がある。
VPN uses a network to send and receive data, so when handling large volumes of data with a high network load, data is often stored in a terminal device to improve efficiency. Done.
In such a case, there is a possibility that information leakage of this data may occur for some reason unless a procedure for deleting data stored in the terminal device is performed after the work is completed.

この問題に対処するため、企業によっては情報管理の安全性を重視して、外出中の社員や在宅勤務の社員等、社外にいる社員に対してシンクライアントシステムを導入することも一部行なわれている。   In order to deal with this problem, some companies place importance on the safety of information management, and some thin client systems have been introduced to employees who are outside the office, such as employees who are out or working from home. ing.

シンクライアントとは、社員が使用するコンピュータ(クライアント)には最低限の機能しか持たせず、アプリケーションやファイル等の資源をクライアント側でなくサーバ側で管理するシステムアーキテクチャである。   A thin client is a system architecture in which a computer (client) used by an employee has a minimum function, and resources such as applications and files are managed not on the client side but on the server side.

このシンクライアントシステムを用いると、クライアント側には基本的にはデータを保存しないので、情報漏洩の危険性は低くなる。   When this thin client system is used, data is not basically stored on the client side, so the risk of information leakage is reduced.

このように、情報漏洩への一般的な対策はとられているが、これらの対策は、上記のような、会議システムにおける会議の当事者以外の他人に、会議中の相手方の画像や会話の音声が漏れることについては、目的としておらず、防止できない。   In this way, general measures against information leakage have been taken, but these measures can be taken by other people other than the parties to the conference in the conference system, as described above, to the other party's image and voice of the conversation. Leakage is not intended and cannot be prevented.

また、従来の一般的な技術として、話者識別を用いて装置の操作を行なう技術が提案されている(例えば、特許文献1参照)。   Further, as a conventional general technique, a technique for operating a device by using speaker identification has been proposed (for example, see Patent Document 1).

特許文献1に記載の技術においては、装置に音声を入力し、その入力された音声からその音声が特定の使用者のものか否かの識別と、単語の識別を行なう。   In the technique described in Patent Document 1, a voice is input to the apparatus, and whether or not the voice is that of a specific user and identification of a word are performed from the input voice.

そして識別結果にもとづいて、その入力された音声が特定の使用者のものである場合には、識別された単語からその使用者が希望するアプリケーションプログラムを特定し、その使用者固有のアプリケーションプログラム動作環境下でアプリケーションプログラムを実行する。   Based on the identification result, if the input voice belongs to a specific user, the application program desired by the user is specified from the identified word, and the application program operation unique to the user is determined. Run the application program in the environment.

この技術を用いれば、他人が会議室や作業中の部屋に入ってきた場合に使用者が特定の単語の音声を発することにより、入力された音声から特定のアプリケーションプログラムを実行して、画面をオフにしたり、画面を切り替えたりすることができるので、他人に見せたくない画面を見られないようにすることができる。   With this technology, when someone else enters the conference room or working room, the user utters a specific word voice, which executes the specific application program from the input voice and You can turn it off or switch screens, so you can prevent you from seeing a screen you don't want others to see.

しかしながら、この技術は使用者のキー操作の代わりに音声で入力するもので、人の行為に依存するということでは上記したような会議の当事者がキー操作により入力するものと変わりはなく、情報漏洩が生じる危険性があるという問題は依然として残る。   However, this technology uses voice input instead of the user's key operation. Relying on the human action is the same as the one input by the key operator by the conference party as described above. The problem remains that there is a risk of occurrence.

また、会議の当事者が端末装置の操作により、画像をオフにしたり音声を消したりして対処した場合には、会議が継続できず中断されることになるが、会議の相手方にはこの事情がわからず混乱を生じることがある。   In addition, if the parties to the conference take action by turning off the image or turning off the sound by operating the terminal device, the conference cannot be continued and will be interrupted. May cause confusion.

なお、このような状況は上記のような会議室や通常の部屋において会議を行う場合に限らず、同様の機能を有する携帯電話端末を用いて2者間または3者以上の間の会話を行なう場合においても同様な課題が存在する。   Such a situation is not limited to the case where a conference is held in the conference room or the normal room as described above, and a conversation between two parties or three or more parties is performed using a mobile phone terminal having a similar function. In some cases, similar problems exist.

このように、会議システムを利用した会議においては、会議の当事者以外の他人に、会議中の相手方の画像を見られたり音声を聞かれたりすること等が生じて、情報漏洩が生じる危険性があり、また会議の相手方に混乱を生じることが懸念されるが、本発明はこのような課題を解決するためのものである。   In this way, in a conference using the conference system, there is a risk that information other than the parties to the conference may see information on the other party in the conference or hear audio, resulting in information leakage. However, the present invention is intended to solve such problems.

上記課題を解決するための手段である本発明の特徴は次の通りである。   The features of the present invention as means for solving the above-described problems are as follows.

本発明の端末装置は、相手方の端末装置から送信された相手方の会議情報を自己の端末装置にて出力し、自己の会議情報を相手方の端末装置に送信する会議システムにおいて、話者及び周囲の騒音の音響モデルと照合することで音響分析を行ない、自己の端末装置近傍の音が相手方の会議情報を出力すべき音として指定された音であるか否かを識別する識別手段と、前記識別手段によって前記相手方の会議情報を出力すべき音として指定された音でないと識別された場合に相手方の会議情報の出力に対して制限を行なう制限手段と、を有し、前記識別手段は、前記自己の端末装置近傍の音をデジタル信号に変換する変換手段と、前記デジタル信号に対して線形予測分析を行ない、特徴量を求める音響分析処理手段と、前記デジタル信号に対して音識別処理を行なう区間を決定する区間検出処理手段と、前記音響分析処理手段によって求められた特徴量と前記話者及び周囲の騒音の音響モデルとの照合を行ない、前記指定された音か否かの識別を行なう音識別処理手段と、を有し、前記相手方の会議情報の出力がスピーカによる音の出力であって、前記制限が制限前時点のスピーカの出力音量を最小化するものであることを特徴とする。

The terminal device of the present invention outputs the conference information of the other party transmitted from the other party's terminal device by the own terminal device, and transmits the conference information of the other party to the other party's terminal device. Identification means for performing acoustic analysis by collating with an acoustic model of noise and identifying whether the sound in the vicinity of the terminal device is a sound designated as a sound to which the conference information of the other party should be output; Limiting means for limiting the output of the other party's conference information when the means identifies that the other party's meeting information is not a sound designated as a sound to be output; a conversion means for converting the sound in the vicinity of the terminal device said self into a digital signal, the row stomach linear predictive analysis on the digital signals, and acoustic analysis processing means for obtaining the feature amount, versus the digital signal And section detection processing means for determining the interval for performing sound recognition processing Te performs matching between the acoustic model of the noise of the speaker and around the feature amount obtained by the acoustic analysis processing means or said specified sound Sound identification processing means for identifying whether or not the conference information output of the other party is a sound output by a speaker, and the restriction minimizes the output volume of the speaker before the restriction. It is characterized by being.

本発明によれば、相手方の会議情報の出力に対して制限または制限の解除を行なうとともに、相手方の端末装置に制限または制限解除が行なわれたことを示すメッセージを送信し、相手方の端末装置においてこのことを知ることができるので、会議における情報漏洩が生じる危険性が低減されるとともに、会議の相手方との間で円滑に会議を進めることができる。   According to the present invention, a restriction or restriction release is performed on the output of the other party's conference information, and a message indicating that restriction or restriction release has been performed is transmitted to the partner terminal apparatus. Since this can be known, the risk of information leakage in the conference is reduced, and the conference can be smoothly advanced with the other party of the conference.

本発明の実施形態の遠隔会議システムの構成例を示す図The figure which shows the structural example of the remote conference system of embodiment of this invention. 本発明の実施形態の端末装置100のハードウェア構成図The hardware block diagram of the terminal device 100 of embodiment of this invention 本発明の実施形態の端末装置100の外観図External view of terminal device 100 according to an embodiment of the present invention 本発明の実施形態の端末装置100の機能ブロック図Functional block diagram of the terminal device 100 of the embodiment of the present invention メッセージのデータ例を示す図Figure showing an example of message data 会議不可になったときのメッセージ受信側の表示画面の例を示す図The figure which shows the example of the display screen of the message receiving side when the meeting becomes impossible 会議可になったときのメッセージ受信側の表示画面例を示す図The figure which shows the example of the display screen of the message reception side when meeting becomes possible 話者の音響モデルのデータ構造の一例を示した図Diagram showing an example of the data structure of the speaker's acoustic model 騒音の音響モデルのデータ構造の一例を示した図Figure showing an example of the data structure of an acoustic model of noise 話者の音響モデルのデータ構造の他の例を示した図Figure showing another example of the data structure of the speaker's acoustic model 騒音の音響モデルのデータ構造の他の例を示した図Figure showing another example of data structure of acoustic model of noise 会議情報の出力処理に対して制限を行なう場合のフローチャートFlowchart for restricting conference information output processing 会議情報の出力処理に対する制限を解除する場合のフローチャートFlow chart for canceling restrictions on meeting information output processing 会議情報の出力処理の変更状態のメッセージを受信した場合のフローチャートFlowchart when a message for changing the conference information output process is received

本発明の実施形態について説明する。   An embodiment of the present invention will be described.

図1は本発明の実施形態の会議システムとして遠隔地との間で会議を行なう遠隔会議システムの構成例を示す図である。   FIG. 1 is a diagram illustrating a configuration example of a remote conference system that performs a conference with a remote place as a conference system according to an embodiment of the present invention.

図1において、100は遠隔会議システムの端末装置であり、この端末装置100がLAN200、専用線300、インターネット400からなる通信ネットワーク900を介して相互に接続されて、画像データ、音声データ等の送受信が行われる。   In FIG. 1, reference numeral 100 denotes a remote conference system terminal device, which is connected to each other via a communication network 900 including a LAN 200, a dedicated line 300, and the Internet 400 to transmit / receive image data, audio data, and the like. Is done.

また、端末装置100の一部は在宅勤務において用いるものであり、この場合には、インターネット400に接続されネットワーク900を介して他の端末装置100に接続される。   A part of the terminal device 100 is used for telecommuting. In this case, the terminal device 100 is connected to the Internet 400 and connected to another terminal device 100 via the network 900.

LAN200は、企業の事業所や建物のようにローカルエリアにおいて構築されたネットワークであり、各LAN200はそのLAN200が位置する地域Aの専用線300を介してその地域A内の他のLAN200と通信可能に接続されている。各専用線300はインターネット400を介して他の地域Aの専用線400と通信可能に接続されている。   The LAN 200 is a network constructed in a local area such as a company office or a building, and each LAN 200 can communicate with other LANs 200 in the area A via the dedicated line 300 in the area A where the LAN 200 is located. It is connected to the. Each dedicated line 300 is communicably connected to the dedicated line 400 in another area A via the Internet 400.

例えば、地域Aは日本またはアメリカのような単位に設定されており、LAN200は東京事業所、ニューヨーク事務所のような企業の事業所単位に設定されている。   For example, the region A is set to a unit such as Japan or the United States, and the LAN 200 is set to a business unit of a company such as a Tokyo office or a New York office.

また、在宅勤務の端末装置100は在宅勤務者の自宅に設置されている。   In addition, the terminal device 100 for telecommuting is installed at the home of the telecommuter.

各LAN200および各専用線300にはルータ500が設けられており、また、在宅勤務の端末装置100はルータ500を介してインターネット400に接続されている。   Each LAN 200 and each dedicated line 300 is provided with a router 500, and the telecommuting terminal device 100 is connected to the Internet 400 via the router 500.

このルータ500により、各LAN200に接続された遠隔会議を行う端末装置100間またはこれらと在宅勤務の端末装置100間の画像データ、音声データ等の通信の最適な経路の選択が行われ、企業内の端末装置100間またはこれらと在宅勤務の端末装置100間の接続が行われる。   The router 500 selects an optimal route for communication such as image data and voice data between the terminal devices 100 that conduct a remote conference connected to each LAN 200 or between them and the terminal device 100 working from home. Are connected between these terminal devices 100 or between them and the terminal device 100 working from home.

各専用線300とインターネット400との間にはゲートウェイ装置550が設けられている。   A gateway device 550 is provided between each dedicated line 300 and the Internet 400.

ゲートウェイ装置550は、プロトコルの異なるネットワークと接続するための通信機器であり、この図に示しているもの以外でも必要に応じて各ネットワーク間に設けられる。   The gateway device 550 is a communication device for connecting to a network having a different protocol, and a gateway device 550 other than the one shown in this figure is provided between the networks as necessary.

図1において、600は中継装置、700は遠隔通信管理システム、800はプログラム提供システムである。   In FIG. 1, 600 is a relay device, 700 is a remote communication management system, and 800 is a program providing system.

中継装置600はLAN200ごとに設けられており、端末装置100と他の端末装置100とが接続されているときに画像データおよび音声データ等の会議情報を中継するものである.
また、中継装置は、端末装置100の相手先である他の端末装置100との間で画像データ等の会議情報の受信に遅延が生じた場合に、中継装置600によって送信する画像データの画像の解像度を変更して情報量を低減してから、相手先の端末装置100へ画像データを送信する。
The relay device 600 is provided for each LAN 200 and relays conference information such as image data and audio data when the terminal device 100 and another terminal device 100 are connected.
Also, the relay device, when there is a delay in receiving conference information such as image data with another terminal device 100 that is the counterpart of the terminal device 100, the image of the image data transmitted by the relay device 600. After the resolution is changed to reduce the amount of information, the image data is transmitted to the terminal device 100 of the other party.

これにより遅延を解消し会議と会議情報通信の同時性を確保する。   This eliminates the delay and ensures the synchronization of the conference and conference information communication.

遠隔通信管理システム700はインターネット400に接続されており、遠隔通信管理用プログラムにもとづき、端末装置100および中継装置600を一元的に管理する。   The remote communication management system 700 is connected to the Internet 400 and centrally manages the terminal device 100 and the relay device 600 based on a remote communication management program.

例えば、遠隔通信管理システム700は、端末装置100および中継装置600とやり取りを行ない、端末装置100の登録管理、端末装置100のID、IPアドレスの管理、使用についての課金管理、各端末装置100が通信可能な他の端末装置100の通知、各端末装置100の使用状態の把握、通信を行う場合に経由する中継装置600の決定等を行なう。   For example, the remote communication management system 700 communicates with the terminal device 100 and the relay device 600, manages the registration of the terminal device 100, manages the ID and IP address of the terminal device 100, and manages the billing for use. Notification of other terminal devices 100 that can communicate, grasping the usage state of each terminal device 100, determination of the relay device 600 through which communication is performed, and the like are performed.

そして必要に応じて各端末装置100の状況(未接続,ログイン中,会議中など)を他の各端末装置100に通知する.
プログラム提供システム800はインターネット400に接続されており、遠隔会議システムの各構成部において用いられる各種機能または各種手段を実現させるためのプログラムをハードデイスクに記憶し、遠隔会議システムの各構成部に送信するものである。
If necessary, the status of each terminal device 100 (not connected, logged in, during a meeting, etc.) is notified to the other terminal devices 100.
The program providing system 800 is connected to the Internet 400, stores a program for realizing various functions or various means used in each component of the remote conference system in a hard disk, and transmits the program to each component of the remote conference system. Is.

プログラム提供システム800が記憶、送信するプログラムとしては、例えば、各端末装置100において用いる会議装置用プログラム、中継装置600において用いる中継装置用プログラム、遠隔通信管理システム700において用いる遠隔通信管理用プログラムがある。   Examples of programs stored and transmitted by the program providing system 800 include a conference device program used in each terminal device 100, a relay device program used in the relay device 600, and a remote communication management program used in the remote communication management system 700. .

端末装置100は、装置本体110、カメラ130、およびディスプレイ140から構成される。   The terminal device 100 includes a device main body 110, a camera 130, and a display 140.

在宅勤務者が在宅勤務の端末装置100から通信ネットワーク900を介して他の端末装置100等と通信を行う場合、通信するデータを保護および管理するためにVPNにより接続を行う。   When a telecommuter communicates with another terminal device 100 or the like from the terminal device 100 working at home via the communication network 900, a connection is established by VPN in order to protect and manage data to be communicated.

VPNは、通信データの暗号化や復号化を行うことにより、通信ネットワーク900上に構築することができ、図1に示す実施形態では、ルータ500の一機能あるいは在宅勤務の端末装置100上で実行されるプログラム処理として実現することが可能である。   The VPN can be constructed on the communication network 900 by encrypting and decrypting the communication data. In the embodiment shown in FIG. 1, the VPN is executed on one function of the router 500 or the terminal device 100 working from home. It can be realized as a program processing.

また、通信ネットワーク900としてはインターネットを利用しているので、IPsec(Security Architecture for Internet Protocol) やPPTP(Point to Point Tunneling Protocol)等のプロトコルを使用して暗号化、認証を行い、専用線と同等の高いセキュリティをもつ通信路を確保することができる。   In addition, since the Internet is used as the communication network 900, encryption and authentication are performed using protocols such as IPsec (Security Architecture for Internet Protocol) and PPTP (Point to Point Tunneling Protocol), which is equivalent to a dedicated line. A highly secure communication path can be secured.

在宅勤務以外の端末装置100についても同様に、ゲートウェイ装置550において在宅勤務の遠隔装置100とのVPNを構築することができる。   Similarly, for the terminal device 100 other than the telecommuting, the gateway device 550 can establish a VPN with the remote device 100 working from home.

ゲートウェイ装置は、ユーザ認証機能や機器認証機能を備えていてもよく、これらの機能を備えることで、在宅勤務者のみに接続が許可され、機器が設置されている場所の正当性を保証することができることから、さらにセキュリティを高めることができる。   The gateway device may have a user authentication function and a device authentication function. By providing these functions, only the telecommuter is permitted to connect, and the correctness of the place where the device is installed is guaranteed. Security can be further enhanced.

なお、遠隔会議システムとして距離的に離れた場所間の会議の例を示しているが、会議には、距離的に離れている場合だけでなく、同じ建物内の会議室のように距離的に近い会議室の間、また、同じ部屋であっても肉声が聞こえないような場所間の会議を含む。すなわち会議とは直接対面して生のままで行なう会議ではなく、会議装置を介して行なう会議を意味する。また、会議とは複数の人の間のみでなく1人対1人で行なう打合せのような場合を含む。   In addition, although the example of the conference between the places which are distant from each other is shown as a remote conference system, the conference is not only in the case of being away from the distance but also in the distance as in the conference room in the same building. Includes meetings between nearby conference rooms and places where the same room cannot hear the voice. In other words, the conference means a conference that is performed directly via a conference device, not a conference that is performed directly face to face. In addition, the conference includes not only a meeting between a plurality of people but also a meeting held by one person.

会議情報については会議中の画像、音声について示しているが、少なくともこれらのひとつであればよい。例えば画像だけの場合には出席者の音声を画像中に字幕としてあらわしてもよい。また会議情報には会議の場において当事者に提示される物(例えば商品見本)、配布される書類、および配布はされないがプロジェクター等の表示装置によりスクリーンに表示される画像等が含まれる。このように会議情報とは、直接対面して生のまま行なうとした場合の会議の場において出席者が把握できる情報を意味する。   The meeting information is shown for the image and sound during the meeting, but at least one of them may be used. For example, in the case of only an image, the attendee's voice may be displayed as subtitles in the image. In addition, the conference information includes things (for example, product samples) presented to the parties at the meeting, documents to be distributed, images that are not distributed but displayed on the screen by a display device such as a projector, and the like. As described above, the conference information means information that can be grasped by the attendees at the meeting place in the case where the conference information is held directly and face-to-face.

図2は、本発明の実施形態の端末装置100のハードウェア構成図である。
図2に示されているように、端末装置100には、端末装置100の全体の動作を制御して処理するCPU(Central Processing Unit)111、端末装置100等の各種プログラムを記憶したROM(Read Only Memory)112、端末装置100の各種設定値の記憶を行なうとともにCPU111のワークエリアとして使用されるRAM(Random Access Memory)113、CPU111の制御にしたがってフラッシュメモリ115のデータの読み出し又は書き込みを行うSSD(Solid State Drive)114、フラッシュメモリ等の記録メディア116aのデータの読み出し又は書き込みを行うメディアドライブ116、会議の相手方の端末装置100の宛先を選択したり各種入力を行なう場合などに操作されるカーソル等の操作ボタン117、端末装置100の電源をON/OFFする電源スイッチ118、会議情報のデータ通信をするためのネットワークI/F119を有している。
FIG. 2 is a hardware configuration diagram of the terminal device 100 according to the embodiment of this invention.
As shown in FIG. 2, the terminal device 100 includes a CPU (Central Processing Unit) 111 that controls and processes the entire operation of the terminal device 100, and a ROM (Read that stores various programs such as the terminal device 100. SSD, which stores various setting values of the terminal device 100 and RAM (Random Access Memory) 113 used as a work area of the CPU 111 and reads or writes data in the flash memory 115 according to the control of the CPU 111 (Solid State Drive) 114, a media drive 116 for reading or writing data on a recording medium 116a such as a flash memory, a cursor operated when selecting the destination of the terminal device 100 of the other party of the conference or performing various inputs Etc., and the operation button 117 and the terminal device 100 are turned on / off. It has a power switch 118 for FF and a network I / F 119 for data communication of conference information.

また端末装置100には、会議の当事者などの会議室の画像を撮影し画像データを出力するカメラ130、カメラ130との間の接続を行うカメラIF120、当事者などの人の音声および周囲の騒音等非音声音を含む音を収集して入力するマイク121、相手方の会議室の音を出力するスピーカ122、マイク121との間で音信号の入力および音データへの変換行なうとともに、スピーカ122との間で音データを音信号に変換して出力する音入出力I/F123、相手方の会議室の画像を映し出すディスプレイ140、およびディスプレイ140に画像データを出力するディスプレイI/F124を有している。   The terminal device 100 also includes a camera 130 that captures an image of a meeting room of a party or the like and outputs image data, a camera IF 120 that connects to the camera 130, the voice of a person such as the party, ambient noise, and the like. The microphone 121 that collects and inputs sound including non-speech sounds, the speaker 122 that outputs the sound of the other party's conference room, the input of sound signals to the microphone 121 and conversion into sound data, and the speaker 122 A sound input / output I / F 123 that converts sound data into sound signals and outputs them, a display 140 that displays an image of the other party's conference room, and a display I / F 124 that outputs image data to the display 140.

これらのうち、ディスプレイ140は外付けであり、カメラ130、マイク121、スピーカ122は端末装置100の装置本体110に接続され一体的に収納される。   Among these, the display 140 is externally attached, and the camera 130, the microphone 121, and the speaker 122 are connected to the device main body 110 of the terminal device 100 and housed integrally.

125は、これらのカメラ、マイク、スピーカ等として外付けのものを用いる場合にこれらを接続する外部機器接続I/Fである。   Reference numeral 125 denotes an external device connection I / F that connects these cameras, microphones, speakers, and the like when they are externally attached.

126は、上記各構成要素を電気的に接続するためのアドレスバスやデータバス等のバスラインである。   Reference numeral 126 denotes a bus line such as an address bus or a data bus for electrically connecting the above components.

なお、フラッシュメモリ115は、不揮発性メモリであればフラッシュメモリに限らず例えばEEPROM(Electrically Erasable and Programmable ROM)でもよい。   The flash memory 115 is not limited to a flash memory as long as it is a nonvolatile memory, and may be, for example, an EEPROM (Electrically Erasable and Programmable ROM).

カメラ130は、被写体の画像を動画、または静止画として電子化する素子としてCMOS(Complementary Metal Oxide Semiconductor)を用いており、USB規格のデータを出力する。なおCMOSに限らずCCDを用いたものでもよい。   The camera 130 uses CMOS (Complementary Metal Oxide Semiconductor) as an element that digitizes a subject image as a moving image or a still image, and outputs USB standard data. Note that not only the CMOS but also a CCD may be used.

図3は、本発明の実施形態の端末装置100の外観図である。   FIG. 3 is an external view of the terminal device 100 according to the embodiment of the present invention.

図3に示されているように、端末装置100は、筐体1021、アーム1074、およびカメラハウジング1075を備えている。   As illustrated in FIG. 3, the terminal device 100 includes a housing 1021, an arm 1074, and a camera housing 1075.

筐体1021の前側壁1021aの略全面には、メッシュ状の吸気孔1021eが形成されており、筐体1021の後側壁1021bの略全面には、吸気孔1021eと同様のメッシュ状の排気孔(図示せず〕が形成されている。これにより、筐体1021に内蔵された冷却ファンの駆動によって、前側壁1021aの吸気孔1021eを介して端末装置100の前方の外気を取り込み、後側壁1021bの排気孔を介して端末装置100の後方へ排気することができる。   A mesh-like air intake hole 1021e is formed on substantially the entire front wall 1021a of the housing 1021, and a mesh-like exhaust hole (similar to the air intake hole 1021e) is formed on substantially the entire rear wall 1021b of the housing 1021. As a result, by driving a cooling fan built in the housing 1021, outside air in front of the terminal device 100 is taken in through the intake hole 1021e of the front side wall 1021a, and the rear side wall 1021b It is possible to exhaust the rear of the terminal device 100 through the exhaust hole.

前側壁1021aの中央部には、収音用孔1021fが形成され、内蔵型のマイク121によって音声および周囲の騒音等の非音声音を含む音を収集可能となっている。   A sound collecting hole 1021f is formed in the central portion of the front side wall 1021a, and sounds including non-voice sounds such as voice and ambient noise can be collected by the built-in microphone 121.

また、筐体1021の上面左側には、操作パネル1022が形成されている。この操作パネル1022には操作ボタン117、および電源スイッチ118が設けられているとともに、内蔵型のスピーカ122からの出力音を通すためのメッシュ状の音声出力孔1022fが形成されている。   An operation panel 1022 is formed on the upper left side of the housing 1021. The operation panel 1022 is provided with an operation button 117 and a power switch 118, and a mesh-like sound output hole 1022f through which an output sound from the built-in speaker 122 is passed.

また、筐体1021の上面右側には、アーム1074およびカメラハウジング1075を収容するための凹部が収容部1021pとして形成されている。   Further, a concave portion for accommodating the arm 1074 and the camera housing 1075 is formed on the right side of the upper surface of the housing 1021 as the accommodating portion 1021p.

アーム1074は、トルクヒンジ1073を介して筐体1021に取り付けられている。アーム1074は、アーム1074が筐体1021に対して、正面を0度として±180度のパン角θ1の範囲で、かつ90度のチルト角θ2の範囲(概ね45度の傾き時にクリック感が発生するようになっている)において、上下左右方向に回動可能に構成されている。   The arm 1074 is attached to the housing 1021 via the torque hinge 1073. The arm 1074 has a pan angle θ1 of ± 180 degrees with respect to the housing 1021, and a range of a pan angle θ1 of ± 180 degrees and a tilt angle θ2 of 90 degrees (a feeling of clicking occurs when tilting approximately 45 degrees) It is configured to be rotatable in the vertical and horizontal directions.

カメラハウジング1075には、内蔵型のカメラ130が設けられており、会議の当事者などの会議室等を撮影することができる。また、カメラハウジング1075には、トルクヒンジ1075aが形成されている。   The camera housing 1075 is provided with a built-in camera 130, which can shoot a conference room or the like of parties to the conference. The camera housing 1075 is formed with a torque hinge 1075a.

カメラハウジング1075は、トルクヒンジ1075aを介して、アーム1074に取り付けられている。そして、カメラハウジング1075は、カメラハウジング1075がアーム1074に対して直線状となるようにした状態を0度とし、端末装置100の前方側に概ね100度、端末装置100の後方側に概ね90度のチルト角θ3の範囲において回動可能に構成されている。   The camera housing 1075 is attached to the arm 1074 via a torque hinge 1075a. The camera housing 1075 is set to 0 degrees when the camera housing 1075 is linear with respect to the arm 1074, and is approximately 100 degrees on the front side of the terminal apparatus 100 and approximately 90 degrees on the rear side of the terminal apparatus 100. The tilt angle θ3 is configured to be rotatable.

筐体1021の側面下部には、外部機器接続I/F125に対応した接続口1021gが形成されており、外付けのカメラ、マイク、スピーカ等のケーブル端子をこの接続口1021gに接続する。   A connection port 1021g corresponding to the external device connection I / F 125 is formed in the lower portion of the side surface of the housing 1021, and cable terminals such as an external camera, a microphone, and a speaker are connected to the connection port 1021g.

なお、140は、外付けのディスプレイ140である。   Reference numeral 140 denotes an external display 140.

図4は、本実施形態における端末装置100の機能ブロック図である。
端末装置100は、送受信部11、操作入力受付部12、ログイン要求部13、撮像部14a、画像表示制御部14b、音入力部15a、音出力部15b、最終絞込部16、遅延検出部17、記憶・読出処理部18、および漏洩防止処理部19を有している。
FIG. 4 is a functional block diagram of the terminal device 100 in the present embodiment.
The terminal device 100 includes a transmission / reception unit 11, an operation input reception unit 12, a login request unit 13, an imaging unit 14a, an image display control unit 14b, a sound input unit 15a, a sound output unit 15b, a final narrowing unit 16, and a delay detection unit 17. A storage / reading processing unit 18 and a leakage prevention processing unit 19.

これらの各部は、図2に示されている各構成要素のいずれかが、ROM112に記憶されているプログラムに従ったCPU111からの命令によって動作することで実現される機能である。   Each of these units is a function realized by any one of the components shown in FIG. 2 operating according to a command from the CPU 111 according to a program stored in the ROM 112.

また、端末装置100は、図2に示されているSSD114によって読み出し又は書き込みを制御される記憶部1000を有している。   Further, the terminal device 100 includes a storage unit 1000 whose reading or writing is controlled by the SSD 114 illustrated in FIG.

端末装置100の機能ブロック各部について説明する。   Each functional block of the terminal device 100 will be described.

端末装置100の送受信部11は、図2に示されているネットワークI/F119によって実現され通信ネットワーク900を介して他の端末装置100、その他の装置又はシステムと各種データの送受信を行う。   The transmission / reception unit 11 of the terminal device 100 is realized by the network I / F 119 illustrated in FIG. 2, and transmits / receives various data to / from other terminal devices 100 and other devices or systems via the communication network 900.

操作入力受付部12は、図2に示されている操作ボタン117によって実現され、利用者による各種入力を受け付ける。例えば、利用者が会議の相手方の端末装置100を選択する場合に端末装置100の操作用表示画面(図示せず)の画面上でその端末装置100を選択し決定のボタンを押すと、その選択情報が入力される。   The operation input reception unit 12 is realized by the operation buttons 117 shown in FIG. 2 and receives various inputs by the user. For example, when the user selects the terminal device 100 of the other party of the conference, when the user selects the terminal device 100 on the screen of the operation display screen (not shown) of the terminal device 100 and presses the decision button, the selection is made. Information is entered.

また、操作入力受付部12は、自己の端末装置100が行っている相手方の会議情報の出力に対して制限を行なう制限指示情報の入力、およびこの制限の解除指示情報の入力を受け付ける。これはいずれも会議の当事者が操作ボタン117の操作することによって行なう。   Further, the operation input accepting unit 12 accepts input of restriction instruction information for restricting the output of the conference information of the other party performed by the terminal device 100 and input of this restriction release instruction information. In either case, the parties to the conference operate the operation buttons 117.

ログイン要求部13は、図2に示されているCPU111からの命令によって実現され、送受信部11から通信ネットワーク900を介して遠隔通信管理システム700に、ログインを要求する旨を示すログイン要求情報、及び端末装置100の現時点のIPアドレスを送信する。   The login request unit 13 is realized by a command from the CPU 111 shown in FIG. 2, and login request information indicating that a login is requested from the transmission / reception unit 11 to the remote communication management system 700 via the communication network 900, and The current IP address of the terminal device 100 is transmitted.

この送信は、図2に示されている電源スイッチ118をONにして端末装置100の電源が投入され端末装置100が立ちあがると、自動的に行なわれるように設定されている。   This transmission is set to be automatically performed when the power supply switch 118 shown in FIG. 2 is turned on to turn on the terminal device 100 and the terminal device 100 is started up.

撮像部14aは、図2に示されているカメラ130、及びカメラI/F120によって実現され、被写体である出席者などの会議室の画像を撮影して、この撮影して得た画像データを出力する。   The imaging unit 14a is realized by the camera 130 and the camera I / F 120 shown in FIG. 2, and takes an image of a meeting room such as an attendee who is a subject and outputs the image data obtained by the shooting. To do.

画像表示制御部14bは、図2に示されているディスプレイI/F124によって実現され、外付けのディスプレイ140に対して画像データを送信し表示するための制御を行う。   The image display control unit 14b is realized by the display I / F 124 shown in FIG. 2, and performs control for transmitting and displaying image data to the external display 140.

音入力部15aは、図2に示されているマイク121および音入出力I/F123によって実現され、端末装置100近傍の音を収集して入力し、この音の音信号を音データに変換して出力する。収集する音には音声および非音声音が含まれる。   The sound input unit 15a is realized by the microphone 121 and the sound input / output I / F 123 shown in FIG. 2, collects and inputs sound in the vicinity of the terminal device 100, and converts the sound signal of this sound into sound data. Output. Collected sounds include voice and non-voice sounds.

音出力部15bは、図2に示されているスピーカ122、および音入出力I/F123によって実現され、音データに係る音信号を音に変換して出力する。   The sound output unit 15b is realized by the speaker 122 and the sound input / output I / F 123 shown in FIG. 2, and converts a sound signal related to sound data into sound and outputs the sound.

最終絞込部16は、複数の中継装置600から最終的に使用する1つの中継装置600に絞り込む最終絞り込み処理を行うためのもので、計測部16a、算出部16b、及び最終選択部16cを有しており、図2に示されているCPU111からの命令によって、実現する。   The final narrowing unit 16 is for performing a final narrowing process for narrowing down from a plurality of relay devices 600 to one relay device 600 to be finally used, and includes a measurement unit 16a, a calculation unit 16b, and a final selection unit 16c. This is realized by a command from the CPU 111 shown in FIG.

このうちの計測部16aは、送受信部11によって受信された後述の事前送信情報毎に、送受信部11によって事前送信情報が受信される際の受信日時(msec単位)を計測する。   Among these, the measurement unit 16a measures the reception date and time (in msec units) when the pre-transmission information is received by the transmission / reception unit 11, for each of the later-described pre-transmission information received by the transmission / reception unit 11.

算出部16bは、計測部16aによって受信日時が計測された事前送信情報毎に、この計測された受信時間と、この事前送信情報に含まれている送信日時との差に基づいて、事前送信情報の送信から受信までの所要時間(msec単位)を算出する。   For each pre-transmission information whose reception date and time is measured by the measurement unit 16a, the calculation unit 16b determines the pre-transmission information based on the difference between the measured reception time and the transmission date and time included in the pre-transmission information. The required time (msec unit) from transmission to reception is calculated.

最終選択部16cは、算出部16bによって算出された所要時間のうち最短の所要時間を要した事前送信情報が中継された中継装置600を使用する中継装置600として選択することで、最終的に1つの中継装置600を選択する。   The final selection unit 16c finally selects 1 as the relay device 600 that uses the relay device 600 to which the pre-transmission information that required the shortest required time from among the required times calculated by the calculation unit 16b is relayed. One relay device 600 is selected.

遅延検出部17は、図2に示されているCPU111からの命令によって実現され、他の端末装置100から中継装置600を介して送られて来る画像データ又は音声データの遅延時間(msec単位)を検出する。   The delay detection unit 17 is realized by a command from the CPU 111 shown in FIG. 2, and calculates the delay time (msec unit) of image data or audio data sent from another terminal device 100 via the relay device 600. To detect.

また、記憶・読出処理部18は、図2に示すSSD114によって実行され、記憶部1000に各種データを記憶したり、記憶部1000に記憶された各種データを読み出す処理を行う。   The storage / read processing unit 18 is executed by the SSD 114 shown in FIG. 2, and stores various data in the storage unit 1000 and reads various data stored in the storage unit 1000.

記憶部1000には、端末装置100を識別するための端末ID(Identification)およびパスワード、ならびに画像データおよび音データ等が記憶される。   The storage unit 1000 stores a terminal ID (Identification) for identifying the terminal device 100, a password, image data, sound data, and the like.

なお、本実施形態の端末装置IDおよび後述の中継装置IDは、それぞれ端末装置100および中継装置600を一意に識別するために使われる言語、文字、記号、もしくは各種のマークまたはこれらの組み合わせ等の識別情報を示す。   Note that the terminal device ID of this embodiment and the relay device ID, which will be described later, are a language, characters, symbols, various marks, or combinations thereof used to uniquely identify the terminal device 100 and the relay device 600, respectively. Indicates identification information.

情報漏洩防止部19は、自己の端末装置100近傍において生じた音の分析を行い、この音があらかじめ指定された音でない場合、または会議の当事者により制限の指示情報が入力された場合には、自己の端末装置100が行っている会議の相手方の画像表示および相手方の音出力等の会議情報の出力処理に対して制限を行なうとともに、相手方の端末装置100に、この制限が行なわれたことを示すメッセージを送信し、また相手方の端末装置100においてこの制限が行なわれたことを示すメッセージを受信したときに自己の端末装置100においてその旨を表示するものである。   The information leakage prevention unit 19 analyzes the sound generated in the vicinity of its own terminal device 100, and when this sound is not a predesignated sound or when restriction instruction information is input by a party of the conference, While restricting the output processing of the conference information such as the image display of the other party of the conference being performed by the terminal device 100 and the sound output of the other party, that the other terminal device 100 has performed this restriction. When the message indicating that this restriction has been performed is received at the other terminal device 100, the message is displayed on the own terminal device 100.

情報漏洩防止部19は、音識別部19a、判定部19b、制限部19cおよび状態管理部19dを有している。   The information leakage prevention unit 19 includes a sound identification unit 19a, a determination unit 19b, a restriction unit 19c, and a state management unit 19d.

音識別部19aは、音入力部15aのマイク121から入力された音の音響分析を行い、その音の特徴量を、あらかじめ備えた音響特徴を表現する音響モデルと照合して、あらかじめ指定した音であるか否か例えば会議の当事者等の話者の音声であるかを識別する。   The sound identification unit 19a performs an acoustic analysis of the sound input from the microphone 121 of the sound input unit 15a, compares the sound feature amount with an acoustic model expressing the acoustic feature provided in advance, Whether or not the voice of a speaker such as a party of the conference is identified.

判定部19bは入力された音が音識別部19aにより指定された音でないと識別された場合に、その入力された音が相手方の会議情報を出力すべき音でないと判定して、また会議の当事者により制限の指示情報が入力された場合にはその入力を受けて、自己の端末装置100が行なっている画像表示および音声出力等の会議情報の出力に対して制限を行なうべきと判定する。   When it is determined that the input sound is not the sound specified by the sound identification unit 19a, the determination unit 19b determines that the input sound is not the sound for outputting the conference information of the other party, and the conference When the restriction instruction information is input by the party, the input is received, and it is determined that the restriction on the output of the conference information such as the image display and voice output performed by the terminal device 100 is determined.

また判定部19bは、会議の当事者により制限解除の解除指示情報が入力された場合にはその入力を受けて、制限の解除を行なうべきと判定する。   Further, when the restriction cancellation release instruction information is input by the party to the conference, the determination unit 19b receives the input and determines that the limitation should be released.

制限部19cは、判定部19bが会議情報の出力に対して制限を行なうべきと判定した場合には端末装置100が行なっている画像表示および音声出力等の会議情報の出力処理に対して制限を及ぼして出力内容の変更を行なう。   When the determining unit 19b determines that the output of the conference information should be limited, the limiting unit 19c limits the output of the conference information such as image display and audio output performed by the terminal device 100. To change the output contents.

そして、制限部19cは、判定部19bが制限の解除を行なうべきと判定した場合にはその制限を解除する。   When the determination unit 19b determines that the restriction should be released, the restriction unit 19c releases the restriction.

状態管理部19dは、自己の端末装置100の出力処理の変更状態を会議の相手方の端末装置100に通知するための管理、および会議の相手方の端末装置100からその端末装置100の出力処理の変更状態の通知があった場合に自己の端末装置100においてその旨を表示する管理を行なう。   The state management unit 19d performs management for notifying the terminal device 100 of the other party of the conference of the change status of the output processing of its own terminal device 100, and changes the output processing of the terminal device 100 from the terminal device 100 of the other party of the conference When there is a notification of the state, the terminal device 100 of its own manages to display that fact.

この情報漏洩防止部19において用いる音に対応する音響モデルのデータや各種データのデータ記憶は、記憶部1000において行なわれる。
状態管理部19dによる相手方の端末装置100の出力処理変更の表示は画像表示制御部14bの制御によってディスプレイ140において行なわれる。
The storage unit 1000 stores data of the acoustic model corresponding to the sound used in the information leakage prevention unit 19 and various data.
The display of the output process change of the counterpart terminal device 100 by the state management unit 19d is performed on the display 140 under the control of the image display control unit 14b.

次に、まず判定部19b、制限部19cおよび状態管理部19cについて、具体的に説明する。音識別部19aについては後述する。   Next, the determination unit 19b, the restriction unit 19c, and the state management unit 19c will be described specifically. The sound identification unit 19a will be described later.

判定部19bは、入力された音が相手方の会議情報を出力すべき音でない場合には、自己の端末装置100が行なっている相手方の会議情報の出力処理に対して制限を及ぼすべきと判定する。   If the input sound is not a sound that should output the other party's conference information, the determining unit 19b determines that the other party's conference information output process performed by the terminal device 100 of itself should be restricted. .

そして、これを受けて制限部19cは、自己の端末装置100が行なっている相手方の会議情報の出力処理に対して制限を及ぼすが、この制限として、制限部19cは画像表示制御部14bに対してディスプレイ140の画面オフへの移行等を指示し、音出力部15bに対して制限前時点(現時点)の出力音量データを取得して記憶部1000に記憶してから出力音量の最小化することを指示する。   In response to this, the restricting unit 19c restricts the output process of the other party's conference information performed by its own terminal device 100. As this restriction, the restricting unit 19c applies to the image display control unit 14b. Instructing the display 140 to turn off the screen, etc., obtaining the output volume data before the restriction (current time) from the sound output unit 15b and storing it in the storage unit 1000, and then minimizing the output volume. Instruct.

この画像表示制御部14bに対する指示の処理は、端末装置100がWindows(マイクロソフト社の登録商標)をOSとする場合、画面オフの入力処理は、キーボードやファンクションキーに割り当てられているので、これを利用して、対象となるキー信号(例えば、F3キー)の代替処理を行い、端末装置100の処理に割り込み処理させることで実施できる。
また、音出力部15bに対する指示の処理は、この処理はWindows(マイクロソフト社の登録商標)であれば,オーディオミキサAPIを使用して実行できる。なお、出力音量の最小化の最小値は0値としてもよい。
When the terminal device 100 uses Windows (registered trademark of Microsoft Corporation) as the OS, the instruction processing for the image display control unit 14b is assigned to the keyboard and function keys. This can be implemented by substituting the target key signal (for example, F3 key) and interrupting the processing of the terminal device 100.
Also, the instruction processing for the sound output unit 15b can be executed using the audio mixer API if this processing is Windows (registered trademark of Microsoft Corporation). Note that the minimum value for minimizing the output volume may be 0.

また、音識別部19aの識別および判定部19bの判定によることなく、会議の当事者が相手方の会議情報に制限を行なうべきと判定した場合には、当事者は、操作ボタン117を操作することによって操作入力受付部12により、直接、制限の指示情報を入力する。   In addition, when the party of the conference determines that the conference information of the other party should be restricted without being identified by the sound identification unit 19a and the determination of the determination unit 19b, the party operates by operating the operation button 117. The input receiving unit 12 directly inputs restriction instruction information.

この入力があった場合には、判定部19bは、会議情報の出力に対して制限を行なうべきと判定し、入力された音が相手方の会議情報を出力すべき音でないと判定した場合と同じ処理を実行する。   When there is this input, the determination unit 19b determines that the output of the conference information should be restricted, and is the same as the case where it is determined that the input sound is not the sound to output the other party's conference information. Execute the process.

判定部19bは、制限の必要がなくなった場合等に会議の当事者が行なう解除指示情報の操作入力があった場合には、その入力を受けて、制限の解除を行なうべきと判定する。解除指示情報の操作入力は操作ボタン117を操作することによって操作入力受付部12により行なわれる。   When there is an operation input of release instruction information performed by a party to the conference when the restriction is no longer necessary, the determination unit 19b determines that the restriction should be released in response to the input. The operation input of the release instruction information is performed by the operation input receiving unit 12 by operating the operation button 117.

解除の操作入力はパスワードの入力により行なわれるが、この入力があった場合に判定部19bは,この入力情報と予め設定されたパスワードとを比較し,一致した場合は、制限の解除を行なうべきと判定する。   The canceling operation input is performed by inputting a password. When this input is made, the determination unit 19b compares the input information with a preset password, and if they match, the restriction should be canceled. Is determined.

判定部19bによる制限解除の判定があった場合には、制限部19cは、画像表示制御部14bに対して画面オンへの移行を指示する.
また制限部19cは,記憶部1000に記憶してあったスピーカ122の制限前時点の出力音量データを参照し,スピーカ122に対してこの音量データによる制限前の出力音量への音量復帰を指示する。
When the determination unit 19b determines that the restriction is released, the restriction unit 19c instructs the image display control unit 14b to shift to screen on.
Further, the restriction unit 19c refers to the output volume data before restriction of the speaker 122 stored in the storage unit 1000, and instructs the speaker 122 to restore the volume to the output volume before restriction by the volume data. .

状態管理部19dは、自己の端末装置100において制限部19cによる画像オフおよび出力音量の最小化の指示が行なわれた場合には、会議の相手方の端末装置100に対するこの制限が行なわれたことを示すメッセージを作成し、送受信部11に相手方の端末装置100への通知の指示を行なう。   When the restriction unit 19c instructs the state management unit 19d to turn off the image and minimize the output volume, the state management unit 19d determines that the restriction has been performed on the terminal device 100 of the other party of the conference. A message to be shown is created and an instruction to notify the counterpart terminal device 100 is given to the transmission / reception unit 11.

具体的には、状態管理部19dは図5(A)に示すようなRFC3921のXMPP IM (Extensible Messaging and Presence Protocol: Instant Messaging and Presence)に従うXML(Extensible Markup Language)ベースのメッセージを作成する。   Specifically, the state management unit 19d creates an XML (Extensible Markup Language) based message according to XMPP IM (Extensible Messaging and Presence Protocol: Instant Messaging and Presence) of RFC3921 as shown in FIG.

この場合において状態管理部19dは,<presence>タグの属性”fromおよび”to”に自己の端末装置100等の識別子と送信先端末装置100の識別子をそれぞれ指定する。   In this case, the state management unit 19d designates the identifier of the terminal device 100 and the like of the own terminal device 100 and the identifier of the transmission destination terminal device 100 in the attributes “from” and “to” of the <presence> tag.

図5(A)の例では、自己の端末装置100等をID1とし送信先である相手方端末装置100等の識別子をID4として指定している。   In the example of FIG. 5A, its own terminal device 100 or the like is designated as ID1, and the identifier of the counterpart terminal device 100 or the like that is the transmission destination is designated as ID4.

<show>タグの値は会議中であることを示す”CHAT”を指定する。   For the <show> tag value, specify “CHAT” to indicate that a meeting is in progress.

<status>タグの値には画面の状態を指定する。図5(A)においては、”画面オフ“の状態を示す”DISPLAY_OFF”を指定する。   Specify the screen status in the <status> tag value. In FIG. 5A, “DISPLAY_OFF” indicating the state of “screen off” is designated.

状態管理部19dはこのメッセージを送受信部11に送ってメッセージの送信を指示する。これにより送受信部11はXMPPでメッセージを送信する。   The state management unit 19d sends this message to the transmission / reception unit 11 to instruct the transmission of the message. As a result, the transmission / reception unit 11 transmits a message by XMPP.

自己の端末装置100において制限部19cによる制限が解除されて、画面オフから画面オンへの移行の指示、および音量復帰を指示があった場合には、状態管理部19dは図5(B)に示すメッセージを作成し,画面オフ時と同様に送受信部11にメッセージの送信を指示する。   In the case where the restriction by the restriction unit 19c is released in the terminal device 100 of its own and there is an instruction to shift from the screen off to the screen on and an instruction to restore the volume, the state management unit 19d displays the state in FIG. A message is generated and the transmission / reception unit 11 is instructed to transmit a message in the same manner as when the screen is off.

図5(B)に示すメッセージにおいては、<presence>タグの属性”fromおよび”to”には、図5(A)の場合と同様に自己の端末装置100の識別子ID1と、送信先の相手方端末装置100等の識別子ID4を指定する。   In the message shown in FIG. 5 (B), the attributes “from” and “to” of the <presence> tag include the identifier ID1 of the terminal device 100 of its own and the destination partner as in the case of FIG. 5 (A). The identifier ID4 of the terminal device 100 or the like is designated.

<show>タグの値についても図5(A)の場合と同様に会議中であることを示す”CHAT”を指定する。   As for the value of the <show> tag, “CHAT” indicating that the conference is in progress is designated as in the case of FIG.

<status>タグの値には、”画面オン“の状態を示す”DISPLAY_ON”を指定する。   For the value of the <status> tag, specify “DISPLAY_ON” indicating the status of “screen on”.

なお、<status>タグの値には”画面オフ“の状態を示す”DISPLAY_OFF”が指定されているが、この”画面オフ“は会議情報の出力処理に対して制限が行なわれていることを代表的に示したもので、これにはスピーカ122の出力音量の最小化の状態を示す内容も含まれている。   Note that the <status> tag value specifies “DISPLAY_OFF”, which indicates the status of “screen off”. This “screen off” indicates that there is a restriction on the output processing of conference information. This is representatively shown, and includes contents indicating a state of minimizing the output volume of the speaker 122.

出力処理の変更状態の通知のメッセージは送信先である相手方端末装置100の送受信部11で受信されるが、相手方の端末装置100の状態管理部19cは,送受信部11から受け取ったメッセージを次のように解析する。   The notification message of the change status of the output process is received by the transmission / reception unit 11 of the counterpart terminal device 100 that is the transmission destination, but the status management unit 19c of the counterpart terminal device 100 receives the message received from the transmission / reception unit 11 as follows. Analyze as follows.

まず<presence>タグの”from”属性”から送信元である会議の相手方の装置100の識別子(本実施形態ではID1)を取得する.次に,<status>タグの値から画面状態を取得する。   First, the identifier (ID1 in this embodiment) of the device 100 of the conference partner that is the transmission source is acquired from the “from” attribute of the <presence> tag, and then the screen status is acquired from the value of the <status> tag. .

状態管理部19dは取得した画面状態がDISPLAY_OFFであれば,相手の会議装置において会議情報の出力の制限が行なわれたと認識する。   If the acquired screen state is DISPLAY_OFF, the state management unit 19d recognizes that the output of the conference information is restricted in the partner conference device.

そして、相手側とは会議不可であることを示す表示を自己の画像表示制御部14bに対して指示する。   Then, he / she instructs his / her image display control unit 14b to display that the conference is impossible.

図6に会議不可になったときのメッセージ受信側の表示画面の例を示す。この図においては、会議情報である会議の相手方の画像とともに、具体的には相手方の画像に重ねて会議が一時的にできない状態を示すマークが表示されている。なお,画面右側のようにテキストでマークの意味を追加表示するようにしてもよい。   FIG. 6 shows an example of a display screen on the message receiving side when the conference becomes impossible. In this figure, together with the image of the other party of the conference as the conference information, specifically, a mark indicating a state in which the conference cannot be temporarily performed is superimposed on the image of the other party. The meaning of the mark may be additionally displayed as text as shown on the right side of the screen.

状態管理部19dは取得した画面状態がDISPLAY_ONであれば,相手の会議装置において会議情報の出力の制限の解除が行なわれたと認識し、図7に示すような会議可であることを示す画面の表示を自己の画像表示制御部14bに対して指示する。すなわち、図7に示すように図6における上記のマークを終了させて非表示にし,マークの意味を追加表示している場合にはマークの意味を追加しているテキスト部分の表示を終了させて非表示にする。   If the acquired screen state is DISPLAY_ON, the state management unit 19d recognizes that the restriction on the output of conference information has been lifted in the other party's conference device, and displays a screen indicating that a conference is possible as shown in FIG. The display is instructed to its own image display control unit 14b. That is, as shown in FIG. 7, the mark in FIG. 6 is terminated and hidden, and when the meaning of the mark is additionally displayed, the display of the text portion to which the meaning of the mark is added is terminated. You want to hide.

なお、この実施形態においては、会議を行っている端末装置100間で直接、制限に関する情報のメッセージのやりとりをするようにしているが遠隔通信管理システム700を経由するようにしてもよい。また制限状況を、端末装置100間でのやりとりとは別に遠隔通信管理システム700に伝えるようにしてもよい。   In this embodiment, a message regarding information regarding restrictions is directly exchanged between the terminal devices 100 having a conference, but the message may be routed through the remote communication management system 700. Further, the restriction status may be transmitted to the remote communication management system 700 separately from the exchange between the terminal devices 100.

次に音識別部19aについて、具体的に説明する。   Next, the sound identification unit 19a will be specifically described.

音識別部19aは、次のような機能を有している。
(1)音のアナログ信号をデジタル信号への変換処理
(2)音響分析処理
(3)区間検出処理
(4)音識別処理
各機能について説明する。
(1)音のアナログ信号をデジタル信号への変換
マイク121により収集された音のアナログ信号の入力を受け付け、このアナログ信号をADコンバータにより、例えば8kHz、16ビットのデジタル信号に変換する。この変換処理は図2の音入出力I/F123において行なわれる。
なお、この音識別部19aによる変換処理は音識別のための処理であり内容としては音入力部15aの変換処理とは異なるが、音のアナログ信号をデジタル信号に変換するという点では音入力部15aの変換処理と同じではあるので、この変換処理を双方の目的に共通に使えるような処理内容にしている。
The sound identification unit 19a has the following functions.
(1) Conversion process from analog sound signal to digital signal (2) Acoustic analysis process (3) Section detection process (4) Sound identification process Each function will be described.
(1) Conversion of sound analog signal into digital signal Input of a sound analog signal collected by the microphone 121 is received, and the analog signal is converted into, for example, a digital signal of 8 kHz, 16 bits by an AD converter. This conversion process is performed in the sound input / output I / F 123 of FIG.
The conversion process by the sound identification unit 19a is a process for sound identification and differs from the conversion process of the sound input unit 15a in terms of content, but the sound input unit is different in that it converts an analog sound signal into a digital signal. Since it is the same as the conversion processing of 15a, the processing content is set so that this conversion processing can be commonly used for both purposes.

したがって、これらの処理は別々に行なうようにしてもよい。   Therefore, these processes may be performed separately.

(2)音響分析処理
(1)において変換された音のデジタル信号に対して音響分析処理を行う。
(2) Acoustic analysis processing The acoustic analysis processing is performed on the digital signal of the sound converted in (1).

この分析処理には、LPC(線形予測)分析等を用いることができる。LPC分析は、細かい周波数成分を信号から除去し、残った部分の強さと周波数の概要(包絡)を予測することで、このデジタル信号を分析する。   For this analysis processing, LPC (linear prediction) analysis or the like can be used. LPC analysis analyzes this digital signal by removing fine frequency components from the signal and predicting the strength and frequency outline (envelope) of the remaining part.

デジタル信号は、時間と共に変化するため、この分析は一定時間の信号のかたまり、すなわちフレームに対して行われる。   Since digital signals change over time, this analysis is performed on a set of signals over a period of time, ie, a frame.

このLPC分析は、例えば、高域強調を一次差分、ハミング窓をかけて256点に切り出し、移動幅を16ms、LPC分析次数を20という条件で行われ、10次元メルケプストラム係数、対数パワーの一次差分、対数パワーという特徴量をフレーム単位で求める。   This LPC analysis is performed, for example, under the condition that the high-frequency emphasis is a first order difference, a Hamming window is cut out to 256 points, the movement width is 16 ms, and the LPC analysis order is 20. A feature quantity such as a difference and logarithmic power is obtained for each frame.

具体的には、このLPC分析では、まず、音波形データに高域強調フィルタをかけた後、窓関数をかける。この窓関数をかけることで、フレーム単位で切り出されたときに生じる不連続点の影響を小さくできる。   Specifically, in this LPC analysis, first, a high frequency enhancement filter is applied to the sound waveform data, and then a window function is applied. By applying this window function, it is possible to reduce the influence of discontinuous points that are generated when cut out in units of frames.

フレーム単位で切り出された信号の予測誤差の自乗の和が最小になるように線形予測係数を求める。得られた予測誤差と線形予測係数から1〜10までのケプストラム係数を再帰計算により求める。   A linear prediction coefficient is obtained so that the sum of squares of prediction errors of signals cut out in units of frames is minimized. The cepstrum coefficients from 1 to 10 are obtained by recursive calculation from the obtained prediction error and linear prediction coefficient.

メルケプストラム係数は、Oppenheim の漸化法によりケプストラムをメルケプストラムに変換することにより求める.補助的な特徴量である対数パワーは以上に述べた処理の過程で求めることができるので、対数パワーが得られるたびに対数パワーの時間的な一次差分も合わせて計算しておくようにする。   The mel cepstrum coefficient is obtained by converting the cepstrum into a mel cepstrum by Oppenheim's recursion method. Since the logarithmic power, which is an auxiliary feature amount, can be obtained in the process described above, the logarithmic power temporal primary difference is also calculated each time the logarithmic power is obtained.

なお、この音の分析は、ここに記載された方法に限られるものではなく、周波数(FFT)分析等の方法も用いることが可能である。   The sound analysis is not limited to the method described here, and a method such as frequency (FFT) analysis can also be used.

(3)区間検出処理
また、ADコンバータにより変換された音のデジタル信号に対して音識別処理を行なう区間を決定する区間検出処理を行う。
(3) Section Detection Processing Further, section detection processing is performed for determining a section in which sound identification processing is performed on the digital sound signal converted by the AD converter.

区間検出処理は、例えば、音対数パワーや一次の自己相関を観測、分析することにより区間の検出を行う。自己相関は、信号が時間シフトした信号とどの程度整合するかを測る尺度で、時間シフトの大きさの関数として表されるものである。   In the section detection process, for example, the section is detected by observing and analyzing the sound logarithmic power and the primary autocorrelation. Autocorrelation is a measure of how well a signal matches a time shifted signal and is expressed as a function of the magnitude of the time shift.

区間が検出された場合は、検出された区間に対応する区間のメルケプストラム係数や対数パワー等の特徴量が音識別処理に送られる。検出されなかった場合は、音響分析処理と区間検出処理を繰り返し行なう。   When a section is detected, feature quantities such as the mel cepstrum coefficient and logarithmic power of the section corresponding to the detected section are sent to the sound identification process. If not detected, the acoustic analysis process and the section detection process are repeated.

この区間検出処理を行うことにより、後述する識別処理の精度を高くすることができる。識別処理で用いるモデルの精度が十分に高い場合には、この区間検出処理を省略することも可能である。   By performing this section detection process, the accuracy of the identification process described later can be increased. If the accuracy of the model used in the identification process is sufficiently high, this section detection process can be omitted.

(4)音識別処理
音識別処理では、検出された区間の特徴量と音響特徴を表現する音響モデルとの照合を行う。例えば、音響モデルとして代表的なHMM(隠れマルコフモデル)を用いることができる。また、その他に、GMM(ガウス混合分布モデル)を用いることもできる。
(4) Sound identification process In the sound identification process, the feature quantity of the detected section is collated with an acoustic model expressing the acoustic feature. For example, a typical HMM (Hidden Markov Model) can be used as the acoustic model. In addition, a GMM (Gaussian mixture distribution model) can also be used.

音識別部19aで使用される音響モデルとしては、会議の当事者である話者の音響モデルと周囲の騒音の音響モデルをあらかじめ備えている。   As an acoustic model used in the sound identification unit 19a, an acoustic model of a speaker who is a party of the conference and an acoustic model of ambient noise are provided in advance.

図8は、音識別部19aで使用される話者の音響モデルのデータ構造の一例を示した図である。このデータ構造では、合計でn個のHMMがあり、異なるn人の話者に対応するHMMが番号と対応して記憶部1000に記憶されている。これらのHMMは、この端末装置100を通常使用する人に対応してモデル化されている。   FIG. 8 is a diagram showing an example of the data structure of the speaker acoustic model used in the sound identification unit 19a. In this data structure, there are a total of n HMMs, and HMMs corresponding to different n speakers are stored in the storage unit 1000 in association with numbers. These HMMs are modeled corresponding to people who normally use the terminal device 100.

図9は、音識別部19aで使用される騒音の音響モデルのデータ構造を示した図である。このデータ構造では、合計でm個のHMMがあり、異なるm種類の騒音に対するHMMが番号と対応して記憶部1000に記憶されている。これらの各HMMは、この端末装置100を使用している部屋に人が入ったことがわかる特徴的な騒音例えばドアの開閉音等と、それ以外の騒音例えば端末装置100の操作音等を、その種類を区別して記憶部1000に記憶されている。   FIG. 9 is a diagram showing a data structure of an acoustic model of noise used in the sound identification unit 19a. In this data structure, there are a total of m HMMs, and HMMs for different m types of noise are stored in the storage unit 1000 in association with numbers. Each of these HMMs has a characteristic noise such as a door opening / closing sound that indicates that a person has entered the room where the terminal device 100 is used, and other noise such as an operation sound of the terminal device 100. The types are distinguished and stored in the storage unit 1000.

これらの音響モデルのうち、会議の当事者である話者の音響モデルと、人が入ったことがわかる特徴的な騒音例えばドアの開閉音等以外の騒音の音響モデルが、相手方の会議情報を出力すべき音の音響モデルとしてあらかじめ指定されている。   Of these acoustic models, the acoustic model of the speaker who is the party to the conference and the characteristic acoustic noise model that indicates that a person has entered, for example, the noise model other than the door opening / closing sound, outputs the conference information of the other party It is designated in advance as an acoustic model of the sound to be played.

なお、各HMMは、話者の音声あるいは騒音の特徴量を統計的な出現確率に基づいて表現したものである。   Each HMM expresses a speaker's voice or noise feature quantity based on a statistical appearance probability.

これらのHMMは、Baum-Welchのアルゴリズムを用いて事前に訓練しておくことが好ましい。訓練用データには、予め収集しておいた各話者の音声および各種の騒音の特徴量を用いることができる 。   These HMMs are preferably trained in advance using the Baum-Welch algorithm. For the training data, voices of each speaker and various noise feature values collected in advance can be used.

なお、Baum-Welchのアルゴリズムは、訓練データの尤度を最大にするようにパラメータを学習するためのアルゴリズムで、HMM初期モデルの再推定に使用されるものである。   The Baum-Welch algorithm is an algorithm for learning parameters so as to maximize the likelihood of training data, and is used for re-estimation of the HMM initial model.

音識別部19aでは、検出された区間の特徴量と図8または図9に示すHMMとの照合を、L.Rabiner他、音声認識の基礎(下)、NTTアドバンステクノロジ株式会社、1995年(参考文献1)に詳述されているようなViterbiアルゴリズムにより行い、音響モデルまたは騒音モデルの各HMMに対する得点Siを算出する。   In the sound identification unit 19a, the feature quantity of the detected section is collated with the HMM shown in FIG. 8 or FIG. 9 by L. Rabiner et al. The score Si for each HMM of the acoustic model or noise model is calculated by the Viterbi algorithm as described in detail in Reference 1).

ここで、iは、HMMに対する番号であり、i=S1、…、Sn、N1、…、Nmである。Viterbiアルゴリズムの代わりに、forwardアルゴリズムを用いることも可能である。Viterbiアルゴリズムは、あるモデルにおいて、最適な状態系列と、この経路上での尤度を求めるアルゴリズムである。   Here, i is a number for the HMM, and i = S1,..., Sn, N1,. A forward algorithm can be used instead of the Viterbi algorithm. The Viterbi algorithm is an algorithm for obtaining an optimal state sequence and likelihood on this route in a certain model.

そして算出した各得点Siを比較し、音響モデルまたは騒音モデルのうち最も高い得点をもつHMMの番号Iを次式により求める。   Then, the calculated scores Si are compared, and the number I of the HMM having the highest score in the acoustic model or the noise model is obtained by the following equation.

Figure 0006160658
番号IをもつHMMの得点SIが次式の判定式から、しきい値TIより大きくなる場合は、有効な得点とする。
Figure 0006160658
If the score SI of the HMM having the number I is larger than the threshold value TI from the following judgment formula, the score is valid.

Figure 0006160658
この実施形態では、モデルごとにしきい値が異なるようにしているが、これに限られるものではなく、すべてのモデルに対して同一のしきい値を用いたり、図5に示す話者HMMと図6に示す騒音HMM用の2つのしきい値を用いるなど、他のしきい値設定を用いてもよい。
Figure 0006160658
In this embodiment, the threshold value is different for each model. However, the present invention is not limited to this, and the same threshold value is used for all models, or the speaker HMM shown in FIG. Other threshold settings may be used, such as using two threshold values for the noise HMM shown in FIG.

このようにして有効な得点をもつHMMの番号を判定するが、これにもとづき、音識別を次のように行なう。   In this way, the number of an HMM having a valid score is determined. Based on this, sound identification is performed as follows.

有効な得点をもつHMMの番号がSから始まっている場合は、使用している端末装置100の当事者が発声したものとみなすことができる。
他方、有効な得点をもつHMMの番号がNから始まる場合で、部屋に人が入ったこと示す特徴的な騒音モデルである場合は、当事者以外の他人の入室があったものとみなすことができる。
When the number of the HMM having a valid score starts with S, it can be considered that the party of the terminal device 100 being used uttered.
On the other hand, if the HMM number with a valid score starts with N and is a characteristic noise model indicating that a person has entered the room, it can be considered that someone else has entered the room. .

また、それ以外のNから始まるHMMが選択された場合は、単なる騒音であるとみなすことができる。   In addition, when an HMM starting with N other than that is selected, it can be regarded as a mere noise.

図8および図9に示すどのHMMの得点も有効な得点でない場合は、この端末装置100の当事者以外の他人が、この端末装置100が設置されている部屋の中で発声したものとみなすことができる。   If none of the HMM scores shown in FIG. 8 and FIG. 9 are valid scores, it may be considered that someone other than the party of the terminal device 100 speaks in the room where the terminal device 100 is installed. it can.

図8および図9に示すHMMは、話者ごとあるいは騒音の種類ごとに記憶されるが、話者と騒音の2つの全結合(エルゴード的)HMMを用意し、各HMMの状態に話者の種類あるいは騒音の種類を割り当てて照合することも可能である。   The HMMs shown in FIGS. 8 and 9 are stored for each speaker or for each type of noise, but two fully coupled (ergodic) HMMs of speakers and noise are prepared, and the state of each HMM It is also possible to collate by assigning types or noise types.

この場合にデータ記憶部42に格納された話者HMM、騒音HMMの構造の例をそれぞれ図10および図11に示す。   In this case, examples of the structures of the speaker HMM and the noise HMM stored in the data storage unit 42 are shown in FIGS. 10 and 11, respectively.

図10では、合計でn個の状態をもつHMMであり、異なるn人の話者についての確率密度関数が状態と対応して格納されている。図11では、合計でm個の状態があり、異なるm種類の騒音についての確率密度関数が状態に対応して格納されている。   In FIG. 10, the HMM has a total of n states, and probability density functions for different n speakers are stored in association with the states. In FIG. 11, there are a total of m states, and probability density functions for m different types of noise are stored corresponding to the states.

この確率密度関数から抽出された特徴量が出現する確率を求めることができる.なお,図示していないが,話者HMM,騒音HMMの状態jにおける遷移確率aSji(i=1,‥,n), aNji(i=1,‥,m)もHMMを構成するパラメータとしてデータ記憶部に格納されている.
上記のようなHMMを用いた識別処理においては、検出された区間の特徴量に対して図8および図9に示すHMMとの照合を、上記参考文献1に詳述されているようなViterbiアルゴリズムにより行い、各話者HMMに対する得点Ssと騒音HMMに対する得点Sbとを求め、次式によりしきい値よりも大きい場合は有効な得点とする。
The probability that the feature quantity extracted from this probability density function appears can be obtained. Although not shown, the transition probabilities aSji (i = 1,..., N) and aNji (i = 1,. Stored in the section.
In the identification processing using the HMM as described above, the Viterbi algorithm as described in detail in the above-mentioned reference 1 is used to collate the detected section with the HMM shown in FIGS. 8 and 9. The score Ss for each speaker HMM and the score Sb for the noise HMM are obtained. If the score is larger than the threshold value by the following equation, the score is effective.

Figure 0006160658
Figure 0006160658

Figure 0006160658
ここで、Ts、Tbは、話者HMMの得点に対するしきい値と騒音HMMの得点に対するしきい値である。この実施形態では、HMM毎にしきい値が異なっているが、これに限ったものではなく、全てのモデルに対して同一のしきい値を用いることもできる。
Figure 0006160658
Here, Ts and Tb are a threshold for the score of the speaker HMM and a threshold for the score of the noise HMM. In this embodiment, the threshold value is different for each HMM, but is not limited to this, and the same threshold value can be used for all models.

このようにして有効な得点をもつHMMの番号を判定するが、これにもとづき、話者識別を次のように行なう。   In this way, the number of an HMM having a valid score is determined. Based on this, speaker identification is performed as follows.

有効な得点をもつHMMが話者HMMであった場合は、この端末装置100を使用している者が発声したものとみなすことができる。
他方、有効な得点をもつHMMが騒音HMMであった場合は、上記参考文献1に詳述されているようなViterbiアルゴリズムによるトレースバック処理を行い、音声特徴量のフレームに対応する騒音HMMの状態系列を求める。
If the HMM having a valid score is a speaker HMM, it can be considered that the person using this terminal apparatus 100 has made a speech.
On the other hand, when the HMM having an effective score is a noise HMM, the trace back processing by the Viterbi algorithm as described in detail in the above-mentioned reference 1 is performed, and the state of the noise HMM corresponding to the frame of the speech feature amount Find the series.

そして、この系列から連続して最も長く滞留する状態番号を求め(例えば、状態系列が113333324であった場合、最も多い番号である状態番号3が求める番号となる)。この状態番号が入室を示す特徴的な状態番号に対応する場合は、入室があったものとみなすことができる。   Then, the state number that stays longest continuously from this series is obtained (for example, when the state series is 113333324, the state number 3 which is the largest number is the number to be obtained). When this state number corresponds to a characteristic state number indicating entry, it can be considered that there is entry.

状態番号が入室を示す特徴的な状態番号に対応する番号以外の番号であった場合は、単なる騒音であるとみなすことができる。
HMMの得点がどちらも有効でない場合は、この端末装置100を使用しない者が、この端末装置100が設置されている部屋の中で発声したものとみなすことができる。
When the state number is a number other than the number corresponding to the characteristic state number indicating entry, it can be regarded as a mere noise.
If neither of the HMM scores is valid, it can be considered that a person who does not use the terminal device 100 speaks in a room where the terminal device 100 is installed.

本実施形態における話者識別部19aは、音響モデルとしてHMMを用いたが、他のモデルを用いることも可能である。   The speaker identification unit 19a in the present embodiment uses an HMM as an acoustic model, but other models can also be used.

例えば、数フレームからなる特徴量を相加平均した標準パターン、人工神経回路網や室井他、「継続時間制御状態遷移モデルを用いた単語音声認識」、電子情報通信学会論文誌J72-D-II、11、pp.1769-1777(1989−11)(参考文献2)に詳述されるようなDST(Duration-based State Transition:継続時間制御状態遷移)モデルを用いることも可能である。   For example, a standard pattern obtained by arithmetically averaging feature values consisting of several frames, artificial neural network, Muroi et al., "Word recognition using duration control state transition model", IEICE Transactions J72-D-II 11, pp. 1769-1777 (1989-11) (Reference 2), it is also possible to use a DST (Duration-based State Transition) model.

DSTモデルはHMMに比べると,話者が発声した音声パターンの時間構造を明示的に表現できるため,特定の話者の識別に特に効果的である。そのため、図1に示したようなシステム構成で、在宅勤務者一人だけ、または少数の話者を識別すればよいシステム環境では、DSTモデルをHMMの代わりに用いるとさらに精度良く話者の識別することができる。   Compared to the HMM, the DST model can express the temporal structure of the speech pattern uttered by the speaker, and is particularly effective for identifying a specific speaker. Therefore, in a system environment where only one telecommuter or a small number of speakers need to be identified with the system configuration as shown in FIG. 1, the DST model is used in place of the HMM to identify speakers more accurately. be able to.

次に、端末装置100が行なう処理について、フローチャートを参照して説明する。
図12は、自己の端末装置100において会議情報の出力処理に対して制限を行なう場合の流れを示すフローチャートであり、これを参照してこの場合の自己の端末装置100における処理について説明する。
Next, processing performed by the terminal device 100 will be described with reference to a flowchart.
FIG. 12 is a flowchart showing a flow in the case of limiting the conference information output process in its own terminal device 100, and the processing in its own terminal device 100 in this case will be described with reference to this.

情報漏洩防止部19は、遠隔会議システムにより会議が行なわれているときにこの処理をステップ30から開始する。
まず、ステップ31において指示の操作入力があるかを判断し、入力があった場合には、ステップ37において、判定部19bが、その指示の入力が制限を行なう指示か否かを確認し、制限の指示情報である場合には制限を行なうべきと判定する。
The information leakage prevention unit 19 starts this processing from step 30 when a conference is being held by the remote conference system.
First, in step 31, it is determined whether or not there is an instruction operation input. If there is an input, in step 37, the determination unit 19 b confirms whether or not the instruction input is an instruction to perform a restriction. If it is the instruction information, it is determined that the restriction should be performed.

制限を行なうべきと判定した場合には、ステップ38の制限処理に移って制限処理を行い、制限を行なうべきと判定しない場合には、ステップ31に戻る。   If it is determined that the restriction should be performed, the process proceeds to the restriction process in step 38 and the restriction process is performed. If it is not determined that the restriction should be performed, the process returns to step 31.

ステップ31において、指示の入力がなかった場合にはステップ32に移って音響分析処理を行なう。   If it is determined in step 31 that no instruction has been input, the flow advances to step 32 to perform acoustic analysis.

ステップ32においては、音識別部19aがマイク121により収集された音のアナログ信号の入力を受け付ける。入力された音は、ADコンバータにより、例えば8kHz、16ビットのデジタル信号に変換される。   In step 32, the sound identification unit 19a accepts an input of an analog signal of sound collected by the microphone 121. The input sound is converted into a digital signal of, for example, 8 kHz and 16 bits by an AD converter.

このデジタル信号への変換は、マイク121が音を収集している間継続して行なわれ、変換されたデジタル信号がバスライン126に出力される。   The conversion to the digital signal is continuously performed while the microphone 121 collects sound, and the converted digital signal is output to the bus line 126.

ステップ33において、上記の変換された音のデジタル信号に対して音識別部19aは音響分析処理を行う。この音響分析処理は、一定時間のデジタル信号のかたまりすなわちフレームに対して、音のデジタル信号が出力されている間継続して行なわれる。   In step 33, the sound identification unit 19a performs an acoustic analysis process on the digital signal of the converted sound. This acoustic analysis process is continuously performed while a digital sound signal is output for a block of digital signals for a certain period, that is, a frame.

音響分析処理の分析結果としてメルケプストラム係数、対数パワー等の特徴量がバスライン126に出力される。   As an analysis result of the acoustic analysis process, feature quantities such as a mel cepstrum coefficient and logarithmic power are output to the bus line 126.

ステップ34において、上記の変換された音声のデジタル信号に対して音識別部19aは区間検出処理を行う。   In step 34, the sound identification unit 19a performs a section detection process on the converted digital signal.

区間検出処理は、識別の対象となる区間の検出を行なうもので、音のデジタル信号が出力されている間継続して行なわれる。   The section detection process detects a section to be identified, and is continuously performed while the sound digital signal is output.

次に、ステップ35において、音識別部19aはステップ34における区間検出の有無を確認し、区間が検出された場合には、ステップ36の音識別処理に移る。   Next, in step 35, the sound identification unit 19a confirms whether or not a section is detected in step 34. If a section is detected, the process proceeds to a sound identification process in step 36.

区間が検出されなかった場合はステップ31へ戻る。   If no section is detected, the process returns to step 31.

区間が検出された場合にはステップ36において、音識別部19aは音識別処理を行なう。この音識別処理においては、ステップ34において検出された区間の音響分析処理の区間の特徴量と、記憶部1000に記憶されている音響特徴を表現した音響モデルとの照合を行ない、指定された話者の音声か否かの識別を行なう。   If a section is detected, in step 36, the sound identification unit 19a performs sound identification processing. In this sound identification process, the feature amount of the section of the acoustic analysis process detected in step 34 is collated with the acoustic model expressing the acoustic feature stored in the storage unit 1000, and the specified story It is identified whether or not the voice of the person.

具体的には、会議の出席者等の当事者が発した音声か、また人の音声以外では人が部屋に入ったことによるドアの開閉音などの騒音かを識別する。   Specifically, it is discriminated whether the voice is uttered by a party such as an attendee of the meeting or the noise other than the voice of the person, such as the opening / closing sound of the door when the person enters the room.

ステップ37においてこの音識別処理の識別結果にもとづいて、判定部19bは会議情報の出力処理を制限すべきか否かの判定を行なう。   In step 37, based on the identification result of the sound identification process, the determination unit 19b determines whether or not the conference information output process should be restricted.

音声については会議の出席者等の当事者が発した音声の場合以外には制限すべきと判定し、騒音の場合にはドアの開閉音の場合には他人が入室してきたものと考えられるので制限すべきと判定する。   Regarding audio, it is judged that it should be restricted except in the case of voices uttered by parties such as attendees of conferences. Judge that it should be.

ステップ37において制限すべきと判定された場合には、ステップ38の制限処理に移る。
制限すべきと判定されなかった場合にはステップ31へ戻る。
If it is determined in step 37 that the restriction should be made, the process proceeds to a restriction process in step 38.
If it is not determined that it should be restricted, the process returns to step 31.

ステップ38において、制限部19bは画面表示制御部14bに対して画面オフの指示を行い、ディスプレイ140の画面をオフにする。   In step 38, the restriction unit 19b instructs the screen display control unit 14b to turn off the screen, and turns off the screen of the display 140.

ステップ39において、制限部19cは音声出力部15bに対して制限前時点(現時点)の出力音量データの記憶と音声出力音量の最小化を指示して実行させる。これによりスピーカ122の出力音量を最小化する。   In step 39, the restricting unit 19c instructs the audio output unit 15b to store the output volume data before the restriction (current time) and minimize the audio output volume. Thereby, the output volume of the speaker 122 is minimized.

次にステップ40において、状態管理部19dは、自己の端末装置100において会議情報の出力処理の制限が行なわれたことを示す図5(A)に示すようなメッセージの作成処理を行なう。   Next, in step 40, the state management unit 19d performs a message creation process as shown in FIG. 5A indicating that the restriction of the output process of the conference information has been performed in its own terminal device 100.

次にステップ41において、ステップ40において作成されたメッセージの送信処理を行なう。この送信処理は状態管理部19dが送受信部11にメッセージの送信を指示し、送受信部11が送信処理をすることにより行なわれ、ステップ42において終了する。   Next, in step 41, the message created in step 40 is transmitted. This transmission process is performed when the state management unit 19d instructs the transmission / reception unit 11 to transmit a message, and the transmission / reception unit 11 performs the transmission process.

なお、図12のフローチャートにおいては、すでに会議情報の出力処理に対する制限を行ない継続中の場合については特に示されていないが、出力処理に対する制限の継続中でないことを、図12のフローチャートの処理の開始の条件とするようにして、すでに制限を継続中の場合にはこの処理を開始しないようにすることができる。   In the flowchart of FIG. 12, the case where the restriction on the output process of the conference information has already been performed is not particularly shown, but the restriction on the output process is not continued. It is possible to prevent this process from being started when the restriction is already being continued as a start condition.

図13は、自己の端末装置100において行なった会議情報の出力処理に対する制限を解除する場合の流れを示すフローチャートであり、これを参照してこの場合の自己の端末装置100における処理について説明する。   FIG. 13 is a flowchart showing a flow when the restriction on the conference information output process performed in the terminal device 100 is cancelled, and the processing in the terminal device 100 in this case will be described with reference to this flowchart.

情報漏洩防止部19は、この処理をステップ50から開始する。
まず、ステップ51において指示の操作入力があるかを判断し、入力があった場合には、ステップ52において、判定部19bがその指示の入力が有効な解除の指示入力か否かを確認し、制限を解除すべきか否かの判定をする。
解除すべきと判定された場合には、ステップ53以降の処理に移る。
制限すべきと判定されなかった場合にはステップ51において解除の操作入力の有無の監
視を継続する。
The information leakage prevention unit 19 starts this process from step 50.
First, in step 51, it is determined whether or not there is an instruction operation input. If there is an input, in step 52, the determination unit 19b confirms whether or not the instruction input is a valid release instruction input. It is determined whether the restriction should be removed.
If it is determined that it should be canceled, the process proceeds to step 53 and subsequent steps.
If it is not determined that the restriction should be made, in step 51, monitoring for the presence of a release operation input is continued.

ステップ52において解除すべきと判定された場合には、ステップ53において、制限部19cは画面表示制御部14bに対して画面オンの指示を行い、ディスプレイ140の画面をオンに復旧させる。   If it is determined in step 52 that it should be released, in step 53, the restriction unit 19c instructs the screen display control unit 14b to turn on the screen, and restores the screen of the display 140 to on.

次にステップ54において、制限部19cは音出力部15bに対してスピーカ122の音出力の音量を制限前時点の出力音量に戻すことを指示して、スピーカ122の出力音量を復旧させる。   Next, at step 54, the restricting unit 19c instructs the sound output unit 15b to return the sound output volume of the speaker 122 to the output sound volume before the restriction, and restores the output sound volume of the speaker 122.

次にステップ55において、状態管理部19dは、自己の端末装置100において会議情報の出力処理の制限が解除されたことを示す図5(B)に示すようなメッセージの作成処理を行なう。   Next, in step 55, the state management unit 19d performs a message creation process as shown in FIG. 5B indicating that the restriction on the output process of the conference information has been lifted in the terminal device 100 of itself.

次にステップ56において、ステップ55において作成されたメッセージの送信処理を行なう。この送信処理は状態管理部19dが送受信部11にメッセージの送信を指示し、送受信部11が送信処理することにより行なわれ、ステップ56において終了する。   Next, in step 56, the message created in step 55 is transmitted. This transmission process is performed when the state management unit 19d instructs the transmission / reception unit 11 to transmit a message, and the transmission / reception unit 11 performs the transmission process.

図14は、会議の相手方の端末装置100から会議情報の出力処理の変更状態のメッセージを受信した場合の流れを示すフローチャートであり、これを参照してこの場合の会議の相手方である受信側の端末装置100における処理について説明する。   FIG. 14 is a flowchart showing a flow when a message indicating a change in the output process of the conference information is received from the terminal device 100 of the other party of the conference. With reference to this, the reception side that is the other party of the conference in this case is referred to Processing in the terminal device 100 will be described.

この処理はステップ60から開始され、受信側の端末装置100はステップ61において、メッセージの受信処理を行なう。   This processing is started from step 60, and the receiving side terminal device 100 performs message reception processing in step 61.

このメッセージの受信処理は受信側の端末装置100の送受信部11で行なわれ、図12のステップ40において作成された図5(A)に示すメッセージと、図13のステップ55において作成された図5(B)に示すメッセージが受信される。   This message reception process is performed by the transmission / reception unit 11 of the terminal device 100 on the receiving side. The message shown in FIG. 5A created in step 40 of FIG. 12 and the message shown in FIG. 5 created in step 55 of FIG. The message shown in (B) is received.

次に、ステップ62において受信側の端末装置100の状態管理部19dは,送受信部11から受け取ったメッセージの解析処理を行なう。   Next, in step 62, the state management unit 19d of the terminal device 100 on the receiving side performs processing for analyzing the message received from the transmission / reception unit 11.

すなわち、メッセージが図5(A)に示すものである場合には画面状態が“DISPLAY_OFF”であるので、状態管理部19dは送信側であるID1の端末装置100においてディスプレイ140が画面オフに変更され、かつスピーカ122の音声出力音量が最小化されたことを認識する。   That is, when the message is as shown in FIG. 5A, since the screen state is “DISPLAY_OFF”, the state management unit 19d changes the display 140 to the screen off in the terminal device 100 of ID1 on the transmission side. And that the sound output volume of the speaker 122 is minimized.

また、メッセージが図5(B)に示すものである場合には画面状態が“DISPLAY_ON”であるので、状態管理部19cは送信側の端末装置100においてディスプレイ140が画面オンに復旧し、かつスピーカ122の音声出力音量が元の音量に復旧したことを認識する。   When the message is as shown in FIG. 5B, the screen state is “DISPLAY_ON”, so that the state management unit 19c restores the display 140 to the screen-on state in the terminal device 100 on the transmission side, and the speaker. It is recognized that the audio output volume 122 has been restored to the original volume.

次にステップ63において、ステップ62の解析処理の結果を確認し、結果が、送信側が画面オフかつ音声出力音量最小化の場合には、状態管理部19dは図6に示すように送信元である会議の相手方の画像に重ねて会議が一時的にできない状況を示すマークの表示を、受信側である自己の画像表示制御部14bに対して指示する。   Next, in step 63, the result of the analysis process in step 62 is confirmed. If the result is that the transmission side is screen off and the audio output volume is minimized, the state management unit 19d is the transmission source as shown in FIG. It instructs the image display control unit 14b on the receiving side to display a mark indicating a situation where the conference cannot be temporarily performed over the image of the other party of the conference.

ステップ63において、ステップ62の解析処理の結果が送信側が画面オンに復帰かつ音声出力音量が復帰の場合には、状態管理部19dは図7に示すように、図6における上記のマークの表示終了させて非表示にすることを、受信側である自己の画像表示制御部14bに対して指示する。   In step 63, if the result of the analysis processing in step 62 is that the transmission side is returned to the screen-on state and the audio output volume is restored, the state management unit 19d ends the display of the mark in FIG. 6 as shown in FIG. And instructing the image display control unit 14b on the receiving side to hide it.

そして、ステップ64またはステップ65において、ステップ63により指示された表示をディスプレイ140において行ない、ステップ66において終了する。   In step 64 or step 65, the display instructed in step 63 is performed on the display 140, and the process ends in step 66.

上記した実施形態においては、遠隔会議システムを使用して会議が行なわれているときに、遠隔会議システムの端末装置100により会議の場所において収集される音の識別が行なわれ、指定された話者の音声かあるいは人が部屋に入ったことによるドアの開閉音か否かを識別される。   In the above-described embodiment, when a conference is being performed using the remote conference system, the sound collected at the conference location is identified by the terminal device 100 of the remote conference system, and the designated speaker is identified. Or whether the door is opened or closed due to a person entering the room.

そして、この識別結果にもとづき、指定された話者の音声以外の音声や人が部屋に入ったことによるドアの開閉音が識別された場合には。端末装置100により自己の会議の場所において出力されている画面、音声等の会議情報の出力処理の制限処理が行なわれる。または会議の当事者により制限の指示情報が操作入力された場合にも同様な制限処理が行なわれる。   Then, based on this identification result, when a voice other than the voice of the designated speaker or a door opening / closing sound due to a person entering the room is identified. The terminal device 100 performs processing for restricting output processing of conference information such as a screen and audio output at the location of the conference itself. A similar restriction process is also performed when restriction instruction information is input by a party of the conference.

この制限処理が行なわれるとともに、会議の相手方の端末装置100に自己の端末装置100において制限処理が行なわれたことを示すメッセージが送信され、相手方の会議装置100により制限処理が行なわれたことが表示される。   While this restriction process is performed, a message indicating that the restriction process has been performed at the terminal device 100 of the own party is transmitted to the terminal device 100 of the other party of the conference, and the restriction process is performed by the partner device 100 of the other party. Is displayed.

制限処理の解除は、端末装置100に会議の当事者等の人が解除の操作入力をすることにより行なわれ、解除の入力があった場合には制限が解除されるとともに、会議の相手方の端末装置に自己の端末装置において制限処理が解除されたことを示すメッセージが送信され、相手方の会議装置100により解除が行なわれたことが表示される。   The restriction process is canceled when a person such as a party of the conference inputs a cancellation operation to the terminal device 100. When the cancellation input is made, the restriction is canceled and the terminal device of the other party of the conference A message indicating that the restriction process has been canceled in its own terminal device is transmitted to display that the other conference device 100 has canceled the restriction process.

したがって、会議の当事者以外の他人が会議室に入ってきた場合の情報漏洩を低減することができ、会議の相手方にも、この理由で会議が一時的に中断していることがわかるので混乱を生じることなく円滑に会議を進めることができる。   Therefore, it is possible to reduce information leakage when someone other than the party of the conference enters the conference room, and the other party of the conference can understand that the conference is temporarily suspended for this reason. The conference can proceed smoothly without occurring.

なお、出力処理の変更状態の通知のメッセージを送信先である相手方端末装置100が受信した場合の出力処理は、ディスプレイ140において行なっているが、スピーカ122により行なってもよくまたこれらを併用してもよい。
また、別の出力装置例えばランプを別に設けてその点灯で行なってもよい。
Note that the output processing when the partner terminal device 100 that is the transmission destination receives the notification message of the change status of the output processing is performed on the display 140, but may be performed by the speaker 122, or may be used in combination. Also good.
Further, another output device, for example, a lamp may be separately provided to perform lighting.

また、出力の制限は、状況に応じて音声と画面の別々でも良い。例えば画面が他人から見えにくいような位置にある場合には音声だけに制限を行なうようにしてもよい。   Further, the limitation on output may be separate for audio and screen depending on the situation. For example, when the screen is in a position where it is difficult for others to see, it may be possible to limit only the sound.

なお、上記の実施形態は会議室や通常の部屋において会議を行う場合について行なったが、これに限らず、同様の機能を有する携帯電話端末を用いて2者間または3者以上間の会話を行なう場合も含むものであり、本発明の会議システムおよび端末装置にはこのような場合に用いられるシステムおよび携帯電話端末も含む。   In addition, although said embodiment was performed about the case where a meeting is performed in a conference room or a normal room, it is not restricted to this, The conversation between two persons or three or more persons is carried out using the mobile phone terminal which has the same function. The conference system and the terminal device of the present invention include a system and a mobile phone terminal used in such a case.

100 会議装置
110 装置本体
111 CPU
112 ROM
113 RAM
114 SSD
115 フラッシュメモリ
116 メディアドライブ
116a 記録メディア
117 操作ボタン
118 電源スイッチ
119 ネットワークI/F
120 カメラIF
121 マイク
122 スピーカ
123 音声入出力I/F
124 ディスプレイI/F
125 外部機器接続I/F
126 バスライン
130 カメラ
140 ディスプレイ
1021 筐体
1021e 吸気孔
1021f 収音用孔
1021g 接続口
1022 操作パネル
1074 アーム
1075 カメラハウジング
200 LAN
300 専用線
400 インターネット
A 地域
500 ルータ
600 中継装置
700 遠隔通信管理システム
800 プログラム提供システム
900 通信ネットワーク
11 送受信部
12 操作入力受付部
13 ログイン要求部
14a 撮像部
14b 画像表示制御部
15a 音声入力部
15b 音声出力部
16 最終絞込部
16a 計測部
16b 算出部
16c 最終選択部
17 遅延検出部
18 記憶・読出処理部
19 漏洩防止処理部
19a 話者識別部
19b 判定部
19c 制限部
19d 状態管理部
100 Conference device 110 Device body 111 CPU
112 ROM
113 RAM
114 SSD
115 Flash memory 116 Media drive 116a Recording medium 117 Operation button 118 Power switch 119 Network I / F
120 Camera IF
121 Microphone 122 Speaker 123 Audio input / output I / F
124 Display I / F
125 External device connection I / F
126 Bus line 130 Camera 140 Display 1021 Case 1021e Air intake hole 1021f Sound collection hole 1021g Connection port 1022 Operation panel 1074 Arm 1075 Camera housing 200 LAN
300 leased line 400 internet A area 500 router 600 relay device 700 remote communication management system 800 program providing system 900 communication network 11 transmission / reception unit 12 operation input reception unit 13 login request unit 14a imaging unit 14b image display control unit 15a audio input unit 15b audio Output unit 16 Final selection unit 16a Measurement unit 16b Calculation unit 16c Final selection unit 17 Delay detection unit 18 Storage / reading processing unit 19 Leakage prevention processing unit 19a Speaker identification unit 19b Judgment unit 19c Restriction unit 19d Status management unit

特開2000−99076号公報JP 2000-99076 A

Claims (14)

相手方の端末装置から送信された相手方の会議情報を自己の端末装置にて出力し、自己の会議情報を相手方の端末装置に送信する会議システムにおいて、
話者及び周囲の騒音の音響モデルと照合することで音響分析を行ない、自己の端末装置近傍の音が相手方の会議情報を出力すべき音として指定された音であるか否かを識別する識別手段と、
前記識別手段によって前記相手方の会議情報を出力すべき音として指定された音でないと識別された場合に相手方の会議情報の出力に対して制限を行なう制限手段と、
を有し、
前記識別手段は、
前記自己の端末装置近傍の音をデジタル信号に変換する変換手段と、
前記デジタル信号に対して線形予測分析を行ない、特徴量を求める音響分析処理手段と、
前記音響分析処理手段によって求められた特徴量と前記話者及び周囲の騒音の音響モデルとの照合を行ない、前記指定された音か否かの識別を行なう音識別処理手段と、
を有し、
前記相手方の会議情報の出力がスピーカによる音の出力であって、
前記制限が制限前時点のスピーカの出力音量を最小化するものである
ことを特徴とする会議システム。
In the conference system that outputs the conference information of the other party transmitted from the other party's terminal device in its own terminal device, and transmits its own conference information to the other party's terminal device.
Identification that identifies whether the sound in the vicinity of the terminal device is the sound that is designated as the sound to which the conference information of the other party should be output by collating with the acoustic model of the speaker and the surrounding noise Means,
Limiting means for limiting the output of the other party's conference information when the identification means identifies that the other party's conference information is not a sound designated as a sound to be output;
Have
The identification means includes
Conversion means for converting sound in the vicinity of the terminal device to a digital signal;
And acoustic analysis processing means for linear prediction analysis line stomach, calculates a characteristic amount with respect to said digital signal,
A sound identification processing means for performing a comparison between the feature amount obtained by the acoustic analysis processing means and an acoustic model of the speaker and surrounding noise, and identifying whether or not the sound is designated;
Have
The output of the conference information of the other party is an output of sound by a speaker,
The conference system according to claim 1, wherein the restriction minimizes the output volume of the speaker before the restriction.
前記制限手段による前記制限が行なわれた場合に、前記制限が行なわれたことを示すメッセージを相手方の端末装置に送信する状態管理手段をさらに有することを特徴とする請求項1に記載の会議システム。 2. The conference system according to claim 1, further comprising: a state management unit that transmits a message indicating that the restriction has been performed to the other terminal device when the restriction is performed by the restriction unit. . 相手方の端末装置から送信された相手方の会議情報を自己の端末装置にて出力し、自己の会議情報を相手方の端末装置に送信する会議システムにおいて、
話者及び周囲の騒音の音響モデルと照合することで音響分析を行ない、自己の端末装置近傍の音が相手方の会議情報を出力すべき音として指定された音であるか否かを識別する識別手段と、
前記識別手段によって前記相手方の会議情報を出力すべき音として指定された音でないと識別された場合に相手方の会議情報の出力に対して制限を行ない、前記制限の解除を行う指示情報の入力を行う入力手段によって入力された前記指示情報にもとづき前記解除を行なうべきと判定された場合に前記制限の解除を行なう制限手段と、
を有し、
前記識別手段は、
前記自己の端末装置近傍の音をデジタル信号に変換する変換手段と、
前記デジタル信号に対して線形予測分析を行ない、特徴量を求める音響分析処理手段と、
前記音響分析処理手段によって求められた特徴量と前記話者及び周囲の騒音の音響モデルとの照合を行ない、前記指定された音か否かの識別を行なう音識別処理手段と、
を有し、
前記相手方の会議情報の出力がスピーカによる音の出力であって、
前記制限が制限前時点のスピーカの出力音量を最小化するものであって、
前記制限の解除時にはスピーカの音量レベルを前記制限前時点の出力音量に復帰する
ことを特徴とする会議システム。
In the conference system that outputs the conference information of the other party transmitted from the other party's terminal device in its own terminal device, and transmits its own conference information to the other party's terminal device.
Identification that identifies whether the sound in the vicinity of the terminal device is the sound that is designated as the sound to which the conference information of the other party should be output by collating with the acoustic model of the speaker and the surrounding noise Means,
When the identification means identifies that the other party's conference information is not a sound designated as a sound to be output, the output of the other party's conference information is restricted and the restriction information is released. Restriction means for releasing the restriction when it is determined that the release should be performed based on the instruction information input by the input means for performing input;
Have
The identification means includes
Conversion means for converting sound in the vicinity of the terminal device to a digital signal;
And acoustic analysis processing means for linear prediction analysis line stomach, calculates a characteristic amount with respect to said digital signal,
A sound identification processing means for performing a comparison between the feature amount obtained by the acoustic analysis processing means and an acoustic model of the speaker and surrounding noise, and identifying whether or not the sound is designated;
Have
The output of the conference information of the other party is an output of sound by a speaker,
The limit is a shall be minimized output volume of the speaker of the before limitation time,
Conference system during release of the restriction, characterized in that to return the volume level of the speaker output volume of the pre-limitation at point.
前記制限手段による前記制限が行われた場合に前記制限が行われたことを示すメッセージを相手方の端末装置に送信し、前記解除が行なわれた場合に前記解除が行なわれたことを示すメッセージを相手方の端末装置に送信する状態管理手段をさらに有することを特徴とする請求項3に記載の会議システム。 When the restriction by the restriction means is performed, a message indicating that the restriction has been performed is transmitted to the other terminal device, and when the release is performed, a message indicating that the release has been performed. The conference system according to claim 3, further comprising state management means for transmitting to the other party's terminal device. 請求項2または4に記載の会議システムにおいて、
前記状態管理手段は、相手方の端末装置において前記制限が行なわれたことを示すメッセージを相手方の端末装置から受信したときに、相手方の端末装置において前記制限が行なわれたことを示す情報を自己の端末装置において出力することを特徴とする会議システム。
The conference system according to claim 2 or 4,
When the state management unit receives a message indicating that the restriction has been performed in the counterpart terminal device from the counterpart terminal device, the state management means stores information indicating that the restriction has been performed in the counterpart terminal device. A conference system characterized by outputting in a terminal device.
請求項4に記載の会議システムにおいて、
前記状態管理手段は、相手方の端末装置において前記制限の解除が行なわれたことを示すメッセージを相手方の端末装置から受信したときに、相手方の端末装置において前記制限が行なわれたことを示す前記出力を終了させることを特徴とする会議システム。
The conference system according to claim 4,
The state management means, when receiving a message indicating that the restriction has been lifted in the partner terminal device from the partner terminal device, the output indicating that the restriction has been performed in the partner terminal device. A conference system characterized in that the system is terminated.
前記相手方の端末装置は、在宅勤務者の端末装置であり、
前記会議情報は、前記在宅勤務者の会議情報であることを特徴とする請求項1乃至6のいずれか一項に記載の会議システム。
The counterpart terminal device is a telecommuter terminal device,
The conference system according to claim 1, wherein the conference information is conference information of the telecommuter.
相手方の端末装置から送信された相手方の会議情報を自己の端末装置にて出力し、自己の会議情報を相手方の端末装置に送信する会議システムにおける制御方法において、
前記端末装置は、
話者及び周囲の騒音の音響モデルと照合することで音響分析を行ない、自己の端末装置近傍の音が相手方の会議情報を出力すべき音として指定された音であるか否かを識別する識別し、
前記相手方の会議情報を出力すべき音として指定された音でないと識別された場合に相手方の会議情報の出力に対して制限を行ない、
前記指定された音であるか否かを識別するときに、
前記自己の端末装置近傍の音をデジタル信号に変換する変換処理と、
前記デジタル信号に対して線形予測分析を行ない、特徴量を求める音響分析処理と、
前記音響分析処理によって求められた特徴量と前記話者及び周囲の騒音の音響モデルとの照合を行ない、前記指定された音か否かの識別を行なう音識別処理と、を行ない、
前記相手方の会議情報の出力がスピーカによる音の出力であって、
前記制限が制限前時点のスピーカの出力音量を最小化するものである
ことを特徴とする制御方法。
In the control method in the conference system that outputs the conference information of the other party transmitted from the other party's terminal device in its own terminal device, and transmits its own conference information to the other party's terminal device.
The terminal device
Identification that identifies whether the sound in the vicinity of the terminal device is the sound that is designated as the sound to which the conference information of the other party should be output by collating with the acoustic model of the speaker and the surrounding noise And
When it is identified that the other party's meeting information is not a sound designated as a sound to be output, the other party's meeting information is limited in output,
When identifying whether or not it is the specified sound,
Conversion processing for converting sound in the vicinity of the terminal device to a digital signal;
And acoustic analysis processing linear prediction analysis line stomach, calculates a characteristic amount with respect to said digital signal,
Performing a sound identification process for comparing the feature amount obtained by the acoustic analysis process with the acoustic model of the speaker and surrounding noise, and identifying whether or not the sound is designated,
The output of the conference information of the other party is an output of sound by a speaker,
The control method according to claim 1, wherein the restriction minimizes the output volume of the speaker before the restriction.
前記端末装置は、
前記制限が行なわれた場合に、前記制限が行なわれたことを示すメッセージを相手方の端末装置に送信することを特徴とする請求項8記載の制御方法。
The terminal device
9. The control method according to claim 8, wherein, when the restriction is performed, a message indicating that the restriction is performed is transmitted to a partner terminal device.
相手方の端末装置から送信された相手方の会議情報を自己の端末装置にて出力し、自己の会議情報を相手方の端末装置に送信する会議システムにおける制御方法において、
前記端末装置は、
話者及び周囲の騒音の音響モデルと照合することで音響分析を行ない、自己の端末装置近傍の音が相手方の会議情報を出力すべき音として指定された音であるか否かを識別し、
前記相手方の会議情報を出力すべき音として指定された音でないと識別された場合に相手方の会議情報の出力に対して制限を行ない、前記制限の解除を行なう指示情報の入力を行なう入力手段によって入力された前記指示情報にもとづき前記解除を行なうべきと判定された場合に前記制限の解除を行ない、
前記指定された音であるか否かを識別するときに、
前記自己の端末装置近傍の音をデジタル信号に変換する変換処理と、
前記デジタル信号に対して線形予測分析を行ない、特徴量を求める音響分析処理と、
前記音響分析処理によって求められた特徴量と前記話者及び周囲の騒音の音響モデルとの照合を行ない、前記指定された音か否かの識別をおこなう音識別処理と、を行ない、
前記相手方の会議情報の出力がスピーカによる音の出力であって、
前記制限が制限前時点のスピーカの出力音量を最小化するものであり
前記制限の解除時にはスピーカの音量レベルを前記制限前時点の出力音量に復帰する
ことを特徴とする制御方法。
In the control method in the conference system that outputs the conference information of the other party transmitted from the other party's terminal device in its own terminal device, and transmits its own conference information to the other party's terminal device.
The terminal device
The acoustic analysis is performed by comparing with the acoustic model of the speaker and the surrounding noise, and it is identified whether the sound in the vicinity of the terminal device is the sound designated as the sound that should output the conference information of the other party,
Input when said identified as not a sound is specified as the sound to be output meeting information of the other party performs restriction on the output of the other party of the conference information, to input the instruction information to release the said restriction When it is determined that the release should be performed based on the instruction information input by the means, the restriction is released,
When identifying whether or not it is the specified sound,
Conversion processing for converting sound in the vicinity of the terminal device to a digital signal;
And acoustic analysis processing linear prediction analysis line stomach, calculates a characteristic amount with respect to said digital signal,
Performing a sound identification process that performs a comparison between the feature amount obtained by the acoustic analysis process and an acoustic model of the speaker and the surrounding noise, and performs identification of whether or not the specified sound,
The output of the conference information of the other party is an output of sound by a speaker,
Control method characterized by returning the volume level of the speaker at the time of cancellation of the restriction is shall be minimized output volume of the speaker of the before limitation time the limit to the output volume of the pre-limitation at point.
前記端末装置は、
前記制限が行なわれた場合に前記制限が行なわれたことを示すメッセージを相手方の端末装置に送信し、前記解除が行なわれた場合に前記解除が行なわれたことを示すメッセージを相手方の端末装置に送信することを特徴とする請求項10記載の制御方法。
The terminal device
When the restriction is performed, a message indicating that the restriction is performed is transmitted to the counterpart terminal apparatus, and when the cancellation is performed, a message indicating that the cancellation is performed is transmitted to the counterpart terminal apparatus. The control method according to claim 10, further comprising:
請求項9または11に記載の制御方法において、
前記端末装置は、
前記相手方の端末装置において会議情報の出力に対する制限が行なわれたことを示すメッセージを前記相手方の端末装置から受信したときに、前記相手方の端末装置において前記制限が行なわれたことを示す情報を自己の端末装置において出力することを特徴とする制御方法。
The control method according to claim 9 or 11,
The terminal device
When a message indicating that the restriction on the output of conference information has been performed at the other party's terminal device is received from the other party's terminal device, the information indicating that the restriction has been performed at the other party's terminal device The control method characterized by outputting in the terminal device.
請求項11に記載の制御方法において、
前記端末装置は、
前記相手方の端末装置において前記制限の解除が行なわれたことを示すメッセージを前記相手方の端末装置から受信したときに、前記相手方の端末装置において前記制限が行なわれたことを示す前記出力を終了させることを特徴とする制御方法。
The control method according to claim 11, wherein
The terminal device
When the other terminal device receives a message indicating that the restriction has been released from the other terminal device, the output indicating that the restriction has been performed at the other terminal device is terminated. A control method characterized by that.
前記相手方の端末装置は、在宅勤務者の端末装置であり、
前記会議情報は、前記在宅勤務者の会議情報であることを特徴とする請求項8乃至13のいずれか一項に記載の制御方法。
The counterpart terminal device is a telecommuter terminal device,
The control method according to claim 8, wherein the conference information is conference information of the telecommuter.
JP2015138620A 2010-02-25 2015-07-10 CONFERENCE SYSTEM AND CONTROL METHOD Expired - Fee Related JP6160658B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015138620A JP6160658B2 (en) 2010-02-25 2015-07-10 CONFERENCE SYSTEM AND CONTROL METHOD

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010039593 2010-02-25
JP2010039593 2010-02-25
JP2015138620A JP6160658B2 (en) 2010-02-25 2015-07-10 CONFERENCE SYSTEM AND CONTROL METHOD

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011006119A Division JP2011199847A (en) 2010-02-25 2011-01-14 Conference system and its conference system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017117557A Division JP6409911B2 (en) 2010-02-25 2017-06-15 CONFERENCE SYSTEM AND CONTROL METHOD

Publications (2)

Publication Number Publication Date
JP2015213360A JP2015213360A (en) 2015-11-26
JP6160658B2 true JP6160658B2 (en) 2017-07-12

Family

ID=54697343

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015138620A Expired - Fee Related JP6160658B2 (en) 2010-02-25 2015-07-10 CONFERENCE SYSTEM AND CONTROL METHOD
JP2017117557A Active JP6409911B2 (en) 2010-02-25 2017-06-15 CONFERENCE SYSTEM AND CONTROL METHOD

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017117557A Active JP6409911B2 (en) 2010-02-25 2017-06-15 CONFERENCE SYSTEM AND CONTROL METHOD

Country Status (1)

Country Link
JP (2) JP6160658B2 (en)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3491906B2 (en) * 1992-02-10 2004-02-03 キヤノン株式会社 Communication control method, multimedia communication system and multimedia communication device
JP2000322358A (en) * 1999-05-11 2000-11-24 Fujitsu Ltd Data display device and recording medium with program for information display recorded thereon
JP2003264885A (en) * 2002-03-12 2003-09-19 Sharp Corp Headphone output controller and mobile phone using the same
JP3937348B2 (en) * 2004-05-21 2007-06-27 埼玉日本電気株式会社 Accident prevention additional function operation system and method for portable terminal
JP2006235996A (en) * 2005-02-24 2006-09-07 Yamaha Corp Warning system and warning device
US7616750B2 (en) * 2005-02-25 2009-11-10 Microsoft Corporation Method and system for forwarding telephone calls based on presence information
JP2007072778A (en) * 2005-09-07 2007-03-22 Canon Inc Information processor and its control method
JP2008124597A (en) * 2006-11-09 2008-05-29 Yamaha Corp Audio teleconference system
JP2009042644A (en) * 2007-08-10 2009-02-26 Sharp Corp Information display system
JP2009076977A (en) * 2007-09-18 2009-04-09 Brother Ind Ltd Image communication system, terminal device used for the same and method of driving the image communication system

Also Published As

Publication number Publication date
JP2015213360A (en) 2015-11-26
JP2017200212A (en) 2017-11-02
JP6409911B2 (en) 2018-10-24

Similar Documents

Publication Publication Date Title
JP2011199847A (en) Conference system and its conference system
JP6819672B2 (en) Information processing equipment, information processing methods, and programs
US9401058B2 (en) Zone based presence determination via voiceprint location awareness
US20110257971A1 (en) Camera-Assisted Noise Cancellation and Speech Recognition
JP6468712B2 (en) communication unit
US11763817B2 (en) Methods, systems, and media for connecting an IoT device to a call
JP2015002506A (en) Security system
CN115831155A (en) Audio signal processing method and device, electronic equipment and storage medium
CN108648754A (en) Sound control method and device
JP5413033B2 (en) Information processing apparatus, information leakage prevention method and program
JP6409911B2 (en) CONFERENCE SYSTEM AND CONTROL METHOD
JP7036463B1 (en) Teleconference system, communication terminal, teleconferencing method and program
US11398224B2 (en) Communication system and method for providing advice to improve a speaking style
JP2012257186A (en) Communication terminal and program
US10924608B1 (en) Communication volume level change detection
CN107800617A (en) Question processing method and device
JP2007037088A (en) Intercom device
JP2009060220A (en) Communication system and communication program
JP5760782B2 (en) Communication terminal, communication system and program
JP6658644B2 (en) Money management system, safe, money management method
JP5857487B2 (en) Remote communication terminal, voice input unit registration method and program
JP6112913B2 (en) Surveillance camera system and method
JP2010286943A (en) Reception device
JPWO2009025139A1 (en) Communication system and communication program
CN106531163A (en) Method and device for controlling terminal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R151 Written notification of patent or utility model registration

Ref document number: 6160658

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees