JP2006252458A - Voice signal processor for processing voice signals of a plurality of speakers, and program - Google Patents
Voice signal processor for processing voice signals of a plurality of speakers, and program Download PDFInfo
- Publication number
- JP2006252458A JP2006252458A JP2005071636A JP2005071636A JP2006252458A JP 2006252458 A JP2006252458 A JP 2006252458A JP 2005071636 A JP2005071636 A JP 2005071636A JP 2005071636 A JP2005071636 A JP 2005071636A JP 2006252458 A JP2006252458 A JP 2006252458A
- Authority
- JP
- Japan
- Prior art keywords
- response
- audio signal
- voice signal
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、音響機器を用いた音声会議を行うための音声信号処理技術に関する。 The present invention relates to an audio signal processing technique for conducting an audio conference using an audio device.
電話による通話を活性化するために、通話を行っている一方のユーザが電話機に設けられた操作部に対し操作を行うことにより、通話を行っている他方のユーザの電話機に対し効果音信号を送信することを可能とする技術がある。そのような従来技術を開示した文献として、例えば特許文献1乃至3がある。
ヘッドセット等の音響機器を用いて音声会議を実現可能とする音声会議システムにおいて、上記の従来技術を利用することにより、会議における会話の活性化を促すことができる。しかしながら、上記の従来技術による場合、会議に参加するいずれかのユーザが適するタイミングで適する効果音信号を他のユーザの端末装置等に送信するための操作を行う必要があった。従って、そのような役回りのユーザが会議に集中できない等の不都合があった。 In an audio conference system that can implement an audio conference using an acoustic device such as a headset, activation of conversation in the conference can be promoted by using the above-described conventional technology. However, according to the above-described conventional technology, it is necessary to perform an operation for transmitting a sound effect signal suitable for any user participating in the conference to a terminal device or the like of another user. Therefore, there are inconveniences such as users who are not able to concentrate on the conference.
また、音声会議においては、通常、一度に複数のユーザが発言を行った場合にそれを制したり、会議終了予定時刻が近づいてきた時点で参加者に対し会議内容の整理を促したりするための議事進行役が必要であるが、そのような役回りのユーザもまた、会議に集中できない等の不都合があった。 Also, in audio conferencing, usually when multiple users speak at once, to control it, or to encourage participants to organize the content of the meeting when the scheduled meeting end time approaches However, there are inconveniences such as users who are not able to concentrate on the meeting.
上記の状況に鑑み、本発明は音声会議システムにおいて参加者の負担を増加させることなく、会議の活性化および議事進行の改善を可能とする手段を提供することを目的とする。 In view of the above situation, an object of the present invention is to provide means for enabling activation of a conference and improvement of proceedings without increasing the burden on participants in an audio conference system.
上記課題を達成するために、本発明は、応答用の音声を示す応答音声信号を記憶する記憶手段と、複数の端末装置の各々を出力元とする音声信号を受け取る入力手段と、前記入力手段により受け取られた音声信号の各部分のレベルに基づいて当該音声信号から無言を示す信号を検出する検出手段と、前記検出手段により検出された無言を示す信号が継続する時間を計測する計時手段と、前記計時手段により計測された時間に対応する応答音声信号を選択する選択手段と、前記選択手段により選択された応答音声信号を出力する出力手段とを備えることを特徴とする音声信号処理装置を提供する。 In order to achieve the above object, the present invention provides a storage unit that stores a response voice signal indicating a response voice, an input unit that receives a voice signal from each of a plurality of terminal devices, and the input unit. Detecting means for detecting a signal indicating mute from the sound signal based on the level of each part of the sound signal received by the means, and time measuring means for measuring the duration of the signal indicating mute detected by the detecting means; An audio signal processing apparatus comprising: selection means for selecting a response audio signal corresponding to the time measured by the time measuring means; and output means for outputting the response audio signal selected by the selection means. provide.
かかる構成の音声信号処理装置によれば、無言期間の長さに応じて、適する応答音声信号が自動的に出力され、音声会議の活性化や議事進行の改善が図られる。 According to the audio signal processing apparatus having such a configuration, a suitable response audio signal is automatically output according to the length of the silent period, and the activation of the audio conference and the progress of the proceedings are improved.
また、前記音声信号処理装置において、前記記憶手段は、キーフレーズを示すキーフレーズデータをさらに記憶し、前記入力手段により受け取られた音声信号に対し音声認識処理を行うことにより当該音声信号により示される発言に含まれるフレーズを特定する音声認識手段と、前記音声認識手段により特定されたフレーズから前記キーフレーズデータにより示されるキーフレーズを検出する検出手段とをさらに備え、前記選択手段は、前記検出手段により検出されたキーフレーズを示すキーフレーズデータに対応する応答音声信号を選択するように構成されてもよい。 Further, in the voice signal processing device, the storage means further stores key phrase data indicating a key phrase, and is indicated by the voice signal by performing voice recognition processing on the voice signal received by the input means. Voice recognition means for specifying a phrase included in the utterance; and detection means for detecting a key phrase indicated by the key phrase data from the phrase specified by the voice recognition means; and the selection means includes the detection means The response voice signal corresponding to the key phrase data indicating the key phrase detected by the above may be selected.
かかる構成の音声信号処理装置によれば、特定の発言に応じて、適する応答音声信号が自動的に出力され、音声会議の活性化や議事進行の改善が図られる。 According to the audio signal processing apparatus having such a configuration, a suitable response audio signal is automatically output in response to a specific statement, so that the audio conference can be activated and the progress of proceedings can be improved.
また、前記音声信号処理装置において、前記選択手段は、過去の所定の期間内に前記入力手段により受け取られた音声信号の出力元の端末装置に対応する応答音声信号を選択するように構成されてもよい。 In the audio signal processing device, the selection unit is configured to select a response audio signal corresponding to a terminal device that is an output source of the audio signal received by the input unit within a predetermined period in the past. Also good.
かかる構成の音声信号処理装置によれば、参加者に応じて適する応答音声信号が自動的に出力され、より好ましい。 According to the audio signal processing apparatus having such a configuration, a response audio signal suitable for each participant is automatically output, which is more preferable.
また、前記音声信号処理装置において、特定の時点からの経過時間を計測する計時手段 をさらに備え、前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号を選択するように構成されてもよい。 The audio signal processing device further includes a time measuring unit that measures an elapsed time from a specific time point, and the selection unit selects a response audio signal corresponding to the time measured by the time measuring unit. May be.
かかる構成の音声信号処理装置によれば、例えば会議終了予定時刻から所定時間前にその旨を参加者に通知する応答音声信号を自動的に出力する等の処理が可能となり、利便性が高まる。 According to the audio signal processing device having such a configuration, for example, it is possible to perform a process such as automatically outputting a response audio signal for notifying a participant to that effect a predetermined time before the scheduled conference end time, and the convenience is enhanced.
また、前記音声信号処理装置において、前記入力手段により受け取られた1の端末装置を出力元とする音声信号が継続する時間を計測する計時手段をさらに備え、前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号を選択するように構成されてもよい。 The audio signal processing apparatus further includes time measuring means for measuring a time duration of the audio signal output from the one terminal device received by the input means, and the selecting means is measured by the time measuring means. The response voice signal corresponding to the set time may be selected.
かかる構成の音声信号処理装置によれば、例えば長く継続して発言を行う参加者に対しその発言を制して他の参加者の発言を促す等の処理が可能となり、利便性が高まる。 According to the audio signal processing apparatus having such a configuration, for example, it is possible to perform a process such as encouraging a participant who speaks for a long time to suppress the speech and prompt other participants to speak, thereby improving convenience.
また、前記音声信号処理装置において、前記選択手段は、前記入力手段により1の端末装置を出力元とする音声信号が継続して受け取られているときに他の端末装置を出力元とする音声信号が受け取られた場合、所定の応答音声信号を選択するように構成されてもよい。 Further, in the audio signal processing device, the selection means is an audio signal whose output source is another terminal device when an audio signal whose output source is one terminal device is continuously received by the input means. May be configured to select a predetermined response audio signal.
かかる構成の音声信号処理装置によれば、複数の参加者が同時に発言する場合において、例えばそれらの発言を一旦制した後に会議の進行を整理する等の処理が可能となり、利便性が高まる。 According to the audio signal processing apparatus having such a configuration, when a plurality of participants speak at the same time, it is possible to perform processing such as organizing the progress of the conference after temporarily controlling those comments, and the convenience is enhanced.
また、前記音声信号処理装置において、前記出力手段により応答音声信号が出力されているときに前記入力手段により音声信号が受け取られた場合、前記出力手段は出力中の応答音声信号のうち未出力の部分の少なくとも一部を出力しないように構成されてもよい。 Further, in the audio signal processing apparatus, when the audio signal is received by the input unit when the response audio signal is output by the output unit, the output unit is not output among the response audio signals being output. You may comprise so that at least one part of a part may not be output.
かかる構成の音声信号処理装置によれば、自動的に出力される応答音声信号により、参加者の発言が妨げられる不都合が回避される。 According to the audio signal processing apparatus having such a configuration, the problem that the speech of the participant is hindered by the response audio signal that is automatically output is avoided.
また、前記音声信号処理装置において、前記出力手段は、過去の所定の期間内に前記入力手段により受け取られた音声信号の出力元の端末装置のみを送信先として応答音声信号を出力するように構成されてもよい。 Further, in the audio signal processing device, the output unit is configured to output a response audio signal using only a terminal device that is an output source of the audio signal received by the input unit within a predetermined period in the past as a transmission destination. May be.
かかる構成の音声信号処理装置によれば、応答音声信号により、現在の発言者以外の者が邪魔される不都合が回避される。 According to the audio signal processing device having such a configuration, the response audio signal avoids the inconvenience that a person other than the current speaker is disturbed.
また、前記音声信号処理装置において、前記入力手段により受け取られた音声信号と、前記選択手段により選択された応答音声信号とをミキシングするミキシング手段とをさらに備え、前記出力手段は、前記ミキシング手段によるミキシングの結果得られた音声信号を出力するように構成されてもよい。 The audio signal processing apparatus further includes a mixing unit that mixes the audio signal received by the input unit and the response audio signal selected by the selection unit, and the output unit includes the mixing unit. An audio signal obtained as a result of mixing may be output.
かかる構成の音声信号処理装置によれば、会議の参加者の発言を示す音声信号、と自動的に選択される応答音声信号とが同時に参加者の端末装置に送信され、それらを別々に出力する場合と比較して簡易なシステムの構築が可能となる。 According to the audio signal processing device having such a configuration, the audio signal indicating the speech of the conference participant and the automatically selected response audio signal are simultaneously transmitted to the participant's terminal device and are output separately. Compared to the case, a simple system can be constructed.
また、前記音声信号処理装置において、前記記憶手段は、前記応答音声信号に加えて、もしくは前記応答音声信号に代えて、応答用のメッセージ文字を示す応答テキストデータを記憶し、前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号に加えて、もしくは前記計時手段により計測された時間に対応する応答音声信号に代えて、前記計時手段により計測された時間に対応する応答テキストデータを選択し、前記出力手段は、前記選択手段により選択された応答テキストデータを出力するように構成されてもよい。 Further, in the voice signal processing device, the storage means stores response text data indicating a message character for response in addition to the response voice signal or instead of the response voice signal, and the selection means includes: In addition to the response voice signal corresponding to the time measured by the time measuring means, or instead of the response voice signal corresponding to the time measured by the time measuring means, the response text corresponding to the time measured by the time measuring means The data may be selected, and the output unit may be configured to output response text data selected by the selection unit.
かかる構成の音声信号処理装置によれば、自動的に選択される応答メッセージの文字による参加者への通知が可能となり、音声による応答メッセージの通知と比較して、場合によって好都合である。 According to the voice signal processing apparatus having such a configuration, it is possible to notify the participant by the character of the response message that is automatically selected, which is advantageous in some cases as compared with the notification of the response message by voice.
また、前記音声信号処理装置において、前記記憶手段は、前記応答音声信号に代えて、1の応答音声信号を他の応答音声信号から識別するための応答識別データを記憶し、前記選択手段は、前記入力手段により受け取られた音声信号が所定の条件を満たす場合に、前記条件に対応する応答音声信号に代えて、前記条件に対応する応答識別データを選択し、前記出力手段は、前記選択手段により選択された応答識別データを出力するように構成されてもよい。 In the audio signal processing device, the storage unit stores response identification data for identifying one response audio signal from another response audio signal, instead of the response audio signal, and the selection unit includes: When the audio signal received by the input means satisfies a predetermined condition, instead of the response audio signal corresponding to the condition, response identification data corresponding to the condition is selected, and the output means is the selection means May be configured to output the response identification data selected by.
かかる構成の音声信号処理装置によれば、音声信号処理装置は応答音声信号と比較してデータ量の少ない応答識別データを端末装置等に送信することにより、応答音声信号を予め記憶もしくは他から取得可能な端末装置との組合せにより、音声会議の議事進行等の自動化が実現され、好都合である。 According to the audio signal processing device having such a configuration, the audio signal processing device transmits response identification data having a smaller amount of data compared to the response audio signal to the terminal device or the like, so that the response audio signal is stored in advance or acquired from others. By combining with a possible terminal device, automation of the proceedings of the audio conference is realized, which is convenient.
また、本発明は、上記の音声信号処理装置により行われる処理をコンピュータに実行させるプログラムを提供する。 The present invention also provides a program that causes a computer to execute processing performed by the above-described audio signal processing apparatus.
[実施形態]
[1.音声会議システムの構成]
本発明の実施形態にかかる音声会議システム1は、互いに異なる場所にいるユーザが、音声により会議を行うことを可能とするシステムである。さらに、音声会議システム1は、会議に参加するユーザの端末装置の各々に対し、適切なタイミングで相槌を示す音声信号や会議の進行を促す音声信号といった応答音声信号を自動送信する機能を有している。
[Embodiment]
[1. Configuration of audio conference system]
The audio conference system 1 according to the embodiment of the present invention is a system that allows users in different places to hold a conference by audio. Furthermore, the audio conference system 1 has a function of automatically transmitting a response audio signal such as an audio signal indicating a conflict or an audio signal prompting the progress of the conference to each of the terminal devices of users participating in the conference. ing.
図1は、音声会議システム1の構成を示したブロック図である。音声会議システム1は、複数の通信機器を相互に接続するネットワーク10と、ネットワーク10に各々接続された複数の端末装置11と、端末装置11の各々に接続されたヘッドセット13と、ネットワーク10に接続されたサーバ装置14を備えている。
FIG. 1 is a block diagram showing the configuration of the audio conference system 1. The audio conference system 1 includes a
複数の端末装置11およびヘッドセット13の各々は、音声会議システム1のユーザ19の各々により使用される。音声会議システム1を利用した会議に参加可能なユーザの数、すなわち端末装置11およびヘッドセット13の数は任意に変更可能であり、さらに会議の進行中に参加するユーザの構成が変動してもよい。
Each of the plurality of terminal devices 11 and the headset 13 is used by each of the
図1に示すように、異なるユーザ19および当該ユーザ19が使用する端末装置11およびヘッドセット13を互いに区別する必要がある場合には、それぞれ、ユーザ19−n、端末装置11−nおよびヘッドセット13−nのように、末尾に「−n」を付してそれらを区別する。ただし、「n」は任意の自然数である。また、異なるユーザ19および当該ユーザ19が使用する端末装置11およびヘッドセット13を互いに区別する必要がない場合には、それぞれ、単にユーザ19、端末装置11およびヘッドセット13と呼ぶ。
As shown in FIG. 1, when it is necessary to distinguish
ネットワーク10は、有線または無線により相互接続された1以上の中継装置を備え、異なる通信機器間のデータの中継を行う。ネットワーク10は、インターネット等の利用者を限定しないオープンネットワークであってもよいし、イントラネットやインターネットプロトコル以外の通信プロトコルを用いるLAN(Local Area Network)等のいずれであってもよい。
The
端末装置11は、ユーザ19の音声を示す音声信号をサーバ装置14に送信するとともに、サーバ装置14から他のユーザ19の音声を示す音声信号および当該音声信号に応じてサーバ装置14において選択された応答音声信号がミキシングされた合成音声信号を受信する装置である。
The terminal device 11 transmits an audio signal indicating the voice of the
端末装置11は、ヘッドセット13のマイク部から入力されるユーザの発言を示す音声信号を増幅するマイクアンプ111と、マイクアンプ111から出力される音声信号をアナログ信号からデジタル信号に変換するA/Dコンバータ112と、A/Dコンバータ112から出力される音声信号をネットワーク10を介してサーバ装置14に送信する音声信号送信部113を備えている。
The terminal device 11 amplifies an audio signal indicating a user's speech input from the microphone unit of the headset 13, and an A / A that converts the audio signal output from the
また、端末装置11は、サーバ装置14からネットワーク10を介して合成音声信号を受信する音声信号受信部114と、音声信号受信部114から出力される音声信号をデジタル信号からアナログ信号に変換するD/Aコンバータ115と、D/Aコンバータ115から出力される音声信号を増幅しヘッドセット13のヘッドフォン部に出力するヘッドフォンアンプ116を備えている。
In addition, the terminal device 11 receives an audio
さらに、端末装置11は、制御部118により生成される各種制御信号をネットワーク10を介してサーバ装置14に送信する制御信号送信部117と、端末装置11の各構成部の制御を行う制御部118と、ユーザに対し文字や図形の表示によりメッセージ等の通知を行う表示部119と、ユーザが端末装置11に対し各種操作を行うための操作部120と、制御部118の処理を指定する制御プログラムやアプリケーションプログラムを記憶するとともに他の構成部のワークエリアとしても利用される記憶部121を備えている。また、記憶部121には、端末装置11をネットワーク10の中で識別するための識別子である端末IDが予め記憶されている。
Further, the terminal device 11 transmits a control signal generated by the
ヘッドセット13は、ユーザ19の発言を示すアナログ音声信号を生成して端末装置11に出力するマイク部と、端末装置11から入力されるアナログ音声信号を音声に変換して発音するヘッドフォン部を備えている。
The headset 13 includes a microphone unit that generates an analog audio signal indicating the speech of the
サーバ装置14は、複数の端末装置11の各々から音声信号を受信し、受信した音声信号の内容が所定の条件を充たす場合にその条件に対応する応答音声信号を選択し、端末装置11から受信した音声信号と選択した応答音声信号をミキシングして合成音声信号を生成した後、各々の端末装置11に送信する装置である。
The
サーバ装置14は、各々の端末装置11からネットワーク10を介してユーザ19の発言を示す音声信号を受信する音声信号受信部141と、各々の端末装置11からネットワーク10を介して各種制御信号を受信する制御信号受信部142と、生成した合成音声信号をネットワーク10を介して各々の端末装置11に送信する音声信号送信部143と、制御部145の処理を指定する制御プログラムやアプリケーションプログラムと各種データを記憶するとともに他の構成部のワークエリアとしても利用される記憶部144と、サーバ装置14の各構成部の制御を行う制御部145を備えている。
The
サーバ装置14の記憶部144には、サーバ装置14をネットワーク10の中で識別するための識別子であるサーバIDが予め記憶されている。記憶部144は、さらに、会議のスケジュールや参加者等を示す会議データを複数格納したデータベース(以下、「DB」と呼ぶ)である会議DB1441と、音声会議システム1のユーザの情報を示すユーザデータを複数格納したユーザDB1442と、応答音声信号の選択処理(後述)において用いられるキーフレーズを示すキーフレーズデータを複数格納したキーフレーズDB1443と、応答音声信号の選択条件を示す応答条件データを複数格納した応答条件DB1444と、複数の応答音声信号を含む応答音声信号群1445を予め記憶している。
The
図2は、会議DB1441の内容を例示した図である。会議DB1441に含まれる会議データは、会議開催の日付、会議開催の時間帯、会議の議題、会議への参加者を示すユーザID群、応答音声信号のうち相槌を示すものを参加者全員の端末装置に送信するか現在の発言者の端末装置にのみ送信するかを示す相槌モード、そして応答音声信号のスタイルを示す応答スタイルの各フィールドを有している。
FIG. 2 is a diagram illustrating the contents of the
会議データに含まれるユーザID群はユーザDB1442に含まれるユーザデータのユーザIDを複数含むことにより、対応するユーザデータにより示されるユーザが会議データにより示される会議への参加者であることを示している。会議データに含まれる相槌モードは、相槌を示す応答音声信号を参加者全員の端末装置に送信することを示す「全員へ相槌」か、現在の発言者の端末装置にのみ送信することを示す「発言者へ相槌」のいずれかである。会議データに含まれる応答スタイルは、例えば「フォーマル」、「フランク」等であり、同じ内容の応答メッセージを示すが言い回しの異なる応答音声信号群のいずれを用いるかを示している。 The user ID group included in the conference data includes a plurality of user IDs of user data included in the user DB 1442, thereby indicating that the user indicated by the corresponding user data is a participant in the conference indicated by the conference data. Yes. The conference mode included in the conference data indicates that the response voice signal indicating the conference is transmitted to the terminal devices of all the participants, or “same to all” is transmitted, or is transmitted only to the terminal device of the current speaker. It is either “Speak to the speaker”. The response style included in the conference data is, for example, “formal”, “Frank”, etc., and indicates which of the response voice signals that indicate the same response message but have different wordings.
図3は、ユーザDB1442の内容を例示した図である。ユーザDB1442に含まれるユーザデータは、各々のユーザを識別するユーザID、ユーザの氏名、ユーザの役職、ユーザのパスワード、そしてユーザが現在使用している端末装置11の端末IDの各フィールドを有している。ただし、ユーザデータに含まれる端末IDは、当該ユーザデータにより示されるユーザ19が音声会議システム1を利用していない間は空欄であり、端末装置11とサーバ装置14との接続確立処理(後述)において、サーバ装置14が端末装置11から取得する端末IDを対応するユーザデータに格納する。
FIG. 3 is a diagram illustrating the contents of the user DB 1442. The user data included in the user DB 1442 includes fields for a user ID for identifying each user, a user name, a user title, a user password, and a terminal ID of the terminal device 11 currently used by the user. ing. However, the terminal ID included in the user data is blank while the
図4は、キーフレーズDB1443の内容を例示した図である。キーフレーズDB1443に含まれるキーフレーズデータは、キーフレーズの内容と、キーフレーズの種類の各フィールドを有している。キーフレーズの内容とは「〜です。」等の発言の内容を示し、種類とは「断定」、「意見」、「質問」等のいずれかであり、キーフレーズが発言者にとってどのような意図で発言される種類のものであるかを示す。 FIG. 4 is a diagram illustrating the contents of the key phrase DB 1443. The key phrase data included in the key phrase DB 1443 has fields for the contents of the key phrase and the type of the key phrase. The content of the key phrase indicates the content of the statement such as “~”. The type is one of “confirmed”, “opinion”, “question”, etc., and what the key phrase is for the speaker Indicates whether it is of the kind that is said in
図5は、応答条件DB1444の内容を示した図である。応答条件DB1444に含まれる応答条件データは、応答音声信号の選択のための条件と、条件が充たされた場合に選択されるべき応答音声信号を特定するための応答識別データと、応答識別データで特定される応答内容が相槌を意味するものであるか否かを示す「相槌」、応答識別データで特定される応答内容がいずれかのユーザ19による発言中であっても通知されるべきものであるか否かを示す「割り込み」、そして応答識別データにワイルドカードが含まれる場合に当該ワイルドカードの内容を示す「XXX」の各フィールドを有している。
FIG. 5 is a diagram showing the contents of the
例えば、応答条件データに含まれる条件「キーフレーズ:種類=断定 and 無言継続時間=2秒」は、キーフレーズDB1443においてフィールド「種類」の内容が「断定」であるキーフレーズがいずれかのユーザ19の発言中に検出され、かつ、その後に無言状態が2秒間継続した、という条件を示している。応答条件データの条件には、例えば、同じユーザ19による継続した発言の時間を示す「発言継続時間」、会議全体の継続時間を示す「会議継続時間」、会議全体の予定時間を示す「会議予定時間」、最後に発言したユーザ19の役職を示す「発言ユーザ:役職」、現在発言を行っているユーザ19の数を示す「同時発言者数」等、様々なパラメータを含めることができる。
For example, the condition “keyphrase: type = confirmed and silent duration = 2 seconds” included in the response condition data indicates that the key phrase DB 1443 has a keyphrase whose content of the field “type” is “conclusive”. It is detected during the utterance, and the silent state continues for 2 seconds thereafter. The condition of the response condition data includes, for example, “speech duration” indicating the duration of continuous speech by the
また、例えば応答条件データに含まれる応答識別データ「007」は、条件が充たされた場合に、応答音声信号群1445に含まれる応答音声信号のうち、メッセージID「007」により特定される応答音声信号を選択することを示している。また、例えば応答条件データに含まれる応答識別データ「RANDOM(001,002,003)」は、条件が充たされた場合に、メッセージID「001」、「002」および「003」の各々により特定される応答音声信号のうち、いずれかをランダムに選択することを示している。
Further, for example, the response identification data “007” included in the response condition data is a response specified by the message ID “007” among the response audio signals included in the response
また、例えば、フィールド「XXX」の内容が「ランダムユーザ」である応答条件データに含まれる応答識別データ「XXX:氏名+(if XXX:役職=一般職員 then 017, otherwise 018)」は、会議に参加中の複数のユーザ19のうちランダムに選択されたユーザ19の氏名を示す応答音声信号と、メッセージID「017」および「018」の各々により特定される応答音声信号のうちいずれかを選択して、それらをその順序でつなぎ合わせることを示している。この場合、ランダムに選択されたユーザ19の役職が一般職員であればメッセージID「017」で特定される応答音声信号が選択され、その他の場合にはメッセージID「018」で特定される応答音声信号が選択されることになる。
Further, for example, response identification data “XXX: full name + (if XXX: title = general staff then 017, otherwise 018)” included in the response condition data whose content of the field “XXX” is “random user” One of a response voice signal indicating the name of the
応答条件データに含まれるフィールド「XXX」としては、現在発言を行っているユーザ19の数が複数である場合に、それら複数の発言のうち最初に発言を開始したユーザ19を示す「最先発言ユーザ」、ランダムに選択されたユーザ19を示す「ランダムユーザ」、過去の累積発言時間が最も短いユーザ19を示す「最短発言ユーザ」等、様々なものが考えられる。
In the field “XXX” included in the response condition data, when there are a plurality of
図6は、応答音声信号群1445に含まれる応答音声信号の構成を示した図である。ただし、図6は構成を便宜的に示したものであり、実際には応答音声信号群1445には、図6に示される応答メッセージもしくは氏名を示す音声波形データに対しメッセージIDもしくはユーザIDが各々対応付けられてなる応答音声信号が複数含まれている。
FIG. 6 is a diagram showing a configuration of response audio signals included in response
応答音声信号は、大きく応答メッセージを示す応答音声信号と、ユーザ19の各々の氏名を示す応答音声信号に区分される。応答メッセージを示す応答音声信号は、さらに応答スタイル「フォーマル」、「フランク」等の各々のグループに区分される。これらのグループは、会議DB1441のフィールド「応答スタイル」において指定されるグループである。応答メッセージを示す応答音声信号は、メッセージIDにより互いに識別される。図6の例による場合、例えば、メッセージID「001」は、応答メッセージ「ええ、ええ」という相槌の音声を示す応答音声信号に対応している。
The response voice signal is roughly divided into a response voice signal indicating a response message and a response voice signal indicating the name of each
ユーザ19の氏名を示す応答音声信号は、ユーザIDにより互いに識別される。このユーザIDはユーザDB1442におけるユーザIDを示している。図6の例による場合、例えば、ユーザID「0425」は、氏名「ササキ コウジ」を呼ぶ音声を示す応答音声信号に対応している。
The response voice signals indicating the name of the
図1に戻り、サーバ装置14の記憶部144に記憶される他のデータを説明する。記憶部144には、音声会議システム1を用いた音声会議が開始されると、当該音声会議の開始から現在までの時間を示す会議継続時間データ1446、各々のユーザ19に関し音声会議の開始から現在までの発言時間の履歴を示す発言継続時間データ1447、最後にいずれかのユーザ19が発言を行った後に無言状態が継続している時間を示す無言継続時間データ1448、そして各々のユーザ19の発言を示す音声信号を個別に過去の所定時間分だけ一時的に記憶するデータバッファ1449が記憶される。これらのデータは音声会議の継続中に一時的に記憶部144に記憶され、音声会議の終了に伴い記憶部144から削除される。
Returning to FIG. 1, other data stored in the
サーバ装置14の制御部145は、各々のユーザ19の音声信号のレベルが例えば所定の閾値を超えるか否かを判定することにより当該音声信号からユーザ19の発言を示す部分を検出し検出結果を計時部1453に引き渡す発言信号検出部1451と、すべてのユーザ19の音声信号のレベルが例えば所定の閾値を下回るか否かを判定することにより音声会議における無言状態を検出し検出結果を計時部1453に引き渡す無言信号検出部1452と、音声会議の開始時点からの経過時間、各々のユーザ19の発言の継続時間およびいずれのユーザ19も発言を行わない無言状態の継続時間を計測しその結果をそれぞれ会議継続時間データ1446、発言継続時間データ1447および無言継続時間データ1448として記憶部144に記憶させる計時部1453と、各々のユーザ19の音声信号からキーフレーズを示す部分を検出するキーフレーズ検出部1454を備えている。
The control unit 145 of the
キーフレーズ検出部1454はキーフレーズを検出するため、例えばユーザ19の音声信号に対しFFT(高速フーリエ変換)処理を施し、音声信号の有する周波数の分布において振幅がピークとなる周波数を特徴量として取り出す等し、予め記憶されている音声波形の同種の特徴量と比較することにより、音声信号に含まれる個々の音声内容を認識する。続いて、キーフレーズ検出部1454は認識した音声内容とキーフレーズDB1443に含まれるフィールド「内容」のデータとを比較し、それらの一致を判定することにより、キーフレーズを検出する。以上はキーフレーズ検出部1454が周波数領域における特徴量に基づく音声認識法を用いる場合の例であるが、キーフレーズ検出部1454がキーフレーズの検出のために用いる音声認識法はこれに限られず、例えば時間−周波数領域における特徴量に基づく音声認識法や確率モデルによる音声認識法など、他のいずれの方法を用いてもよい。
In order to detect the key phrase, the key phrase detection unit 1454 performs, for example, an FFT (Fast Fourier Transform) process on the voice signal of the
制御部145は、さらに、計時部1453により計測された時間やキーフレーズ検出部1454により検出されたキーフレーズ等が応答条件DB1444に含まれる条件を充たすか否かを判定し、条件を充たす応答条件データの応答識別データにより特定される応答音声信号を応答音声信号群1445から選択して応答音声信号ミキシング部1457に引き渡す応答音声信号選択部1455と、データバッファ1449に記憶された各々のユーザ19の音声信号をミキシングして応答音声信号ミキシング部1457および音声信号送信部143に出力する発言音声信号ミキシング部1456と、応答音声信号選択部1455から引き渡される応答音声信号と発言音声信号ミキシング部1456から受け取る合成音声信号をミキシングして音声信号送信部143に出力する応答音声信号ミキシング部1457を備えている。
The control unit 145 further determines whether the time measured by the
[2.音声会議システムの動作]
以下、複数のユーザ19が音声会議システム1を用いて音声会議を行う場合の音声会議システム1の動作を説明する。まず、音声会議に参加するユーザ19は各自の端末装置11を操作して、端末装置11とサーバ装置14との間に通信コネクションを確立させる。通信コネクションの確立において、ユーザ19は自分のユーザIDおよびパスワードを端末装置11に入力し、端末装置11の制御部118はユーザにより入力されたユーザIDおよびパスワードを含む制御信号を生成し制御信号送信部117を介してサーバ装置14に送信する。その制御信号には端末装置11の端末IDが含まれている。
[2. Operation of the audio conference system]
Hereinafter, the operation of the audio conference system 1 when a plurality of
サーバ装置14の制御部145は端末装置11から制御信号を受信すると、受信した制御信号に含まれるユーザIDおよびパスワードを含むユーザデータをユーザDB1442(図3参照)から検索し、検索したユーザデータのフィールド「端末ID」に制御信号に含まれる端末IDを格納する。制御部145がユーザデータの検索に失敗した場合、サーバ装置14は端末装置11に対しユーザIDおよびパスワードの再入力を促すメッセージの表示を指示する制御信号を送信し、正しいユーザIDおよびパスワードの組合せを含む制御信号を端末装置11から受信するまで、以下の動作を行わない。
When receiving the control signal from the terminal device 11, the control unit 145 of the
上記のように端末装置11とサーバ装置14との間に通信コネクションが確立され、サーバ装置14によるユーザIDとパスワードに基づくユーザ19の本人認証が成功すると、ユーザ19は自分の発言を示す音声信号を端末装置11からサーバ装置14に送信すると同時に、他の端末装置11のユーザ19の発言を示す音声信号をサーバ装置14から受信することが可能となる。
As described above, when a communication connection is established between the terminal device 11 and the
例えば、ユーザ19−1の発言を示す音声はヘッドセット13−1のマイク部により音声信号に変換され、端末装置11−1のマイクアンプ111、A/Dコンバータ112および音声信号送信部113を介してサーバ装置14に送信される。サーバ装置14の音声信号受信部141は端末装置11−1からユーザ19−1の音声信号を受信するとともに、音声会議に参加する他のユーザ19の音声信号をそれらのユーザ19の端末装置11から受け取り、それらを個別にデータバッファ1449に一時的に記憶させる。データバッファ1449に一時的に記憶された音声信号は、発言音声信号ミキシング部1456によりミキシングされ合成音声信号として音声信号送信部143に出力され、音声信号送信部143から音声会議に参加する全てのユーザ19の端末装置11に送信される。
For example, a voice indicating the speech of the user 19-1 is converted into a voice signal by the microphone unit of the headset 13-1, and the voice signal is transmitted via the
そのようにサーバ装置14から送信される合成音声信号は、端末装置11−1において音声信号受信部114により受信され、D/Aコンバータ115およびヘッドフォンアンプ116を介してヘッドセット13−1のヘッドフォン部に出力される。ヘッドセット13−1のヘッドフォン部は端末装置11−1から受け取った合成音声信号を音声に変換し出力する。その結果、ユーザ19−1は自分の発言を音声会議に参加する他のユーザ19に伝達するとともに、他のユーザ19の発言を聞くことができ、音声会議が成立する。
The synthesized audio signal transmitted from the
ところで、サーバ装置14は上記の処理に加えて、発言音声信号ミキシング部1456により生成されるユーザ19の発言を示す合成音声信号に対し、さらに必要に応じて適切な応答音声信号をミキシングして端末装置11に送信する機能を有している。以下、その機能に関するサーバ装置14の動作を説明する。
By the way, in addition to the above processing, the
会議DB1441(図2参照)に含まれる会議データのフィールド「日付」および「時間帯」により示される音声会議の開始時間になると、計時部1453はその開始時間を基準時刻とする経過時間の計測を開始し、その計測結果を順次、会議継続時間データ1446として記憶部144に記憶させる。
When the start time of the audio conference indicated by the fields “date” and “time zone” of the conference data included in the conference DB 1441 (see FIG. 2) is reached, the
また、発言信号検出部1451はデータバッファ1449に新たに記憶される音声信号を常時監視しており、あるユーザ19の音声信号のレベルが所定の時間以上、所定の閾値を継続して下回った後、所定の閾値を所定の時間だけ継続して上回った場合、発言開始を示す発言開始データを生成し、計時部1453に引き渡す。また、発言信号検出部1451は発言開始データの生成後に、音声信号のレベルが所定の時間以上、所定の閾値を継続して下回った場合、発言終了を示す発言終了データを生成し、計時部1453に引き渡す。計時部1453は発言信号検出部1451から発言開始データおよび発言終了データを受け取ると、それらのデータに基づきユーザ19の発言時間帯を示すデータを、その音声信号の送信元の端末装置11ごとに発言継続時間データ1447として記憶部144に記憶させる。ところで、発言信号検出部1451が音声信号のうち発言を示す部分の開始タイミングおよび終了タイミングを特定する方法は上記のものに限られず、例えば判定に用いる閾値や時間を所定の規則に従い可変とする等、様々な方法が考えられる。
Further, the speech
また、無言信号検出部1452はデータバッファ1449に新たに記憶される音声信号を常時監視しており、音声会議に参加中の全てのユーザ19の音声信号が所定の時間以上、所定の閾値を継続して下回った場合、無言状態の開始を示す無言開始データを生成し、計時部1453に引き渡す。また、無言信号検出部1452は無言開始データの生成後に、いずれかのユーザ19の音声信号が所定の時間以上、所定の閾値を継続して上回った場合、無言状態の終了を示す無言終了データを生成し、計時部1453に引き渡す。計時部1453は無言信号検出部1452から無言開始データおよび無言終了データを受け取ると、それらのデータに基づき最後に無言開始データを受け取った時点から現時点までの経過時間を示すデータを、無言継続時間データ1448として記憶部144に記憶させる。無言信号検出部1452が音声信号のうち無言を示す部分の開始タイミングおよび終了タイミングを特定する方法が上記のものに限られない点は、上述した発言信号検出部1451の場合と同様である。
The silent
応答音声信号選択部1455は、上記のように計時部1453により順次更新される会議継続時間データ1446、発言継続時間データ1447および無言継続時間データ1448を常時監視しており、それらのデータが更新されると、更新されたデータに基づき応答条件DB1444(図5参照)に含まれる応答条件データのうち、フィールド「条件」により示される条件が充たされるものを検索する。応答音声信号選択部1455は、その検索に成功した場合、検索した応答条件データに含まれる応答識別データにより示されるメッセージIDおよびユーザIDに基づき、応答音声信号群1445から該当する応答音声信号を読み出す。その際、応答音声信号選択部1455は応答音声信号群1445(図6参照)に含まれる応答音声信号のうち、現在行われている音声会議に対応する会議データ(図2参照)のフィールド「応答スタイル」により示されるスタイルに応じたグループから応答音声信号を読み出す。
The response voice
一方、キーフレーズ検出部1454もまた、データバッファ1449に新たに記憶される音声信号を常時監視しており、既に説明したように、各々のユーザ19の発言を示す音声信号からキーフレーズDB1443(図4参照)に含まれるキーフレーズデータにより示されるキーフレーズの検出を行う。キーフレーズ検出部1454によりキーフレーズの検出が行われると、検出されたキーフレーズに対応するキーフレーズデータの種類に基づき応答条件DB1444に含まれる応答条件データのうち、フィールド「条件」により示される条件が充たされるものを検索する。応答音声信号選択部1455は、その検索に成功した場合、検索した応答条件データに含まれる応答識別データにより示されるメッセージIDおよびユーザIDに基づき、応答音声信号群1445から該当する応答音声信号を読み出す。その際も、応答音声信号選択部1455は会議データのフィールド「応答スタイル」により示されるスタイルに応じたグループから応答音声信号を読み出す。
On the other hand, the key phrase detection unit 1454 also constantly monitors the voice signal newly stored in the
例えば、図2に例示される会議DB1441に含まれる第1行目の会議データにより示される音声会議が行われている際に、図5に例示される応答条件DB1444に含まれる第2行目の応答条件データの条件が充たされた場合、応答音声信号選択部1455は応答音声信号群1445のうち、応答スタイル「フォーマル」のグループに含まれる応答音声信号群の中からメッセージID「007」で識別される応答音声信号、すなわちメッセージ「今のご質問にお答えできる方がいらっしゃいましたら、ご発言願います。」を示す音声信号を読み出すことになる。
For example, when the audio conference indicated by the first row conference data included in the
応答音声信号選択部1455は、応答条件データ(図5参照)のフィールド「割り込み」が「Yes」であるものに従い上記の応答音声信号の読み出しを行った場合には、読み出した応答音声信号の応答音声信号ミキシング部1457への引き渡しを即時に開始する。一方、応答音声信号選択部1455は、応答条件データのフィールド「割り込み」が「No」であるものに従い上記の応答音声信号の読み出しを行った場合には、無言継続時間データ1448により無言状態であると判断される場合には即時に、無言状態ではないと判断される場合には無言状態になるのを待って、読み出した応答音声信号の応答音声信号ミキシング部1457への引き渡しを開始する。それにより、例えば相槌等の応答メッセージはいずれのユーザ19も発言を行っていない間に伝達される一方、例えば複数人による同時発言を制する場合のように割り込みを要する応答メッセージは、たとえいずれかのユーザ19が発言を行っていても伝達される。
When the response audio signal is read according to the response condition data (see FIG. 5) in which the field “interrupt” is “Yes”, the response audio
応答音声信号ミキシング部1457は、上記のように応答音声信号選択部1455から応答音声信号を受け取ると、受け取った応答音声信号を発言音声信号ミキシング部1456から受け取った合成音声信号とミキシングし、その結果得られる合成音声信号を音声信号送信部143に出力する。そのように応答音声信号ミキシング部1457から出力される合成音声信号は、音声会議に参加中のユーザ19の発言を示す音声信号に対し、会議開始からの経過時間、各々のユーザ19の累積発言時間、無言状態の継続時間、同時発言者数等に応じて、適する内容のメッセージを示す音声信号がミキシングされたものである。
When the response audio
ところで、現在行われている音声会議に対応する会議データ(図2参照)に含まれるフィールド「相槌モード」が「全員へ相槌」である場合、音声信号送信部143は音声会議に参加中の全てのユーザ19の端末装置11に対し、常時、応答音声信号ミキシング部1457から受け取った合成音声信号、すなわち応答音声信号がミキシングされた会議音声を示す音声信号を送信する。
By the way, when the field “conference mode” included in the conference data (see FIG. 2) corresponding to the currently performed audio conference is “conference to all”, the audio
一方、現在行われている音声会議に対応する会議データに含まれるフィールド「相槌モード」が「発言者へ相槌」である場合、音声信号送信部143は、応答条件データ(図5参照)のフィールド「相槌」が「Yes」であるものに従い応答音声信号選択部1455から応答音声信号が応答音声信号ミキシング部1457に引き渡される間、発言継続時間データ1447により最後に発言を行ったユーザ19の端末装置11に対しては応答音声信号ミキシング部1457から受け取った合成音声信号を送信する一方、その他のユーザ19の端末装置11に対しては発言音声信号ミキシング部1456から受け取った合成音声信号、すなわち応答音声信号のミキシングされていない音声信号を送信する。ただし、応答条件データのフィールド「相槌」が「No」であるものに従い応答音声信号選択部1455から応答音声信号が応答音声信号ミキシング部1457に引き渡される間は、音声信号送信部143は全てのユーザ19の端末装置11に対し、応答音声信号ミキシング部1457から受け取った合成音声信号を送信する。その結果、相槌の音声については発言中のユーザ19(正確には発言の途中で「間」を置いたユーザ19)のみが耳にすることとなり、他のユーザ19が相槌の音声により邪魔されることがない。
On the other hand, when the field “conference mode” included in the conference data corresponding to the current audio conference is “conference to speaker”, the audio
さらに、応答音声信号選択部1455は、相槌等の音声の再生中に新たにいずれかのユーザ19が発言を開始した場合、その発言が相槌等の音声によって聞き手にとって聞き取りづらくなることのないように、必要に応じて応答音声信号の再生を停止する。より具体的には、応答音声信号選択部1455は、応答条件データ(図5参照)のフィールド「割り込み」が「No」であるものに従い応答音声信号ミキシング部1457に応答音声信号の引き渡しを行っている時に発言継続時間データ1447が更新され、いずれかのユーザ19により発言が開始されたと判定すると、その時点で引き渡していた応答音声信号をその後、応答音声信号ミキシング部1457に引き渡さない。
Further, the response audio
ただし、応答音声信号選択部1455は発言開始の判定を行った時に即時に応答音声信号の引き渡しを停止する代わりに、例えば応答音声信号により示される音声の次の音節の区切り部分までは引き渡しを継続し、その後、引き渡しを停止するようにしてもよい。その場合、例えば応答音声信号選択部1455により応答メッセージ「なるほど、そうですね。」の最初の「なる」までの音声信号が応答音声信号ミキシング部1457に引き渡された時点でいずれかのユーザ19の発言があったとすると、応答音声信号選択部1455は「〜ほど、」までの音声信号を応答音声信号ミキシング部1457に引き渡した後、残りの「そうですね。」の音声信号の引き渡しをキャンセルする。その結果、相槌等の応答音声が不自然に中断される不都合が回避される。
However, instead of immediately stopping delivery of the response voice signal when the response voice
一方、応答条件データ(図5参照)のフィールド「割り込み」が「Yes」であるものに従い応答音声信号ミキシング部1457に応答音声信号の引き渡しを行っている時にいずれかのユーザ19により発言が開始されたと判定される場合には、応答音声信号選択部1455はその時点で引き渡していた応答音声信号の引き渡しを停止することなく、最後までその応答音声信号を応答音声信号ミキシング部1457に引き渡す。そのため、例えば重要な応答メッセージがユーザ19に伝達されている途中においていずれかのユーザ19が発言を開始によりその応答メッセージが最後まで伝達されない、といった不都合が回避される。
On the other hand, when the response voice signal is delivered to the response voice
以上のように、音声会議システム1によれば、音声会議に参加するいずれのユーザ19の負担も増加させることなく、自動的にサーバ装置14から各々の端末装置11に送信される応答音声信号により、会議の活性化や、議事進行の改善が図られる。
As described above, according to the audio conference system 1, the response audio signal automatically transmitted from the
ところで、上記の音声会議システム1においては、サーバ装置14は各々の端末装置11から受信した全ての音声信号をミキシングして得られる合成音声信号を各々の端末装置11に送信するものとして説明したが、端末装置11−nに対しては、端末装置11−n以外の端末装置11から受信した音声信号のみをミキシングして送信するようにしてもよい。その場合、ユーザ19−nの発言がヘッドセット13−nのヘッドフォン部からエコーのように発音される不都合がなくなる。
In the voice conference system 1 described above, the
また、上記の音声会議システム1においては、相槌モードは会議データにより特定され、各々の端末装置11について相槌モードを異ならせることはできないものとして説明したが、相槌モードを各々の端末装置11に応じて変更可能としてもよい。また、上記の音声会議システム1においては、応答スタイルも会議データにより特定され、各々の端末装置11について応答スタイルを異ならせることはできないものとして説明したが、応答スタイルを各々の端末装置11に応じて変更可能としてもよい。 In the audio conference system 1 described above, the conflict mode is specified by the conference data, and it has been described that the conflict mode cannot be made different for each terminal device 11. However, the conflict mode is determined according to each terminal device 11. Can be changed. Further, in the audio conference system 1 described above, the response style is also specified by the conference data, and it has been described that the response style cannot be made different for each terminal device 11, but the response style depends on each terminal device 11. Can be changed.
また、上記の音声会議システム1において、キーフレーズDB1443および応答条件DB1444の内容を各々のユーザ19もしくは音声会議システム1の管理者等により変更可能とすることにより、例えば特定のキーフレーズを特定のユーザ19が発言することにより、その発言に対応する応答メッセージの再生を可能とするようにしてもよい。その場合、例えば議事進行役のユーザ19は、予め登録しておいたキーフレーズを発言することにより、自分の発言としては言い出しにくい議事進行のための発言を音声会議システム1に行わせる、といったことが可能となり便利である。
Further, in the above audio conference system 1, the contents of the key phrase DB 1443 and the
また、上記の音声会議システム1においては、端末装置11およびサーバ装置14はネットワーク10を介して相互に接続されるものとして説明したが、例えば端末装置11およびサーバ装置14を相互に専用線により接続するようにしてもよい。また、上記の音声会議システム1においては、端末装置11とサーバ装置14との間で送受信される信号はデジタル信号であるものとして説明したが、端末装置11とサーバ装置14との間で送受信される信号がアナログ信号であってもよい。
In the above audio conference system 1, the terminal device 11 and the
また、上記の音声会議システム1においては、サーバ装置14は応答メッセージを音声信号として端末装置11に送信するものとして説明したが、例えばサーバ装置14は応答メッセージをテキストデータとして端末装置11に送信するようにしてもよい。その場合、応答メッセージのテキストデータを受信した端末装置11は、そのテキストデータにより示される文字を表示部119に表示させることによりユーザ19に応答メッセージを通知することができる。また、応答メッセージのテキストデータを受信した端末装置11が、音声合成処理によりテキストデータにより示される応答メッセージの音声信号を生成し、生成した音声信号をヘッドセット13に出力することにより、ユーザ19に応答メッセージの通知を行うようにしてもよい。
In the voice conference system 1 described above, the
さらに、例えば応答音声信号群1445をサーバ装置14に記憶させる代わりに各々の端末装置11に記憶させておき、サーバ装置14の応答音声信号選択部1455は応答音声信号の選択を行う代わりに、応答音声信号を特定するデータ、すなわち条件の充たされた応答条件データ(図5参照)に含まれるフィールド「応答識別データ」の内容を制御信号として端末装置11に送信するようにしてもよい。その場合、端末装置11はサーバ装置14から受信した制御信号に含まれる応答識別データに従い、記憶部121に記憶されている応答音声信号群1445から応答音声信号を読み出し、ヘッドセット13に出力することになる。
Further, for example, the response
また、上記の音声会議システム1においては、サーバ装置14が各々の端末装置11のために応答音声信号の送信サービスを提供するものとして説明したが、例えばサーバ装置を設けることなく、各々の端末装置11がピアツーピア接続された状態において、各々の端末装置11がサーバ装置14と同様の機能を備え、互いに必要なデータの同期を取ることにより、各々の端末装置11において応答音声信号の選択および再生を行うようにしてもよい。
Further, in the audio conference system 1 described above, the
また、上記の音声会議システム1においては、サーバ装置14が各々のユーザ19の発言を示す音声信号と、応答音声信号とをミキシングした後、端末装置11に送信するものとして説明したが、サーバ装置14から端末装置11に対し、各々区別可能な音声信号群を送信するようにしてもよい。その場合、端末装置11においてサーバ装置14から受信した音声信号のミキシングが行われることになるため、各々の端末装置11においてユーザ19が音声信号間のミキシングバランスを好みに応じて変更する等、より柔軟な音声信号の利用が可能となる。また、サーバ装置14は、端末装置11−nから受信した音声信号を端末装置11−nに送信する音声信号群に含めないようにしてもよい。
In the audio conference system 1 described above, the
また、端末装置11およびサーバ装置14は、専用のハードウェアにより実現されてもよいし、音声信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。
The terminal device 11 and the
1…音声会議システム、10…ネットワーク、11…端末装置、13…ヘッドセット、14…サーバ装置、111…マイクアンプ、112…A/Dコンバータ、113・143…音声信号送信部、114・141…音声信号受信部、115…D/Aコンバータ、116…ヘッドフォンアンプ、117…制御信号送信部、118・145…制御部、119…表示部、120…操作部、121・144…記憶部、142…制御信号受信部、1441…会議DB、1442…ユーザDB、1443…キーフレーズDB、1444…応答条件DB、1445…応答音声信号群、1446…会議継続時間データ、1447…発言継続時間データ、1448…無言継続時間データ、1449…データバッファ、1451…発言信号検出部、1452…無言信号検出部、1453…計時部、1454…キーフレーズ検出部、1455…応答音声信号選択部、1456…発言音声信号ミキシング部、1457…応答音声信号ミキシング部。 DESCRIPTION OF SYMBOLS 1 ... Voice conference system, 10 ... Network, 11 ... Terminal device, 13 ... Headset, 14 ... Server apparatus, 111 ... Microphone amplifier, 112 ... A / D converter, 113 * 143 ... Voice signal transmission part, 114 * 141 ... Audio signal receiving unit, 115 ... D / A converter, 116 ... headphone amplifier, 117 ... control signal transmission unit, 118/145 ... control unit, 119 ... display unit, 120 ... operation unit, 121/144 ... storage unit, 142 ... Control signal receiving unit, 1441 ... conference DB, 1442 ... user DB, 1443 ... key phrase DB, 1444 ... response condition DB, 1445 ... response voice signal group, 1446 ... conference duration data, 1447 ... speech duration data, 1448 ... Mute duration data, 1449 ... Data buffer, 1451 ... Speech signal detector, 1452 ... Mute No. detection unit, 1453 ... the timing unit, 1454 ... key phrase detection unit, 1455 ... response audio signal selection unit, 1456 ... speaking voice signal mixing section, 1457 ... response voice signal mixing section.
Claims (10)
複数の端末装置の各々を出力元とする音声信号を受け取る入力手段と、
前記入力手段により受け取られた音声信号の各部分のレベルに基づいて当該音声信号から無言を示す信号を検出する検出手段と、
前記検出手段により検出された無言を示す信号が継続する時間を計測する計時手段と、
前記計時手段により計測された時間に対応する応答音声信号を選択する選択手段と、
前記選択手段により選択された応答音声信号を出力する出力手段と
を備えることを特徴とする音声信号処理装置。 Storage means for storing a response voice signal indicating a response voice;
Input means for receiving an audio signal whose output source is each of a plurality of terminal devices;
Detecting means for detecting a signal indicating silence from the audio signal based on the level of each portion of the audio signal received by the input means;
A time measuring means for measuring a time during which a signal indicating mute detected by the detecting means continues;
Selecting means for selecting a response voice signal corresponding to the time measured by the time measuring means;
An audio signal processing apparatus comprising: output means for outputting a response audio signal selected by the selection means.
前記入力手段により受け取られた音声信号に対し音声認識処理を行うことにより当該音声信号により示される発言に含まれるフレーズを特定する音声認識手段と、
前記音声認識手段により特定されたフレーズから前記キーフレーズデータにより示されるキーフレーズを検出する検出手段と
をさらに備え、
前記選択手段は、前記検出手段により検出されたキーフレーズを示すキーフレーズデータに対応する応答音声信号を選択する
ことを特徴とする請求項1に記載の音声信号処理装置。 The storage means further stores key phrase data indicating a key phrase,
Voice recognition means for specifying a phrase included in the speech indicated by the voice signal by performing voice recognition processing on the voice signal received by the input means;
Detecting means for detecting a key phrase indicated by the key phrase data from a phrase specified by the voice recognition means; and
The audio signal processing apparatus according to claim 1, wherein the selection unit selects a response audio signal corresponding to key phrase data indicating the key phrase detected by the detection unit.
ことを特徴とする請求項1に記載の音声信号処理装置。 2. The audio signal processing according to claim 1, wherein the selection unit selects a response audio signal corresponding to a terminal device that is an output source of the audio signal received by the input unit within a predetermined period in the past. apparatus.
をさらに備え、
前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号を選択する
ことを特徴とする請求項1に記載の音声信号処理装置。 It further includes a time measuring means for measuring the elapsed time from a specific time point,
The audio signal processing apparatus according to claim 1, wherein the selection unit selects a response audio signal corresponding to the time measured by the time measuring unit.
をさらに備え、
前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号を選択する
ことを特徴とする請求項1に記載の音声信号処理装置。 Further comprising time measuring means for measuring a time during which an audio signal whose output source is one terminal device received by the input means continues,
The audio signal processing apparatus according to claim 1, wherein the selection unit selects a response audio signal corresponding to the time measured by the time measuring unit.
ことを特徴とする請求項1に記載の音声信号処理装置。 When the voice signal whose output source is one terminal apparatus is continuously received by the input means and the voice signal whose output source is another terminal apparatus is received by the input means, the selection means receives a predetermined response The audio signal processing apparatus according to claim 1, wherein an audio signal is selected.
ことを特徴とする請求項1に記載の音声信号処理装置。 When a voice signal is received by the input means while a response voice signal is being output by the output means, the output means does not output at least a part of a non-output portion of the response voice signal being output. The audio signal processing apparatus according to claim 1.
ことを特徴とする請求項1に記載の音声信号処理装置。 The voice according to claim 1, wherein the output means outputs a response voice signal using only a terminal device that is an output source of the voice signal received by the input means within a predetermined period in the past as a transmission destination. Signal processing device.
前記選択手段は、前記計時手段により計測された時間に対応する応答音声信号に加えて、もしくは前記計時手段により計測された時間に対応する応答音声信号に代えて、前記計時手段により計測された時間に対応する応答テキストデータを選択し、
前記出力手段は、前記選択手段により選択された応答テキストデータを出力する
ことを特徴とする請求項1乃至8のいずれかに記載の音声信号処理装置。 The storage means stores response text data indicating a message character for response in addition to the response voice signal or instead of the response voice signal,
In addition to the response voice signal corresponding to the time measured by the time measuring means, or in place of the response voice signal corresponding to the time measured by the time measuring means, the selection means is a time measured by the time measuring means. Select response text data corresponding to,
The audio signal processing apparatus according to claim 1, wherein the output unit outputs response text data selected by the selection unit.
複数の端末装置の各々を出力元とする音声信号を受け取る処理と、
受け取った音声信号の各部分のレベルに基づいて当該音声信号から無言を示す信号を検出する処理と、
検出された無言を示す信号が継続する時間を計測する処理と、
計測した時間に対応する応答音声信号を選択する処理と、
選択した応答音声信号を出力する処理と
をコンピュータに実行させることを特徴とするプログラム。 Processing for storing a response voice signal indicating a response voice;
A process of receiving an audio signal having each of a plurality of terminal devices as an output source;
A process of detecting a signal indicating silence from the audio signal based on the level of each part of the received audio signal;
A process of measuring the duration of the detected signal indicating silence,
A process of selecting a response audio signal corresponding to the measured time;
A program for causing a computer to execute a process of outputting a selected response voice signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005071636A JP2006252458A (en) | 2005-03-14 | 2005-03-14 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005071636A JP2006252458A (en) | 2005-03-14 | 2005-03-14 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006252458A true JP2006252458A (en) | 2006-09-21 |
Family
ID=37092855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005071636A Withdrawn JP2006252458A (en) | 2005-03-14 | 2005-03-14 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006252458A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187397A1 (en) * | 2018-03-29 | 2019-10-03 | 京セラドキュメントソリューションズ株式会社 | Information processing device |
CN111540383A (en) * | 2019-02-06 | 2020-08-14 | 丰田自动车株式会社 | Voice conversation device, control program, and control method thereof |
JP2020135394A (en) * | 2019-02-19 | 2020-08-31 | 富士通クライアントコンピューティング株式会社 | Information processing apparatus and information processing program |
-
2005
- 2005-03-14 JP JP2005071636A patent/JP2006252458A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187397A1 (en) * | 2018-03-29 | 2019-10-03 | 京セラドキュメントソリューションズ株式会社 | Information processing device |
JPWO2019187397A1 (en) * | 2018-03-29 | 2020-04-30 | 京セラドキュメントソリューションズ株式会社 | Information processing equipment |
CN111540383A (en) * | 2019-02-06 | 2020-08-14 | 丰田自动车株式会社 | Voice conversation device, control program, and control method thereof |
JP2020135394A (en) * | 2019-02-19 | 2020-08-31 | 富士通クライアントコンピューティング株式会社 | Information processing apparatus and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5137376B2 (en) | Two-way telephony trainer and exerciser | |
US8345849B2 (en) | Telecommunications endpoint that prompts a user to focus on a monitored call | |
US7933226B2 (en) | System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions | |
US7617094B2 (en) | Methods, apparatus, and products for identifying a conversation | |
US8649494B2 (en) | Participant alerts during multi-person teleconferences | |
US7698141B2 (en) | Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications | |
US20180069815A1 (en) | Application-based messaging system using headphones | |
US8358599B2 (en) | System for providing audio highlighting of conference participant playout | |
US8547880B2 (en) | Method and system for replaying a portion of a multi-party audio interaction | |
JP2006203548A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
US20220230622A1 (en) | Electronic collaboration and communication method and system to facilitate communication with hearing or speech impaired participants | |
JP2006252458A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP2006197251A (en) | Conference management supporting method | |
JP2005184852A (en) | Voice dialog system | |
JP4169712B2 (en) | Conversation support system | |
WO2022004067A1 (en) | Communication system | |
JP2005149529A (en) | Voice interactive system | |
JP4069207B2 (en) | Communication device | |
EP1453287B1 (en) | Automatic management of conversational groups | |
JP7331976B2 (en) | Information processing device, program, and information processing system | |
JP3568424B2 (en) | Recording medium recording voice transmission method, data transmission processing method and data transmission processing program, and recording medium recording data reception processing method and data reception processing program | |
JP2023046910A (en) | earphone system | |
JP2024057730A (en) | Information processing device | |
JP2016040609A (en) | Information notification support apparatus, information notification support method and program | |
JP2015007665A (en) | Information presentation method and information presentation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080122 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090128 |