JP6922551B2 - Voice processing device, voice processing program, and voice processing method - Google Patents
Voice processing device, voice processing program, and voice processing method Download PDFInfo
- Publication number
- JP6922551B2 JP6922551B2 JP2017161459A JP2017161459A JP6922551B2 JP 6922551 B2 JP6922551 B2 JP 6922551B2 JP 2017161459 A JP2017161459 A JP 2017161459A JP 2017161459 A JP2017161459 A JP 2017161459A JP 6922551 B2 JP6922551 B2 JP 6922551B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- input signal
- output
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声処理装置、音声処理プログラム、及び音声処理方法に関し、例えば、テレビ会議システムや電話会議システム等において用いられる、通話の開始処理に適用し得るものである。 The present invention relates to a voice processing device, a voice processing program, and a voice processing method, and can be applied to, for example, a call start processing used in a video conferencing system, a conference call system, or the like.
近年、テレビ会議システムや電話会議システム等の遠隔通話システムを用いてテレビ会議やテレワークなどの遠隔地と通話やコミュニケーションを行う機会が増えている。 In recent years, there have been increasing opportunities to make calls and communicate with remote locations such as video conferencing and telework using remote communication systems such as video conferencing systems and telephone conferencing systems.
遠隔通話システムでは、遠隔地と通話を行うために接続する場合、システムに搭載されている画面で電話番号などの連絡先を入力、選択するか、画面上に表示されている通話相手の映像をタッチすることで遠隔地と接続することが多い。 In a remote call system, when connecting to make a call to a remote location, enter and select a contact such as a telephone number on the screen installed in the system, or display the image of the other party displayed on the screen. It is often connected to a remote location by touching it.
さらに、遠隔通話システムをロボットに組込み、近親者と単身の高齢者とのコミュニケーション支援するコミュニケーション支援ロボットシステムが特許文献1によって提案されている。
Further,
特許文献1に記載のコミュニケーション支援ロボットシステムは、タッチパネルディスプレイに表示されている、近親者や高齢者の映像をタッチすることで、通話相手に接続され通話が開始する。
The communication support robot system described in
しかしながら、特許文献1に記載のコミュニケーション支援ロボットシステムでは、タッチパネルディスプレイをタッチするなどの接続操作や接続コマンドで通話を開始することは、実際の対面での通話と異なっているため臨場感(対面で会話しているような感覚)が非常に低い。
However, in the communication support robot system described in
また、コミュニケーション支援ロボットに搭載されている音声認識システムを使用して、例えば、接続先の通話相手の名前等を呼ぶことで、呼びかけた音声(以下、呼びかけ音声)を音声認識システムに入力し、音声認識の結果から接続先を判定して接続を開始できるようにしても、呼びかけ音声は、音声認識処理に入力されてから音声認識の結果から通話相手が決定し、通話相手に接続されるため、呼びかけ音声が通話相手に伝わらない。このため、通話相手に突然接続され、通話相手は違和感や不安感を感じ、臨場感が向上しない。 In addition, using the voice recognition system installed in the communication support robot, for example, by calling the name of the other party to be connected, the called voice (hereinafter referred to as the calling voice) is input to the voice recognition system. Even if the connection destination can be determined from the voice recognition result and the connection can be started, the call partner is determined from the voice recognition result after being input to the voice recognition process, and the call partner is connected. , The call voice is not transmitted to the other party. For this reason, the call partner is suddenly connected, and the call partner feels a sense of discomfort or anxiety, and the sense of presence is not improved.
そのため、テレビ会議システム等で、呼びかけ音声で通話相手と接続する場合に、呼びかけ音声を通話相手に伝えてから通話が開始される音声処理装置が望まれている。 Therefore, in a video conferencing system or the like, when connecting to a call partner by a call voice, a voice processing device that starts a call after transmitting the call voice to the call partner is desired.
第1の本発明の音声処理装置は、(1)相手側と接続後に送信する接続コマンド音声を相手側で再生させるためのバッファであり、上記接続コマンド音声を含む入力信号を一定期間保持するバッファ部と、(2)上記入力信号に対して音声認識を行う音声認識部と、(3)上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定するコマンド判定部と、(4)上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替える出力切替え部とを有することを特徴とする。 The first voice processing device of the present invention is (1) a buffer for reproducing the connection command voice transmitted after connecting to the other side on the other side, and is a buffer for holding an input signal including the above connection command voice for a certain period of time. and parts, and a speech recognition unit which performs speech recognition on (2) the input signal, (3) using the results of the speech recognition unit, the input signal is, the connect command voice determining whether the command determination When the input signal is determined to be the connection command voice by the unit and (4) the command determination unit, the input signal held in the buffer unit is output and held in the buffer unit. It is characterized by having an output switching unit that switches to output the input signal when the voice is output.
第2の本発明の音声処理プログラムは、コンピュータを、(1)相手側と接続後に送信する接続コマンド音声を相手側で再生させるためのバッファであり、上記接続コマンド音声を含む入力信号を一定期間保持するバッファ部と、(2)上記入力信号に対して音声認識を行う音声認識部と、(3)上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定するコマンド判定部と、(4)上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替える出力切替え部として機能させることを特徴とする。 The second voice processing program of the present invention is a buffer for (1) playing back the connection command voice transmitted after connecting to the other side of the computer, and the input signal including the above connection command voice is played for a certain period of time. a buffer unit for holding, (2) and a voice recognition unit which performs speech recognition on the input signal, using the (3) results of the speech recognition unit, the input signal is determined whether the connection command voice When the input signal is determined to be the connection command voice by the command determination unit and (4) the command determination unit, the input signal held in the buffer unit is output and held in the buffer unit. It is characterized in that it functions as an output switching unit that switches to output the input signal after outputting the voice.
第3の本発明の音声処理方法は、バッファ部、音声認識部、コマンド判定部、及び出力切替え部を有し、(1)上記バッファ部は、相手側と接続後に送信する接続コマンド音声を相手側で再生させるために使用するものであり、上記接続コマンド音声を含む入力信号を一定期間保持し、(2)上記音声認識部は、上記入力信号に対して音声認識を行い、(3)上記コマンド判定部は、上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定し、(4)上記出力切替え部は、上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替えることを特徴とする。 The third voice processing method of the present invention includes a buffer unit, a voice recognition unit, a command determination unit, and an output switching unit. (1) The buffer unit receives a connection command voice transmitted after connecting to the other party. It is used for reproduction on the side, holds an input signal including the connection command voice for a certain period of time, (2) the voice recognition unit performs voice recognition on the input signal, and (3) the above. command determination unit uses the result of the speech recognition unit, the input signal is judged whether the connection command voice, (4) the output switching unit, the input signal is the connection by the command determination unit When it is determined to be a command voice, the input signal held in the buffer unit is output, and when the voice held in the buffer unit is output, the input signal is switched to be output. And.
本発明によれば、テレビ会議システム等で通話相手と接続するときに呼びかけ音声を通話相手に伝え、対面での会話と近い呼びかけ音声から会話が始まる状態を再現することで、双方が高い臨場感を感じることができる。 According to the present invention, when connecting to a call partner in a video conferencing system or the like, the call voice is transmitted to the call partner, and a state in which the conversation starts from the call voice close to the face-to-face conversation is reproduced, so that both sides have a high sense of presence. Can be felt.
(A)第1の実施形態
以下では、本発明の音声処理装置、音声処理プログラム、及び音声処理方法の実施形態を、図面を参照しながら詳細に説明する。
(A) First Embodiment In the following, an embodiment of the voice processing device, the voice processing program, and the voice processing method of the present invention will be described in detail with reference to the drawings.
第1の実施形態は、例えば、テレビ会議システムや電話会議システム等のマイク入力部に上述した本発明の音声処理装置、音声処理プログラム、及び音声処理方法を適応した場合を例示したものである。 The first embodiment illustrates, for example, a case where the above-described voice processing device, voice processing program, and voice processing method of the present invention are applied to a microphone input unit of a video conferencing system, a telephone conferencing system, or the like.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声処理装置100の構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a configuration of a
本発明の第1の実施形態の音声処理装置100は、例えば、専用ボードとして構築されるようにしても良いし、DSP(デジタルシグナルプロセッサ)への音声処理プログラムの書き込みによって実現されたものであっても良く、CPUと、CPUが実行するソフトウェア(音声処理プログラム)によって実現されたものであっても良いが、機能的には、図1で表すことができる。
The
図1において、本発明の第1の実施形態に係る音声処理装置100は、マイク101、マイクアンプ102、AD変換器103、及び呼びかけ処理部104を有する。
In FIG. 1, the
マイク101は、人の音声や音を受音するマイクである。 The microphone 101 is a microphone that receives human voice or sound.
マイクアンプ102は、マイク101により受音された入力信号を増幅するものである。
The
AD変換器103は、マイクアンプ102により増幅された信号をアナログ信号からデジタル信号に変換するものである。以下、AD変換器103で変換された信号を「マイク入力信号」とする。
The
呼びかけ処理部104は、入力されたマイク入力信号を出力端子に出力し、同時にマイク入力信号をオーディオバッファに保存する。さらに、呼びかけ処理部104は、マイク入力信号を音声認識し、音声認識結果がコマンドリスト部のコマンドの1つと一致した場合に、オーディオバッファに保存されている音信号を一定時間出力するように切替え、一定時間出力が完了すると再びマイク入力信号を出力する。
The
次に、呼びかけ処理部104の詳細な構成を説明する。
Next, the detailed configuration of the
呼びかけ処理部104は、入力端子105、オーディオバッファ部106、音声認識部107、コマンドリスト部108、コマンド判定部109、出力切替え部110、及び出力端子111を有する。
The
入力端子105は、マイク入力信号を呼びかけ処理部104に入力するインタフェースである。
The
オーディオバッファ部106は、マイク入力信号を一定時間保持するバッファである。
The
音声認識部107は、マイク入力信号を音声認識し、音声認識の結果を出力する。
The
コマンドリスト部108は、コマンドが保持されているリストである。コマンドリスト部108は、例えば、図2のようにコマンドの一覧がテキストファイルで保持されている。なお、図2は、一例であって、保持するデータの内容及び形式は種々様々な値(形式)を適用することができる。
The
コマンド判定部109は、音声認識の結果がコマンドリスト部108のコマンドリストに存在するか否か判定し、判定結果を出力する。
The
出力切替え部110は、コマンド判定結果から出力する音信号を決定し、音信号を出力する。
The
出力端子111は、呼びかけ処理部104の音信号を出力するインタフェースである。
The output terminal 111 is an interface that outputs the sound signal of the
(A−2)第1の実施形態の動作
本発明の第1の実施形態に係る音声処理装置100の動作を詳細に説明する。
(A-2) Operation of First Embodiment The operation of the
まず、音声処理装置100の動作が開始すると、話者が発した音声等の音信号や環境音が重畳したアナログ音信号が、マイク101に入力される。
First, when the operation of the
マイク101に入力された入力信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、呼びかけ処理部104の入力端子105にマイク入力信号x(n)として入力される。
The input signal input to the
呼びかけ処理部104の入力端子105に信号が入力され始めると、まず、呼びかけ処理部104はマイク入力信号x(n)を出力切替え部110に出力する。
When a signal starts to be input to the
出力切替え部110は、音声処理装置100の動作時は、以下の(1)式に示すように、無音信号を出力信号y(n)として出力端子111に出力する。
y(n)=0 …(1)
When the
y (n) = 0 ... (1)
また、呼びかけ処理部104は、同時にマイク入力信号x(n)を、以下の(2)式に従い、オーディオバッファ部106のオーディオバッファbuffer(n)の書込み位置write_indexの位置に保持する。保持した後、呼びかけ処理部104は、以下の(3)式に示すように、書込み位置write_indexを進める(インクリメントする)。
上記(3)式のBUFFER_SIZEは、オーディオバッファ部106のオーディオバッファのバッファの長さである。
BUFFER_SIZE in the above equation (3) is the buffer length of the audio buffer of the
さらに、呼びかけ処理部104は、同時にマイク入力信号x(n)を音声認識部107で音声認識を行い、音声認識結果をコマンド判定部109に出力する。
Further, the
コマンド判定部109は、音声認識の結果とコマンドリスト部108に保持されているコマンド一覧を比較し、音声認識の結果がコマンドの一覧に存在するか否かの判定を行い、判定結果を出力切替え部110に出力する。
The
出力切替え部110は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在しないと判定された場合には、無音信号を出力端子111に出力し続ける。
When the
一方、出力切替え部110は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在すると判定された場合には、オーディオバッファ部106の読出し位置read_indexを、下記の(4)式に従い計算する。
上記(4)式のLENは、オーディオバッファ部106に保持されているマイク入力信号を再生する長さである。なお、LENの決定方法は、種々の方法を広く適用することができ、例えば、オーディオバッファ部106のバッファサイズと同じ長さ(LEN=BUFFER_SIZE)とするなどの定数とする方法が存在する。また、オーディオバッファ部106に保持されているマイク入力信号に音声区間処理を行い、呼びかけ音声の長さを求めて、その長さをLENとする方法でも良い。
The LEN of the above equation (4) is a length for reproducing the microphone input signal held in the
そして、出力切替え部110は、以下の(5)式に示すようにオーディオバッファ部106に保持されている音信号を出力信号y(n)として出力端子111に一定時間(例えば、LENの時間長分)出力し、以下の(6)式に示すように読出し位置read_indexを進める(インクリメントする)。
出力切替え部110は、オーディオバッファ部106に保持されている音信号を一定時間出力すると、以下の(7)式に示すように、マイク入力信号x(n)を出力信号y(n)として出力端子111に出力する。
y(n)=x(n) …(7)
When the
y (n) = x (n) ... (7)
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、音声処理装置100は、マイク入力信号をオーディオバッファに保持し、同時に音声認識を行い、マイク入力信号が呼びかけ音声と判定されたとき、オーディオバッファに保持している呼びかけ音声を出力する。これにより、音声処理装置100は、呼びかけ音声が相手に伝えることができるので、対面での会話に近い状態を再現でき、高い臨場感で会話を開始することができる。
(A-3) Effect of First Embodiment As described above, according to the first embodiment, the
(B)第2の実施形態
次に、本発明の音声処理装置、音声処理プログラム、及び音声処理方法の第2の実施形態を、図面を参照しながら詳細に説明する。
(B) Second Embodiment Next, a second embodiment of the voice processing device, the voice processing program, and the voice processing method of the present invention will be described in detail with reference to the drawings.
第2の実施形態は、本発明の音声処理装置の音出力方法が、第1の実施形態と異なっている場合を例示する。 The second embodiment illustrates a case where the sound output method of the voice processing device of the present invention is different from that of the first embodiment.
(B−1)第2の実施形態の構成
図3は、第2の実施形態に係る音声処理装置200の構成を示すブロック図である。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing a configuration of a
第2の実施形態の音声処理装置200は、出力切替え部110の代わりに信号加算部202を構成要素とする点が第1の実施形態の音声処理装置100と異なる。それ以外の構成要素は、第1の実施形態に係る図1の音声処理装置100の構成要素と同一、又は対応するものである。なお、図3において、第1の実施形態に係る音声処理装置100の構成要素と同一、又は対応するものについては同一の符号を付している。
The
また、第1の実施形態と同一、又は対応する構成要素の詳細な説明は重複するため、ここでは省略する。 Further, since the detailed description of the components that are the same as or correspond to those of the first embodiment is duplicated, they will be omitted here.
図3において、本発明の第2の実施形態に係る音声処理装置200は、マイク101、マイクアンプ102、AD変換器103、及び呼びかけ処理部201を有する。
In FIG. 3, the
また、呼びかけ処理部201は、入力端子105、オーディオバッファ部106、音声認識部107、コマンドリスト部108、コマンド判定部109、信号加算部202、及び出力端子111を有する。
Further, the
信号加算部202は、コマンド判定結果からマイク入力信号、又はマイク入力信号とオーディオバッファ部を加算した信号のいずれか一方の音信号を出力するか決定し、決定した音信号を出力する。
The
(B−2)第2の実施形態の動作
第2の実施形態に係る音声処理装置200における音声処理の基本的な動作は、第1の実施形態で説明した音声処理と同様である。
(B-2) Operation of the Second Embodiment The basic operation of the voice processing in the
以下では、第1の実施形態と異なる点である信号加算部202における処理動作を中心に詳細に説明する。
Hereinafter, the processing operation in the
信号加算部202は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在しないと判定された場合には、マイク入力信号x(n)を出力端子111に出力する。一方、信号加算部202は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在すると判定された場合には、先述の(4)式に従い、オーディオバッファ部106の読出し位置read_indexを計算する。
When the
そして、信号加算部202は、以下の(8)式に従い、オーディオバッファ部106に保持されている音信号とマイク入力信号を加算し、加算した信号を出力信号y(n)として出力端子111に一定時間出力し、先述の(6)式に従い、読出し位置read_indexを進める(インクリメントする)。
y(n)=x(n)+buffer(read_index) …(8)
Then, the
y (n) = x (n) + buffer (read_index)… (8)
信号加算部202は、加算した信号を一定時間出力すると、先述の(7)式に従い、マイク入力信号x(n)を出力信号y(n)として出力端子111に出力する。
When the
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、音声処理装置200は、音声認識した結果がコマンドリストに存在する場合に、マイク入力信号をオーディオバッファに保持されている信号を加算した信号を出力する。これにより、音声処理装置200は、音の遅延が少なく、音信号が途切れることなく、呼びかけ音声を出力することができる。
(B-3) Effect of Second Embodiment As described above, according to the second embodiment, the
(C)第3の実施形態
次に、本発明の音声処理装置、音声処理プログラム、及び音声処理方法の第3の実施形態を、図面を参照しながら詳細に説明する。
(C) Third Embodiment Next, a third embodiment of the voice processing device, the voice processing program, and the voice processing method of the present invention will be described in detail with reference to the drawings.
第3の実施形態は、本発明の音声処理装置の音出力方法が、第1の実施形態、及び第2の実施形態と異なっている場合を例示する。 The third embodiment illustrates a case where the sound output method of the voice processing device of the present invention is different from the first embodiment and the second embodiment.
(C−1)第3の実施形態の構成
図4は、第3の実施形態に係る音声処理装置の構成を示すブロック図である。
(C-1) Configuration of Third Embodiment FIG. 4 is a block diagram showing a configuration of a voice processing device according to the third embodiment.
第3の実施形態の音声処理装置300は、第1の実施形態の音声処理装置100構成に加えて、遅延回復部303を構成要素とする点と、出力切替え部110の代わりに出力切替え部302を構成要素とする点が第1の実施形態の音声処理装置100、及び第2の実施形態の音声処理装置200と異なる。なお、図4において、第1の実施形態に係る音声処理装置100の構成要素と同一、又は対応するものについては同一の符号を付している。
The
また、第1の実施形態と同一、又は対応する構成要素の詳細な説明は重複するため、ここでは省略する。 Further, since the detailed description of the components that are the same as or correspond to those of the first embodiment is duplicated, they will be omitted here.
図4において、本発明の第3の実施形態に係る音声処理装置300は、マイク101、マイクアンプ102、AD変換器103、及び呼びかけ処理部301を有する。
In FIG. 4, the
また、呼びかけ処理部301は、入力端子105、遅延回復部303、オーディオバッファ部106、音声認識部107、コマンドリスト部108、コマンド判定部109、出力切替え部302、及び出力端子111を有する。
Further, the
出力切替え部302は、コマンド判定結果から出力する音信号を決定し、音信号を出力する。また、出力する音信号が切り替わったか否かを遅延回復部303に出力する。
The
遅延回復部303は、入力端子105から出力切替え部110へのマイク入力信号の出力のタイミングを調整するものである。例えば、遅延回復部303は、入力されたマイク入力信号を所定時間分だけ遅延させて、マイク入力信号を出力する。
The
(C−3)第3の実施形態の動作
第3の実施形態に係る音声処理装置300における音声処理の基本的な動作は、第1の実施形態で説明した呼びかけ処理と同様である。
(C-3) Operation of the Third Embodiment The basic operation of the voice processing in the
以下では、第1の実施形態と異なる点である出力切替え部302、及び遅延回復部303における処理動作を中心に詳細に説明する。
Hereinafter, the processing operations in the
呼びかけ処理部301の入力端子105に信号が入力され始めると、呼びかけ処理部301はマイク入力信号x(n)を遅延回復部303に出力する。
When a signal starts to be input to the
遅延回復部303は、音声処理装置300の動作開始時は、マイク入力信号x(n)を出力切替え部302に出力する。
The
出力切替え部302は、音声処理装置100の動作時には、先述の(1)式に示すように、無音信号を出力信号y(n)として出力端子111に出力する。
When the
出力切替え部302は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在しないと判定された場合には、無音信号を出力端子111に出力し続ける。
When the
一方、出力切替え部302は、コマンド判定部109で音声認識部107の音声認識の結果がコマンドリスト部108のコマンド一覧に存在すると判定された場合には、オーディオバッファ部106の読出し位置read_indexを、先述の(4)式に従い計算する。
On the other hand, when the
そして、出力切替え部302は、先述の(5)式に示すようにオーディオバッファ部106に保持されている音信号を出力信号y(n)として出力端子111に一定時間出力し、先述の(6)式に示すように読出し位置read_indexを進める(インクリメントする)。
Then, the
出力切替え部302は、オーディオバッファ部106に保持されている音信号を一定時間出力すると、出力が完了し、出力する音信号が切替わったことを知らせる信号を遅延回復部303に出力する。
When the
遅延回復部303は、出力切替え部302から出力する音信号が切り替わったときに、マイク入力信号x(n)に対して所定時間遅延回復処理を行い出力切替え部110に出力する。上記の遅延回復時間は、例えば、音声認識部107とコマンド判定部109の処理時間を考慮して定めても良いし、オーディオバッファ部から出力される呼びかけ音声の長さと同じにしても良い。また、遅延回復部303の遅延回復処理は、マイク入力信号x(n)に話速変換を施した、マイク入力信号x’(n)を出力し、遅延回復時間分の遅延が回復したらマイク入力信号x(n)を出力しても良いし、マイク入力信号x(n)に音声区間検出を行い、遅延回復時間分の無音を削除したするマイク入力信号x’’(n)を出力し、遅延回復時間分の遅延が回復したらマイク入力信号x(n)を出力しても良い。さらに、この遅延回復部303の処理は出力切替え部110の処理の後に行っても良い。
When the sound signal output from the
出力切替え部302は、遅延回復処理が完了すると、先述の(7)式に示すように、マイク入力信号x(n)を出力信号y(n)として出力端子111に出力する。
When the delay recovery process is completed, the
(C−3)第3の実施形態の効果
以上のように、第3の実施形態によれば、音声処理装置300が遅延回復部303を設けたことにより、オーディオバッファ部106から出力された呼びかけ音声信号の時間分の遅延を回復することが出来る。これにより、第1の実施形態に比べて、さらに音信号が途切れることなく、呼びかけ音声を出力することができる。
(C-3) Effect of Third Embodiment As described above, according to the third embodiment, the
(D)他の実施形態
上述した各実施形態においても、種々の変形実施形態を説明したが、本発明は以下の変形実施形態についても適用することができる。
(D) Other Embodiments Although various modified embodiments have been described in each of the above-described embodiments, the present invention can also be applied to the following modified embodiments.
(D−1)上述した各実施形態で説明した音声処理装置は、例えば、図5に示しているようなテレビ通話や電話会議で通話を開始するときに、音声の入力によるコマンドで通話を開始する装置に搭載されるようにしても良い。図5において、接続判定部402は、音声認識部107による音声認識結果及びコマンド判定部109に基づくコマンド判定結果に基づいて、ネットワーク405(例えば、相手側のテレビ電話)との接続判定を行い、接続判定結果を、出力端子403を介してNW通信部404に出力する。NW通信部404は、接続判定結果に基づき、ネットワーク405との接続処理を行う。接続後、音声処理装置はNW通信部404を介して、ネットワーク405と音声のやりとりが行われる。なお、ネットワーク405からの音声はNW通信部404を介して、DA変換器406によりデジタル信号からアナログ信号に変換後、スピーカアンプ407で増幅され、スピーカ408により出力される。
(D-1) The voice processing device described in each of the above-described embodiments starts a call by a command by inputting voice when starting a call in a video call or a conference call as shown in FIG. 5, for example. It may be mounted on the device to be used. In FIG. 5, the
100…音声処理装置、101…マイク、102…マイクアンプ、103…AD変換器、104…呼びかけ処理部、105…入力端子、106…オーディオバッファ部、107…音声認識部、108…コマンドリスト部、109…コマンド判定部、110…出力切替え部、111…出力端子、200…音声処理装置、201…呼びかけ処理部、202…信号加算部、300…音声処理装置、301…呼びかけ処理部、302…出力切替え部、303…遅延回復部、402…接続判定部、403…出力端子、404…NW通信部、405…ネットワーク、406…DA変換器、407…スピーカアンプ、408…スピーカ。 100 ... voice processing device, 101 ... microphone, 102 ... microphone amplifier, 103 ... AD converter, 104 ... call processing unit, 105 ... input terminal, 106 ... audio buffer unit, 107 ... voice recognition unit, 108 ... command list unit, 109 ... Command determination unit, 110 ... Output switching unit, 111 ... Output terminal, 200 ... Voice processing unit, 201 ... Call processing unit, 202 ... Signal addition unit, 300 ... Voice processing device, 301 ... Call processing unit, 302 ... Output Switching unit, 303 ... Delay recovery unit, 402 ... Connection determination unit, 403 ... Output terminal, 404 ... NW communication unit, 405 ... Network, 406 ... DA converter, 407 ... Speaker amplifier, 408 ... Speaker.
Claims (5)
上記入力信号に対して音声認識を行う音声認識部と、
上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定するコマンド判定部と、
上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替える出力切替え部と
を有することを特徴とする音声処理装置。 A buffer for playing back the connection command voice transmitted after connecting to the other side, and a buffer unit that holds the input signal including the above connection command voice for a certain period of time.
A voice recognition unit that performs voice recognition for the above input signal,
Using the results of the speech recognition unit, the input signal, and the connection command voice determining whether the command judging section,
When the command determination unit determines that the input signal is the connection command voice, the input signal held in the buffer unit is output, and the voice held in the buffer unit is output. A voice processing device characterized by having an output switching unit that switches to output an input signal.
相手側と接続後に送信する接続コマンド音声を相手側で再生させるためのバッファであり、上記接続コマンド音声を含む入力信号を一定期間保持するバッファ部と、
上記入力信号に対して音声認識を行う音声認識部と、
上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定するコマンド判定部と、
上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替える出力切替え部と
して機能させることを特徴とする音声処理プログラム。 Computer,
A buffer for playing back the connection command voice transmitted after connecting to the other side, and a buffer unit that holds the input signal including the above connection command voice for a certain period of time.
A voice recognition unit that performs voice recognition for the above input signal,
Using the results of the speech recognition unit, the input signal, and the connection command voice determining whether the command judging section,
When the command determination unit determines that the input signal is the connection command voice, the input signal held in the buffer unit is output, and the voice held in the buffer unit is output. A voice processing program characterized by functioning as an output switching unit that switches to output an input signal.
上記バッファ部は、相手側と接続後に送信する接続コマンド音声を相手側で再生させるために使用するものであり、上記接続コマンド音声を含む入力信号を一定期間保持し、
上記音声認識部は、上記入力信号に対して音声認識を行い、
上記コマンド判定部は、上記音声認識部の結果を用いて、上記入力信号が、上記接続コマンド音声か否か判定し、
上記出力切替え部は、上記コマンド判定部により上記入力信号が上記接続コマンド音声と判定された場合には、上記バッファ部に保持されている上記入力信号を出力し、上記バッファ部に保持されている音声を出力したら、上記入力信号を出力するように切り替える
ことを特徴とする音声処理方法。 It has a buffer unit, a voice recognition unit, a command determination unit, and an output switching unit.
The buffer unit is used to reproduce the connection command voice transmitted after connecting to the other side on the other side, and holds the input signal including the connection command voice for a certain period of time.
The voice recognition unit performs voice recognition on the input signal and performs voice recognition.
The command determination unit uses the result of the speech recognition unit, the input signal is judged whether the connection command voice,
When the command determination unit determines that the input signal is the connection command voice, the output switching unit outputs the input signal held in the buffer unit and holds the input signal in the buffer unit. A voice processing method characterized by switching to output the above input signal after outputting voice.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017161459A JP6922551B2 (en) | 2017-08-24 | 2017-08-24 | Voice processing device, voice processing program, and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017161459A JP6922551B2 (en) | 2017-08-24 | 2017-08-24 | Voice processing device, voice processing program, and voice processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019041225A JP2019041225A (en) | 2019-03-14 |
JP6922551B2 true JP6922551B2 (en) | 2021-08-18 |
Family
ID=65727035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017161459A Active JP6922551B2 (en) | 2017-08-24 | 2017-08-24 | Voice processing device, voice processing program, and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6922551B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100232873B1 (en) * | 1997-07-21 | 1999-12-01 | 윤종용 | Cellular phone having a memory voice recognition |
JP3139437B2 (en) * | 1998-01-19 | 2001-02-26 | 日本電気株式会社 | Audio signal detection processor |
JP2009021923A (en) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | Voice communication apparatus |
US10051115B2 (en) * | 2013-05-01 | 2018-08-14 | Thomson Licensing | Call initiation by voice command |
-
2017
- 2017-08-24 JP JP2017161459A patent/JP6922551B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019041225A (en) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6791356B2 (en) | Control method of voice terminal, voice command generation system, and voice command generation system | |
JP5499633B2 (en) | REPRODUCTION DEVICE, HEADPHONE, AND REPRODUCTION METHOD | |
JP6931819B2 (en) | Voice processing device, voice processing method and voice processing program | |
US11782674B2 (en) | Centrally controlling communication at a venue | |
US20190221226A1 (en) | Electronic apparatus and echo cancellation method applied to electronic apparatus | |
US20130137480A1 (en) | Background sound removal for privacy and personalization use | |
JP6922551B2 (en) | Voice processing device, voice processing program, and voice processing method | |
CN103607499A (en) | Phone terminal and signal processing method | |
JP4453614B2 (en) | Language learning system | |
JP2019176386A (en) | Communication terminals and conference system | |
JP2022016997A (en) | Information processing method, information processing device, and information processing program | |
JP7361460B2 (en) | Communication devices, communication programs, and communication methods | |
KR100743062B1 (en) | Method of echo cancelation in mobile terminal and mobile terminal therefor | |
JP2021173881A (en) | Voice processing device and voice processing method | |
JP7035686B2 (en) | Remote calling devices, remote calling programs, and remote calling methods | |
JP2015056676A (en) | Sound processing device and program | |
JP2019193038A (en) | Voice communication device and voice communication system | |
KR100469568B1 (en) | Method and apparatus for controlling audio noise based on buffer monitoring | |
JP7279861B2 (en) | Transmission device, communication method, and program | |
JP2004343566A (en) | Mobile telephone terminal and program | |
JP2010028570A (en) | Interactive hands-free speaking speed converting speech apparatus | |
US20200098363A1 (en) | Electronic device | |
JP5391175B2 (en) | Remote conference method, remote conference system, and remote conference program | |
JP2023013073A (en) | Communication terminal, determination method, and program | |
JP2020150386A (en) | Voice speech system, voice speech controller, voice speech program, and voice speech method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6922551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |